Как устроены выборки и откуда берётся репрезентативность

выборкарепрезентативностьслучайная выборка

Как устроены выборки и откуда берётся репрезентативность

График зависимости точности оценки от размера выборки: ошибка быстро падает при малых выборках и выравнивается далее
Иллюстрация: влияние размера выборки на точность оценок — на графике видно убывающую кривую ошибок.

Как устроены выборки и откуда берётся репрезентативность (Если быть точным)

Опросить всё население страны невозможно — так пытаются сделать во время переписей, которые проводятся раз в десятилетие и требуют очень много ресурсов. Например, в последней российской переписи участвовали 314 тысяч переписчиков, бюджет составил более 30 миллиардов рублей, но качество переписи всё равно вызвало много вопросов

Поэтому обычно опрашивают не всю группу людей (генеральную совокупность), а только её часть — выборку. Её формируют особым образом, чтобы она была репрезентативной, то есть позволяла делать выводы о генеральной совокупности

Самая точная выборка — случайная, которую ещё называют «вероятностной». Для такой выборки участников отбирают по правилам, при которых шанс попасть в выборку можно посчитать

Чтобы провести такой опрос, нужен список всей генеральной совокупности. Например, ВЦИОМ при своих опросах использует полный список телефонных номеров, а Росстат — данные переписей. Из таких списков случайным образом выбирают группы: сначала районы, затем населённые пункты, дома и отдельных людей. По такому же принципу формируют выборки «Левада-Центр» и Фонд общественного мнения

При таких методах размер выборки не зависит от численности населения генеральной группы. Формула расчёта подразумевает, что популяция может быть бесконечно большой

Иногда о генеральной совокупности вообще ничего не известно — например, сколько россиян уехало в 2022 году, их пол, возраст и страны проживания. Тогда делают неслучайные выборки:

  • стихийные, когда опрашивают тех, кто согласился участвовать
  • квотные, когда отбирают по заранее заданным пропорциям (мужчины, женщины, возрастные когорты)
  • снежный ком, когда респонденты сами приводят новых участников опроса

При таком методе шанс попадания в выборку рассчитать нельзя. Подобные выборки не дают точной картины, но смещения можно пытаться компенсировать. Например, взвешивать ответы, если, скажем, в выборке мало пенсионеров

Смещения могут быть и в случайных выборках, когда часть людей из выборки отказываются пройти опрос или подстраиваются под ожидания при ответах на вопросы. Например, в опросах ВЦИОМ, ФОМ и «Левада-Центра» часто перепредставлены пожилые люди, которые пользуются домашними телефонами

Смещения могут быть ещё сильнее, когда вопросы касаются «опасных» тем. В опросах россиян об отношении к войне на территории Украины работает «спираль молчания», когда люди боятся озвучить свою позицию, и начинает громче звучать позиция части населения, которой нечего бояться

@rationalnumbers

График зависимости точности оценки от размера выборки: ошибка быстро падает при малых выборках и выравнивается далее
Иллюстрация: влияние размера выборки на точность оценок — на графике видно убывающую кривую ошибок.