Как устроены выборки и откуда берётся репрезентативность

выборкарепрезентативностьслучайная выборка

Как устроены выборки и откуда берётся репрезентативность (Если быть точным)

Опросить всё население страны невозможно — так пытаются сделать во время переписей, которые проводятся раз в десятилетие и требуют очень много ресурсов. Например, в последней российской переписи участвовали 314 тысяч переписчиков, бюджет составил более 30 миллиардов рублей, но качество переписи всё равно вызвало много вопросов

Поэтому обычно опрашивают не всю группу людей (генеральную совокупность), а только её часть — выборку. Её формируют особым образом, чтобы она была репрезентативной, то есть позволяла делать выводы о генеральной совокупности

Самая точная выборка — случайная, которую ещё называют «вероятностной». Для такой выборки участников отбирают по правилам, при которых шанс попасть в выборку можно посчитать

Чтобы провести такой опрос, нужен список всей генеральной совокупности. Например, ВЦИОМ при своих опросах использует полный список телефонных номеров, а Росстат — данные переписей. Из таких списков случайным образом выбирают группы: сначала районы, затем населённые пункты, дома и отдельных людей. По такому же принципу формируют выборки «Левада-Центр» и Фонд общественного мнения

При таких методах размер выборки не зависит от численности населения генеральной группы. Формула расчёта подразумевает, что популяция может быть бесконечно большой

Иногда о генеральной совокупности вообще ничего не известно — например, сколько россиян уехало в 2022 году, их пол, возраст и страны проживания. Тогда делают неслучайные выборки:

стихийные, когда опрашивают тех, кто согласился участвовать
квотные, когда отбирают по заранее заданным пропорциям (мужчины, женщины, возрастные когорты)
снежный ком, когда респонденты сами приводят новых участников опроса

При таком методе шанс попадания в выборку рассчитать нельзя. Подобные выборки не дают точной картины, но смещения можно пытаться компенсировать. Например, взвешивать ответы, если, скажем, в выборке мало пенсионеров

Смещения могут быть и в случайных выборках, когда часть людей из выборки отказываются пройти опрос или подстраиваются под ожидания при ответах на вопросы. Например, в опросах ВЦИОМ, ФОМ и «Левада-Центра» часто перепредставлены пожилые люди, которые пользуются домашними телефонами

Смещения могут быть ещё сильнее, когда вопросы касаются «опасных» тем. В опросах россиян об отношении к войне на территории Украины работает «спираль молчания», когда люди боятся озвучить свою позицию, и начинает громче звучать позиция части населения, которой нечего бояться

@rationalnumbers

График зависимости точности оценки от размера выборки: убывающая кривая, оси с отметками размера выборки и погрешности.