Третий вид лжи

Пишу о нормализованном безумии и табуированной нормальности — простыми словами о психологии, маркетинге и наших повседневных самообманах. Вместо лозунгов — работающие наблюдения, кейсы и неудобные выводы. Если любите ясные объяснения, практичную иронию и тексты, после которых хочется пересмотреть свои решения — вам сюда.

среднее арифметическоемедианамода

Вот нам надо дать статистику, которая бы показала: средний уровень дохода повысился до 1000 долларов в месяц. Это не так, но подтасовывать данные мы не можем. Что делать? Найти то «среднее», которое даст нам нужные цифры.

Допустим, среднее арифметическое. Берем 10 человек. Пускай один из них зарабатывает 9 тысяч долларов, а оставшиеся все вместе в сумме зарабатывают одну тысячу долларов. Получаем эффект той самой «средней температуры по больнице». Нас это устраивает. Выпускаем новость с заголовком «Средняя зарплата в нашей стране – 1000 долларов».

Но вот нас перевербовали – мы делаем статистику, которая должна показывать падение дохода. Среднее арифметическое нам в данном случае не подойдет, давайте возьмем медиану. Этот вид среднего позволяет нивелировать влияние одного богатея – по медиане мы получаем средний уровень дохода в районе 100 долларов. Отличный заголовок!

Но, конечно, такое распределение, как в примере, маловероятно. А в реальности для нашей задачи может не подходить ни среднее арифметическое, ни медиана. Представим себе более похожий на реальность вариант, где из 10 человек:

  • 4 имеют доход в 100 долларов,
  • 1 - 200 долларов,
  • 5 – 1000 долларов

У большинства доход составляет 1000 долларов – а значит, чтобы показать процветание, мы берем среднее под названием мода, согласно которому среднее будет равняться 1000 долларов. И плевать, что столько же людей будут откровенно бедны. А среднее арифметическое при этом будет равняться 560 долларам – отличные данные для издания, которому надо показать всеобщую бедность (и плевать, что половина населения на самом деле богато). Очень удобно – когда нас перевербуют в другое издание, можно даже новые данные не собирать.

Дискуссия

Ringo
Анастасия Меркер
Минутка философии: самое близкое к реальности — это формировать свою реальность и зарабатывать столько, сколько нужно для жизни лично вам) Без оглядки на статистику и чужие реальности)
Если у каждого своя реальность, то её нет
Ringo
Анастасия Меркер
Реальности нет, мы в матрице. Бегите, глупцы!
Так даже в матрице реальность была) а так теория компьютерной симуляции вселенной вполне серьезна)
Анастасия Меркер
Ringo
Так даже в матрице реальность была) а так теория компьютерной симуляции вселенной вполне серьезна)
Знаю. Но я свожу все к шутке, потому что могу и так проще живётся)
Alan Nartikoev
Строго говоря, нельзя называть одну меру более подходящей, чем другую. Среднее арифметическое (иначе говоря, оценка математического ожидания), медиана, мода и другие меры центральных тенденций не могут быть лучше или хуже. Они являются характеристиками разных объективных свойств распределения. Например, если мы говорим о доходах, то лежащее в их основе распределение как правило имеет правостороннюю асимметрию. Эта закономерность диктуется мультипликативной природой доходов и центральной предельной теоремой. Известным примером такого распределения является логарифмически нормальное, которое используется многими официальными статистическими ведомствами для оценки распределения доходов на основе выборочных данных. В случае распределений с правосторонней асимметрией основная доля вероятностной массы смещена влево (много бедных), а справа наблюдается характерный длинный тонкий хвост (мало богатых). Несложно доказать, что у таких распределений мода всегда будет меньше медианы, а медиана меньше среднего. Но из этого факта не следует, что эти характеристики не подходят для анализа — они просто показывают разные вещи. Среднее показывает, нестрого говоря, центр массы в распределении. Медиана показывает, какой доход разделяет 50% самых бедных от 50% самых богатых. Мода показывает, опять же нестрого говоря, в окрестности какого числа вы ожидаете чаще всего наблюдать значения доходов у случайно выбранных респондентов. Последний пример, описанный автором, является частным случаем мультимодального распределения. Это такой тип распределение, плотность которого имеет несколько локальных максимумов — в нашем случае 100 и 1000 долларов. Сообщать одну моду для таких распределений не запрещено, но методологически неверно, равно как и оценивать медиану или среднее. Для таких распределений предложено большое разнообразие индексов, резюмирующих как силу разброса двух "горбов", так и меру распределения наблюдений по двум "горбам". Интересующиеся могут почитать о таких мерах по ссылке выше. Отвечая на вопрос "а как тогда считать", хочу отметить, что специалисты рассчитывают много мер помимо среднего и медианного дохода, которые с разных сторон показывают характеристики распределения. Например: * децили распределений — величины, разделяющие между собой десятипроцентные группы по величине дохода; * отношения десятого и первого децилей; * риск нахождения за чертой бедности; * относительная медианная глубина бедности — разность между границей бедности и медианного дохода ниже черты бедности; * кривая Лоренца и индекс Джини — графическая и численная мера "неравенства" в распределении дохода.
Alan Nartikoev
Александер
Ну ооооок, закономерный вопрос – кому тогда вообще верить, если любые данные тасуются и подгоняются, как кому-то надо? Вот хочу узнать реальную картину того, что происходит, и... Что и кого читать?)))
Из текста поста не следует, что любые данные тасуются и подгоняются. Расчет различных характеристик распределения не является средством подгона или подтасовки, потому что не влияет на исходные наблюдаемые данные. Разумным ответом на ваш вопрос будет предложение изучать источники, удовлетворяющие трем критериям: (1) открытая коммуникация о методологии сбора и обработки данных, (2) наличие достаточно крупного объема выборочных данных, что позволяет полагаться на закон больших чисел при формировании выводов, (3) наличие практик управления качеством данных. По моим данным, этим критериям обычно удовлетворяют официальные статистические ведомства, профильные министерства и крупные аналитические компании.
Пётр Бойков
Alan Nartikoev
Строго говоря, нельзя называть одну меру более подходящей, чем другую. Среднее арифметическое (иначе говоря, оценка математического ожидания), медиана, мода и другие меры центральных тенденций не могут быть лучше или хуже. Они являются характеристиками разных…
Это для специалистов. Они-то у тебя всегда затребуют не только те числа, которые ты дал, а более полную картину, вплоть до «сырых» данных, чтобы необходимые им статистические параметры вычислить самостоятельно. А чтобы идеологически и иначе (рекламою, скажем) обрабатывать profanum vulgus с целью вызывать желательныя поведения, тебе полезен другой навык; навык, который развивал, например, Геббельс, но никак не Стьюдент. А кто хочет просто знать что-то вроде того, «какие доходы у людей», слаб уже не в экономике, а философии, потому как, сам того не замечая, употребляет сочетание слов, коему настоящаго смысла не придаёт, а придаст, только если заимеет какую-то цель: но тогда вопрос его, хоть и прозвучит: «Какие доходы у людей?»— значить будет ближе к: «Каким образом распределение величин дохода влияет на интересующее меня для чего-то значение?» Собственно, пока вопрос не становится звучалым ближе ко второму, чем к первому, употреблять уместно статистические изыскания невозможно, понеже нет задачи.
Deleted Account
Александер
Что и кого читать
Доверия к официальной статистике и так не очень много, предполагаю, в довершение к этому её с 22 или с 23 года разрешили секретить.
Vasiliy Pankratov
Для этого придумали дизайн исследования и мета анализы ) но это сложно, и скучно, и долго, и не всегда понятно, а конце все равно будет какая-то интерпретация и спонсор который всё это организовал )
Полынь Трава
Как говорится, все беды от злобы, жадности и НЕВЕЖЕСТВА.
Присоединиться к обсуждению →

Читайте так же