Эффект Даннинга-Крюгера — автокорреляция

Понимание мира через данные Статистика и данные из разных областей. Минимум оценок и интерпретаций, максимум данных и фактов Чат: @rationalchat https://rationalnumbers.ru По рекламе: @kgreenmedia В реестре: vk.cc/cKf8WS Автор: @kirillgreen

эффект даннинга-крюгераавтокорреляциястатистика

Специально для читателей нашего канала мы перевели статью Блейра Фикса о том, почему эффект Даннинга-Крюгера — просто автокорреляция, то есть корреляция переменной с самой собой. Автор подробно объясняет природу автокорреляции, находит её в популярном эффекте, воспроизводит ошибку учёных, описывая каждый шаг, и наглядно демонстрирует причины, по которым эту ошибку не замечали более 15 лет

Читать на нашем сайте

Три графика с точками разброса и линиями тренда: статистический шум, автокорреляция и скрытая автокорреляция, иллюстрация причин ошибочной интерпретации эффекта Даннинга‑Крюгера.
Иллюстрация: распределения и линии тренда, показывающие, как автокорреляция создаёт видимость эффекта.

Дискуссия

Nikita Shirobokov
В статистике есть простое правило: если ваши данные похожи на шум и ведут себя как шум, значит это шум. Выше некоторые ребята еще и неправильно нулевую гипотезу выбрали. В статистике нулевая гипотеза: это отсутствие наблюдаемого явление, а не противоположное явление. Нулевая гипотеза это что нет статистически значимой связи реального навыка и самооценки этого навыка, и ДК должны доказать наличие реальной корреляции используя валидные статистические инструменты
цифровой самурай
а если построить другой график, можно сделать другой вывод. то есть вывод будет опираться не на данные, а на изначальные условия
цифровой самурай
во-первых, я так и не понял, мы на «ты» или на «вы». во-вторых, мне скоро ложиться спать, поэтому я вернусь к этому диалогу попозже на всякий случай зафиксирую свою позицию: да, картинка с шумом выбрана не самая удачная, нет, эффекта ДК в реальности не существует
цифровой самурай
интересная задачка, обязательно обмозгую это завтра
Nikita Shirobokov
Я понимаю, о чем вы говорите. Я даже считаю что очень много аналитиков не включают голову когда работают со статистикой и иногда нужно анализировать природу данных, но вы реально ищите порядок в np.random. Мы можем начать говорить про пределы функций, как себя ведут случайные величины и тд, но это все не имеет никакого смысла для анализа вот этого конкретного поста. Это шум, к него нет корреляции, если шум прогнать через автокорреляцию, он будет выглядеть как корреляция, поэтому в статистике автокорреляция в подобных исследованиях - это грубая методологическая ошибка
цифровой самурай
почему-то никто не вспоминает про Нюфера с реальными данными
Nikita Shirobokov
Конкретно ваши рассуждения — это эвристики. Вы смотрите на шум и ищите в нем закономерности, но это самый обычный шум. Вы говорите «Но вот тут же какие-то зоны выглядят иначе чем другие зоны», а я вам говорю «Это вообще не важно, вот так выглядит настоящая корреляция, и она совсем не похожа на шум» и показываю рисунок с разными типами корреляций. И дальше я вам говорю: если шум преобразовать и к одной из переменных мы применяем функцию, где в качестве в аргумента будет использована другая переменная, то тогда это будет похоже на корреляцию, но это будет автокорреляция, и на базе этого графика мы не можем сделать никаких выводов о наличии какой-либо связи между переменными
Nikita Shirobokov
Вы ищите смысл там, где его нет. Если очень захотеть, в кофейной гуще тоже можно найти какие-то закономерности. То, что вы видите под надписью «шум» не содержит никаких корреляций, потому что корреляции выглядят иначе. Если бы была связь двух переменных, точки бы группировались вокруг какой-то формы, и этой было бы их связью. Если бы формой была восходящая линия, вывод бы был «люди хорошо предсказывают свой скилл вне зависимости от скилла». Если бы линия была нисходящей, вывод бы был «люди плохо предсказывают свой скилл вне зависимости от скилла». Если бы это была кривая, она бы описала нелинейную связь, например парабола, гипербола или сигмоида, типа «люди переоценивают себя в начале обучения, и недооценивают в конце». В любом случае, должна быть какая-то детерминированная функция, которая опишет эту форму (так, например, работает машинное обучение — это подбор таких весов, которые опишут датасет). Если нет детерминированной функции в датасете, значит нет никаких закономерностей, а значит и связи. Попробуйте найти функцию, которая опишет датапоинты в чарте с подписью «шум», например
Nikita Shirobokov
Давайте так — я на неделе попробую найти время, и прям симулировать все этапы на разных сценариях с картинками в питоне, чтобы показать как разные виды данных будут себя вести в разных сетапах, и тэгну вас как будет готово. Я не думаю что это займет более получаса у меня
Nikita Shirobokov
Интересно, я почитаю!
Присоединиться к обсуждению →

Читайте так же