Закон Бенфорда

Понимание мира через данные Статистика и данные из разных областей. Минимум оценок и интерпретаций, максимум данных и фактов Чат: @rationalchat https://rationalnumbers.ru По рекламе: @kgreenmedia В реестре: vk.cc/cKf8WS Автор: @kirillgreen

закон бенфордафорензикафальсификации

Этот закон описывает то, как часто цифры будут первыми в числах из большого массива значений в реальной жизни. Например, единица в 6 раз чаще восьмёрки будет встречаться в начале чисел, что показано на первой диаграмме. По горизонтали — первые значащие цифры, по вертикали — вероятность их появления

Контринтуитивность закона позволяет выявлять мошенничества с финансами, фальсификации на выборах или подтасовки статистики. Если распределение цифр в массиве данных значительно отличается от распределения Бенфорда — числа с большой вероятностью имели искусственную природу. Например, при помощи этого закона пользователь с Reddit указал на подтасовки в данных о заболеваемости короной в России. На третьем изображении — его визуализация распределения цифр в количестве новых заболеваний коронавирусом в Германии, Великобритании, США и России

Необходимо понимать, что закон верен не для всех распределений. Он не работает, если заданы минимальные и максимальные значения или у величин только один или два порядка значений. Например, распределение цифр в списке компаний с доходом от 50 тыс до 100 тыс $ или показатели IQ у взрослых не будут под него подходить

В последнем вложении — распределение цифр в числе голосов, поданных за кандидатов на президентских выборах в США, по округам

Столбчатая диаграмма распределения первых значащих цифр по закону Бенфорда: частота появления цифр 1–9, заметно высокая доля единиц по сравнению с другими цифрами.
Стандартная диаграмма распределения Бенфорда: доля первых значащих цифр от 1 до 9.
Четыре мелкие диаграммы распределения первых значащих цифр в новых случаях COVID по странам: Германия, Великобритания, США и Россия, с наложенной теоретической кривой Бенфорда.
Сравнение распределений первых цифр новых случаев COVID в нескольких странах и теоретической кривой.
Коллаж с графиками распределения первых цифр голосов по округам США для Трампа и Байдена, с визуализацией и наложением теоретической линии Бенфорда для выявления аномалий.
Визуализация распределения первых цифр голосов на выборах в США для выявления отклонений от закона Бенфорда.