Закон Бенфорда и мошенничество

В данной статье мы поговорим о математическом законе, который не смотря на то, что был открыт более сотни лет назад, стал применяться не так давно. Закон Бенфорда или закон первой цифры гласит, что в распределении натуральных чисел взятых из реальной жизни, цифра 1 будет встречаться чаще чем все остальные в этом распределении. Странно, не так ли? Но более того, чем больше значение цифры, тем вероятность ее попадания в массиве меньше. То есть закон основан на идее, что распределение цифр в многозначных натуральных числах не является случайным. Иначе говоря, существует модель которая описывает эту вероятность

Закон Бенфорда был открыт вовсе не Бенфордом, а американским астрономом Шимоном Ньюкомбом. Примерно в 1881 г. он заметил, что страницы журнала с логарифмическими таблицами на которых числа начинались с 1, гораздо сильнее истрепаны, чем страницы, на которых числа начинались с 2 и так далее до 9 — они были чистыми будто их не открывали вообще.

Ньюкомб предположил: что те страницы, которые были истрепаны использовались учеными чаще в своих исследованиях. Позже он решил, что те ученые, которые брали до него тетрадь отображают подобное распределение цифр. Но назван закон был по фамилии Франка Бенфорда, который заметил данную особенность позже — в 1938 г.. Не смотря на то, что данный закон обнаружили дважды, ни Ньюкомб, ни Бенфорд не доказали справедливость закона. Это произошло по истечению 60-ти лет после открытия Бенфордом. И автор доказательства — Тед Хилл, математик из Технологического института Джорджии.

Давайте рассмотрим сущность закона и опишем его формулой. Закон Бенфорда задает вероятность, с которой та или иная цифра окажется первой в случайной числовой последовательности. Этот закон имеет логарифмический вид с основанием, соответствующем числу возможных знаков. Например, в случае десятичной системы счисления вероятность того, что первой цифрой в последовательности будет d, описывается следующей:

Распределение согласно Бенфорду:

Теперь выясним какие распределения попадают под закон. Вот список некоторых:

  • Население стран и городов. Как следствие: результаты демографических измерений, результаты выборов, региональные показатели, пропорциональные населению.
  • Площади бассейнов рек, площади стран и территорий, размеры островов.
  • Повседневные расходы. Посмотрите на все свои покупки за какой-то период времени.
  • Показатели изменений на финансовых рынках.

Что касается математических значимых объектов, которые удовлетворяют закон:

  • Факториалы
  • Числовой ряд Фибоначчи
  • Последовательность степеней двойки.

Эти математические объекты и доказывают то что массив, который должен подчиняться закону Бенфорда должен быть экспоненциально возрастным. Всегда в таких экспоненциальных распределениях есть кластеры больших и маленьких значений. Например, распределение площадей водоемов, есть озера которых больше рек, реки которых больше морей, и морей которых больше нежели океанов.

Американский математик Марк Нигрини исследовал более 200 тыс. налоговых деклараций и увидел, что в отчетах почти каждое третье число начинается с единицы. Затем он разработал программу для проверки числовых массивов на соответствие закону Бенфорда, которая была испытана в 1995 г. Нью-йоркской налоговой полиции это испытание помогло разоблачить нескольких налогоплательщиков, скрывающих доходы.

Некоторые ученые предлагают определить с помощью закона Бенфорда фальсификацию на президентских выборах. Можно определить мошенничество с помощью регрессионного анализа. Так же можно создать нейронную сеть в свою очередь обученную модель которая будет показывать разного рода аномалии. Для любого количества таких мошеннических сценариев вы можете использовать различные версии регрессионной модели, как показано ниже:

В таком случае мы сможем получить коэффициент детерминации модели больше, при этом не искажая данные.

Реализовать сам тест и анализ этого закона, который поможет определить мошенничество можно в программном обеспечении для анализа данных CaseWare IDEA. Все что Вам потребуется сделать это нажать кнопку «Тест Бенфорда» и выбрать данные для анализа. При углубленном анализе и для изучения отдельных отрезков данных: построить модель, рассчитать значимые коэффициенты и другое используйте Python (язык анализа данных) который встроен в IDEA.