Закон Бенфорда і шахрайство

У даній статті ми поговоримо про математичний закон, який не дивлячись на те, що був відкритий більше сотні років тому, став застосовуватися не так давно. Закон Бенфорда або закон першої цифри свідчить, що в розподілі натуральних чисел взятих з реального життя, цифра 1 буде зустрічатися частіше ніж всі інші в цьому розподілі. Дивно, чи не так? Але більш того, чим більше значення цифри, тим імовірність її потрапляння в масиві менше. Тобто закон заснований на ідеї, що розподіл цифр в багатозначних натуральних числах не є випадковим. Інакше кажучи, існує модель яка описує цю ймовірність.

Закон Бенфорда був відкритий зовсім не Бенфорд, а американським астрономом Шимоном Ньюкомбом. Приблизно в 1881 році він зауважив, що сторінки журналу з логарифмічними таблицями на яких числа починалися з 1, набагато сильніше пошарпані, ніж сторінки, на яких числа починалися з 2 і так далі до 9 – вони були чистими ніби їх не відкривали взагалі.

Ньюкомб припустив: що ті сторінки, які були пошарпані використовувалися вченими частіше в своїх дослідженнях. Пізніше він вирішив, що ті вчені, які брали до нього зошит відображають подібний розподіл цифр. Але названий закон був на прізвище Франка Бенфорда, який помітив цю особливість пізніше – в 1938 р .. Не дивлячись на те, що даний закон виявили двічі, ні Ньюкомб, ні Бенфорд не доведели справедливість закону. Це сталося після закінчення 60-ти років після відкриття Бенфордом. І автор доказів – Тед Хілл, математик з Технологічного інституту Джорджії.

Давайте розглянемо сутність закону і опишемо його формулою. Закон Бенфорда задає ймовірність, з якою та чи інша цифра виявиться першою в випадковій числовій послідовності. Цей закон має логарифмічний вигляд з повним правом, що відповідає числу можливих знаків. Наприклад, в разі десяткової системи числення ймовірність того, що першою цифрою в послідовності буде d, описується наступною:

Розподіл згідно Бенфорда:

Тепер з’ясуємо які розподіли потрапляють під закон. Ось список деяких:

  • Населення країн і міст. Як наслідок: результати демографічних вимірів, результати виборів, регіональні показники, пропорційні населенню.
  • Площі басейнів річок, площі країн і територій, розміри островів.
  • Повсякденні витрати. Подивіться на всі свої покупки за якийсь період часу.
  • Показники змін на фінансових ринках.

Що стосується математичних значущих об’єктів, які задовільняють закон:

  • Факторіали
  • Числовий ряд Фібоначчі
  • Послідовність ступенів двійки.

Ці математичні об’єкти і доводять те, що масив, який повинен підкорятися закону Бенфорда повинен бути експоненціально віковим. Завжди в таких експоненційних розподілах є кластери великих і маленьких значень. Наприклад, розподіл площ водойм, є озера яких більше річок, річки яких більше морів, і морів яких більше ніж океанів.

Американський математик Марк Нігрін досліджував більше 200 тис. податкових декларацій та побачив, що в звітах майже кожне третє число починається з одиниці. Потім він розробив програму для перевірки числових масивів на відповідність закону Бенфорда, яка була випробувана в 1995 р Нью-йоркською податковою поліцією це випробування допомогло викрити декількох платників податків, які приховують доходи.

Деякі вчені пропонують визначити за допомогою закону Бенфорда фальсифікацію на президентських виборах. Можна визначити шахрайство за допомогою регресійного аналізу. Так само можна створити нейронну мережу в свою чергу навчену модель, яка буде показувати різного роду аномалії. Для будь-якої кількості таких шахрайських сценаріїв ви можете використовувати різні версії регресійній моделі, як показано нижче:

В такому випадку ми зможемо отримати коефіцієнт детермінації моделі більше, при цьому не спотворюючи дані.

Реалізувати сам тест і аналіз цього закону, який допоможе визначити шахрайство можна в програмному забезпеченні для аналізу даних CaseWare IDEA. Все що Вам потрібно зробити це натиснути кнопку «Тест Бенфорда» і вибрати дані для аналізу. При поглибленому аналізі і для вивчення окремих відрізків даних: побудувати модель, розрахувати значимі коефіцієнти і інше використовуйте Python (мова аналізу даних) який вбудований в IDEA.