Перевірка статистичних гіпотез

У цій статті ми розглянемо Data Science. І не обійдемося без Python. Ми розглянемо перевірку гіпотез. Гіпотези – це більш орієнтований на дані підхід до прийняття рішень в бізнесі. Перевірка гіпотез – це механізм прийняття рішень на основі висновків. Статистична перевірка гіпотез також надає структуру для вирішення конкретної проблеми.

Уявімо, що є фермерський ареал проживання риб, і нам потрібно дізнатися чи змінилася чисельність риб в даному ареалі. Щоб не проводити розрахунок ми можемо зробити вибірку з зон ареалу і порівняти з минулим періодом. За нульову гіпотезу ми приймаємо чисельність за минулий період. У свою чергу альтернативна гіпотеза буде говорити про те, що значення, навпаки, нерівно даним показником.

Далі відбувається процес вибору підходящого статистичного тесту (критерію), але потрібно розуміти, що таке статистична чутливість. Це ймовірність того, що той чи інший статистичний критерій правильно відхилить нульову гіпотезу (здатність критерію виявити відмінності там, де вони дійсно є).

Вибір відносної похибки інтервалу. Відхилення виміряного значення величини від її справжнього значення. Припустимо ми впевнені на 95% що дійсна кількість риб буде в діапазоні плюс-мінус 5% від розрахованого значення.

Отже розглянемо кроки тестування гіпотез:

  1. Створення гіпотез (нульова і альтернативна) 
  2. Вибрати відповідний статистичний критерій (t-test, chi2-test)
  3. Визначити помилку тесту
  4. Отримати дані
  5. Аналізувати
  6. Прийняти рішення

Приклад

Давайте визначимо чи однакові ціни розподілу акцій компанії Tesla за 2018 і 2019 роки (NASDAQ).

Для початку побудуємо графіки розподілу масиву за 2018 і 2019 окремо. Після порівняємо їх між собою.

Розподіл 2018 року, де середнє значення дорівнює 63,19:

Розподіл 2019 року, де середнє значення 55,05. Тут можемо побачити невеликий відкид праворуч від 80 – 90 за акцію. Перед розрахунками зробимо по вибірці, щоб уникнути даного відкиду:

Зверніть увагу на об’єднаний графік, де можна побачити, що на перший погляд розподілу різні:

Зробимо порівняння за критерієм Стьюдента, в Python була створена функція:

Де перший аргумент – це перший розподіл, другий – це другий розподіл і третій – допустима помилка. Після чого використовуємо метод ttest_ind з пакета Scipy.

Далі пишемо умову, якщо p-значення t-тесту більше Alpha то H0 не відкидається, інший результат – відкидається.

Результат тесту:

Statistics=-2.469, p-значення=0.018

Різні розподіли (відкидається H0)

Відповідно ми відкидаємо H0 і приймаємо альтернативну гіпотезу про те, що ці два розподіли різні, і ми бачимо що дані 2019 року більш стабільні, тобто мають меншу волатильність ніж 2018.

CaseWare IDEA допоможе провести даний аналіз одним кліком на вкладці програми, так як наші фахівці подбали про це розробивши і багато інших «кнопкових» рішень для Вас.