Проверка статистических гипотез

В этой статье мы затронем Data Science. И не обойдемся без Python. Мы рассмотрим проверку гипотез. Гипотезы – это более ориентированный на данные подход к принятию решений в бизнесе. Проверка гипотез – это механизм принятия решений на основе выводов. Статистическая проверка гипотез также предоставляет структуру для решения конкретной проблемы

Представим, что есть фермерский ареал обитания рыб, и нам нужно узнать изменилась ли численность рыб в данном ареале. Чтобы не проводить расчет мы можем сделать выборку из зон ареала и сравнить с прошлым периодом. За нулевую гипотезу мы принимаем численность за прошлый период. В свою очередь альтернативная гипотеза будет говорить о том, что значение, наоборот, неравно данному показателю.

Далее происходит процесс выбора подходящего статистического теста (критерия), но нужно понимать, что такое статистическая чувствительность. Это вероятность того, что тот или иной статистический критерий правильно отклонит нулевую гипотезу (способность критерия обнаружить различия там, где они действительно есть).

Выбор относительной погрешности интервала. Отклонение измеренного значения величины от ее истинного значения. Допустим мы уверенны на 95% что истинное количество рыб будет в диапазоне плюс-минус 5% от рассчитанного значения.

Итак рассмотрим шаги тестирования гипотез:

  1. Создания гипотез (нулевая и альтернативная)
  2. Выбрать подходящий статистический критерий (t-test, chi2-test)
  3. Определить ошибку теста
  4. Получить данные
  5. Анализировать
  6. Принять решение

Пример

Давайте определим одинаковы ли распределения цен акций компании Tesla за 2018 и 2019 года (NASDAQ).

Для начала построим графики распределения массива за 2018 и 2019 отдельно. После сравним их между собой.

Распределение 2018 года, где среднее значение равно 63,19:

Распределение 2019 года, где среднее значение 55,05. Здесь можем увидеть небольшой выброс справа от 80 – 90 за акцию. Перед расчетами сделаем по выборке, чтобы избежать данного выброса:

Обратите внимание на объединенный график, где можно увидеть, что на первый взгляд распределения разные:

Сделаем сравнение по критерию Стьюдента, в Python была создана функция:

Где первый аргумент – это первое распределение, второй – это второе распределение и третий – допустимая ошибка. После чего используем метод ttest_ind из пакета Scipy.

Далее пишем условие, если p-значение t-теста больше Alpha то H0 не отвергается, иной исход – отвергается.

Результат теста:

Statistics=-2.469, p-значение=0.018

Разные распределения (отвергается H0)

Соответственно мы отвергаем H0 и принимаем альтернативную гипотезу о том что эти два распределения разные, и мы видим что данные 2019 года более стабильны, то есть имеют меньшую волатильность нежели 2018. 

CaseWare IDEA поможет провести данный анализ одним кликом на вкладке программы, так как наши специалисты позаботились об этом разработав и много других «кнопочных» решений для Вас.