В этой статье рассмотрим тему p-значений в статистике. Информация пригодится всем, кто занимается анализом данных и статистическими сведениями.

Определение простыми словами

P value – это вероятность того, что случайное значение величины с данным распределением (тестовой статистики при нулевой гипотезе) будет принимать значение, не менее фактического. Представляет собой наибольший показатель уровня значимости (вероятности отказа от того, что предположение верно), для которого вычислительная проверочная статистика ведет к отказу от нулевой гипотезы. Это – некая «жизнеспособность нулевого предположения».

Чтобы далее этот вопрос был более понятным, стоит рассматривать его на наглядном примере. А именно – на связи пристрастия к кровавым играм и агрессивностью в реальной жизни.

Уровни

P-значения бывает нескольких уровней. В зависимости от соответствующего показателя делается выбор относительно того, является ли показатель статистически значимым или нет:

  1. P-значения ≤0,05 – обычный уровень статистической значимости. Он интерпретируется как «получение статически значимого результата». Часто помечается одной звездочкой. Это «традиционная» отметка при анализе.
  2. P-значения ≤0,01 – высокая статистическая значимость. Может быть интерпретирована как «обнаружение выраженной закономерности». Обозначает тесную связь между несколькими переменными, если подразумевается уровень значимости корреляционного коэффициента. На письме имеет обозначение в виде двух звездочек.
  3. P-значения ≤0,001 – высокий уровень статистической значимости. Обозначение – три звездочки.

Есть результаты, которые могут быть описаны как близкие к статистическим. В них P-значение примерно равно 0,05. Они указывают на то, что существует тенденция к формированию той или иной закономерности.

Если показатель статистической значимости будет более 0,1, то это будет свидетельствовать о полученном результате, который не имеет статистической «важности». Пример – когда подразумевается сравнение выборок. Полученный показатель p-значения более 0,1, указывает на то, что статистически значимые различия между ними отсутствуют.

Обычно для анализа соответствующий элемент выступает одним из основополагающих. Уровень p-значимости (value) указывает на вероятность ошибки при выявлении закономерностей. Чем меньше данная величина, тем ниже вероятность «сбоя». И тем более статистически значимым выступает полученный результат.

Как определить

P-значения используются для того, чтобы определить, попадают ли итоговые результаты эксперимента в диапазон значений, являющийся нормальным для заданной величины. Определить значимость поможет специальная таблица. Воспользоваться ей можно, если просчитать х-квадрат:

  1. Определить ожидаемые итоги. Обычно ученые при анализе и экспериментах уже знают, какие значимости являются «типичными» или «нормальными». Выводы базируются на ранее проведенных опытах, достоверных наборах информации, а также на научной литературе. Иногда происходит ссылка на сторонние источники. Ожидания должны быть выражены числами.
  2. Определить наблюдаемые результаты. Для этого необходимо провести эксперимент и найти действительные (наблюдаемые) параметры. Они тоже должны быть представлены в виде чисел. Специальная таблица поможет представить информацию в более удобной форме. При экспериментальных условиях и отличии «ожидания» от «реальности» действуют две теории. Первая – это вызвано одним конкретным экспериментом. Вторая – ситуация случайна. P-значения как раз помогут определить, отличаются ли наблюдения от ожиданий настолько, чтобы опровергнуть нулевую гипотезу.
  3. Определить число степеней свободы значимости эксперимента. Так называется степень изменяемости исследования, которая выражается числом исследуемых категорий. Рассчитывается по формуле n-1. Здесь n – число категорий или переменных, анализируемых во время теста.
  4. Сравнить ожидания и реально наблюдаемые результаты. Для этого используется хи-квадрат (x2). Это значение (не статистическое), измеряющее разницу между ожиданием и реальностью. Уравнение будет таким: Сумма((o-e)2/e), где o – наблюдение, e – ожидаемые показатели. Необходимо просуммировать результаты уравнения для всех возможных итогов.
  5. Выбрать уровень статистической значимости (values). После обнаружения степеней свободы эксперимента и расчета значения критерия хи-квадрата, необходимо определить значение p. От него будет зависеть значимость полученных наблюдений. Записывается значение p в виде десятичных дробей.
  6. Использовать список с данными распределения хи-квадрата. Определить p-значение поможет специальная таблица. Она имеет вертикальную ось слева. Это – соответствие числу степеней свободы. Также имеется горизонтальная ось, расположенная сверху. Она указывает на p-значения. Сначала здесь требуется обнаружить степени свободы, затем – посмотреть на ряд слева-направо. Остановиться необходимо при первом параметре, превышающем хи-квадрат. Теперь потребуется посмотреть в верхнюю часть столбца. Там будет p-значение (value). Оно расположено между соответствующим число и тем, что расположено левее.

Остается принять решение, что делать с полученными статистическими значимостями далее – оставлять нулевую гипотезу или нет. Если итоговый параметр меньше уровня значимости – связь между переменными вероятна. Когда показатель p-значения находится между 0,05 и 0,1, он не может быть отклонен.

Наглядный пример

Чтобы лучше понять выбранное направление, стоит изучить наглядный пример. В ходе исследований были получены такие итоги относительно связи агрессивности в жизни и пристрастия к кровавым компьютерным играм:

Статистическая значимость в исследованиях и анализе

Две группы школьников поделены по степени агрессивности через стандартный t-тест. Заветный уровень value менее 0,05. Пример – 0,04. Существуют несколько предположений:

  1. Компьютерные игры являются основной причиной агрессивного поведения. Вероятность этого составляет 96%.
  2. Шанс того, что игры и агрессия не связаны – 0,04.
  3. Если показатель более 0,05, то агрессивность и компьютерные кровавые игры никак не связаны между собой.
  4. Случайное получение соответствующей разницы составляет 0,04.
  5. Все утверждения не являются верными.

Последний вариант является наиболее грамотным. Но многочисленные исследования указывают на то, что интерпретация итоговых данных даже опытными аналитиками бывает ошибочна. Из-за этого приходится производить расчеты и пользоваться специальными таблицами.

Как лучше изучать статистические показатели

Статистика – целая наука, которая изучается в ВУЗах. Здесь можно посмотреть краткий видео-курс по рассмотренному ранее направлению. Освоить его удается не только при помощи высшего образования и самообучения. На помощь приходят специализированные компьютерные курсы.

Обычно они проводятся дистанционно, что помогает совмещать обучение с обыденной жизнью. Человека с нуля обучают статистике, математике, а при желании – основам работы с Big Data и разработки программного обеспечения на любом языке.

К преимуществам курсов относят:

  • грамотно составленные программы, поданные понятным языком;
  • спектр направлений – удастся подобрать курс не только по конкретной тематике, но и в зависимости от имеющегося первоначального багажа знаний;
  • совместимость с работой, обычными делами и семьей – уроки разрешено просматривать в записи с любого устройства;
  • полностью дистанционное обучение;
  • помощь в формировании портфолио;
  • интересные практические и домашние задачки.

Пример – курсы от образовательного центра OTUS. На протяжении всего времени обучения пользователю будет предложено постоянное кураторство опытными специалистами. Пользователи смогут обратиться за помощью к ним, если какие-то моменты не понятны.

В конце обучения будет выдан электронный сертификат установленного образца. Он поможет подтвердить полученные во время обучения навыки и умения.

Интересуют курсы по системному анализу и не только? Огромный выбор обучающих онлайн-программ по востребованным IT-направлениям есть в Otus!