Критерий Пирсона для проверки гипотезы о виде закона распределения случайной величины. Проверка гипотез о нормальном, показательном и равномерном распреде-лениях по критерию Пирсона. Критерий Колмогорова . Приближенный метод проверки нормальности распределения, связанный с оценками коэффициентов асимметрии и эксцесса.
В предыдущей лекции рассматривались гипотезы, в которых закон распределения генеральной совокупности предполагался известным. Теперь займемся проверкой гипотез о предполагаемом законе неизвестного распределения, то есть будем проверять нулевую гипотезу о том, что генеральная совокупность распределена по некоторому известному закону. Обычно статистические критерии для проверки таких гипотез называются критериями согласия .
Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения.
1. Проверка гипотезы о нормальном распределении.
Пусть получена выборка достаточно большого объема п с большим количеством различ-ных значений вариант. Доя удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вари
ант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку:
варианты х 1 х 2 х s
частоты п 1 п 2 п s ,
где х i - значения середин интервалов, а п i - число вариант, попавших в i -й интервал (эмпи-рические частоты).
По полученным данным можно вычислить выборочное среднее и выборочное среднее квадратическое отклонение σ В . Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M (X ) = , D (X ) = . Тогда можно найти количество чисел из выборки объема п , которое должно оказаться в каждом интер-вале при этом предположении (то есть теоретические частоты). Для этого по таблице значений функции Лапласа найдем вероятность попадания в i -й интервал:
,
где а i и b i - границы i -го интервала. Умножив полученные вероятности на объем выборки п, найдем теоретические частоты: п i =n?p i . Наша цель - сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распределении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины
. (20.1)
Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирических частот от теоретических составляют от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупно-сти закон распределения случайной величины (20.1) при стремится к закону распределения (см. лекцию 12) с числом степеней свободы k = s - 1 - r , где r - число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s - 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием
(20.2)
где α - уровень значимости. Следовательно, критическая область задается неравенством а область принятия гипотезы - .
Итак, для проверки нулевой гипотезы Н 0: генеральная совокупность распределена нормально - нужно вычислить по выборке наблюдаемое значение критерия:
, (20.1`)
а по таблице критических точек распределения χ 2 найти критическую точку , используя известные значения α и k = s - 3. Если - нулевую гипотезу принимают, при ее отвергают.
2. Проверка гипотезы о равномерном распределении.
При использовании критерия Пирсона для проверки гипотезы о равномерном распределе-нии генеральной совокупности с предполагаемой плотностью вероятности
необходимо, вычислив по имеющейся выборке значение , оценить параметры а и b по формулам:
где а* и b* - оценки а и b . Действительно, для равномерного распределения М (Х ) = , , откуда можно получить систему для определения а* и b *: , решением которой являются выражения (20.3).
Затем, предполагая, что , можно найти теоретические частоты по формулам
Здесь s - число интервалов, на которые разбита выборка.
Наблюдаемое значение критерия Пирсона вычисляется по формуле (20.1`), а критическое - по таблице с учетом того, что число степеней свободы k = s - 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении.
3. Проверка гипотезы о показательном распределении.
В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотрим последовательность вариант , равноотстоящих друг от друга (считаем, что все варианты, попавшие в i - й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот n i (число вариант выборки, попавших в i - й интервал). Вычислим по этим данным и примем в качестве оценки параметра λ величину . Тогда теоретические частоты вычисляются по формуле
Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s - 2.
Критерий согласия Пирсона :Пример 1 . Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.
Решение
находим с помощью калькулятора .
x i | Кол-во, f i | x i * f i | Накопленная частота, S | (x - x ср) * f | (x - x ср) 2 * f | (x - x ср) 3 * f | Частота, f i /n |
5 | 15 | 75 | 15 | 114.45 | 873.25 | -6662.92 | 0.075 |
7 | 26 | 182 | 41 | 146.38 | 824.12 | -4639.79 | 0.13 |
9 | 25 | 225 | 66 | 90.75 | 329.42 | -1195.8 | 0.13 |
11 | 30 | 330 | 96 | 48.9 | 79.71 | -129.92 | 0.15 |
13 | 26 | 338 | 122 | 9.62 | 3.56 | 1.32 | 0.13 |
15 | 21 | 315 | 143 | 49.77 | 117.95 | 279.55 | 0.11 |
17 | 24 | 408 | 167 | 104.88 | 458.33 | 2002.88 | 0.12 |
19 | 20 | 380 | 187 | 127.4 | 811.54 | 5169.5 | 0.1 |
21 | 13 | 273 | 200 | 108.81 | 910.74 | 7622.89 | 0.065 |
200 | 2526 | 800.96 | 4408.62 | 2447.7 | 1 |
.
Средняя взвешенная
Показатели вариации
.
.
R = X max - X min
R = 21 - 5 = 16
Дисперсия
Несмещенная оценка дисперсии
Среднее квадратическое отклонение .
Каждое значение ряда отличается от среднего значения 12.63 не более, чем на 4.7
.
.
нормальному закону
n = 200, h=2 (ширина интервала), σ = 4.7, x ср = 12.63
i | x i | u i | φ i | n* i |
1 | 5 | -1.63 | 0,1057 | 9.01 |
2 | 7 | -1.2 | 0,1942 | 16.55 |
3 | 9 | -0.77 | 0,2943 | 25.07 |
4 | 11 | -0.35 | 0,3752 | 31.97 |
5 | 13 | 0.0788 | 0,3977 | 33.88 |
6 | 15 | 0.5 | 0,3503 | 29.84 |
7 | 17 | 0.93 | 0,2565 | 21.85 |
8 | 19 | 1.36 | 0,1582 | 13.48 |
9 | 21 | 1.78 | 0,0804 | 6.85 |
i | n i | n* i | n i -n* i | (n i -n* i) 2 | (n i -n* i) 2 /n* i |
1 | 15 | 9.01 | -5.99 | 35.94 | 3.99 |
2 | 26 | 16.55 | -9.45 | 89.39 | 5.4 |
3 | 25 | 25.07 | 0.0734 | 0.00539 | 0.000215 |
4 | 30 | 31.97 | 1.97 | 3.86 | 0.12 |
5 | 26 | 33.88 | 7.88 | 62.14 | 1.83 |
6 | 21 | 29.84 | 8.84 | 78.22 | 2.62 |
7 | 24 | 21.85 | -2.15 | 4.61 | 0.21 |
8 | 20 | 13.48 | -6.52 | 42.53 | 3.16 |
9 | 13 | 6.85 | -6.15 | 37.82 | 5.52 |
∑ | 200 | 200 | 22.86 |
Её границу K kp = χ 2 (k-r-1;α) находим по таблицам распределения «хи-квадрат» и заданным значениям σ, k = 9, r=2 (параметры x cp и σ оценены по выборке).
Kkp(0.05;6) = 12.59159; Kнабл = 22.86
Наблюдаемое значение статистики Пирсона попадает в критическую область: Кнабл > Kkp, поэтому есть основания отвергать основную гипотезу. Данные выборки распределены не по нормальному закону
. Другими словами, эмпирические и теоретические частоты различаются значимо.
Пример 2
. Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.
Решение
.
Таблица для расчета показателей.
x i | Кол-во, f i | x i * f i | Накопленная частота, S | (x - x ср) * f | (x - x ср) 2 * f | (x - x ср) 3 * f | Частота, f i /n |
0.3 | 6 | 1.8 | 6 | 5.77 | 5.55 | -5.34 | 0.03 |
0.5 | 9 | 4.5 | 15 | 6.86 | 5.23 | -3.98 | 0.045 |
0.7 | 26 | 18.2 | 41 | 14.61 | 8.21 | -4.62 | 0.13 |
0.9 | 25 | 22.5 | 66 | 9.05 | 3.28 | -1.19 | 0.13 |
1.1 | 30 | 33 | 96 | 4.86 | 0.79 | -0.13 | 0.15 |
1.3 | 26 | 33.8 | 122 | 0.99 | 0.0375 | 0.00143 | 0.13 |
1.5 | 21 | 31.5 | 143 | 5 | 1.19 | 0.28 | 0.11 |
1.7 | 24 | 40.8 | 167 | 10.51 | 4.6 | 2.02 | 0.12 |
1.9 | 20 | 38 | 187 | 12.76 | 8.14 | 5.19 | 0.1 |
2.1 | 8 | 16.8 | 195 | 6.7 | 5.62 | 4.71 | 0.04 |
2.3 | 5 | 11.5 | 200 | 5.19 | 5.39 | 5.59 | 0.025 |
200 | 252.4 | 82.3 | 48.03 | 2.54 | 1 |
Показатели центра распределения
.
Средняя взвешенная
Показатели вариации
.
Абсолютные показатели вариации
.
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = X max - X min
R = 2.3 - 0.3 = 2
Дисперсия
- характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).
Несмещенная оценка дисперсии
- состоятельная оценка дисперсии.
Среднее квадратическое отклонение
.
Каждое значение ряда отличается от среднего значения 1.26 не более, чем на 0.49
Оценка среднеквадратического отклонения
.
Проверка гипотез о виде распределения
.
1. Проверим гипотезу о том, что Х распределено по нормальному закону
с помощью критерия согласия Пирсона.
где n* i - теоретические частоты:
Вычислим теоретические частоты, учитывая, что:
n = 200, h=0.2 (ширина интервала), σ = 0.49, x ср = 1.26
i | x i | u i | φ i | n* i |
1 | 0.3 | -1.96 | 0,0573 | 4.68 |
2 | 0.5 | -1.55 | 0,1182 | 9.65 |
3 | 0.7 | -1.15 | 0,2059 | 16.81 |
4 | 0.9 | -0.74 | 0,3034 | 24.76 |
5 | 1.1 | -0.33 | 0,3765 | 30.73 |
6 | 1.3 | 0.0775 | 0,3977 | 32.46 |
7 | 1.5 | 0.49 | 0,3538 | 28.88 |
8 | 1.7 | 0.89 | 0,2661 | 21.72 |
9 | 1.9 | 1.3 | 0,1691 | 13.8 |
10 | 2.1 | 1.71 | 0,0909 | 7.42 |
11 | 2.3 | 2.12 | 0,0422 | 3.44 |
Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия:
Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение K набл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: $.
Для того, чтобы при уровне значимости $\alpha $ проверить гипотезу о том, что непрерывная случайная величина распределена по равномерному закону, требуется:
1) Найти по заданному эмпирическому распределению выборочное среднее $\overline { x_b } $ и $\sigma _b =\sqrt { D_b } $. Принять в качестве оценки параметров $a$ и $b$ величины
$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $
2) Найти вероятность попадания случайной величины $X$ в частичные интервалы $({ x_i ,x_ { i+1 } })$ по формуле $ P_i =P({ x_i 3) Найти теоретические { выравнивающие } частоты по формуле $n_i" =np_i $. 4) Приняв число степеней свободы $k=S-3$ и уровень значимости $\alpha =0,05$ по таблицам $\chi ^2$ найдём $\chi _ { кр } ^2 $ по заданным $\alpha $ и $k$, $\chi _ { кр } ^2 ({ \alpha ,k })$. 5) По формуле $\chi _ { набл } ^2 =\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $ где $n_i -$ эмпирические частоты, находим наблюдаемое значение $\chi _ { набл } ^2 $. 6) Если $\chi _ { набл } ^2 <\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу. Проверим гипотезу на нашем примере. 1) $\overline x _b =13,00\,\,\sigma _b =\sqrt { D_b } = 6,51$ 2) $a=13,00-\sqrt 3 \cdot 6,51=13,00-1,732\cdot 6,51=1,72468$ $b=13,00+1,732\cdot 6,51=24,27532$ $b-a=24,27532-1,72468=22,55064$ 3) $P_i =P({ x_i $ P_2 =({ 3 $ P_3 =({ 7 $ P_4 =({ 11 $ P_5 =({ 15 $ P_6 =({ 19 В равномерном распределении если одинакова длина интервала, то $P_i -$ одинаковы. 4) Найдём $n_i" =np_i $. 5) Найдём $\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $ и найдём $\chi _ { набл } ^2 $. Занесём все полученные значения в таблицу \begin{array} { |l|l|l|l|l|l|l| } \hline i& n_i & n_i" =np_i & n_i -n_i" & ({ n_i -n_i" })^2& \frac { ({ n_i -n_i" })^2 } { n_i" } & Контроль~ \frac { n_i^2 } { n_i" } \\ \hline 1& 1& 4,43438& -3.43438& 11,7950& 2,659898& 0,22551 \\ \hline 2& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 3& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 4& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 5& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 6& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline & & & & & \sum = \chi _ { набл } ^2 =3,261119& \chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i" } -n } =3,63985 \\ \hline \end{array} $\chi _ { кр } ^2 ({ 0,05,3 })=7,8$ $\chi _ { набл } ^2 <\chi _ { кр } ^2 =3,26<7,8$ Вывод
отвергать гипотезу нет оснований.