Наше изложение близко к [7, § 30.1] и [13, § 10.4].
Мы рассматриваем независимую выборку
, обозначая неизвестную
функцию распределения . Нас интересует вопрос о том, согласуются
ли данные наблюдений
с простой гипотезой
где -- некоторая конкретная фиксированная функция распределения.
Вначале разобъем множество
на конечное число непересекающихся подмножеств
. Пусть
-- вероятность, соответствующая
функции распределения , обозначим
Очевидно, что
Теперь сделаем группировку данных аналогично процедуре, описанной в
6.3,
а именно, определим
 |
(50) |
Очевидно, что в силу случайных колебаний эмпирические частоты
будут отличаться от теоретических вероятностей
. Чтобы
контролировать это различие, следует подобрать хорошую меру расхождения между
экспериментальными данными и гипотетическим теоретическим распределением. По
аналогии с идеей метода наименьших квадратов в качестве такой меры расхождения
можно взять, например,
,
где положительные числа можно выбирать более или менее произвольно.
Как показал К. Пирсон, если выбрать
, то полученная
величина будет обладать рядом замечательных свойств. Таким образом, положим
 |
(51) |
Подчеркнем, что величина вычисляется по выборке. Функцию
принято называть статистикой Пирсона. Обсудим ее свойства.
Речь идет о поведении при увеличении объема выборки:
.
Теорема К. Пирсона. Предположим, что гипотеза
верна. Тогда при
распределение величины
сходится к распределению хи-квадрат с степенью свободы,
то есть,
Практический смысл этой теоремы в том, что при большом объеме
выборки распределение можно считать распределением хи-квадрат
с степенью свободы.
Предположим теперь, что
и разбиение
таково, что
где вероятности
вычислены по функции
распределения . Тогда можно показать (см., например, [13, § 10.4]),
что
если  |
(52) |
То обстоятельство, что поведение существенно различно в зависимости
от того верна или нет гипотеза , дает возможность построить критерий
для ее проверки. Зададимся некоторым уровнем значимости
(допустимой вероятностью ошибки) и возьмем квантиль
,
определенную формулой (45):
Определим критическое множество
:
Таким образом, наши действия по принятию (или отвержению) гипотезы
состоят в следующем. Подстановкой имеющихся данных
в формулу (51)
вычисляется значение функции , которое затем сравнивается с
:
- если
, то гипотеза отвергается
(при этом говорят, что выборка обнаруживает значимое отклонение от гипотезы ),
- если
, то гипотеза принимается
(говорят, что выборка совместима с гипотезой ).
Действительно, такое решающее правило соответствует вышеизложенным фактам о
поведении функции . Приведем аргументы, основанные на здравом смысле,
свидетельствующие в пользу этого решающего правила. Если значения функции
оказались ``слишком большими'', то, принимая во внимание (52),
разумно считать, что гипотеза не имеет места. Если же значения
``не слишком большие'', то, скорее всего, гипотеза верна,
поскольку это согласуется с теоремой Пирсона.
При таком решающем правиле мы может допустить ошибку, отвергнув верную гипотезу .
Из теоремы Пирсона вытекает, что при больших величина вероятности этой
ошибки близка к
.
Утверждения теоремы Пирсона и (52) относятся к пределам при
.
На практике, конечно, мы имеем дело лишь с выборками ограниченного объема.
Поэтому, применяя вышеописанный критерий, необходимо проявлять осторожность.
Согласно рекомендациям, изложенным в [7], применение критерия
дает хорошие результаты, когда все ожидаемые частоты
.
Если же какие-то из этих чисел малы, рекомендуется, укрупняя некоторые группы,
перегруппировать данные таким образом, чтобы ожидаемые частоты всех групп были
не меньше десяти. Если число достаточно велико, то, как указывается
в книге [13], порог для ожидаемых частот может быть понижен до
или даже до , если имеет порядок нескольких десятков.
|  |