Модуль Подгонка распределений позволяет оценить степень согласия наблюдаемых данных с некоторым теоретическим распределением. Обратитесь к разделу Типы распределений за описанием доступных распределений. Заметим, модуль Анализ выживаемости содержит специальные программы для подгонки цензурированных (неполных) данных типа времен выживания и отказов к распределениям Вейбулла и Гомпертца. В этом примере используется файл Irisdat.sta (показан ниже). Открыть этот файл данных можно выбрав Открыть в меню Файл; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets. Файл содержит данные, представленные Фишером (1936), включает длину и ширину чашелистиков (Sepallen, Sepalwid) и лепестков (Petallen,Petalwid) 50 цветков трех типов ириса. Дискриминантный анализ этих данных описан также в главе Дискриминантный анализ.

Далее оцениваются распределения четырех переменных, описывающих длину и ширину лепестков и чашелистиков. Ожидается, что распределения будут нормальными.
Задание анализа. Выберите Подгонка распределений в меню Анализ для отображения стартовой панели модуля Подгонка распределений. Далее, выберите в поле Непрерывные распределения опцию Нормальное. И нажмите кнопку ОК. В появившемся диалоговом окне нажмите кнопку Переменные и выберите переменную Sepallen. В этот момент данные будут обработаны и во вкладке Параметры будут показаны оценки среднего и дисперсии. В этой же вкладке можно задать Число групп и Нижнюю границу и Верхнюю границу для вычисления частот. Вкладка Параметры диалогового окна Подгонка непрерывных распределений теперь выглядит следующим образом.

Далее, выберите вкладку Опции и отметьте опцию Да (без группировки) в поле Критерий согласия К.-С.. Остальные опции оставьте по умолчанию и нажмите кнопку ОК, чтобы вычислить частоты.

Значения статистик. Хи-квадрат значим на уровне 0.05 (p = .042). Таким образом, основываясь на критерии хи-квадрат, можно заключить, что распределение значимо отклоняется от нормального распределения. Однако критерий согласия не значим. Результат этого примера не является необычным, потому что критерий согласия не является точной процедурой, a, скорее, методом обнаружения больших (грубых) отклонений от гипотетического распределения. Часто значение статистики хи-квадрат сильно зависит от способа группировки, иными словами, от числа групп, минимального и максимального значения, которые задает пользователь. Например, если вы разобьете распределение Sepallen только на 10 групп (установите 10 в поле Число групп во вкладке Параметры), то получите значение хи-квадрат, значимое только на уровне .07.

Самое важное понять, как общая форма распределения построенного по данным (т.е. наблюдаемого или эмпирического распределения) аппроксимирует гипотетическое нормальное распределение.
Теперь вернемся в окно Подгонка непрерывных распределений. Во вкладке Опции в поле График распределения выберите Гистограмма или Кумулятивное распределение, а в поле График частот - Исходные частоты или Относительные частоты (%).

По умолчанию, число групп (23), воспользуйтесь графиком по умолчанию, нажав кнопку График наблюдаемого и ожидаемого распределения во вкладке Быстрый, чтобы построить гистограмму частот для этой переменной.

Похоже, что распределение Sepallen бимодально, иными словами, имеет два "пика". Также видно, что подгонка наиболее удачна в левой части графика, где находится пик. Таким образом, можно заключить, что непрерывное нормальное распределение, по-видимому, не вполне адекватная модель для наблюдаемых данных.
Комментарии: