Содержание
Файл данных содержит информацию о количестве застрахованных и уровне доходов в разных странах.
Таблица состоит из 132 наблюдений и 3 переменных:
-
INSURE – число застрахованных (тыс. чел)
-
ASSETS – средний доход (в 10 000 $)
-
COUNTY – округ проживания
Фрагмент таблицы исходных данных приведен ниже:

Рис.1 Таблица исходных данных
Задача состоит в исследовании взаимосвязи числа застрахованных и уровней доходов в разных округах.
Шаг 1 Визуальный анализ
Определим структуру данных, построив категоризованную диаграмму рассеяния.

Рис.2 Категоризованная диаграмма рассеяния
По данным, полученным из графика видно, что число застрахованных различно в трех округах.
Наибольшее число застрахованных отмечено в стране DODGE.
Шаг 2 Построение модели
Выберем команду Обобщенные линейные и нелинейные модели в меню Анализ – Углубленные методы анализа. В стартовом окне анализа зайдем на вкладку Дополнительно и выберем Неоднородные коэффициенты наклона. В поле Задание анализа выберем Диалог, отметим Нормальное в поле Распределение, Логарифм в поле Функция связи.

Рис. 3 Обобщенные линейные и нелинейные модели, стартовая панель
После нажатия кнопки ОК отобразится диалог Быстрые настройки.
В качестве зависимой переменной выберем INSURE, в качестве категориального предиктора –COUNTY, непрерывного предиктора – ASSETS.

Рис.4 Выбор переменных
Нажмем кнопку OK для отображения диалога Результаты GLZ.
Нажмем OK, чтобы закрыть предупреждение и перейти к диалогу GLZ-Результаты.

Рис. 5 Диалог Результаты
Нажмем кнопку Критерий отношения правдоподобия Тип 1, чтобы отобразить таблицу с результатами последовательных критериев для эффектов в модели типа 1.

Рис. 6 Критерий отношения правдоподобия Тип 1
В таблице приведен логарифм правдоподобия для модели, которая включает некоторый эффект (отображается в соответствующей строке таблицы) и все эффекты до него (отображаются в предыдущих строках таблицы); увеличение статистики хи-квадрат; а также увеличение логарифма правдоподобия для соответствующего (текущего) эффекта.
Как видно из таблицы, эффект COUNTRY*ASSETS является значимым.
На вкладке Результаты GLZ - Итоги нажмем кнопку Оценки для отображения оценки параметров в модели.

Рис. 7 Параметры оценивания
В таблице приведены оценки параметров для каждого столбца в матрице плана. Оказывается, два из трех параметров взаимодействия переменной COUNTRY с переменной ASSETS статистически значимы.
Нажмем кнопку Результаты итераций.

Рис. 8 Результаты итераций
Каждый столбец таблицы обозначает одну итерацию, в строках отображаются соответствующие оценки параметров и значения правдоподобия модели на каждой итерации.
Запишем уравнение модели:
INSURE=exp[1,6795-0,0173*DODGE*ASSETS-0,2330*ROGERS*ASSETS-0,2989*HIGHLAND*ASSETS+0,2252*DODGE+0,2270*ROGERS+0,0000*HIGHLAND]+ε
Распишем уравнение модели для каждого из округов.
Для округа DODGE: INSURE=exp[1,6795-0,0173*ASSETS+0,2252] +ε,
Для округа ROGERS: INSURE=exp[1,6795-0,2330*ASSETS+0,2270] +ε,
Для округа HIGHLAND: INSURE=exp[1,6795-0,2989*ASSETS+0,0000] +ε.
Шаг 3 Проверка модели
Убедимся, что общая модель является хорошей подгонкой к данным.
Нажмем кнопку Критерий согласия, чтобы отобразить таблицу Статистики критерия согласия.

Рис. 9 Статистика критерия согласия
Как видно из таблицы, модель с неоднородными наклонами хорошо подгоняет данные.
Построим нормальный вероятностный график остатков. Перейдем на вкладку Остатки 1 и нажмем кнопку Нормальный график остатков.

Рис. 10 Нормальный вероятностный график остатков
Распределение остатков близко к нормальному.
Построим диаграмму рассеяния остатков и предсказанных значений. Нажмем кнопку Остатки и предсказанные значения на вкладке Остатки 1.
В начало
Комментарии: