Содержание
Обобщённые линейные модели (Generalized Linear Models) – универсальный метод построения регрессионных моделей, позволяющий учитывать взаимодействие между факторами, вид распределения зависимой переменной и предположения о характере регрессионной зависимости.
Метод может быть использован во всех областях применения прикладной статистики – медицина, экология, демография, сельское хозяйство, геология, археология, психология, социология и др. Однако наибольшее применение обобщённые линейные модели получили в страховании.
GLM являются хорошо разработанным и простым для понимания способом построения моделей. Благодаря компьютерным технологиям, построение GLM не требует от исследователя глубинных знаний в математической статистике; поэтому всё большее количество пользователей применяют этот метод для построения адекватных моделей.
Основными преимуществами GLM по сравнению с традиционными методами являются следующие особенности анализа:
-
возможность учёта сложных видов взаимодействия между факторами;
-
большой выбор вида функции зависимости;
-
отсутствие требований о нормальности распределения переменной отклика;
-
статистическое измерение эффекта влияния различных факторов на наблюдаемую величину;
-
получение информации о достоверности результатов построенной модели.
GLM твердо обосновались в статистической теории и предлагают практические методы построения адекватных моделей.
Общий обзор возможностей системы STATISTICA
Модуль Обобщённые линейные и нелинейные модели системы STATISTICA содержит большое количество средств для построения обощённых линейных моделей.
На этапе задания анализа пользователь имеет возможность
-
задать функцию связи и переменную сдвига; тем самым внести в модель свои предположения относительно вида регрессионной зависимости (предположения, чаще всего, возникают из профессиональных соображений);
-
задать соответствующий план модели; тем самым внести в модель свои предположения о взаимодействии переменных и влиянии этих взаимодействий (этих эффектов) на переменную отклика;
-
зарезервировать часть наблюдений в качестве кросс – проверочной выборки;
-
указать технические параметры процедуры построения модели – вид параметризации категориальных переменных, метод оценивания, параметры метода и др.
После построения модели пользователь имеет доступ ко всем результатам работы модуля: как к таблицам, отражающим ход построения модели, так и непосредственно к анализу построенной модели.
Большое количество встроенных критериев и средств визуализации позволяет исследователю
-
узнать оценённые значения параметров модели и доверительных интервалов для этих параметров;
-
понять, какие переменные и какие эффекты следует включить в модель, а какие исключить из модели;
-
проверить адекватность построенной модели;
-
сравнить построенные модели и выявить наиболее подходящую модель.
В рамках данного обзора мы опишем все элементы анализа и продемонстрируем применение метода на примерах.
Этап 1. Задание анализа
На начальном этапе работы с модулем Обобщённые линейные и нелинейные модели необходимо задать анализ.
Принципиально возможно три способа задания; выбрать наиболее подходящий способ можно с помощью соответствующей опции в окне модуля.

Способ 1. Диалог. При таком подходе Вы задаёте все параметры анализа в двух окнах системы.
Способ 2. Мастер анализа. В этом случае Вы сможете по шагам с помощью последовательных диалогов определить анализ. Для неопытных пользователей такой способ является более предпочтительным.
Способ 3. Редактор кода. При таком способе модель будет определена в диалоге Редактор кода GLZ. В этом диалоге Вы можете программно задать анализ; быстрому заданию способствуют различные опции для определения планов и изменения различных параметров вычислений. Вы можете также открыть существующий текстовый файл с кодом или сохранить код в файле для дальнейшего использования.

Задание анализа состоит из следующих элементов (звёздочкой помечены обязательные шаги).
Шаг 1. Задание распределения зависимой переменной и функции связи

Можно задать следующие распределения зависимой переменной: нормальное, Пуассона, гамма, биномиальное, полиномиальное, полиномиальное для порядковой шкалы и обратное нормальное.

Выбор распределения чаще всего диктуется типом зависимой переменной.
Вполне оправдано предварительное тестирование гипотезы о виде функции распределения с помощью модуля Подгонка распределения и визуальных методов (гистограмма, а также для непрерывных распределений графики квантиль – квантиль и вероятность - вероятность), а также, в случае нормального распределения, коэффициентов асимметрии и эксцесса.
Однако следует иметь в виду, что гипотеза о виде распределения зависимой переменной рассматривается для каждого набора предикторных переменных в модели и, поэтому тестирование переменной отклика по всем наблюдениям лишено смысла.
После выбора распределения нужно указать функцию связи; для разных распределений свой набор доступных функций связи. Например, для нормального распределения можно указать логарифмическую, степенную или тождественную функции.

Важной особенностью программы STATISTICA является возможность задания неканонической функции связи (для каждого распределения существует своя, наиболее естественная функция связи, которую называют канонической). Использование неканонического «спаривания» может привести к существенно более хорошей модели.
Некоторый набор «спарок» доступен на вкладке Быстрый:

Приведём несколько примеров расшифровки названий моделей:
-
пробит: биномиальное распределение, функция связи – пробит - функция;
-
полиномиальная логит: полиномиальное распределение, функция связи – логистическая;
-
нормальная лог модель: нормальное распределение, функция связи - логарифмическая.
и т. д.
Шаг 2. Задание плана
В списке Вид анализа выберите тип плана, на основе которого вы хотите провести анализ. Отметим, с помощью опции Общие пользовательские планы вы можете определить любой вид анализа.

Все возможные ситуации можно классифицировать следующим образом:
1) все независимые переменные – категориальные
a) если переменная только одна, то следует использовать однофакторный план;
b) если переменных несколько, то
-
если взаимодействием между переменными можно пренебречь, то следует использовать план «Главные эффекты»;
-
если взаимодействием нельзя пренебречь, то в зависимости от вида взаимодействия нужно применять факторный или гнездовой (вложенный) планы.
2) все независимые переменные – непрерывные
a) если переменная только одна, то следует использовать простую регрессию;
b) если переменных несколько, то
-
если взаимодействием между переменными можно пренебречь, то следует использовать множественную или полиномиальную регрессии;
-
если взаимодействием нельзя пренебречь, то в зависимости от вида взаимодействия нужно применять факторную регрессию, регрессию поверхности отклика или регрессию поверхности смеси.
3) в модели есть как категориальные, так и непрерывные переменные
-
если взаимодействием между категориальными и непрерывными переменными можно пренебречь, то следует использовать ковариационный анализ;
-
если взаимодействием нельзя пренебречь, то в зависимости от вида взаимодействия нужно применять однородные или неоднородные коэффициенты наклона.
Альтернативным подходом для задания вида анализа, реализованным в Общих пользовательских планах и Мастере анализа, является явное указание характера взаимодействия между переменными.

Шаг 3. Задание переменных
Пользователь может указать в качестве объясняющих переменных как все переменные, которые присутствуют в таблице, так и некоторый набор переменных. Кроме того, можно задать проведение анализа только для наблюдений с определенными значениями категориальных предикторов (задать коды переменных).
Зачастую исследователю может быть непонятно, какие факторы следует включать в модель, а какие - нет.
Наиболее распространённый способ решения этой проблемы состоит в следующем подходе: сначала в модель включаются все возможные переменные и эффекты их взаимодействия, потом из модели исключается переменная, которая влияет на модель наименьшим образом (и это влияние незначимо) и модель строится заново; затем удаляется следующая переменная и т.д. до тех пор, пока в модели не останутся только значимые факторы. В системе STATISTICA эту последовательность действий можно провести автоматически, задав соответствующий метод построения модели.
Шаг 4. Выбор метода построения модели

В системе STATISTICA пользователю предоставляется три принципиальные возможности выбора метода построения модели:
1) Все эффекты – в этом случае при построении будут использованы все факторы, заданные пользователем на предыдущих шагах.
2) Итеративные процедуры (пошаговый с включением, пошаговый с исключением, только включение, только исключение) – в этом случае модель будет строиться либо при поэтапном исключении из модели (см. описание этой процедуры выше), либо при поэтапном включении в модель. Кроме того, если выбрана опция Пошаговый с включением, то STATISTICA на каждом шаге будет анализировать сразу и "включение", то есть добавление переменной или эффекта в модель и "исключение", то есть удаление ранее добавленной переменной или эффекта из модели.
3) Метод наилучших подмножеств – при таком подходе будет выполнен поиск среди всех подмножеств эффектов в текущем плане и определён такой набор эффектов, при котором получается модель, наиболее адекватно описывающая зависимость.
Шаг 5. Указание параметров метода построения модели
Итеративные процедуры и метод наилучших подмножеств допускают задание дополнительных параметров, оказывающих влияние на процедуру построения модели.
Регулируя параметры итеративных процедур, можно увеличивать или уменьшать количество переменных в модели, и, тем самым, регулировать сложность модели.
Для метода Поиск наилучших подмножеств можно указать критерий, по которому будет определяться лучшие подмножества: статистика меток, метод максимума правдоподобия или критерий Акаике.
Шаг 6. Указание технических параметров для процедуры оценивания
Сразу отметим, что изменять технические параметры рекомендуется только опытным пользователям.

Пользователь имеет возможность указать (изменить) следующие параметры:
1) нужно ли использовать сигма – ограниченную модель для параметризации категориальных предикторов (по умолчанию используется сверхпараметризованная модель);
2) следует ли прибавлять к линейной комбинации предикторов свободный член.
Кроме того, пользователь может задать технические параметры, которые будут использованы при решении системы уравнений.
Шаг 7. Задание переменной сдвига
Вы можете явно указать переменную сдвига (вектор «параметров сдвига»); указание этой переменной диктуется содержательным смыслом задачи.
Шаг 8. Указание части наблюдения в качестве кросс - проверочной выборки
Одним из способов тестирования адекватности моделей является резервирование части наблюдений в качестве кросс – проверочной выборки; эти наблюдения не используются для построения моделей, а по завершению работы алгоритма «пропускаются» через построенные модели (вычисляются значения, которые прогнозируются моделями).
Затем истинные и предсказанные значения сопоставляются и выбирается модель, предсказанные по которой значения наиболее близки к истинным.

Этап 2. Анализ результатов
В рамках данного обзора мы опишем возможности, которые содержатся в окне результатов работы модуля Обобщённые линейные и нелинейные модели.
Примеры интерпретации результатов Вы можете найти в разделе Примеры.
Получение подробной информации о параметризации переменных
В окне результатов Вы можете получить исчерпывающую информацию о параметризации категориальных переменных и взаимодействий переменных, которые использовались при построении модели.

Описательные статистики
Для каждой переменной и каждого эффекта взаимодействия, используемых в модели, Вы можете вычислить простейшие описательные статистики нажатием одной кнопки из окна результатов.

Кроме того, можно вычислить матрицу корреляций между переменными, используемыми в модели. Эта информация может оказаться весьма полезной при принятии решения об изменении набора предикторов и эффектов.

Оценивание параметров модели. Выявление значимых параметров
После завершения процесса построения модели, можно посмотреть значения оценок параметров модели и параметра масштаба, доверительные интервалы для оценок параметров модели, значимость переменных и эффектов, а также получить информацию об итеративном процессе нахождения этих параметров.

Значимость предикторов определяется посредством статистики Вальда и статистики меток; значимые предикторы (т.е. предикторы, p-уровень проверки соответствующей гипотезы для которых меньше 5%) подсвечиваются красным цветом.

Выявление значимых эффектов
Информация о значимости предикторов является важной для определения параметров, которые следует включать в модель. Однако может оказаться, что, например, две из четырёх переменных описывающих взаимодействие двух категориальных переменных, значимы, а другие две – нет. Невольно возникает вопрос: нужно ли включать такое взаимодействие в модель?
Для ответа на этот вопрос из окна результатов можно вызвать таблицы, содержащее значения статистики Вальда, статистики меток и статистики хи – квадрат для каждой переменной.


Дополнительная информация о ходе построения модели
Наилучшие подмножества
В окне результатов можно получить дополнительную информацию о процедуре выбора наилучшего подмножества. Такая информация, а именно, важные параметры каждого из шагов содержится в таблице Результаты построения моделей:

Анализируя такую таблицу (особенно важен последний столбец), можно понять, какой набор предикторных переменных и эффектов является оптимальным для данной модели.
Пошаговые методы
При построении модели методом Пошаговый с включением на каждом шаге производится добавление переменных в модель. Пользователю доступна информация о том, какие переменные были добавлены на шагах и все технические параметры работы алгоритма.

Анализируя такую таблицу, можно принимать решения об упрощении/усложнении модели – например, если исследователю хочется получить более простую модель, то он может оставить в модели только те переменные, которые были выделены на первых шагах работы алгоритма.
Проверка адекватности модели
Аналитический подход
При нажатии на кнопку Критерий согласия отображается таблица с численными значениями параметров, показывающих адекватность построенной модели:

Визуальный анализ
Естественным средством для визуального анализа качества подгонки является диаграмма рассеяния между предсказанными и наблюдаемыми значениями зависимой переменной.

Помимо обычных остатков вычисляется ряд других характеристик отличий предсказанных значений от наблюдаемых – остатки Пирсона, остатки отклонений, рычаг, стьюдентизированные остатки, расстояния Кука.
Окно результатов работы модуля Обобщённые линейные и нелинейные модели содержит большое количество графических возможностей для тестирования качества модели – пользователь имеет возможность визуально проверять качество подогнанной модели.


Анализ средних значений
Некоторое представление о качестве подгонки можно получить, подсчитав для каждой переменной по каждому уровню средние величины исходных и предсказанных значений.

Средние значения и 95-процентные доверительные интервалы для средних значений можно эффектно визуализировать на диаграмме диапазонов:

В начало
Комментарии: