Содержание
В STATISTICA реализованы классические методы кластерного анализа, включая методы k-средних, иерархической кластеризации и двухвходового объединения.
Данные могут поступать как в исходном виде, так и в виде матрицы расстояний между объектами.
Наблюдения и переменные можно кластеризовать, используя различные меры расстояния (евклидово, квадрат евклидова, манхэттеновское, Чебышева и др.) и различные правила объединения кластеров (одиночная, полная связь, невзвешенное и взвешенное попарное среднее по группам и др.).
Постановка задачи
Исходный файл данных содержит следующую информацию об автомобилях и их владельцах:
-
марка автомобиля – первая переменная;
-
стоимость автомобиля – вторая переменная;
-
возраст водителя – третья переменная;
-
стаж водителя – четвертая переменная;
-
возраст автомобиля – пятая переменная;

Целью данного анализа является разбиение автомобилей и их владельцев на классы, каждый из которых соответствует определенной рисковой группе. Наблюдения, попавшие в одну группу, характеризуются одинаковой вероятностью наступления страхового случая, которая впоследствии оценивается страховщиком.
Использование кластер-анализа для решения данной задачи наиболее эффективно. В общем случае кластер-анализ предназначен для объединения некоторых объектов в классы (кластеры) таким образом, чтобы в один класс попадали максимально схожие, а объекты различных классов максимально отличались друг от друга. Количественный показатель сходства рассчитывается заданным способом на основании данных, характеризующих объекты.
Масштаб измерений
Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами или объектами, и ясно, что при вычислении расстояния необходимо задать масштаб измерений.
Поскольку различные измерения используют абсолютно различные типы шкал, данные необходимо стандартизовать (в меню Данные выберете пункт Стандартизовать), так что каждая переменная будет иметь среднее 0 и стандартное отклонение 1.
Таблица со стандартизованными переменными приведена ниже.

Шаг 1. Иерархическая классификация
На первом этапе выясним, формируют ли автомобили "естественные" кластеры, которые могут быть осмыслены.
Выберем Кластерный анализ в меню Анализ - Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В этом диалоге выберем Иерархическая классификация и нажмем OK.

Нажмем кнопку Переменные, выберем Все, в поле Объекты выберем Наблюдения (строки). В качестве правила объединения отметим Метод полной связи, в качестве меры близости – Евклидово расстояние. Нажмем ОК.

Метод полной связи определяет расстояние между кластерами как наибольшее расстояние между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").
Мера близости, определяемая евклидовым расстоянием, является геометрическим расстоянием в n- мерном пространстве и вычисляется следующим образом:

Наиболее важным результатом, получаемым в результате древовидной кластеризации, является иерархическое дерево. Нажмем на кнопку Вертикальная дендрограмма.


Вначале древовидные диаграммы могут показаться немного запутанными, однако после некоторого изучения они становятся более понятными. Диаграмма начинается сверху (для вертикальной дендрограммы) с каждого автомобиля в своем собственном кластере.
Как только вы начнете двигаться вниз, автомобили, которые "теснее соприкасаются друг с другом" объединяются и формируют кластеры. Каждый узел диаграммы, приведенной выше, представляет объединение двух или более кластеров, положение узлов на вертикальной оси определяет расстояние, на котором были объединены соответствующие кластеры.
Шаг 2. Кластеризация методом К средних
Исходя из визуального представления результатов, можно сделать предположение, что автомобили образуют четыре естественных кластера. Проверим данное предположение, разбив исходные данные методом К средних на 4 кластера, и проверим значимость различия между полученными группами.
В Стартовой панели модуля Кластерный анализ выберем Кластеризация методом К средних.

Нажмем кнопку Переменные и выберем Все, в поле Объекты выберем Наблюдения (строки), зададим 4 кластера разбиения.

Метод K-средних заключается в следующем: вычисления начинаются с k случайно выбранных наблюдений (в нашем случае k=4), которые становятся центрами групп, после чего объектный состав кластеров меняется с целью минимизации изменчивости внутри кластеров и максимизации изменчивости между кластерами.
Каждое следующее наблюдение (K+1) относится к той группе, мера сходства с центром тяжести которого минимальна.
После изменения состава кластера вычисляется новый центр тяжести, чаще всего как вектор средних по каждому параметру. Алгоритм продолжается до тех пор, пока состав кластеров не перестанет меняться.
Когда результаты классификации получены, можно рассчитать среднее значение показателей по каждому кластеру, чтобы оценить, насколько они различаются между собой.
В окне Результаты метода К средних выберем Дисперсионный анализ для определения значимости различия между полученными кластерами.

Итак, значение р<0.05, что говорит о значимом различии.
Нажмем кнопку Элементы кластеров и расстояния для просмотра наблюдений, входящих в каждый из кластеров. Опция также позволяет отобразить евклидовы расстояния объектов от центров (средних значений) соответствующих им кластеров.
Первый кластер:

Второй кластер:

Третий кластер:

Четвертый кластер:

Итак, в каждом из четырех кластеров находятся объекты со схожим влиянием на процесс убытков.
Шаг 3. Описательные статистики
Знание описательных статистик в каждой группе, безусловно, является важным для любого исследователя.
Отображение статистик для каждого кластера из диалога Результаты метода К средних в данном случае не представляет интереса, т.к. данные были стандартизованы.
Нажмем кнопку Сохранить классификацию и расстояния.

Таблица стандартизованных данных дополнилась информацией о кластере, к которому принадлежит наблюдение, евклидовом расстоянии и номере наблюдения.
Скопируем переменную КЛАСТЕР в исходную таблицу данных.

Теперь для каждого кластера можно вычислить основные описательные статистики.
В меню Анализ – Основные статистики и таблицы выберем опцию Группировка и Однофакторный ДА.
Ниже приведены таблицы описательных статистик для каждого из показателей:




Знание основных описательных статистик в каждом кластере может быть использовано экспертом для оценки убытков страховой компании.
Построим график средних и доверительных интервалов для переменных в каждом кластере.

Итак, для каждого кластера экспертом может быть определена вероятность наступления страхового случая.
В начало
Комментарии: