Session 18 - CHAID for Classification

Просмотры: 1 Добавил: pvi777 StatSoft Statistica 
Описание материала:

В этом блоке серии Data Mining Statistica мы обсудим построение деревьев классификации с помощью алгоритма CHAID. Мы будем продолжать использовать данные кредитного риска, которые были очищены и подготовлены для анализа. В предыдущем блоке мы использовали Р&КД для построения дерева классификации. Сегодня мы обсудим, что такое CHAID, рассмотрим опции для анализа, метод поиска наилучшего решения (exhaustive CHAID) и приведем пример в Statistica.
0:29
CHAID означает хи-квадрат автоматическое обнаружение взаимодействия. Этот инструмент выполняет многоуровневое ветвление, где Р&КД использует двойное ветвление. На графике дерева первый узел имеет три дочерних узла. Этот анализ отлично подходит для большой совокупности данных и обычно используется для маркетинга, как например, для сегментации рынка.
0:55
C&RT и CHAID предлагают одинаковые опции для шифрованного анализа и дисперсионного анализа (ANOVA). Этот тип анализа позволяет выявлять взаимодействия. CHAID также связан с издержками ошибочной классификации. В CHAID издержки ошибочной классификации не влияют на процесс построения дерева, как это было в Р&КД, но влияние оказывается на оценку риска. Это мера не верной классификации. Для предотвращения переподгонки можно использовать V-fold перекрестную проверку или обучающую и проверочную выборки. Поправка Бонферонни используется, чтобы контролировать уровень ошибок.
1:43
Параметры остановки для CHAID слегка отличаются от C&RT. Минимальное количество отвечает за то, какие узлы должны быть ответвлены далее, а какие должны быть терминальными вершинами. В этом случае, узел с 60 или более наблюдениями может быть ответвлен далее. Максимально количество узлов контролирует сложность дерева. Вероятность определения использует предикторыне категории переменных и определяет, какие категории следует объединить, так как для кредитного риска нет значительного различия между этими категориями. Вероятность ответвления отвечает за то, является ли ответвление статистически значимым и ответвления не будут совершаться пока не будут найдены значимые.
2:27
Метод поиска наилучшего решения (exhaustive CHAID)требует большего объема исчислений, нужен для больших и сложных совокупностей данных. Вы можете заметить повышенные затраты по времени на исчисления. Эта опция обеспечивает более тщательное тестирование на необходимость ответвления и отбор лучших переменных для объединения их в категории пока не останется лишь две. Такой процесс отбора лучшей переменной для ответвления часто приводит к более эффективному дереву.
2:54
В Statistica меню обработки данных (data mining menu) предлагает инструмент Общие модели CHAID (General CHAID Models). Я использую CHAID с опцией шифрованного анализа. Я отмечаю переменные как категориальные. Выбираю переменные. По умолчанию анализ будет факторным для всех категориальных переменных. Посмотрим на взаимодействия 3, 4 и выше. Иногда взаимодействия более высокого порядка могут быть интересны для анализа, но обычно их не принимают во внимание. Для нашего анализа я хочу посмотреть на двойное взаимодействие. И так я могу продолжать далее с другими переменными.
4:01
Код отклика (response codes) позволяет нам использовать издержки ошибочной классификации. Колонки – это наблюдаемые классы. Итак, по наблюдениям у нас получился плохой результат, а по предсказаниям хороший. Предположим, что это вдвое более затратно, чем альтернативный вариант. Теперь сделаем уточнения при помощи издержек ошибочной классификации. Параметры остановки по умолчанию применимы к данному примеру. Теперь поиск наилучшего решения (exhaustive search). Когда мы нажимаем ОК, Statistica начинает строить деревья.
4:36
Итак, сначала давайте посмотрим на график дерева, он довольно сложный, поэтому давайте посмотрим на график с возможностью прокрутки, что позволит нам получить более детальное представление. Баланс текущего счета – это одна из значимых переменных. Дальнейшее ответвление использует взаимодействие между выплатами по предыдущему кредиту и накоплениями. Структура дерева показывает нам таблицу выходных данных с той же самой информацией, что и в графике дерева. Она показывает нам переменные, которые использовались для ответвления и критерии для сортировкинаблюдений в различные узлы. Мы использовали несколько взаимодействий: Баланс текущего счета и Работа у настоящего работодателя; Выплата предыдущих кредитов и Цель кредита и т.д.
5:41
Давайте посмотрим оценку риска. Это оценка ошибочной классификации и то, как она влияет на оценку риска. В таблице наблюдений посмотрим на диаграмму точности прогнозов. Она дает нам представление о том, каков прогноз и какие дополнительные преимущества мы получили из модели CHAID. В таблице классификаций мы видим предсказуемое vs наблюдаемое. Теперь посмотрим на простую таблицу выходных данных. Мы предсказали плохой результат и наблюдали плохой 243 раза, а предсказали плохой, но наблюдали хороший 92. Теперь посмотрим на двумерную гистограмму. Более высокие колонки означают более точные предсказания. Мы проделали неплохую работу по предсказанию хорошего и плохого кредитного риска при помощи модели CHAID.
7:11
Вот еще несколько примеров, которые могут быть вам интересны.
7:20
Мы продолжим эту тему и поговорим о методах растущих деревьев и случайный лес и рассмотрим сравнительные модели.

Язык: Русский

Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты