Session 16 - Introduction to Recursive Partitioning Methods

Просмотры: 1 Добавил: pvi777 StatSoft Statistica 
Описание материала:

В этом блоке серии Data Mining Statistica мы введем концепт рекурсивного разделения, который лежит в основе деревьев решений. В этой серии мы работаем с данными оценки кредитоспособности, которые мы рассмотрели графически, очистили, создали выборки и отобрали значимые переменные для моделирования. Мы продолжим использовать Statistica для построения модели по обработке и анализу данных.
0:29
Сегодняшние темы включат в себя следующие аспекты: что такое рекурсивное разделение. Его преимущества и недостатки и то, как интерпретировать результаты дерева решений.
0:40
Рекурсивное разделение относится к процессу создания дерева решений, которое, по сути, является системой вопросов, которая приведет к финальному предсказанию. Предикторные переменные образуют ветви дерева, создавая ответвления, которые организуют ключевые наблюдение в еще более похожие группы. Эти группы – листья дерева или узлы. Когда сделано достаточное количество ответвлений, мы достигаем терминальных вершин. В Statistica терминальные вершины показаны красным.Предсказание основывается на структуре терминальных вершин.
1:19
Давайте посмотрим на простой древовидный график переменной. Первый узел здесь содержит все данные и показывает гистограмму хорошего и плохого кредитного риска. Первое разделение сделано с помощью предикторной переменной Баланс текущего счета. Клиенты с нулевым балансом или у которых нет текущего счета относятся к правой терминальной вершине. Эта вершина преимущественно состоит из клиентов с плохим кредитным риском. Те, чей баланс менее или более 300$ относятся к левой вершине. Эта вершина далее делится предикторной переменной Другие текущие кредиты. Клиенты, у которых нет текущих кредитов относятся к положительной терминальной вершине. Те, у кого есть кредиты в других банках или магазинах относятся к отрицательной терминальной вершине. Гистограмма в каждой вершине показывает структуру.
2:25
Среди достоинств можно отметить:
- легко интерпретируемые модели. Например, ни одна нейронная сеть (часто этот подход называют черным ящиком) этим не отличается, так как создаваемые модели не интерпретируются вообще.
- Деревья не требуют модельных расчетов, как в случае с общими линейными моделями или обобщенными линейными моделями или с другим параметрическим подходом.
- предсказание появляется в виде серии вопросов, а не уравнений.
- Деревья дают хорошую точность предсказаний и допускают отсутствие данных благодаря наличию замещающих или альтернативных переменных.
3:25
К недостаткам этих методов можно отнести то, что они требуют оценки и опыта в определении нужного размера дерева. Слишком много разделений приведет к переподгонке данных. Текущие данные хорошо моделируются, но дереву не удается обобщить новые данные. Слишком мало ответвлений не дает высокой точности.
3:52
Давайте более подробно рассмотрим использование рекурсивных методов разделения и применения дерева решений для классификации этих двух клиентов. Клиент 1 имеет текущий счет 450$ и он дал заявку на кредит на покупку нового автомобиля. Необходимая сумма кредита 17000$. Давайте посмотрим на дерево в Statistica. Итак, баланс текущего счета составил 450$, двигаемся сюда, клиент подает заявку на кредит на новое авто. Здесь мы видим новую машину, двигаемся к этому узлу и возвращаемся к балансу текущего счета 450$. Это более 300$, поэтому мы направляемся к этому узлу.Сумма кредита 17000$, то есть более 15446$. Итак, мы открываем это узел для клиента 1 и нам дается предсказание плохого кредитного риска.
5:15
Клиент 2 не имеет текущего счета, он просит кредит на 15 месяцев. У него нет накоплений и ему нужен кредит на мебель. Вернемся в Statistica. У клиента 2 нет текущего счета, поэтому мы здесь в этом узле. Кредит нужен на 15 месяцев, это больше, чем 8,5. месяцев, мы открываем этот узел. У клиента нет накоплений, поэтому переходим к этому узлу. Цель кредита – мебель, это не относится к категории новый автомобиль, а к категории другое. Двигаемся сюда и снова срок кредита 15 месяцев, меньше чем 22,5. Открываем эту терминальную вершину, которая снова рассматривает клиента, как имеющего плохой кредитный риск.
6:30
Итак, мы провели классификацию двух клиентов согласно их кредитному риску, используя метод рекурсивного разделения.
6:40
В следующих блоках серии Data Mining Statistica мы глубже рассмотрим на деревья классификации и регрессии, метод CHAID, растущих деревьев и случайный лес. После этого продолжим с алгоритмами данных.

Язык: Русский

Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты