Деревья классификации

Деревья решений (decision trees) – это статистический метод, позволяющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной или значения количественной переменной в зависимости от соответствующих значений одной или нескольких независимых переменных. Построение деревьев решений относят к методам добычи знаний «data mining».

Цель метода деревьев решений – предсказать значение целевой переменной в зависимости от соответствующих значений независимых переменных (предикторов, атрибутов). По типу шкалы целевой переменной деревья решений подразделяются на деревья регрессии и деревья классификации.

При построении деревьев регрессии прогнозируется значение целевой переменной в зависимости от соответствующих значений предикторов. Например, прогнозируется вероятность отказа клиента от услуг банка в зависимости от пола и возраста клиента. Деревья регрессий работают с количественной целевой переменной. При построении деревьев классификации предсказывается принадлежность объекта к той или иной категории целевой переменной в зависимости от соответствующих значений предикторов. Например, классифицируются больные и здоровые пациенты в зависимости от их симптомов. Деревья классификации работают с категориальной целевой переменной.

Зависимость значения целевой переменной от значений предикторов, представляется в виде иерархической структуры – «дерева». Если зависимая переменная является категориальной, строится дерево классификации. Если зависимая переменная является количественной, строится дерево регрессии.

Методы деревьев решений тесно связаны с более традиционными методами дискриминантного анализа, кластерного анализа, непараметрической статистики и нелинейного оценивания. Деревья решений рекомендуется применять вместе с традиционными методами статистического моделирования. Однако, если предпосылки традиционных методов не соблюдаются и традиционные методы не работают, деревья решений, как последнее средство, могут дать удовлетворительный результат в исследовании данных и выявлении скрытых закономерностей.

Широкая сфера применимости деревьев решений делает их весьма привлекательным инструментом анализа данных. Деревья решений успешно применяются для решения практических задач в следующих областях:
- банковское дело – оценка кредитоспособности клиентов банка при выдаче кредитов;
- промышленность – контроль качества продукции (выявление дефектов), испытания без разрушений (например, проверка качества сварки) и т.д.;
- медицина – диагностика различных заболеваний;
- маркетинг – предсказание выбора покупателя, сегментация клиентской базы;
- молекулярная биология – анализ строения аминокислот и другие области.

Подробнее...

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты