Содержание
Введение
StatSoft предлагает уникальные технологии анализа данных, Data Mining. Эти методы реализованы в удобном интерфейсе и позволяют провести исследования даже начинающему пользователю. В данной статье проводится обзор методов Data Mining, в числе которых реализованы методы Нейронных сетей, Обобщенного кластерного анализа, Правил связи, Деревьев классификации и регрессии, Интерактивных деревьев, Растущих деревьев, Обобщенных аддитивных моделей, МАР-сплайнов, Процедур машинного обучения и т.д.
В первой части статьи можно увидеть несколько диалоговых окон русифицированной версии программы STATISTICA Data Miner. Во второй части приводятся впечатляющие результаты работы некоторых методов Data Mining в реальной медицинской задаче.
Часть I. Русский интерфейс STATISTICA Data Miner
Обычно работа начинается с загрузки файла данных и выбора метода анализа данных.
Шаг 1. Загрузка файла данных.
Программа STATISTICA встречает Вас диалоговым окном приглашения, в котором можно либо указать одно из типичных действий перед началом работы, либо выбрать один из последних файлов, с которым производилась работа в программе.

Рис. 1. Диалоговое окно Приглашение в STATISTICA
После нажатия OK в вышеприведенном диалоге, мы перейдем в окно открытия файлов:

Рис. 2. Окно открытия файлов STATISTICA
Отметим, что программа STATISTICA "понимает" все распространенные форматы файлов данных, среди которых файлы xls, txt, htm, xml, rtf и многие другие.

Рис. 3. Часть списка совместимых форматов данных
После открытия файла на экране отобразится таблица данных следующего вида:

Рис. 4. Таблица данных STATISTICA
После этого можно выбирать методы анализа данных.
Шаг 2. Выбор метода анализа данных
Перейти к выбору метода анализа можно несколькими способами: либо через пункт главного меню Анализ, либо нажав кнопку в левом нижнем углу рабочей области STATISTICA, либо нажав кнопку, соответствующую конкретному методу, на Панели инструментов.

Рис. 5. Выпадающее меню Анализ
После выбора строки с названием метода анализа появляется соответствующая ему стартовая панель.
Шаг 3. Задание параметров анализа.
Шаг 3.1. Выбор конкретного метода и интерфейса анализа.
В стартовой панели анализа выбирается одна из модификаций метода,

Рис. 6. Стартовая панель Анализа выживаемости
либо модификация метода и интерфейс настройки и проведения анализа (от Мастера анализа - максимальное число подсказок и настроек по умолчанию до Редактора кода - режим программирования).
Рис. 7. Стартовая панель Дисперсионного анализа
Шаг 3.2. Выбор переменных.
Следующий общий шаг анализа - выбор переменных (зависимых/независимых, непрерывных/категориальных).

Рис. 8. Стандартное окно выбора переменных
Шаг 3.3. Настройка параметров анализа.
Начинающий пользователь может задать параметры, приведенные на вкладке Быстрый, а остальные можно оставить по умолчанию.

Рис. 9. Настройка параметров анализа. Вкладка Быстрый
Продвинутые аналитики могут оценить всю гибкость настроек, воспользовавшись настройками на вкладке Дополнительно, и некоторых специальных вкладках.

Рис. 10. Настройка параметров анализа. Вкладка Дополнительно
Наконец, задав переменные и параметры, мы переходим к этапу анализа результатов.
Шаг 4. Получение и анализ результатов.
Типичным для программы STATISTICA является следующее диалоговое окно результатов:

Рис. 11. Диалог результатов Анализа выживаемости
На вкладке Быстрый можно ознакомиться с наиболее общими итогами анализа, таблицами результатов (прогнозов) и показателями качества работы метода.
Далее, если результаты анализа нас не устраивают, возвращаемся к пункту 2 (выбор переменных).
Ниже приведены некоторые диалоговые окна русской версии программы STATISTICA Data Miner (SDM):

Рис. 12. Меню выбора методов Data Mining - Добычи данных

Рис. 13. Интерактивное бурение и описательный анализ данных

Рис. 14. Готовый проект Углубленной классификации

Рис. 15. Нейронные сети - Диалог вывода результатов

Рис. 16. Обобщенные методы кластерного анализа - Диалог результатов

Рис. 17. Диалоговое окно Результаты правил связи

Рис. 18. Граф правил связи

Рис. 19. Деревья классификации и регрессии - Диалоговое окно результатов

Рис. 20. Процесс построения растущих деревьев

Рис. 21. Растущие деревья - Диалог результатов

Рис. 22. Процедуры машинного обучения - байесовские методы - Диалог результатов

Рис. 23. Пользовательский проект для решения задач классификации
Часть II. Прогнозирование осложнений процесса послеоперационного восстановления с помощью STATISTICA Data Miner
Постановка задачи.
На основе данных, полученных к моменту выписки пациента из больницы, необходимо спрогнозировать, будет ли период восстановления протекать с осложнениями или без осложнений.
Были собраны данные по 43 пациентам, для каждого пациента известно до 38 характеристик (таких как рост, вес, пол, диагноз, исход операции). Данные неполные, в таблице много пропущенных ячеек.
Для проведения анализа были использованы следующие методы:
-
Association Rules - Правила связи;
-
Neural Networks - Нейронные сети;
-
C & RT Trees - Деревья классификации и регрессии;
-
Machine Learning - Процедуры обучения;
-
General CHAID Models - Общие CHAID модели.
Результаты анализа по методам:
1. Правила связи
Простой и интуитивно понятный метод поиска зависимостей вида "Если - То". Работает с многомерными откликами/дихотомиями. Результаты становятся понятны сразу, на подсознательном уровне. В данной задаче выявлено правило "Если исход = выписан, то осложнений не будет". Причем это правило действует в 91, 4% случаев, что становится ясно из итоговой таблицы результатов Правил связи.

Рис. 24. Таблица результатов поиска правил связи

Рис. 25. Граф найденных правил связи
2. Нейронные сети
Всего за 5-10 минут работы удалось построить и обучить сеть 100%-ной точности. При этом попутно были найдены и выделены всего 4 переменных из 40, которые полностью объясняли зависимую переменную.

Рис. 26. Архитектура многослойного персептрона
Сеть - многослойный персептрон, всего 3 слоя (1 скрытый), 4 элемента на входном слое, 10 на промежуточном, 1 на выходном.
Матрица ошибок для контрольной выборки:

Рис. 27. Матрица ошибок классификации на контрольной выборке
3. Процедуры обучения
Процедуры обучения (Метод опорных векторов и Байесовские оценки) не показали в данной задаче хороших результатов. Процент правильной классификации составил 91%, причем осложнения предсказывались с точностью всего 60%.

Рис. 28. Итоги классификации методом опорных векторов
4. Деревья классификации и регрессии
Метод, показавший 100%-ый результат при минимальном участии пользователя. Это связано с тем, что задача относительно несложная, и число классов зависимой переменной невелико (2 класса).

Рис. 29. Дерево классификации
Как видно, деревья классификации с построением выделили небольшое количество переменных, полностью классифицирующих зависимую.

Рис. 30. Матрица ошибок классификации с помощью деревьев классификации
5. Общие CHAID модели
Этот метод оказался неэффективным для данной задачи. Это связано с тем, что CHAID-модели предназначены в первую очередь для работы с большими объемами данных и большим числом классов выходной переменной.

Рис. 31. Матрица ошибок классификации с помощью CHAID алгоритма
Вывод
С помощью методов Data Mining, реализованных в STATISTICA, удалось спрогнозировать общий ход процесса послеоперационного восстановления со 100% точностью. Был выделен набор из 4 характеристик, которые определяют наличие/отсутствие осложнений после выписки из стационара.
Решение такого рода задач очень важно для медицинских работников. Технологии StatSoft позволяют успешно решать эти задачи и эффективно применять на практике разнообразные методы Data Mining.
Список литературы
-
Боровиков В.П. Искусство анализа данных на компьютере (для профессионалов) - 3-е издание, СПб.: Питер, 2003.
-
В. Дюк, А. Самойленко. Data Mining: учебный курс. - СПб: Питер, 2001.
В начало
Комментарии: