Содержание
Введение
Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных, образно говоря, в "нахождении золотых песчинок в огромной куче руды".
Дело в том, что человеческий разум сам по себе не приспособлен для восприятия больших массивов разнородной информации.
В среднем человек, за исключением некоторых индивидуумов, не способен улавливать более двух-трех взаимосвязей даже в небольших выборках.
Но и традиционная статистика, долгое время претендовавшая на роль основного инструмента анализа данных, также нередко пасует при решении задач из реальной жизни. Она оперирует усредненными характеристиками выборки, которые часто являются фиктивными величинами (средней платежеспособностью клиента, когда в зависимости от функции риска или функции потерь, вам необходимо уметь прогнозировать состоятельность и намерения клиента; средней интенсивностью сигнала, тогда как вам интересны характерные особенности и предпосылки пиков сигнала и т.д.).
Поэтому методы математической статистики оказываются полезными главным образом для проверки заранее сформулированных гипотез, тогда как определение гипотезы иногда бывает достаточно сложной и трудоемкой задачей. Современные технологии Data Mining перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных.
Data Mining - это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы пытаетесь получить. Вот, например, некоторые методы: ассоциация (объединение), классификация, кластеризация, анализ временных рядов и прогнозирование, нейронные сети и т.д.
Сфера применения Data Mining ничем не ограничена - Data Mining нужен везде, где имеются какие-либо данные.
Меню STATISTICA Data Miner
Меню Data Mining - Workspaces доступно через основное меню Data Mining.

Рис. 1. Рабочее пространство Data Miner
Рабочее пространство Data Miner разделено на 4 секции:
1) Data Acquisition - Сбор данных. В данной части пользователь идентифицирует источник данных для анализа, будь то файл данных или запрос из базы данных.
2) Data Preparation, Cleaning, Transformation - Подготовка, преобразования и очистка данных. Здесь данные преобразуются, фильтруются, группируются и т.д.
3) Data Analysis, Modeling, Classification, Forecasting - Анализ данных, моделирование, классификация, прогнозирование. Здесь пользователь может при помощи браузера или готовых моделей задать необходимые виды анализа данных, таких как прогнозирование, классификация, моделирование и т.д.
4) Reports - Результаты. В данной части пользователь может просмотреть, задать вид и настроить результаты анализа (например, рабочая книга, отчет или электронная таблица).
Все процедуры, доступные в STATISTICA Data Miner, можно загрузить через меню Node Browser.
Меню Data Mining - Workspaces доступно через основное меню Data Mining.

Рис. 2. Node Browser
Здесь помимо процедур Data Mining можно найти и стандартные процедуры анализа данных, доступные в системе STATISTICA.
Средства анализа STATISTICA Data Miner
В пакете предлагается исчерпывающий набор процедур и методов визуализации. Средства анализа STATISTICA Data Miner можно классифицировать на пять основных групп:
-
General Slicer/Dicer and Drill-Down Explorer - Разметка/Разбиение и Углубленный анализ. Набор процедур, позволяющий разбивать, группировать переменные, вычислять описательные статистики, строить исследовательские графики и т.д.
-
General Classifier - Классификация. STATISTICA Data Miner включает в себя полный пакет процедур классификации: обобщенные линейные модели, деревья классификации, регрессионные деревья, кластерный анализ и т.д.
-
General Modeler/Multivariate Explorer - Обобщенные линейные, нелинейные и регрессионные модели. Данный элемент содержит линейные, нелинейные, обобщенные регрессионные модели и элементы анализа деревьев классификации.
-
General Forecaster - Прогнозирование. Включает в себя модели АРПСС, сезонные модели АРПСС, экспоненциальное сглаживание, спектральный анализ Фурье, сезонная декомпозиция, прогнозирование при помощи нейронных сетей и т.д.
-
General Neural Networks Explorer - Нейросетевой анализ. В данной части содержится наиболее полный пакет процедур нейросетевого анализа.
Приведенные выше элементы являются комбинацией модулей других продуктов StatSoft, кроме них STATISTICA Data Miner содержит набор специализированных процедур Data Mining, которые дополняют линейку инструментов Data Mining:
-
Feature Selection and Variable Filtering (for very large data sets) - Специальная выборка и фильтрация данных (для больших объемов данных). Данный модуль автоматически выбирает подмножества переменных из заданного файла данных для последующего анализа. Например, модуль может обработать около миллиона входных переменных с целью определения предикторов для регрессии или классификации.
-
Association Rules - Правила ассоциации. Модуль является реализацией так называемого априорного алгоритма обнаружения правил ассоциации, например, результат работы этого алгоритма мог бы быть следующим: клиент после покупки продукт "А", в 95 случаях из 100, в течении следующих двух недель после этого заказывает продукт "B" или "С".
-
Interactive Drill-Down Explorer - Интерактивный углубленный анализ. Представляет собой набор средств для гибкого исследования больших наборов данных. На первом шаге вы задаете набор переменных для углубленного анализа данных, на каждом последующем шаге вы выбираете необходимую подгруппу данных для последующего анализа.
-
Generalized EM & k-Means Cluster Analysis - Обобщенный метод максимума среднего и кластеризация методом К средних. Данный модуль - это расширение методов кластерного анализа, предназначен для обработки больших наборов данных и позволяет кластеризовать как непрерывные, так и категориальные переменные, обеспечивает все необходимые функциональные возможности для распознавания образов.
-
General Classification and Regression Trees (GTrees) - Обобщенные классификационные и регрессионные деревья (GTrees). Модуль является полной реализацией методов, разработанных Breiman, Friedman, Olshen, и Stone (1984). Кроме этого модуль содержит разного рода доработки и дополнения, такие как оптимизации алгоритмов для больших объемов данных и т.д. Модуль является набором методов обобщенной классификации и регрессионных деревьев.
-
General CHAID (Chi-square Automatic Interaction Detection) Models - Обобщенные CHAID модели (Хи-квадрат автоматическое обнаружение взаимодействия). Подобно предыдущему элементу, данный модуль является оптимизацией данной математической модели для больших объемов данных.
-
Interactive Classification and Regression Trees - Интерактивная классификация и регрессионные деревья. В дополнение к модулям автоматического построения разного рода деревьев, STATISTICA Data Miner также включает средства для формирования таких деревьев в интерактивном режиме.
-
Boosted Trees - Расширяемые простые деревья. Последние исследования аналитических алгоритмов показывают, что для некоторых задач построения "сложных" оценок, прогнозов и классификаций, использование последовательно увеличиваемых простых деревьев дает более точные результаты, чем нейронные сети или сложные цельные деревья. Данный модуль реализует алгоритм построения простых увеличиваемых (расширяемых) деревьев.
-
Multivariate Adaptive Regression Splines (Mar Splines) - Многомерные адаптивные регрессионные сплайны (Mar Splines). Данный модуль основан на реализации методики, предложенной Friedman (1991; Multivariate Adaptive Regression Splines, Annals of Statistics, 19, 1-141). В STATISTICA Data Miner расширены опции MARSPLINES для того чтобы приспособить задачи регрессии и классификации к непрерывным и категориальным предикторам.
-
Goodness of Fit Computations - Критерии согласия. Данный модуль производит вычисления различных статистических критериев согласия, как для непрерывных переменных, так и для категориальных.
-
Rapid Deployment of Predictive Models - Быстрые прогнозирующие модели (для большого числа наблюдаемых значений). Модуль позволяет строить за короткое время классификационные и прогнозирующие модели для большого объема данных. Полученные результаты могут быть непосредственно сохранены во внешней базе данных.
Data Mining включает огромный набор различных аналитических процедур, что делает его недоступным для обычных пользователей, которые слабо разбираются в методах анализа данных. Компания StatSoft нашла выход и из этой ситуации, данный пакет могут использовать как профессионалы, так и обычные пользователи, обладающие небольшими опытом и знаниями в анализе данных и математической статистике. Для этого кроме общих методов анализа были встроены готовые законченные (сконструированные) модули анализа данных, предназначенные для решения наиболее важных и популярных задач: прогнозирования, классификации, создания правил ассоциации и т.д.
Исходные данные
Имеется файл с данными Ср. температура и осадки по Москве.sta, в котором содержится информация о среднемесячных температурах и месячных осадках с 1948 года по 2009 года.

Рис. 3. Фрагмент таблицы данных
Так же в таблице данных содержится информация о среднегодовой температуре и среднегодовых осадках.
Таблица данных состоит из 26 переменных и 62 наблюдений.
Анализируемые переменные являются непрерывными по своей природе.
Цель исследования: определить возможные зависимости между переменными, построить модель для прогнозирования температуры по имеющимся данным.
Описательный анализ
Анализ данных начнем с изучения среднегодовой температуры, график которой представлен на рисунке 4.

Рис. 4. Среднегодовая температура
На графике отчетливо виден тренд увеличения среднегодовой температуры. Количество осадков в Москве, наоборот, в среднем стабильно неизменчиво из года в год, за исключением периода в середине 50-ых годов.

Рис. 5. Годовые осадки
Посмотрим на график среднемесячных температур по периодам (зима, весна, лето, осень).

Рис. 6. Среднемесячные температуры
Посмотрим на график среднемесячных температур по всему периоду наблюдений (рисунок 7).

Рис. 7. График средних температур
Как хорошо видно из графика, наибольшая изменчивость средних температур наблюдается для зимних месяцев, а наименьшая - для летних. Для осадков наблюдается противоположная картина. Наибольшая изменчивость осадков характерна для летних месяцев, в частности, для июля.

Рис. 8. График средних осадков
Для выявления скрытых зависимостей и взаимосвязей в данных воспользуемся ассоциативными правилами. Для этого преобразуем исходную таблицу данных. Вычислим средние температуры и осадки за весь период наблюдений.

Табл. 1. Описательные статистики
Если среднемесячная температура конкретного месяца конкретного года (например, июль 1978) больше среднемесячной температуры этого месяца за весь период наблюдений, то заменяем это значение в ячейке таблицы на 1, 0 - в противном случае. Аналогичную процедуру проведем и для переменных, в которых содержится информация об осадках.
Как итог получаем новую таблицу данных, фрагмент представлен на рисунке 9.

Рис. 9. Фрагмент преобразованных данных
Анализ Data Mining – Association Rules основан на построении ассоциативных правил связи между наблюдаемыми явлениями. Ассоциативные правила позволяют находить закономерности между связанными событиями. Скажем, если сейчас на улице жарко (температура больше 25), то в 86% случаев (здесь имеются в виду дни) – сейчас лето. При этом жарких летних дней было всего 11% от общего количества наблюдаемых дней.
Здесь 86% – называются достоверностью (confidence) ассоциативного правила:
«Температура: Жарко» → «Сезон : Лето»,
А 11% - поддержкой (support) этого ассоциативного правила.
Также существует еще одна характеристика связи - корреляция. В некотором смысле, она является нормализованной величиной поддержки. Поэтому мы не будем подробно рассматривать данную характеристику.
Определим, какие еще закономерности можно обнаружить в данных с помощью анализа ассоциативных правил.

Табл. 2. Ассоциативные правила
Анализ обнаружил 32 ассоциативных правила, удовлетворяющих ограничениям на минимальные значения уровня поддержки, достоверности и корреляции.
Например, если в марте средняя температура была меньше -2, то осадков в октябре будет меньше 64 с вероятностью 0.73 (см. 13 строчку).
Таким образом, использование ассоциативных правил позволяет найти на этапе разведочного анализа возможные скрытые зависимости и связи. Полученные результаты затем можно использовать для построения регрессионных и прогностических моделей, проведения кластеризации и т.д.
Кластерный анализ
Классический алгоритм кластеризации k-средними стал общеизвестным благодаря Hartigan (1975; см. также Hartigan и Wong, 1978). Основная операция этого алгоритма относительно проста: заданно фиксированное число (желательное или гипотетическое) k кластеров, наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.
Расширения и обобщения. Методы, представленные в модуле Обобщенные методы кластерного анализа STATISTICA Data Miner, расширяют эти основные приближения кластеризации тремя важными методами:
-
Вместо того, чтобы задавать соответствие наблюдений кластерам так, чтобы максимизировать разницу в средних для непрерывных переменных, алгоритм кластеризации EM (поиск максимума) вычисляет вероятности членства в кластере, основываясь на одном или более вероятностном распределении. Цель алгоритма кластеризации - максимизировать вероятность полного правдоподобия данных, задаваемых в (последних) кластерах.
-
В отличие от классической реализации алгоритма кластеризации k-средними в модуле Кластерный анализ, алгоритмы k-средних и EM в модуле Обобщенные методы кластерного анализа могут быть применены равно для непрерывных и категориальных переменных.
-
Основное отличие алгоритма кластеризации k-средними в том, что вы должны указать число кластеров перед началом анализа (то есть, число кластеров должно быть априори известно); модуль Обобщенные методы кластерного анализа использует измененную схему v-кратной кросс-проверки для определения наилучшего числа кластеров по данным. Это расширение делает модуль Обобщенные методы кластерного анализа весьма полезным инструментом добычи данных для неконтролируемого обучения и распознавания образов.
Рассмотрим применение кластерного анализа на наших данных. Воспользуемся алгоритмом k-средних.
В ходе прогона алгоритма мы получили два кластера.
Наибольший вклад в разделение по кластерам внесли переменные январь (Ср. темр.), февраль (Ср. темп.), март (Ср. темп), ср. декабрь за прошлый год. Такой вывод сделан на основе результатов применения дисперсионного анализа (см. таблицу 3). Также график средних (рисунок 10) подтверждает эти результаты.

Табл. 3. Дисперсионный анализ

Рис. 10. График средних
Так как на вышепоказанном рисунке приведены стандартизированные средние переменных для каждого кластера, то построим график наблюдаемых среднемесячных температур для каждого кластера.

Рис. 11. График средних температур
Результатом проведения кластерного анализа служит то, что мы смогли выделить годы, которые характеризуются более холодными зимами и, как следствие, эти года являются чуть более холодными, нежели те, которые попали в другой кластер, с более теплыми зимами.
Прогнозирование средней температуры июля
В данном разделе рассмотрим построение модели, которая по средней температуре зимних месяцев спрогнозирует среднюю температуру июля. Рассмотрим метод опорных векторов (МОВ).
При построении регрессии МОВ оценивается функциональная зависимость переменной y от набора независимых переменных x. Как и во всех регрессионных задачах, здесь предполагается, что связь между зависимыми и независимыми переменными задается детерминированной функцией f и аддитивным шумом:
y = f(x) + noise
Задача состоит в том, чтобы найти функциональное представление для f, которое бы правильно предсказывало новые наблюдения. Цель достигается обучением МОВ модели на образцовой выборке (на учебных наблюдениях). Процесс обучения, связан с последовательной оптимизацией функции ошибки.
В нашем случае оставим для обучения наблюдения с 1948 по 2000 год. На остальных же годах выполним кросс-проверку для определения качества построенной модели.

Табл. 4. Результаты обучения
Ошибка обучения составила 7%.
Следующим шагом будет проверка точности прогноза, получаемого с помощью построенной нами модели. В таблице 5 приведены наблюдаемые и прогнозируемые моделью средние температуры июля.

Табл. 5. Результаты кросс-проверки
Ошибка кросс-проверки составила 5%.
Это означает, что с помощью модели, построенной методом опорных векторов, мы можем, зная средние температуры зимних месяцев, предсказывать среднюю температуру июля с точностью примерно 5%.
Список литературы
-
В.П.Боровиков. STATISTICA. Искусство анализа данных на компьютере: для профессионалов (2-е издание), СПб.: Питер, 2003. – 688 с.: ил.
-
Г.И.Ивченко, Ю.И.Медведев. Математическая статистика. – М.: Высшая школа, 1984. – 248 с.
-
Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. – М.: Большая Российская энциклопедия, 2003. – 912 с.
-
Электронный учебник компании StatSoft.
В начало
Комментарии: