Объектом исследования является совокупность образцов топлива, подвергшихся лабораторному исследованию. Все переменные, содержащиеся в таблице, стандартизованы (вычитается среднее, результат поделен на стандартное отклонение). Требуется сегментировать результаты исследований с различными образцами топлива (число сегментов изначально неизвестно).
Модели прогнозирования свойств сортов топлива, построенные на исходном множестве данных лабораторных исследований, не дают необходимой точности прогноза. Основная причина – разнородность сортов топлива. В данном примере воспользуемся технологией нейросетевого анализа для решения задачи сегментации. Заметим, что обычно при сегментировании какого-то набора объектов решают две задачи: проведение кластерного анализа, решение задачи идентификации группы по результатам лабораторных исследований. В данном примере мы займемся решением первой задачи.
Необходимо построить решающее правило, позволяющее отнести спектр к определенному кластеру с высокой степенью точности.
Структура данных
Исходные данные представлены в таблице системы STATISTICA. Фрагмент таблицы показан на рис. 1. Данные являются модельными и иллюстрируют подход к решению задач.

Рис. 1. Таблица исходных данных
Всего в таблице имеется 228 переменных, в которых содержатся данные измерений по каждому из 1810 образцов. Здесь все переменные – входные.
Единственной выходной переменной в данной задаче будет переменная, задающая результаты классификации. Значения этой переменной нам и требуется определить.
Построение модели
Шаг 1. Запускаем модуль Автоматизированные Нейронные Сети из меню Анализ. Для проведения кластерного анализа (когда итоговая классификация не известна) используется архитектура Нейронной сети, которая называется Самоорганизующиеся карты Кохонена.
В качестве типа анализа выбираем Кластерный анализ и нажимаем ОК.

Рис. 2. Стартовое окно модуля Нейронные сети с необходимыми установками
Далее, заходим в диалог задания переменных и выбираем все 226 независимых переменных как непрерывные входные переменные. А также задаем разбиение на подвыборки.
При построении карт Кохонена используется фиксированная стратегия Пользовательская нейронная сеть (ПНС), поэтому просто нажимаем OK и переходим к следующему этапу: выбору сетевой архитектуры и заданию параметров.
Шаг 2. В окне Пользовательская нейронная сеть (ПНС) – вкладка Быстрый (Кохонен) (рис. 3) необходимо указать размер топологической карты. Сделаем следующие установки: ширина – 5, высота – 5.

Рис. 3. Диалоговое окно Пользовательская нейронная сеть (ПНС) – вкладка Быстрый (Кохонен)
Перейдем на вкладку Кохонен - обучение (рис. 4). На данной вкладке необходимо задать параметры обучения нейронной сети.

Рис. 4. Диалоговое окно Пользовательская нейронная сеть (ПНС) – вкладка Кохонен - обучение
В рамках данного примеры мы не будем углубляться в смысл параметров, задаваемых в этом окне.
Шаг 3. Перейдем к изучению результатов. Топологическая карта, на которой для каждой ячейки указываются частоты (и выделяются цветом) попадания наблюдений, выглядит следующим образом. С помощью данной карты можно попытаться разбить все данные на кластеры, а потом проверить классификацию на известных метках.

Рис. 5. Окно Топологическая карта
Шаг 4. После того как кластеризация проведена, мы можем классифицировать новые наблюдения, путем соотнесения их к конкретному кластеру.
Чтобы понять более четкую структуру кластеров и их количество, желательно провести ряд экспериментов по построению больших и маленьких карт. Это позволит выявить как большие, так и малые группы наблюдений.
В начало
Комментарии: