Применение методов кластеризации STATISTICA в геологии

Опубликовал: pvi777 в категорию Геологоразведка - Дата добавления: 28.09.2023, 07:43


Содержание

В STATISTICA реализованы классические методы кластерного анализа, включая методы k-средних, иерархической кластеризации и двухвходового объединения. Кластеризация является одной из важнейших задач в геологии, с помощью которой проводится разделении территории месторождения на перспективные и неперспективные участки.

Постановка задачи

Рассматривается задача опробования месторождения по критерию содержания в рассмотренных образцах золота и меди и нахождения перспективных участков для его дальнейшего эксплуатирования, для этого применяем классический метод К-средних и его обобщенный аналог, реализованный в модуле Data Mining.

Исходные данные

Имеется Sample.sta – таблица данных STATISTICA, в которой представлены 20.000 наблюдений проб. Пробы охарактеризованы 5 параметрами:

  • X, Y – координаты скважин;

  • Z – глубина взятия пробы;

  • A1, A2 – содержание полезных ископаемых в пробе.

Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами или объектами, и ясно, что при вычислении расстояния необходимо задать масштаб измерений.

Поскольку различные измерения используют абсолютно различные типы шкал, данные необходимо стандартизовать (в меню Данные выберете пункт Стандартизовать), так что каждая переменная будет иметь среднее 0 и стандартное отклонение 1.

Фрагмент таблицы со стандартизованными переменными приведен ниже.

Как правило, использованию классического метода К-средних предшествует иерархическая кластеризация, которая позволяет визуально оценить оптимальное для исследователя количество кластеров, исходя из расстояний между элементами, но в данном случае иерархическую кластеризацию использовать нельзя из-за достаточно большого количества наблюдений, поэтому начнем перебор количества кластеров.

Метод 1. Кластеризация методом К средних

Выберем Кластерный анализ в меню Анализ - Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В Стартовой панели модуля Кластерный анализ выберем Кластеризация методом К средних.

Нажмем кнопку Переменные и выберем Все, в поле Объекты выберем Наблюдения (строки), зададим количество кластеров разбиения. После выполнения анализа для различного количества кластеров было решено использовать 4 кластера.

В окне Результаты метода К средних выберем Дисперсионный анализ для определения значимости различия между полученными кластерами.

Итак, значение р<0.05, что говорит о значимом различии.

Также в окне Результаты метода К средних можно выбрать пункты График Средних и Статистики для каждого кластера.

В геологии очень важна визуализация полученных результатов, поэтому очень важно территориальное различие между кластерами. Для этого на диаграмме рассеяния рассмотрим полученные результаты. Для этого нам необходима таблица с указанным разделением элементов на кластеры. В окне Результаты метода К средних выберем Сохранить Классификацию и расстояния.

Для полученной таблицы выберем пункт Диаграмма рассеяния в меню Графика. Во вкладке Дополнительно нажмем Отметить выбранные подгруппы.

Результаты кластеризации сохранились в седьмой переменной, поэтому для каждой подгруппы прописываем номер соответствующего кластера.

Полученная диаграмма рассеяния имеет вид:

Метод 2. Кластеризация с помощью Data Mining

Data Mining позволяет проводить модифицированные виды классических анализов, в том числе Кластерный анализ. Отличие от классического метода К-средних заключается в том, что  дополнительно проводится кросс-проверка на тестовых множествах, которая позволяет минимизировать ошибку и подобрать оптимальное число кластеров для данной модели.

В модуле Добыча Данных выберем Обобщенные методы Кластерного анализа. В окне VariablesContinuous Variables снова выберем все переменные и откроем вкладку Validation. В окне V-fold Cross Validation поставим галочку и подберем минимальное и максимальное желаемое число кластеров.

Нажимаем кнопку ОК и через некоторое время появится окно результатов.

В итоге мы получили 9 кластеров.

В окне Generalized Cluster Analysis реализованы аналогичные методы представления результатов, что и в окне результатов классического метода К-средних.

Аналогично предыдущему пункту, построим Диаграмму рассеяния для полученных кластеров.

Примечания к ограничениям использования классического метода К-средних: возможно использование максимум порядка 1.000.000 наблюдений и порядка 4.000 переменных.

В начало



Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты