Описываемый пример основан на файле Nations.sta. Эти данные обсуждались в работе Краскала и Виша (Kruskal and Wish (1978, стр. 30)). Открыть этот файл можно с помощью меню Файл, выбрав команду Открыть; файл находится в директории /Examples/Datasets. Файл данных включает средние рейтинги сходств 18 студентов из 12 стран. Сравнивались студенты из Бразилии, Конго, Кубы, Египта, Франции, Индии, Израиля, Японии, Китая, России, США, и Югославии. Фрагмент полученной матрицы сходств приводится на рисунке ниже.

Заметим, что файл с матрицей сходства можно создать, просто вводя значения ее элементов в новой электронной таблице, следуя соглашениям по формату данных (они описаны в разделе Формат матричного файла).
Задание параметров анализа. Выберите команду Многомерное шкалирование в меню Анализ - Углубленные методы анализа, чтобы отобразить на экране стартовую панель модуля Многомерное шкалирование. Нажмите кнопку Переменные и в появившемся окне Выбор переменных выберите все переменные для анализа, нажмите кнопку OK.

Программа предполагает, что вы хотели бы найти двумерное решение для исходной матрицы сходств, и что стартовая конфигурация точек должна находится с помощью анализа главных компонент. Вы также можете задать стартовую конфигурацию во вкладке Опции указав файл данных системы STATISTICA, содержащий по строкам начальные координаты для точек.
Нажмите на кнопку OK, чтобы принять установки по умолчанию. Во-первых, будет вычислена стартовая конфигурация, и координаты ее точек будут отображены в электронной таблице в окне Оценивание параметров. (Заметим, что позже вы можете просмотреть эти начальные конфигурации, нажав на кнопку Запустить (начальную) конфигурацию во вкладке Просмотреть и сохранить диалогового окна Результаты.)
Выполнение анализа. Итерационный алгоритм поиска оптимальной конфигурации работает в два этапа: на первом, программа использует метод наискорейшего спуска. Соответствующее число итераций данного метода отображается в первой колонке (под заголовком итер. s:) в окне Оценивание параметров.
На втором этапе, после каждой итерации метода наискорейшего спуска, программа будет выполнять до пяти дополнительных итераций, с тем чтобы "уточнить" найденную конфигурацию (см. раздел Технические замечания для более детального ознакомления). Соответствующее число таких итераций будет отображено во второй колонке окна Оценивание параметров (она помечена, как итер. s:). Кроме того, программа вычисляет значения стресса (Kruskal, 1964) и коэффициента отчуждения Гутмана (Guttman, 1968). Они отображаются на экране на каждом шаге (см. также Вводный обзор и Технические замечания). Детальное обсуждение этой итерационной процедуры можно найти в работе Shiffman, Reynolds, Young (1981, стр. 366-370).

После определения наилучшей двумерной конфигурации программа выведет на экран окончательное значение стресса. Для перехода к окну Результатов нажмите кнопку OK.
Результаты. Опции окна Результаты позволяют просмотреть параметры полученной конфигурации в виде таблиц результатов или на графиках.

Вначале проведем сравнение исходной таблицы расстояний (сходства, связей) с воспроизведенными в полученной конфигурации точками.
Расстояния: воспроизведенные и наблюдаемые. Чтобы оценить качество подгонки двумерного решения, нажмите кнопку Итоги во вкладке Дополнительно окна Результаты.

В полученной таблице результатов имеется четыре колонки. В колонках D-с крышечкой и D-со звездочкой включают в себя монотонные преобразования входных данных (см. раздел Вводный обзор): D-со звездочкой вычисляются как ранговые образы, описанные в работе Гутмана (Guttman(1968)) (их еще называют "отклонениями"); значения из колонки D-с крышечкой являются оценками монотонной регрессии, вычисление которых описано в работе Краскала (Kruskal (1964)).
Строки в электронной таблице отсортированы по величине D-с крышечкой или D-со звездочкой. Каждая строка представляет одно из расстояний, заданных воспроизведенной матрицей сходства. Второй столбец таблицы содержит расстояния, воспроизведенные в текущей конфигурации. Если модель хорошо согласуется с данными (выбранные отображение и размерность адекватны данным), то последовательность воспроизведенных расстояний должна быть та же, что и для преобразованных входных данных (т.е. D-с крышечкой и D-со звездочкой). Неупорядоченные элементы указывают на неточность подгонки модели. Первый столбец таблицы результатов содержит имена элементов исходной матрицы, в виде D(X,Y), где X соответствует номеру строки, аY - номеру столбца исходной матрицы.
Например, D(2,1) соответствует элементу второй строки, первого столбца исходной матрицы (в нашем примере сравнение между Congo и Brazil). Как видно из таблицы, исходная последовательность расстояний достаточно точно воспроизводится двумерной конфигурацией точек.
Диаграмма Шепарда. Теперь перейдем к исследованию диаграммы Шепарда. Как уже говорилось во Вводном обзоре, эта диаграмма рассеяния является графиком зависимости воспроизведенных расстояний от исходных расстояний. Она также содержит в виде ступенчатой функции монотонное преобразование D-с крышечкой исходных расстояний. Для построения графика нажмите кнопку Диаграмма Шепарда во вкладке Быстрый или Дополнительно диалогового окна Результаты.

Большинство точек на этом графике располагаются сгруппировано вблизи этой ступенчатой линии. Поэтому можно заключить, что найденная двумерная конфигурация вполне адекватна исходным данным.
Интерпретация полученной конфигурации. Чтобы проинтерпретировать полученное решение, можно изобразить данную конфигурацию рассматриваемых наций на плоскости (в двумерном пространстве). Для этого вернитесь во вкладку Дополнительно и нажмите кнопку График окончательной конфигурации. После этого откроется промежуточное диалоговое окно Выберите оси для диаграммы рассеяния, в котором можно выбрать координатные оси для построения на экране двумерной диаграммы рассеяния. Выберите Измерен. 1 в поле Первая (X), Измерен. 2 в поле Вторая (Y) и затем нажмите кнопку OK, чтобы построить график.
Как описано во Вводном обзоре, направление осей в методе МНШ можно выбрать любым, так же как и в методах Факторного анализа). Таким образом, можно вращать полученную конфигурацию, чтобы получить проще интерпретируемые данные. Краскал и Виш (Kruskal и Wish (1978)) использовали программу KYST (реализующую несколько иной алгоритм МНШ) с тем, чтобы проанализировать рассматриваемые данные, и получили очень похожий результат. В дальнейшем они повернули найденное решение примерно на 45 градусов и проинтерпретировали повернутые оси координат как развитые и неразвитые страны, и страны с западной и коммунистической ориентацией. После изучения графика внизу, (повернутого на 45 градусов), эта интерпретация представляется вполне разумной (вспомним, что исследование проводилось в середине 1970'х).

Вообще, в дополнение к "осмысленным координатным осям", полезно также проверить наличие кластеров определенного вида (например, окружности, многообразия и т.п.). Подробнее интерпретация полученной конфигурации описана в работах Borg and Lingoes (1987), Borg and Shye(в печати) и Gutman (1968).
Продолжение анализа. Теперь нажмите кнопку Отмена в окне Результаты, чтобы вернуться в стартовую панель модуля Многомерное шкалирование.

Отметим, что установки программы по умолчанию во вкладке Опции отличаются от тех, что были при первом запуске программы. Модуль Многомерное шкалирование запоминает конфигурацию, найденную на предыдущем этапе анализа (до тех пор, пока вы не выберите новый файл или новые случаи). Кроме того, по умолчанию размерности образа для шкалирующего отображения во вкладке Быстрый равно 1. Сейчас можно нажать OK, чтобы вычислить одномерное решение, используя конфигурацию для первой координатной оси из предыдущего этапа анализа как начальную. Подобным способом можно эффективно построить несколько последовательных решений, начиная с нескольких координатных осей и постепенно продвигаясь к одномерному решению.
Критерий "каменистой осыпи": Отображение величины стресса на экране. Мы начали этот пример с нахождения двумерного решения. В действительности, если нам заранее не известна структура матрицы расстояний, то желательно построить график зависимости стресса от размерности воспроизводящего пространства. Выбрав на нем абсциссу, правее которой график близок к прямой линии, получаем оптимальное значение для размерности. Факторы, добавляющиеся справа от этой точки, по существу представляют собой "факторную осыпь" (последний термин осыпь - от английского scree - является геологическим и относится к кускам породы, которые собираются в основании скалистого обрыва; обсуждение этого графика см., например, Kruskal and Wish, 1978, стр. 53-56). Показанный ниже график, был получен по таблице значений стресса для последовательности результирующих пространств (с размерностями от 1 до 6) в ходе анализа исследуемых данных.

Выберите команду Линейный график (для переменных) в меню Графика - 2М Графики, чтобы построить показанный ниже график.

Исходя из анализа этого графика, было выбрано именно двумерное решение. Возможен также выбор трехмерного решения. Однако вопрос о том, является ли трехмерное решение более значимым, чем двумерное, остается спорным. Показанное чуть ниже, на 3М диаграмме рассеяния, это решение было получено заданием трехмерного пространства решения во вкладке Быстрый стартовой панели модуля Многомерное шкалирование. Чтобы построить этот график, нажмите кнопку 3М график окончательной конфигурации во вкладке Быстрый диалогового окна Результаты (эта кнопка была "затененной" при анализе одно- и двумерного решения, и становится доступной начиная с размерности три; отметим, что после нажатия этой кнопки вы должны выбрать оси для графика в окне Выберите оси для диаграммы рассеяния).

Attachments:
Комментарии: