Анализ главных компонент

Компонентный анализ (components analysis) – многомерный статистический метод снижения размерности, применяемый для изучения взаимосвязей между значениями количественных переменных. Задача компонентного анализа состоит в преобразовании исходной системы взаимосвязанных переменных в новую систему некоррелированных обобщенных показателей или ортогональных показателей. Новые некоррелированные показатели называются компонентами.

Алгоритм компонентного анализа состоит в последовательном извлечении компонент. Для единственности решения в методе главных компонент компоненты должны быть упорядочены по убыванию доли объясняемой суммарной дисперсии исходных переменных. Первая компонента характеризует наибольшую долю вариации исходных переменных, вторая компонента объясняет наибольшую долю дисперсии, не объясняемой первой компонентой и т.д. В результате компонентного анализа число полученных некоррелированных компонент совпадает с числом исходных переменных. Т.е. классический компонентный анализ сохраняет размерность пространства переменных.

Каждой извлеченной компоненте соответствует характеристика, называемая собственным значением. Собственное значение показывает часть вариации исходных переменных, объясняемую компонентой. В компонентном анализе, если используется корреляционная матрица, каждая переменная стандартизирована и ее дисперсия равна 1. Следовательно, если число исходных переменных k, то суммарная дисперсия равна k. Компонентный анализ сохраняет всю суммарную дисперсию, поэтому сумма всех собственных значений равна числу исходных переменных. На основе полученных собственных значений рассчитывается матрица нагрузок и дается интерпретация компонент.

На основе полученной матрицы нагрузок в компонентном анализе может быть произведено вращение факторов для получения простой структуры матрицы нагрузок. Классический компонентный анализ, в отличие от факторного анализа, не предполагает вращение матрицы нагрузок. Но вращение настолько полезная возможность методов снижения размерности, что алгоритмы вращения были разработаны для компонентного анализа.

На основе окончательной матрицы нагрузок рассчитывают индивидуальные значения главных компонент для каждого объекта наблюдения. Индивидуальные значения главных компонент на объектах представляют собой линейную комбинацию исходных переменных для каждого фактора. На практике для интерпретации и дальнейшего анализа используют компоненты, удовлетворяющие следующим условиям:
- их собственные значения должны быть больше 1 – это означает, что компонента более информативна, чем стандартизированная переменная;
- компонента должна иметь хотя бы одну нагрузку больше критического значения – это означает, что компонента тесно связана, по крайней мере, с одной исходной переменной.

Отобранные для дальнейшего анализа компоненты называют главными компонентами. Отсюда название метода – метод главных компонент. Индивидуальные значения главных компонент могут быть использованы для дальнейшего статистического анализа, например:
- построения уравнения регрессия на главные компоненты;
- классификации наблюдений по главным компонентам.

Очень часто под термином «факторный анализ» понимают методы факторного и компонентного анализов. На самом деле, компонентный анализ представляет собой самостоятельный метод снижения размерности.

Факторный и компонентный анализы – оба метода снижения размерности. Оба метода решают в принципе одну и ту же задачу и поэтому результаты похожи. В матрицах нагрузок первый общий фактор и первая главная компонента, как правило, совпадают. Второй фактор может уже существенно отличаться от второй главной компоненты и т.д. Иногда даже число общих факторов может существенно отличаться от числа весомых главных компонент.

Предпосылки методов факторного и компонентного анализа различаются. Цель компонентного анализа – объяснить всю корреляцию между переменными и всю суммарную дисперсию исходных переменных. Число первоначально извлеченных компонент совпадает с числом исходных переменных. Хотя в дальнейшем анализе используются только главные компоненты. В факторный анализ с самого начала предполагает, что число извлеченных факторов будет существенно меньше числа первоначальных переменных.

В факторном анализе извлеченные новые переменные-факторы в принципе не могут объяснить полностью суммарную дисперсию исходных переменных и их корреляции.

Компонентный анализ используют чаще как метод избавления от мультиколлинеарности объясняющих переменных в регрессионном анализе. Главные компоненты всегда не коррелированы между собой. Общие факторы могут быть коррелированными или слабо коррелированными между собой.

В факторном анализе делается больший акцент на интерпретации факторов. В компонентом анализе делается больший акцент на сокращение размерности пространства за счет некоррелированных переменных.

Подробнее...

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты