Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Классификация и снижение размерности

Опубликовал: pvi777 в категорию Материалы по эконометрике и прикладной статистике - Дата добавления: 29.03.2024, 18:23


Данная книга является третьей в трехтомном справочном издании, задуманном и реализуемом нашим авторским коллективом. В первом томе (Айвазян - Основы моделирования и первичная обработка данных) дается, в частности, определение прикладной статистики, как самостоятельной научной дисциплины, разрабатывающей и систематизирующей понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов.

Второй том (Айвазян - Исследование зависимостей) посвящен описанию методов анализа структуры, тесноты и конкретного вида статистических связей между исследуемыми признаками разной природы — количественными, ординальными, номинальными (категоризованными), а также обзору программного обеспечения этих методов. В числе описанных методов — корреляционный, регрессионный, дисперсионный, ковариационный анализ, элементы анализа временных рядов и систем одновременных эконометрических уравнений.

При минимальной вероятностно-статистической подготовке читателя, обеспечиваемой, например, обычным вероятностно-статистическим курсом экономического или технического вуза, данный (третий) том пригоден для полностью автономного чтения (т.е. его понимание не требует знания каких-либо специальных сведений, содержащихся в первых двух томах). Он посвящен актуальнейшим аспектам общей проблемы статистического анализа данных — задачам классификации объектов, снижения размерности исследуемого признакового пространства и статистическим методам их решения. Лишь в последние два-три десятилетия, когда определенного уровня достигли вычислительная база исследований и теоретические разработки многомерного статистического анализа, главной проблемой теории и практики классификации и снижения размерности стало развитие достаточно изощренного и эффективного в приложениях математического аппарата. На этом пути уже имеются серьезные достижения, однако до сих пор в отечественной, да пожалуй, и в мировой специальной литературе не было издания, в котором эти достижения были бы достаточно полно просистематизированы, выстроены в общую методологическую схему, снабжены необходимыми практическими рекомендациями (включая вопросы преодоления вычислительных трудностей и использования подходящего типового программного обеспечения).

Авторы предлагаемой вниманию читателей книги ставили перед собой именно такую целевую установку. При этом изложение построено таким образом, что уже знакомство с «Введением» должно позволить читателю составить достаточно ясное представление о сущности и назначении статистических методов классификации и снижения размерности, понять их разноаспектную типологизацию, узнать о содержании и логических связях всех частей книги (включая основные постановки задач и «адреса» их решений в книге). Следует отметить в общем замысле и в содержании книги один аспект, который выделяет ее среди другой литературы данного профиля. Речь идет о том специальном и неослабном внимании, которое уделяется в книге реализации важнейшего, узлового этапа всякого прикладного исследования, использующего математические методы и модели, — этапа разведочного статистического анализа. Как известно, назначение этого этапа — тщательный предварительный анализ, своеобразное «прощупывание» исходных статистических данных с целью выявления их вероятностной и геометрической природы, формирования и верификации тех или иных рабочих гипотез, касающихся этого аспекта проблемы. Принятые на этом этапе рабочие исходные допущения о математической модели реального механизма генерирования анализируемых данных являются определяющими в выборе необходимого математического инструментария, а значит, — и в успехе всего статистического исследования. Однако, к сожалению, в существующей практике прикладных статистических исследований этот важнейший этап чаще всего либо полностью игнорируется, либо реализуется весьма поверхностно. И одна из главных причин этого — почти полное отсутствие необходимой научно-методологической литературы (изданный много лет назад перевод книги Дж. Тьюки «Разведочный анализ», в свое время весьма полезный, ныне приходится отнести к устаревшим источникам информации). В данной же книге эти вопросы занимают центральное место: так или иначе с ними связано большинство глав, а непосредственно этой проблематике посвящен специальный раздел IV. Авторы старались сопровождать изложение этих важных вопросов подробным описанием существа, роли и научно-прикладного значения результатов, полученных отечественными специалистами (в сравнении с результатами зарубежных исследователей).

Книга состоит из 4 разделов и 21 главы.

Раздел I посвящен задачам классификации в ситуации, когда исследователь обладает так называемыми обучающими выборками (т.е. «классификации с учителем»). Математический аппарат, используемый при решении подобных задач, объединяется в разделе многомерного статистического анализа, именуемого дискриминантный анализ.

Раздел II посвящен задачам «классификации без учителя» (исследователь не располагает обучающими выборками). Математический аппарат решения таких задач включает в себя методы кластер-анализа, или автоматической классификации (в том числе иерархические процедуры классификации), а также статистические методы расщепления смесей вероятностных распределений.

Раздел III содержит описание наиболее разработанных и эффективных методов снижения размерности исследуемого признакового пространства и отбора наиболее информативных показателей. Среди представленных здесь методов — главные компоненты, факторный анализ, метод экстремальной группировки параметров, многомерное шкалирование, экспертно-статистический метод построения интегрального (латентного) показателя, методы нелинейного отображения многомерных данных в пространства низкой размерности по различным критериям, анализ соответствий в случае неколичественных переменных.

Раздел IV объединяет в себе описание методов так называемого разведочного статистического анализа и одновременно вопросов вычислительной и программной реализации представленных в книге методов, включая обзор по соответствующему программному обеспечению ЭВМ (в том числе персональных ЭВМ) и краткое освещение проблем интеллектуализации статистического программного обеспечения. Методы разведочного (предмодельного) статистического анализа данных (и, в частности, методы целенаправленного проецирования многомерных наблюдений) направлены на «прощупывание» геометрической и вероятностной природы обрабатываемых данных с целью формирования адекватных реальности рабочих исходных допущений, на которых строится дальнейшее исследование. Эти методы как один из инструментов разведочного анализа являются естественным и необходимым дополнением к методам первичной статистической обработки. Сделанный в книге особый акцент на этих методах обусловлен тем обстоятельством, что в существовавшей до последнего времени практике статистических исследований этапу предмодельного анализа, методам выявления геометрической и вероятностной природы обрабатываемых данных, различным приемам тестирования гипотетических структур используемых моделей, как правило, не уделялось должного внимания.

В книгу включен ряд оригинальных результатов исследований авторов, а также результаты, ранее не публиковавшиеся в отечественной литературе: общая теория автоматической классификации, экспертно-статистический метод построения единого сводного показателя эффективности, некоторые приемы томографического анализа и целенаправленного проецирования многомерных данных, методы классификации при наличии элементов обучения, методы оцифровки неколичественных переменных.

Мы считаем, что термин «прикладная статистика» вполне приемлем, тем более что он уже давно в обиходе в целом ряде стран (США, ФРГ и др.), в которых имеются специализации студентов, институты и журналы такого названия. Хотелось бы обратить внимание читателя на наиболее актуальные направления исследований этой научной дисциплины.

а) Развитие методов анализа данных, не апеллирующих к их вероятностной природе, а также методов, нацеленных на выявление вероятностной и геометрической природы обрабатываемых данных в условиях отсутствия соответствующей априорной информации. Именно таким методам уделено большое внимание в данной книге (кластер-анализ, многомерное шкалирование, томографические методы, целенаправленное проецирование многомерных данных и т.п.) и именно они, как правило, оказываются вне поля зрения монографий и руководств по математической статистике.

б) Формализация {математическая постановка) реальных задач статистического анализа данных в различных предметных областях (экономике, социологии, медицине и т.д.) и на базе это го опыта выработка типовых математических постановок задач, выходящих за стеснительные рамки жестких канонических моделей. Этот самый важный и самый трудный этап математико-статистического исследования является и самым неблагодарным, поскольку de facto оказался как бы «незаконнорожденным дитем» теории и практики статистического анализа данных. Искусство реалистического моделирования формально не предусмотрено ни в одном из разделов инструментальной статистической науки, его развитие никак и ничем не стимулируется. Разрозненный положительный опыт такого рода, однако, приупомянутые понятия и подходы казались актуальными для приложений.

В свете сказанного нам представляется вполне оправданной и объективно назревшей необходимость специальных изданий по прикладной статистике.

Данное справочное издание адресовано как статистикам, экономистам, социологам, медикам и специалистам в других областях, использующим статистические методы классификации и снижения размерности в ходе решения задач, так и математикам, профессионалам-разработчикам описываемого математического аппарата (включая математиков-программистов). Специалист не математик может ограничиться «потребительским» стилем пользования данной книгой, при котором внимание сосредотачивается на постановках задач и рекомендациях по реализации предложенных решений (алгоритмах, описании диапазона их применимости, практических приемах анализа данных, программах), а усвоение обоснований этих рекомендаций и свойств используемых процедур не является необходимым.

В заключение одно важное, с нашей точки зрения, наблюдение. Все мы в настоящее время являемся свидетелями и в той или иной мере участниками набирающего все большую силу глобального процесса информатизации общества. В проекции на проблематику данного издания это означает, в частности, что через сравнительно небольшое время персональный компьютер, а с ним и широкие возможности анализа данных станут неотъемлемой частью не только учрежденческого, но и домашнего уклада жизни. А следовательно, в повестке дня — бурная динамика роста спроса на методы и программы прикладной статистики.


Скачать:


  • Теги:

Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты