Session 15 - Variable redundancy

Просмотры: 1 Добавил: pvi777 StatSoft Statistica 
Описание материала:

Сегодня в серии Data Mining Statistica мы поговорим об избыточных переменных. В этом блоке мы продолжим работу с данными оценки кредитоспособности. В последних двух блоках мы познакомились с инструментом Выбор признаков и экранирование переменной и обсудили его преимущества для проекта обработки и анализа данных. Последующие блоки будут построены на этой информации.
0:19
Темы для этого блока о переменной избыточности: определение избыточных переменных, выявление их в категориальных и непрерывных данных и влияние избыточности на проекты обработки и анализа данных.
0:33
Что такое избыточные переменные? Это переменные, которые содержат одинаковую информацию. Так как информация одна и та же, то использование избыточной переменной для построения модели желательно. Если они имеют отношение к нашему анализу, то их следует включить, но не все.
0:51
Вот пример избыточных переменных, которые являются категориальными. Переменные Работа у настоящего работодателя и записи в трудовой книжке. Из многокоординатной таблицы легко увидеть, что эти две переменные содержат большое количество совпадающей информации. Те, кто работает на настоящем месте более 1 года считаются удовлетворительными. Итак, менее 1, от 1 до 5 и больше 8 – все относятся к удовлетворяющей оценке. Показатель менее 1 года имеет запись либо как недостаточная информация, либо неудовлетворяющая оценка. Поэтому для категориальных данных таблицы и двумерные гистограммы могут показать избыточность.
1:40
Для непрерывных данных мера корреляции показывает избыточность. Здесь мы видим показатели корреляции для годового дохода и заработок из последней квитанции начисления заработной платы. Также у нас есть рассеянная диаграмма этих двух переменных, показывающая их тесную взаимосвязь.
1:59
Когда модель обработки и анализа данных включает избыточные переменные, истинное влияние на модель может быть скрыто. Если посмотреть на чувствительность выходных переменных в нейронных сетях, то мы увидим, что сеть использовала комбинацию переменных Годовой доход и заработок согласно квитанции. Таким образом, чувствительность для обеих переменных уменьшилась. Общий уровень дохода скрыт. Так как избыточные переменные не несут какой-либо новой дополнительной информации, поэтому включение их всех только добавит сложности модели.
2:34
Давайте посмотрим на корреляцию между годовым доходом и выплатой за последний месяц. Для этого я использую меню данных, затем статистика и таблицы, затем корреляционные матрицы. Я выбираю переменные: годовой доход и выплаты за последний месяц. Мы получаем корреляционную матрицу, показывающую корреляцию 0,999 между годовым доходом и выплатами за последний месяц. Между этими двумя переменными очень сильная корреляция и тесные взаимоотношения. Я также делаю рассеянную диаграмму. И снова диаграмма показывает тесные взаимоотношения, указывающие на то, что эти переменные избыточные.
3:29
Показатели корреляции выше 0,7 говорят об избыточности. Поэтому для построения модели я использую только одну переменную, но не обе. Теперь рассмотрим пример с категориальными данными. Мы используем таблицы заголовков, затем многокоординатную таблицу. Я уточняю две переменные, а именно работа у настоящего работодателя и записи в трудовой книжке. Я создаю двумерную таблицу, показывающую работников, которые работают у данного работодателя от 1до 5, от 5 до 8 и свыше 5 лет. Все они относятся к удовлетворяющей оценке или показывают недостаточную информацию или неудовлетворяющую оценку. Мы видим, что информация, которую предоставляют эти переменные совпадает. Теперь сделаем графическое представление этой информации в 3D гистограмме. А так как информация совпадает, только одна переменная необходима для построения модели.
4:41
Теперь давайте посмотрим на переменные Возраст и Возрастная категория. Предположим, что у нас есть непрерывная переменная и одинаковая информация распределена по этим категориями. Поэтому эти переменные очевидно являются избыточными, но мы можем проверить избыточность между, скажем, непрерывной переменной и порядковыми данными при помощи непараметрических показателей для этой связи. Поэтому будет использовать коэффициент ранговой корреляции Спирмена. Это будет работать каждый раз, когда у нас появляются непрерывные или порядковые данные.
5:24
Итак, выбираем переменные, выбираем R Спирмена, чтобы получить связь между возрастом, что относится к непрерывным данным и возрастной категорией, что относится к категориальным данным. Но опять не любая категориальная переменная будет работать с этой корреляцией. Иногда упорядочение будет иметь смысл. Но снова мы нашли еще одну избыточную переменную, и мы используем либо возраст, либо возрастную категорию, но нам не нужно использовать обе для построения модели.
6:09
Мы исследовали данные, очистили их, создали выборки, проверили избыточность и отобрали самые значимые переменные для анализа. Подготовительная работа для создания проекта по обработке и анализу данных завершена, и мы готовы начать строить модели. В следующем блоке мы введем концепт рекурсивных методов разделения. И затем мы начнем строить модель в виде дерева в Statistica.

Язык: Русский

Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты