Session 14 - Impact of too many Variables

Просмотры: 1 Добавил: pvi777 StatSoft Statistica 
Описание материала:

Тема данного блока – влияние слишком большого числа переменных на построение моделей анализа данных. В предыдущем блоке мы изучили инструмент Выбор признаков и экранирование переменной. Это очень эффективный инструмент для предварительного экранирования данных и предоставления возможных входящих данных для проекта.
0:19
В этом блоке мы обсудим проклятие размерности - эффект, который сказывается на работе процесса обработки и анализа данных и на сложность применения от слишком большого количества переменных, а также мы обсудим capitalizing on chance.
0:32
При большом количестве входных данных, а именно предикторных переменных, для инструментов по обработке и анализу данных требуется большое количество наблюдений. Любая переменная, если известно, что она не имеет отношения к искомой переменной должна быть исключена уже в самом начале. Это может быть особенно важно, если мы работаем с нейронной сетью. Включение переменных, не относящихся к нашей цели может отрицательно повлиять на нейронную сеть.
1:01
Мы можем улучшить процесс анализа данных, удалив из анализа не имеющую отношения предикторную переменную. Время, затрачиваемое на построение моделей по обработке и анализу данных сократится для предварительного экранирования данных, а точность предсказания значительно повысится. На этой диаграмме мы видим гистограмму точности результатов обработки данных. Первая гистограмма использует полную совокупность данных, включая некоторые не имеющие отношения переменные. Вторая использует предварительно экранированные данные, и показывает лучшую точность.
1:31
Еще один важный фактор – это использование моделей. Если модель использует, скажем, 50 входных переменных, то применение этой модели для подсчета новых наблюдений потребует входных данных для каждой из этих 50 переменных. Это может привести к крайне затруднительному применению модели. Если хорошая точность может быть достигнута при малой совокупности переменных, то это поможет нам сэкономить время и усилия в процессе применения этих моделей.
1:58
Использование Выбора признаков и экранирования переменной или любого другого метода предварительного экранирования в совокупности с традиционной проверкой гипотезы может быть проблематичным. Это часто называют Capitalizing on chance. переменные для анализа были определены заранее, как имеющие отношение. Поэтому проверка значимости в общих линейных моделях должна интерпретироваться очень аккуратно.
2:26
В следующем блоке мы рассмотрим тему предварительного экранирования данных, изучив влияние переменной избыточности. Методы рекурсивного разделения будут обсуждаться в общем плане, как ведущие модели для построения моделей в виде дерева в Statistica.

Язык: Русский

Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты