Session 08 - Other Data Cleaning Techniques

Просмотры: 1 Добавил: pvi777 StatSoft Statistica 
Описание материала:

В этой серии Data Mining Statistica мы будем обсуждать другие способы очистки данных, которые еще не освещались. Мы уже рассмотрели инструменты для очистки пропущенных данных и выбросов. Просмотр предыдущих эпизодов может помочь вам полностью понять вопрос очистки данных.
0:25
Темы в этом блоке включают в себя: разреженные переменные и наблюдения, инвариантные данные и дублирующие записи. Мы обсудим, что это такое, почему они могут быть проблематичными и как эти проблемы устранить.
0:41
Разреженные данные – это данные, где пропущены два или более значений. Переменная, у которой большая часть наблюдений имеет пропущенные значения не приносит никакой пользы анализу, так же как и наблюдение с пропущенными записями. Такие разреженные переменные и наблюдения следует удалять. В Statistica есть такой инструмент для выполнения этой задачи.
1:03
В Statistica я использую данные оценки кредита до того, как будут заменены пропущенные значения. Обратите внимание, что в совокупности данных у нас одна тысяча пятьдесят наблюдений. Мы используем инструмент Фильтр Разреженных Данных (sparse filter data), выбираем все переменные и мы ищем переменные и наблюдения, где только 10 процентов пропущенных значений, нажимаем ОК. Таблица обновилась, и пять наблюдений было удалено.
1:33
Инвариантные данные – еще одна проблема для очистки данных. Если переменная не имеет значений или их очень мало, то она ничего не дает для анализа. ПеременнаяApplied (сколько человек подавали заявку на кредит) – это индикаторная переменная. Все клиенты по нашим данным подавали заявку на кредит, поэтому во всех записях стоит «да», это можно увидеть и на гистограмме. Здесь мы видим переменную в наших данных. Инструмент Обработка Инвариантных Данных (process invariant variable) позволяет нам отфильтровать эту переменную и другие инвариантные переменные. Инвариантная переменная Applied была удалена из совокупности данных.
2:24
Когда наблюдения дублируются, они самопроизвольно получают больший вес в процессе построения модели. Клиент, который подавал заявку на заем, несколько раз может появляться в наших данных именно такое количество раз. Обратите внимание, что два последних наблюдения точно такие же. Это дублированные записи друг друга. Для того чтобы удалить дублирующую запись, мы будем использовать инструмент Фильтр Дублирующих Наблюдений (filter duplicate cases). Мы выбираем все переменные. Если бы у нас был уникальный номер ID, мы могли бы этим воспользоваться или мы можем использовать множественные записи в поиске дублированных записей во всех выбранных переменных. Я нажимаю ОК и дублирующие записи удалены.
3:32
В следующий раз мы будем рассматривать данные графически. В этот раз мы будем искать связи в данных между оценкой кредита и предсказательными переменными. Затем мы перейдем к теме выборки.

Язык: Русский

Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты