Session 11 - Stratified Random Sampling

Просмотры: 1 Добавил: pvi777 StatSoft Statistica 
Описание материала:

Стратифицированная случайная выборка – тема этого блока серии Data Mining Statistica. Мы работаем с данными кредитного риска. В прошлый раз мы говорили о случайной выборке и ее преимуществах. Мы обсудим, когда и как применять стратифицированную выборку в Statistica.
0:33
Когда представляющий интерес редкий, модели добычи данных вряд ли смогут обеспечить хорошее предсказание. В примере с кредитом мы работали с данными, а именно 70 процентов клиентов имеют хороший кредитный риск, а 30 процентов остаются в категории плохого кредитного риска. Я могла бы просто предположить, что все клиенты имеют хороший кредитный риск и была бы права в 70 процентов случаев. Это довольно точный прогноз, но он никак не отвечает целям проекта по анализу данных. Обучающие модели с данными 70 процентов хороший кредитный риск, а 30 – плохой, не отличались бы от моделей, которые всегда предсказывают только хороший риск. Но мы должны стремиться к тому, чтобы найти интересные и надежные связи, выровняв те данные, которые были стратифицированы случайной выборкой.
1:24
Для применения стратифицированной случайной выборки нам нужна переменная страты. В нашем случае переменная страты – кредитный риск. Переменная страты – это та переменная, для которой вы будете выбирать пропорции выборки. Выбрав одинаковый размер выборки для обеих страт (плохой и хороший риск), мы убеждаемся, что редкие события с плохим кредитным риском также хорошо представлены. Таким образом, получившиеся модели дадут нам более точное предсказание о клиентах с плохим кредитным риском. Стратифицированную выборку можно использовать не только для выравнивания расхождений между результатами, как мы показали в данном примере.
2:04
В Statistica инструмент Случайная Выборка (Random Sampling) применяется, как мы уже видели, для простой случайной выборки. Вкладка стратифицированная выборка (Stratified Sample) позволяет выбрать переменную страты и уточнить пропорции или размер выборки.
2:23
Вначале мы выберем случайную выборку из меню данных и найдем вкладку стратифицированная выборка. Переменная страты – это кредитный риск. Кнопка коды (codes) позволяет нам выбрать категории этой переменной страты. Итак, мы знаем, что нам нужно использовать и хороший и плохой кредитный риск, поэтому я нажимаю кнопку «все» (all). Масштаб изображения (Zoom) позволяет мне выбрать категории. И теперь мы видим сетки страты. По умолчанию были выбраны данные страты, используя проценты. Во вкладке настройки (options) я могу внести изменения и выбрать примерный размер выборки N. Теперь я могу изменить число наблюдений примерно до 300 на каждую категорию нашей переменной страты. Мы помним, что менее многочисленная группа это группа клиентов с плохим риском, и я сказала примерное число, потому что выборка случайная. Мы приближаемся к числу 300, но это не точные данные. Но и проценты также не являются точными данными. Нажимаем ОК и создана новая таблица, в которой представлена стратифицированная выборка наших данных оценки кредитоспособности. Давайте быстро создадим гистограмму. Выбираем переменную кредитный рейтинг. Из гистограммы видно, что пропорция хорошего и плохого кредитного риска уже почти одинаковая.
4:29
Далее мы будем рассматривать условия выбора наблюдений в Statistica, как способ выбрать те данные, с которыми мы хотим работать.

Язык: Русский

Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты