Session 03 - Data Mining Introduction of Credit Risk Data

Просмотры: 1 Добавил: pvi777 StatSoft Statistica 
Описание материала:

Это третий блок в серии Data Miner STATISTICA. В этом блоке мы обсудим данные, которые будут упоминаться и в дальнейших блоках и покажем инструменты для анализа данных. Мы будем использовать кредитный риск в качестве примера, чтобы показать способы очистки данных и классификацию алгоритмов анализа данных в STATISTICA. Вы можете использовать этот пример, чтобы обобщить эти способы и применить их к вашей области.
Если вспомнить процесс CRISP, то пример оценки кредитоспособности влияет только на бизнес аспекты процесса. Задача, оценка проекта и применение к бизнес процессам – это единственные уникальные черты в данном примере. С точки зрения построения модели и аналитики – это задача классификации, а все подходы классификации имеют схожие черты. Если оценка кредитоспособности никак не связана с вашей областью деятельности, представьте, что все данные связаны с задачей классификации, соответствующей вашей области и остановитесь только на общих подходах. Эти подходы мы будем рассматривать в дальнейших блоках.
1:10
Сегодня мы обсуждаем данные кредитного риска. Мы начнем с обсуждения применения анализа данных и с нужд бизнеса, затем сделаем обзор переменных, наконец, поговорим о следующих шагах проекта.
1:25
Практически все данные нуждаются в некоторой подготовительной работе. Это может быть очистка данных, если они отсутствуют, выделение отсутствующих данных и т.д., выбор переменных для анализа и формирование выборки. Задачи классификации имеют разное применение. STATISTICA может применяться для распределения переменных по 2-м, 3-м или более группам. Кроме того, мы можем предсказывать вероятность классификации.
2:00
Проект по анализу данных начинается с определения нужд бизнеса. В этом случае финансовое учреждение может предоставить данные о клиентах. Эти клиенты распределяются по группам, в зависимости от того, являются они клиентами с «хорошим» или «плохим» кредитным риском. Это распределение основано на кредитной истории, имеющейся у финансового учреждения. Классификация зависит от того, были ли просрочки по платежам, и учитывает размер потерь. Мы могли бы использовать такие данные, чтобы прогнозировать, каким клиентам можно выдавать кредит и на какую сумму. Успех мы измеряем в течение длительного периода, согласно ожидаемым сокращениям и падениям. Наши цели включают: - Определить переменные, которые лучше всего прогнозируют кредитный риск. – Найти высокопродуктивную предсказательную модель, которая классифицирует клиентов. – Применить данную модель для принятия решений по кредитам. – Обновлять модель по мере поступления новых данных.
2:52
Давайте посмотрим на данные STATISTICA. Здесь мы видим таблицу, но мы также посмотрим на наши данные в графическом изображении. У нас есть обзор графиков, где они будут рассмотрены более полно. Это зависимая переменная, то есть переменная, для которой мы хотим составить прогноз. Это называется кредитный рейтинг, наши клиенты и данные их кредитных историй определяются как «хорошие» и «плохие». И нам нужно дать прогноз по этой переменной. Переменные, которые, как мы ожидаем, могут иметь связь с кредитным рейтингом следующие: баланс текущего счета, длительность кредита в месяцах, сбережения, как давно клиент работает на данном месте работы. Здесь представлена информация о платежах в рассрочку, семейном статусе, указан пол, срок проживания в данном месте, самое ценное имущество, возраст, текущие кредиты, вид жилья, количество кредитов ранее взятых в данном банке, род деятельности. Таким образом первая переменная – зависимая переменная, а оставшиеся – предсказуемые переменные, которые, как мы полагаем, имеют отношение к наблюдаемой переменной. Мы будет рассматривать эту ситуация более детально в дальнейшем.
4:43
Итак, у нас есть понимание бизнеса. Мы указали нужды бизнеса, и как мы планируем их заполнить. Далее, нам нужно понять данные из графиков и основ статистики. Затем мы очистим данные, для использования на этапе моделирования, когда обнаружим подходящую модель. Мы проведём оценку этой модели, а затем будем ее применять.
Коротко, мы рассмотрели нужды бизнеса и применение данных. Мы сделали обзор переменных из ряда данных.
Мы получили общее представление об анализе и обработке данных и о понимании бизнеса. В следующем блоке, мы покажем практические примеры запроса данных из базы данных и примеры импорта данных из внешних источников, например Excel. И с самого начала мы сделаем обзор графиков и рассмотрим процесс очистки данных.

Язык: Русский

Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты