Построение модели поведенческого скоринга

Опубликовал: pvi777 в категорию Скоринг - Дата добавления: 04.12.2021, 16:34


В данном примере рассмотрим схему построения нейросетевой модели для задачи поведенческого скоринга. Поведенческий скоринг (behavior scoring) используется для принятия решений по уже выданным кредитам.

Основные решения, принимаемые с использованием поведенческого скоринга, можно сформулировать следующим образом:

  • Предложение новых услуг и улучшение уже предоставляемых услуг.

  • Решение, выдавать ли кредитную карту заново после истечения срока действия, или нет.

  • Меньший стартовый кредитный лимит или максимальное значение кредита на кредитной карточке.

  • Более строгий сбор платежей с нарушителей или отправка данных о них в агентства сбора платежей.

  • Повышение кредитного лимита.

  • Помещение под наблюдение ввиду потенциальных мошеннических действий и т. д.

В данном примере необходимо оценить кредитоспособность существующих заёмщиков на основании данных о графике погашения кредитов и динамики движения средств на счетах клиента.

Структура данных

Каждого клиента будем характеризовать 22 признаками. 20 переменных относятся к анкетным данным, которые заполняются в анкете для получения кредита. К этим переменным относятся:

  • Текущий баланс счета;

  • Продолжительность в мес;

  • Назначение кредита;

  • Сумма кредита;

  • Объем сбережений;

  • Время работы на данном рабочем месте;

  • Семейное положение/пол;

  • Длительность проживания по текущему адресу;

  • Возраст в годах;

  • Число предыдущих кредитов в банке;

  • Должность;

  • и другие.

На основании перечисленных факторов все клиенты подразделяются на "хороших" и "плохих". Разбиение на эти группы записано в переменной Кредитоспособность (Creditability).

Всего имеются данные по 1000 клиентов. При этом, 30% относятся к "плохим", а остальные 70% – к "хорошим". Процент невыплат по всей совокупности данных около 3% (данная величина относится к одному месяцу). Элемент таблицы данных показан на рис. 1.

Фрагмент исходной таблице данных

Рис. 1. Фрагмент исходной таблицы данных

Поскольку количество наблюдений, относящихся к разным группам ("хороший" и "плохой"), существенно различается, то необходимо задать дополнительную переменную, содержащую веса наблюдений. В противном случае группа "хороших" будет оказывать большее влияние на построение модели, чем группа "плохих".

Для группы "хороший" зададим вес, равный 3, а для группы "плохой" – равный 7 (т. е. каждая группа будет оказывать одинаковое влияние на построение модели).

Переменную, содержащую веса, назовем w.

Построение модели

Шаг 1. На первом шаге необходимо исключить из анализа переменные, которые не оказывают значимого влияния на принадлежность к тому или иному классу (на зависимую переменную). Использование алгоритмов снижения размерности уменьшает количество независимых переменных до 10. Далее используются только выделенные переменные.

Шаг 2. В стартовом окне выбираем анализ Классификации и нажимаем ОК. Далее задаем новый набор независимых переменных (рис. 2).

Диалог Нейронные сети – отбор данных

Рис. 2. Диалоговое окно Нейронные сети – Отбор данных

В качестве инструмента построения сети будем использовать Автоматизированную нейронную сеть (АНС). После того, как установки проделаны, нажимаем OK.

Шаг 2. Настройка параметров.

В начале проведем анализ для невзвешенных переменных. На вкладке Быстрый диалога Автоматизированная нейронная сеть (АНС) (рис. 3) зададим необходимые параметры.

Окно Автоматизированная нейронная сеть (АНС), вкладка Быстрый

Рис. 3. Окно Автоматизированная нейронная сеть (АНС), вкладка Быстрый

Для начала нам необходимо выяснить, какие модели будут работать эффективнее, поэтому, не изменяя остальных опций, нажимаем OK.

Окно результатов

Рис. 4. Окно результатов

Анализируя величину производительности на тестовом множестве, делаем вывод, что точность прогноза с помощью построенных моделей находится на уровне 75-80%.

Не углубляясь в дальнейшее изучение построенной модели, приведём только матрицу классификации.

Таблица описательных статистик классификации

Рис. 5. Таблица описательных статистик классификации

Процент правильно классифицированных в категорию "плохой" равен 98%, а в категорию "хороший" – 96.7%.

В начало



Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты