Оценка распределения размера убытков

Опубликовал: pvi777 в категорию Страхование - Дата добавления: 04.12.2021, 17:58


Содержание

Исходные данные

Для примера рассмотрим таблицу данных, содержащую информацию о распределении размера убытка в огневом страховании сталелитейных заводов (размеры убытков измеряются в тысячах).

Рис. 1

Рис. 1

Данные представлены в агрегированной форме: известно только количество убытков в зависимости от размера убытков; при этом возможные размеры убытков разбиты на 20 интервалов. По этим данным вычислим для каждого интервала размеров убытков следующие величины:

  • Концентрация убытков (число убытков размера 1000 для соответствующего интервала размеров убытков): Ai/(ci+1 - ci);

  • Логарифм от размера убытков;

  • Логарифм от концентрации убытков.

Рис. 2

Рис. 2

По гистограмме концентрации убытков видно, что в большинстве интервалов наблюдается сравнительно маленькая концентрация.

Рис. 3

Рис. 3

Более того, имеет место «несимметричная» структура убытков - много мелких убытков и мало крупных, что отчётливо видно на приведённой ниже диаграмме рассеяния (гистограмма построена по четвёртому и пятому столбцам таблицы данных).

Рис. 4

Рис. 4

Такое же наблюдение можно сделать и по линейному графику переменных, равных логарифмам от концентрации убытков (красная линия) и размера убытка (синяя линия).

Рис. 5

Рис. 5

Для визуального анализа данных можно использовать и более экзотические средства. Например, пиктографик Лица Чернова. Каждое лицо символизирует одно наблюдение, при этом ширина лица соответствует логарифму от размера убытка, а уровень уха – логарифму от концентрации убытков.

Несложно заметить, что лица постепенно расширяются, а уши опускаются.

Рис. 6

Рис. 6

Следует отметить, что подобная ситуация часто встречается на практике при анализе размеров убытков.

Оценка параметров распределения

Сначала следует выбрать наиболее подходящий метод для оценки параметров.

Напомним, что в случае агрегированных данных использование метода моментов затруднительно.

Метод максимума правдоподобия не эффективен, так как нас интересует, прежде всего, распределение концентрации убытков в области больших убытков.

Из описанных нами методов остаётся два – метод хи-квадрат и (изменённый) метод наименьших квадратов. Будем использовать второй метод для оценки параметров, а первый – для проверки качества подгонки модели (см. пункт 2).

Итак, нашей ближайшей целью будет осуществление подгонки параметров распределения методом наименьших квадратов для пяти моделей, реализованных в Актуарном Калькуляторе.

Распределение Парето мы не будем рассматривать, так как оно годится только для области больших убытков, а мы собираемся получить результаты, пригодные для всего диапазона изменения.

Как было описано в теоретической части, требуется сравнить значения статистики

Формула

для различных значений параметров.

Для этого нам понадобятся значения F(ci).

Возможны различные ситуации:

1) Приближённые значения параметров либо известны, либо могут быть вычислены (например, с помощью индивидуальной модели). В этом случае с помощью Актуарного Калькулятора можно составить таблицу значений F(ci) для всех значений параметров, близких к предполагаемым.

2) Получить информацию о приближённых значениях невозможно. В этом случае рекомендуется либо решить задачу аналитически (приравнять к нулю производные по параметрам), либо составить полную таблицу значений F(ci). Последнее вполне разумно в случаях, когда требуется знать значения параметров с точностью до 0,5, или же если Вы часто сталкиваетесь с подобными задачами.

Как правило, особенно важно знать поведение размеров убытка в области больших убытков. Поэтому сначала оценим параметры только для восьми интервалов (размеры от 15 до 5000), а затем и для всех двадцати интервалов. Результаты представлены в таблице:

Рис. 7

Рис. 7

 


Подгонка функции распределения

Предположим, что мы каким-либо образом (один из способов представлен в пункте 1) оценили значения параметров. По сути, мы уже имеем 5 моделей, из которых надо выбрать наиболее подходящую.

Будем использовать критерий хи-квадрат: если значение статистики

Формула

(где Ai - наблюдаемые количества убытков, а Bi = N( F(ci+1) - F(ci)) - ожидаемые) слишком велико, а именно больше правого  p-квантиля распределения хи-квадрат с I-3 степенями свободы, то выбранная модель не соответствует истинному распределению c вероятностью 1-p (мы будем использовать значение p=5%).

Сначала проверим качество подгонки модели по области больших убытков (размеры убытков более 15). Так как количество интервалов равно 8, то для применения критерия нам необходимо вычислить 95%-квантиль распределения хи-квадрат с 5 степенями свободы. Это можно сделать с помощью «обычного» Калькулятора вероятностных распределений, входящего в блок STATISTICA Base.

Рис. 8

Рис. 8

Итак, квантиль приближённо равен 11.

Теперь вычислим значение статистики хи-квадрат для всех построенных моделей.

Для вычисления значений Fi = F(ci+1) - F(ci) удобно воспользоваться группой кнопок Локальные моменты. А именно, нужно выполнить следующие действия:

1) выбрать соответствующее распределение;

2) ввести вычисленные для выбранного распределения параметры;

3) ввести в поля a и b значения границ интервалов (cи ci+1);

4) нажать кнопку Вычислить.

Тогда в поле 0 группы моменты появится значение величин Fi.

Указанную последовательность действий нужно повторить для каждого интервала [ci+1, ci]. По найденным значениям можно вычислить значение статистики хи-квадрат.

Затем можно перейти к следующей модели распределения.

Полученные результаты представлены в таблице.

Рис. 9

Рис. 9

Согласно критерию, логарифмированное распределение Лапласа следует исключить из дальнейшего рассмотрения. Однако мы пока не будем этого делать.

Следующий шаг – сравнение ожидаемого и реального количеств убытков. В этом нам поможет метод минимума хи-квадрат.

Если считать совокупное число убытков N - свободным параметром, то условие минимальности статистики приведёт к уравнению dT/dN=0, что равносильно оценке:

Формула для N

Суммирование, также как и раньше, ведётся только по интервалам рассматриваемого диапазона значений убытка.

Вычислим по этой формуле значения как для области больших убытков, так и для совокупной области. При этом мы разобьём область больших убытков на область «просто больших» (интервал [15; 5000)) и «очень больших» убытков (интервал [5000; ∞)).

Полученные результаты представлены в таблице:

Рис. 10

Рис. 10

По исходной таблице данных можно легко получить истинные (наблюдаемые) значения трёх величин, подсчитанных в трёх последних столбцах – 2961, 741 и 4 соответственно.

Модель, построенная с помощью логарифмированного распределения Лапласа, с одной стороны, точнее других моделей соответствует совокупному ожидаемому числу убытков (2961). С другой стороны, в наиболее важной для нас области (особенно в области «очень больших» убытков), модель заметно уступает. Ранее мы уже отмечали «нестыковку» модели Лапласа и реальных данных. Взвесив все аргументы, всё же отклоним это распределение.

При подгонке модели следует учитывать, что данным из последнего столбца можно доверять не для всех распределений. Дело в том, что распределение Парето с нулевой точкой и логарифмированное логистическое распределение не применимы в неограниченной форме, так как их математическое ожидание существует только для a>1, а дисперсия – для a>2. Условие a>2 по сути означает, что в области больших убытков введённая функция Формула для g(x)приближается к значению 3 или превышает его. Для практики такая ситуация не характерна, поэтому распределения обычно отсекают справа. В качестве точки отсечения целесообразно выбирать оценку вероятного максимального убытка.

Итак, наиболее «безопасными» распределениями являются логнормальное и распределение Вейбулла. Но вычисленное по модели, построенной на распределении Вейбулла, значение ожидаемого числа убытков (6754,7) явно не соответствует истинному значению (2961).

Поэтому в данном примере рекомендуется выбрать логнормальное распределение.

В заключении проведём аналогичный анализ, но на основе всех 20 интервалов размера убытка.

Рис. 11

Рис. 11

Значение 95%-квантилия распределение хи-квадрат с 17 степенями свободы равно 27,6. Величины в четвёртом столбце попадают в область правого хвоста (исключение составляет распределение Парето с нулевой точкой). Большие значения в последней колонке свидетельствуют, что соответствие мелким убыткам достигается за счёт значительного ухудшения соответствия в области мелких убытков.

Поэтому при подгонке распределения не обязательно строго следовать правилам математической статистики. Вполне разумно строить модель так, чтобы оно достаточно хорошо описывало область больших убытков, а на совокупном интервале не превосходило порогового значения хи-квадрат.

Вычисление моментов распределения совокупного убытка

Напомним, что формулы распределения совокупного убытка, приведённые в теоретической части, были выведены в предположении, что размер убытка (а, значит, и любая функция от размера убытка – например, средний размер) не зависит от количества произошедших убытков. Будем считать, что это условие выполнено.

Тогда мат. ожидание и дисперсию следует вычислять по формулам:

Формула

где N – число убытков заданного портфеля в интересующем временном промежутке (как правило, это один год), а X – случайная величина, имеющая такое же распределение, как и размеры убытков номер 1, 2, ..., N.

Первый момент распределения величины N находится аналитически. Заметим, что в случае распределения Пуассона мат. ожидание и дисперсия в точности равны параметру распределения. Поэтому, как несложно показать, мат. ожидания числа убытков в j-ом году равно:

Формула

где νj – объём портфеля в j-ом году (формула написана в предположении, что мат. ожидание качества j-ого года Qj равно 1).

Сделаем попутное замечание о вычислении второго момента распределения величины N (для решения поставленной задачи нам не потребуется). Здесь возникают некоторые трудности. Дело в том, что разумного «избавления от знания распределения Qj» не существует. В большинстве ситуаций для вычисления дисперсии верна формула

Формула

Осталось найти первый и второй моменты распределения величины X. В этом нам поможет Актуарный калькулятор. Выберем соответствующее распределение, введём в поля Границы группы Локальные моменты такие значения, чтобы в поле 0 отобразилось число, близкое к 1 (например, в случае логнормального распределения с параметрами, равными 1, можно ввести значения a=0 и a=50). Тогда значения в полях 1, 2 будут приблизительно равны первому и второму моментам. Следует отметить, что точные значения иногда вообще не существуют. Поэтому воспользоваться таким приближением – вполне разумно.

Аппроксимация закона распределения дискретным распределением

Потребность в такой задаче может возникнуть, например, при вычислении функции распределения совокупного убытка (см. теоретическую часть).

Итак, пусть нам требуется аппроксимировать функцию логарифмированного распределения Лапласа с параметром формы, равным 2 и скалярным параметром, равным 3. Построим с помощью Актуарного Калькулятора график функции плотности.

Рис.12

Рис. 12

Шаг 1. Вычисление «правого конца дискретизации» (в качестве «левого конца дискретизации» разумно выбрать 0). Необходимо выбрать максимальное значение, в котором будет сосредоточена вероятностная масса дискретного распределения. Введём в поле p значение 0.95 и нажмём кнопку Вычислить. Тогда в поле Z будет выведено значение 9.48683. Для большей наглядности будем использовать значение 10.

Шаг 2. Выбор параметров дискретизации.

Выберем количество интервалов K. Напомним, что K должно быть чётным числом. Положим, например, K=20.

Значение шага дискретизации h следует вычислить из уравнения K*h = 10, то есть h=0.5.

Шаг 3. Вычисление Ai, Bi, Ci, i=0,2,4,...(K-2).

Напомним определение этих величин.

Формула

Другими словами, Ai, Bi, Ci есть соответственно локальные моменты порядка 0, 1 и 2 для отрезка [ih; (i+2)h].

Вычисление производится с помощью окна Локальные моменты. Полученные результаты представлены в таблице.

Рис. 13

Рис. 13

Шаг 4. Вычисление ai, bi, ci,  i=0,2,4,...,(K-2). Напомним, что:

ai, bi, ci

ai, bi, ci

Напишем простенькую программу на STATISTICA Visual Basic, производящую вычисления по этим формулам.

Рис. 14

Рис. 14

После запуска этого макроса, в таблице появятся 3 новых столбца:

Рис.15

Рис. 15

Шаг 5. Вычисление вероятностей дискретизации.

Вычисления производятся по формулам:

fk

Некоторые значения fk получились отрицательными. На результаты дальнейших вычислений (например, использование формулы Пейнджера) этот факт не окажет значимого влияния.

Литература

1) Мак Т. Математика рискового страхования. М.: Олимп-бизнес, 2005.

2) Боровиков В.П. STATISTICA: искусство анализа данных на компьютере. СПб.: Питер, 2003.

В начало



Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты