Содержание
Исходные данные
Для примера рассмотрим таблицу данных, содержащую информацию о распределении размера убытка в огневом страховании сталелитейных заводов (размеры убытков измеряются в тысячах).

Рис. 1
Данные представлены в агрегированной форме: известно только количество убытков в зависимости от размера убытков; при этом возможные размеры убытков разбиты на 20 интервалов. По этим данным вычислим для каждого интервала размеров убытков следующие величины:
-
Концентрация убытков (число убытков размера 1000 для соответствующего интервала размеров убытков): Ai/(ci+1 - ci);
-
Логарифм от размера убытков;
-
Логарифм от концентрации убытков.

Рис. 2
По гистограмме концентрации убытков видно, что в большинстве интервалов наблюдается сравнительно маленькая концентрация.

Рис. 3
Более того, имеет место «несимметричная» структура убытков - много мелких убытков и мало крупных, что отчётливо видно на приведённой ниже диаграмме рассеяния (гистограмма построена по четвёртому и пятому столбцам таблицы данных).

Рис. 4
Такое же наблюдение можно сделать и по линейному графику переменных, равных логарифмам от концентрации убытков (красная линия) и размера убытка (синяя линия).

Рис. 5
Для визуального анализа данных можно использовать и более экзотические средства. Например, пиктографик Лица Чернова. Каждое лицо символизирует одно наблюдение, при этом ширина лица соответствует логарифму от размера убытка, а уровень уха – логарифму от концентрации убытков.
Несложно заметить, что лица постепенно расширяются, а уши опускаются.

Рис. 6
Следует отметить, что подобная ситуация часто встречается на практике при анализе размеров убытков.
Оценка параметров распределения
Сначала следует выбрать наиболее подходящий метод для оценки параметров.
Напомним, что в случае агрегированных данных использование метода моментов затруднительно.
Метод максимума правдоподобия не эффективен, так как нас интересует, прежде всего, распределение концентрации убытков в области больших убытков.
Из описанных нами методов остаётся два – метод хи-квадрат и (изменённый) метод наименьших квадратов. Будем использовать второй метод для оценки параметров, а первый – для проверки качества подгонки модели (см. пункт 2).
Итак, нашей ближайшей целью будет осуществление подгонки параметров распределения методом наименьших квадратов для пяти моделей, реализованных в Актуарном Калькуляторе.
Распределение Парето мы не будем рассматривать, так как оно годится только для области больших убытков, а мы собираемся получить результаты, пригодные для всего диапазона изменения.
Как было описано в теоретической части, требуется сравнить значения статистики

для различных значений параметров.
Для этого нам понадобятся значения F(ci).
Возможны различные ситуации:
1) Приближённые значения параметров либо известны, либо могут быть вычислены (например, с помощью индивидуальной модели). В этом случае с помощью Актуарного Калькулятора можно составить таблицу значений F(ci) для всех значений параметров, близких к предполагаемым.
2) Получить информацию о приближённых значениях невозможно. В этом случае рекомендуется либо решить задачу аналитически (приравнять к нулю производные по параметрам), либо составить полную таблицу значений F(ci). Последнее вполне разумно в случаях, когда требуется знать значения параметров с точностью до 0,5, или же если Вы часто сталкиваетесь с подобными задачами.
Как правило, особенно важно знать поведение размеров убытка в области больших убытков. Поэтому сначала оценим параметры только для восьми интервалов (размеры от 15 до 5000), а затем и для всех двадцати интервалов. Результаты представлены в таблице:

Рис. 7
Подгонка функции распределения
Предположим, что мы каким-либо образом (один из способов представлен в пункте 1) оценили значения параметров. По сути, мы уже имеем 5 моделей, из которых надо выбрать наиболее подходящую.
Будем использовать критерий хи-квадрат: если значение статистики

(где Ai - наблюдаемые количества убытков, а Bi = N( F(ci+1) - F(ci)) - ожидаемые) слишком велико, а именно больше правого p-квантиля распределения хи-квадрат с I-3 степенями свободы, то выбранная модель не соответствует истинному распределению c вероятностью 1-p (мы будем использовать значение p=5%).
Сначала проверим качество подгонки модели по области больших убытков (размеры убытков более 15). Так как количество интервалов равно 8, то для применения критерия нам необходимо вычислить 95%-квантиль распределения хи-квадрат с 5 степенями свободы. Это можно сделать с помощью «обычного» Калькулятора вероятностных распределений, входящего в блок STATISTICA Base.

Рис. 8
Итак, квантиль приближённо равен 11.
Теперь вычислим значение статистики хи-квадрат для всех построенных моделей.
Для вычисления значений Fi = F(ci+1) - F(ci) удобно воспользоваться группой кнопок Локальные моменты. А именно, нужно выполнить следующие действия:
1) выбрать соответствующее распределение;
2) ввести вычисленные для выбранного распределения параметры;
3) ввести в поля a и b значения границ интервалов (ci и ci+1);
4) нажать кнопку Вычислить.
Тогда в поле 0 группы моменты появится значение величин Fi.
Указанную последовательность действий нужно повторить для каждого интервала [ci+1, ci]. По найденным значениям можно вычислить значение статистики хи-квадрат.
Затем можно перейти к следующей модели распределения.
Полученные результаты представлены в таблице.

Рис. 9
Согласно критерию, логарифмированное распределение Лапласа следует исключить из дальнейшего рассмотрения. Однако мы пока не будем этого делать.
Следующий шаг – сравнение ожидаемого и реального количеств убытков. В этом нам поможет метод минимума хи-квадрат.
Если считать совокупное число убытков N - свободным параметром, то условие минимальности статистики приведёт к уравнению
, что равносильно оценке:

Суммирование, также как и раньше, ведётся только по интервалам рассматриваемого диапазона значений убытка.
Вычислим по этой формуле значения как для области больших убытков, так и для совокупной области. При этом мы разобьём область больших убытков на область «просто больших» (интервал [15; 5000)) и «очень больших» убытков (интервал [5000; ∞)).
Полученные результаты представлены в таблице:

Рис. 10
По исходной таблице данных можно легко получить истинные (наблюдаемые) значения трёх величин, подсчитанных в трёх последних столбцах – 2961, 741 и 4 соответственно.
Модель, построенная с помощью логарифмированного распределения Лапласа, с одной стороны, точнее других моделей соответствует совокупному ожидаемому числу убытков (2961). С другой стороны, в наиболее важной для нас области (особенно в области «очень больших» убытков), модель заметно уступает. Ранее мы уже отмечали «нестыковку» модели Лапласа и реальных данных. Взвесив все аргументы, всё же отклоним это распределение.
При подгонке модели следует учитывать, что данным из последнего столбца можно доверять не для всех распределений. Дело в том, что распределение Парето с нулевой точкой и логарифмированное логистическое распределение не применимы в неограниченной форме, так как их математическое ожидание существует только для a>1, а дисперсия – для a>2. Условие a>2 по сути означает, что в области больших убытков введённая функция
приближается к значению 3 или превышает его. Для практики такая ситуация не характерна, поэтому распределения обычно отсекают справа. В качестве точки отсечения целесообразно выбирать оценку вероятного максимального убытка.
Итак, наиболее «безопасными» распределениями являются логнормальное и распределение Вейбулла. Но вычисленное по модели, построенной на распределении Вейбулла, значение ожидаемого числа убытков (6754,7) явно не соответствует истинному значению (2961).
Поэтому в данном примере рекомендуется выбрать логнормальное распределение.
В заключении проведём аналогичный анализ, но на основе всех 20 интервалов размера убытка.

Рис. 11
Значение 95%-квантилия распределение хи-квадрат с 17 степенями свободы равно 27,6. Величины в четвёртом столбце попадают в область правого хвоста (исключение составляет распределение Парето с нулевой точкой). Большие значения в последней колонке свидетельствуют, что соответствие мелким убыткам достигается за счёт значительного ухудшения соответствия в области мелких убытков.
Поэтому при подгонке распределения не обязательно строго следовать правилам математической статистики. Вполне разумно строить модель так, чтобы оно достаточно хорошо описывало область больших убытков, а на совокупном интервале не превосходило порогового значения хи-квадрат.
Вычисление моментов распределения совокупного убытка
Напомним, что формулы распределения совокупного убытка, приведённые в теоретической части, были выведены в предположении, что размер убытка (а, значит, и любая функция от размера убытка – например, средний размер) не зависит от количества произошедших убытков. Будем считать, что это условие выполнено.
Тогда мат. ожидание и дисперсию следует вычислять по формулам:

где N – число убытков заданного портфеля в интересующем временном промежутке (как правило, это один год), а X – случайная величина, имеющая такое же распределение, как и размеры убытков номер 1, 2, ..., N.
Первый момент распределения величины N находится аналитически. Заметим, что в случае распределения Пуассона мат. ожидание и дисперсия в точности равны параметру распределения. Поэтому, как несложно показать, мат. ожидания числа убытков в j-ом году равно:

где νj – объём портфеля в j-ом году (формула написана в предположении, что мат. ожидание качества j-ого года Qj равно 1).
Сделаем попутное замечание о вычислении второго момента распределения величины N (для решения поставленной задачи нам не потребуется). Здесь возникают некоторые трудности. Дело в том, что разумного «избавления от знания распределения Qj» не существует. В большинстве ситуаций для вычисления дисперсии верна формула

Осталось найти первый и второй моменты распределения величины X. В этом нам поможет Актуарный калькулятор. Выберем соответствующее распределение, введём в поля Границы группы Локальные моменты такие значения, чтобы в поле 0 отобразилось число, близкое к 1 (например, в случае логнормального распределения с параметрами, равными 1, можно ввести значения a=0 и a=50). Тогда значения в полях 1, 2 будут приблизительно равны первому и второму моментам. Следует отметить, что точные значения иногда вообще не существуют. Поэтому воспользоваться таким приближением – вполне разумно.
Аппроксимация закона распределения дискретным распределением
Потребность в такой задаче может возникнуть, например, при вычислении функции распределения совокупного убытка (см. теоретическую часть).
Итак, пусть нам требуется аппроксимировать функцию логарифмированного распределения Лапласа с параметром формы, равным 2 и скалярным параметром, равным 3. Построим с помощью Актуарного Калькулятора график функции плотности.

Рис. 12
Шаг 1. Вычисление «правого конца дискретизации» (в качестве «левого конца дискретизации» разумно выбрать 0). Необходимо выбрать максимальное значение, в котором будет сосредоточена вероятностная масса дискретного распределения. Введём в поле p значение 0.95 и нажмём кнопку Вычислить. Тогда в поле Z будет выведено значение 9.48683. Для большей наглядности будем использовать значение 10.
Шаг 2. Выбор параметров дискретизации.
Выберем количество интервалов K. Напомним, что K должно быть чётным числом. Положим, например, K=20.
Значение шага дискретизации h следует вычислить из уравнения K*h = 10, то есть h=0.5.
Шаг 3. Вычисление Ai, Bi, Ci, i=0,2,4,...(K-2).
Напомним определение этих величин.

Другими словами, Ai, Bi, Ci есть соответственно локальные моменты порядка 0, 1 и 2 для отрезка [ih; (i+2)h].
Вычисление производится с помощью окна Локальные моменты. Полученные результаты представлены в таблице.

Рис. 13
Шаг 4. Вычисление ai, bi, ci, i=0,2,4,...,(K-2). Напомним, что:


Напишем простенькую программу на STATISTICA Visual Basic, производящую вычисления по этим формулам.

Рис. 14
После запуска этого макроса, в таблице появятся 3 новых столбца:

Рис. 15
Шаг 5. Вычисление вероятностей дискретизации.
Вычисления производятся по формулам:

Некоторые значения fk получились отрицательными. На результаты дальнейших вычислений (например, использование формулы Пейнджера) этот факт не окажет значимого влияния.
Литература
1) Мак Т. Математика рискового страхования. М.: Олимп-бизнес, 2005.
2) Боровиков В.П. STATISTICA: искусство анализа данных на компьютере. СПб.: Питер, 2003.
В начало
Комментарии: