Содержание
Описание данных
В таблице Fuel & Gaz приведены данные по импорту газа и нефти в США в период с 1973 года по 2010 год, измеряемые в миллионах кубических футов.
Данные были импортированы с сайта http://www.eia.gov/dnav/ng/hist/n9100us2M.htm. Часть таблицы приведена ниже:

Табл. 1 Fuel & Gaz
Из третьей строки таблицы, например, видно, что в марте 1973 года было импортировано 91581 млн куб. футов газа и 68062 млн куб. футов топлива.
Описательные статистики
Для начала получим таблицы с описательными статистиками для переменных ГАЗ_ИМПОРТ и ЖИДКОЕ ТОПЛИВО_ИМПОРТ:

и построим диаграммы размаха:

Рис. 1

Рис. 2
Визуальный анализ
Теперь представим эти переменные на одной диаграмме рассеяния:

Рис. 3
Видим, что в период с 1974 по 1980 год количество импортируемого газа и топлива в среднем несильно изменялось из года в год (для газа это наблюдалось до 1986 года), далее наблюдался спад импорта топлива и увеличение количества импорта газа до 2004 года.
С 2004 года импорт топлива и газа вышел на стабильный уровень, в 2007 году импорт газа уменьшился.
Построим линейные графики для каждой из анализируемых переменных:

Рис. 4

Рис. 5
Корреляционный анализ
Посмотрим, имеется ли зависимость между импортом газа и нефти. Для этого вычислим коэффициенты корреляции для переменных ЖИДКОЕ ТОПЛИВО_ИМПОРТ (fuel) и ГАЗ_ИМПОРТ (gaz) на всем наблюдаемом периоде и за некоторые отдельные временные периоды.

Как и ожидалось после построения диаграммы рассеяния (см. Рис. 3), наблюдается достаточно высокая отрицательная зависимость между импортом газа и топлива. Коэффициент корреляции оказался значимым.
Теперь проверим зависимости импорта топлива и газа в период с 1974 по 1980 год:

Отсутствие зависимости доказывает и диаграмма рассеяния по переменным газ – жидкое топливо:

Рис. 6
В период с 1981 по 2004 год корреляция оказывается значимой, высокой и отрицательной:

После 2004 корреляция уже положительная, но невысокая:

В заключение построим график средних с ошибками по месяцам:

Рис. 7

Рис. 8
По графикам заключаем, что максимальное количество газа и топлива импортируется в начале и конце годов (январь – март, ноябрь – декабрь), минимум импорта приходится на летнее время (июнь).
На графиках (Рис. 7, Рис. 8) прослеживается линейная зависимость между значениями средних импорта газа и топлива по месяцам в рассматриваемом периоде. Построим диаграмму рассеяния и приведем уравнение линейной регрессии (прямая на графике Рис. 12).
Для этого проведем анстекинг исходной таблицы с кодами значений ГАЗ_ИМПОРТ / ЖИДКОЕ ТОПЛИВО_ИМПОРТ, кодами строк ГОД, кодами столбцов МЕСЯЦ.
Получим следующие таблицы:
1) для газа:

Рис. 9
2) для топлива:

Рис. 10
Далее посчитаем средние по переменным (январь – декабрь) в этих таблицах и занесем полученные результаты в таблицу:

Рис. 11
Теперь построим диаграмму рассеяния для этих двух переменных:

Рис. 12
Уравнение регрессии имеет следующий вид (красная прямая на Рис. 12):
,
где в качестве зависимой переменной (y) выступает среднее по месяцам количество импортируемого газа, а в качестве независимой (x) - среднее по месяцам количество импортируемого топлива.
На графике (Рис. 12) ярко выражена линейная зависимость исследуемых в этой части анализа переменных. Приведем численное подтверждение этого наблюдения. Посчитаем коэффициент корреляции между переменными Среднее импорта топлива по мес. и Среднее импорта газа по мес.

Как и предполагалось, корреляция оказалась положительной, высокой и значимой.
Таким образом, заключаем, что имеется существенная линейная зависимость между средним по месяцам количеством импорта топлива и газа.
Исследуемые данные как временные ряды
Рассмотрим теперь количество импорта газа и топлива по годам как элемент временного ряда. Для определенности будем рассматривать период с 1988 по 2003 год:

Рис. 13

Рис. 14
Временной ряд, относящийся к импорту газа, очевидно, имеет тренд.
Оба ряда кажутся неслучайными и нестационарными. Проверим это с помощью автокорреляционного анализа:

Рис. 15

Рис. 16
Автокорреляции оказались высоко значимыми для 15 лагов, что говорит о сильной зависимости значений временного ряда.
Кроме того, видно, что для автокорреляции по переменной ГАЗ_ИМПОРТ (gas) наблюдается периодичность со значением периода 12, что говорит о наличии сезонной составляющей в ряде. (На Рис. 15 для автокорреляции по переменной ЖИДКОЕ ТОПЛИВО_ИМПОРТ (fuel) период равен 10).
Кроме того, проведем спектральный анализ для переменной, отвечающей импорту газа:

Рис. 17
Пик спектральной плотности для переменной ГАЗ_ИМПОРТ приходится на значение периода, равное 12.
Таким образом, у исследуемого временного ряда выделяется сезонная составляющая с периодом 12.
Проведем сезонную декомпозицию по переменной ГАЗ_ИМПОРТ:

Рис. 18
Выбор АРПСС модели и построение прогноза для переменной ГАЗ_ИМПОРТ
Будем рассматривать временной ряд переменной ГАЗ_ИМПОРТ на временном промежутке 1988-2003 гг.
Для построения прогноза на следующие периоды времени подберем авторегрессионную модель для исследуемого временного ряда. Для этого воспользуемся макросом по перебору АРПСС моделей.
Итак, у нас имеются данные по импорту газа в период с 1988 по 2003 год:

Рис. 19
Запустим макрос перебора АРПСС моделей и зададим необходимые параметры:

Получаем следующую таблицу результатов:

Рис. 20
Шестая (AbsMeanDev) и седьмая (RelMeanDev) строчки итоговой таблицы (Рис. 20) отвечают за среднюю абсолютную и среднюю относительную ошибки прогноза соответственно, оцененные по тестовому набору данных.
-
средняя абсолютная:
;
-
средняя относительная:
.
Здесь:
- i-ое наблюдаемое значение (из тестового множества);
- i-ое предсказанное значение;
- количество наблюдений в тестовом множестве.
Выберем теперь модель с приемлемой ошибкой (Abs/RelMeanDev) и значениями параметров Lag и LagS, равными 1 (необходимо брать разности с лагом 1 и 12 для сглаживания ряда). Такой моделью будет АРПСС (1, 1, 1)(1, 1, 0) (Рис. 21, Var 30):

Рис. 21
Абсолютная средняя ошибка (AbsMeanDev) этой модели на год вперед составляет 28130,7, относительная – 8,7%.
Теперь откроем модуль «Анализ временных рядов» и зададим параметры АРПСС модели, подобранные с помощью макроса:

Таким образом, уравнение авторегресии будет иметь вид:
,
где параметры
будут оцениваться в процессе анализа.
Нажмем ОК. Получаем следующие оценки параметров:

Рис. 22
В данной таблице
соответствует
,
, а
–
.
Все оценки параметров оказались статистически значимыми. Ошибки оказались существенно меньше самих оценок параметров. Таким образом, получили значимую модель.
Построим теперь прогноз на следующий год (число наблюдений 12) на графике:

Рис. 23
Прогноз импорта газа на 2011 год
Попробуем теперь спрогнозировать импорт газа на 2011 год.
Вновь обратимся к линейному графику временного ряда импорта газа:

Рис. 24
Понятно, что анализировать весь ряд для построения прогноза на следующий год не имеет смысла, так как в разные периоды поведение ряда отличается. Поэтому далее будем рассматривать период 2000-2010 гг.

Рис. 25
Запустим макрос по перебору АРПСС моделей на выбранном множестве данных.
Получаем следующие результаты:

Рис. 26
Выбираем модель, в которой учитывается сезонный лаг (LagS = 1). Такой будет модель АРПСС (1, 1, 0)(2, 1, 0).
Построим прогноз, заполняя соответствующими параметрами поля диалогового окна Одномерная АРПСС.
Получаем следующие результаты:

Рис. 27
Получаем, таким образом, модель
со статистически значимыми оценками коэффициентов.
Представим построенный прогноз визуально:

Рис. 28
В завершении приведем численный прогноз на 2011 год (12 наблюдений соответствуют месяцам 2011 года):

Рис. 29
Более подробную информацию по этому кейсу вы можете получить у специалистов СтатСофт.
Список литературы
-
В.П.Боровиков. STATISTICA. Искусство анализа данных на компьютере: для профессионалов (2-е издание), СПб.: Питер, 2003. – 688 с.: ил.
-
Г.И.Ивченко, Ю.И.Медведев. Математическая статистика. – М.: Высшая школа, 1984. – 248 с.
-
Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. – М.: Большая Российская энциклопедия, 2003. – 912 с.
-
Электронный учебник компании StatSoft.
В начало
Комментарии: