Содержание
Введение
Потребление электроэнергии населением и промышленными предприятиями зависит от многих факторов: температурный режим, время суток (светлое/темное), погодные условия (в пасмурную погоду люди скорее останутся дома) и т.д.
Таким образом, на коммуникации оказывается различная нагрузка; в случае перегрузки сети она может выйти из строя, что повлечет тяжелые последствия. Постоянная необходимость снабжения электроэнергией населения и промышленных предприятий порождает необходимость серьезной защиты от поломок. Прекращение поступления энергии на жизненно важные объекты может стать причиной катастрофы и привести к настолько огромным финансовым потерям, что в большинстве случаев целесообразнее затратить деньги на предотвращение кризисных ситуаций.
Решение этой задачи может быть проведено двумя путями. Первый состоит в изучении и постоянном мониторинге состояния оборудования, а также в прогнозировании состояния на несколько периодов вперед. Этот подход требует создания системы сбора информации и длительной работы экспертов и аналитиков. Результат достигается через довольно большой промежуток времени и требует значительных финансовых затрат. Но тем не менее, он стабилен и позволяет в долгосрочной перспективе полностью обезопасить себя от рисков.
Альтернативным способом является прогнозирование потребления электроэнергии. Как правило, специалисты знают о потенциальных возможностях электросетей и информации о потреблении им будет достаточно для предсказания экспертным путем возможных поломок. Этот путь требует незначительных финансовых затрат или значительного времени на сбор репрезентативных выборок. Информация, необходимая для прогнозирования, как правило, собирается датчиками на электростанции или коммунальными службами. Данный подход дает менее стабильные результаты, но они проявляются в значительно более короткий период времени.
Максимального эффекта в защите от сбоев и минимизации риска можно достигнуть применяя оба подхода в комплексе. Данная статья посвящена применению системы STATISTICA для прогнозирования потребления электроэнергии.
Помимо минимизации риска, прогнозирование имеет еще одно немаловажное применение. Для промышленных предприятий затраты на оплату счетов за энергию составляют значительную статью бюджета. Построенный прогноз позволит прогнозировать такие затраты, и, как результат, более взвешенно подходить к формированию расходных статей. Сэкономленные деньги не будут лежать «мертвым грузом», и организации не потребуется брать кредит в случае неожиданного перерасхода.
В данном документе приводятся результаты анализа почасового и подневного потребления электроэнергии, а также результаты прогнозирования потребления на срок до 2 недель. В качестве дополнительного исследования проводится корректировка прогноза в зависимости от погодных условий.
Постановка задачи
Формально, перед исследователем ставится несколько задач, заранее строго не оговариваемых. В общем, цель исследования можно сформулировать как: «получить как можно больше информации из имеющихся данных и построить как можно более точный прогноз». Конкретные действия выбираются аналитиком, исходя из своего опыта и имеющихся данных. Отсутствие формализации заставляет исследователя проводить предварительные исследования, называемые «описательным анализом».
Организация информации, следовательно, играет важную роль в планировании исследования и постановке задачи. Цель ставится «от данных», мы вынуждены тратить время на изучение их организации, так как не было поставлено четких задач исследования.
STATISTICA позволяет легко импортировать данные из практически любых форматов, как табличных (Excel, Quattro Pro), так и реляционных (MsSQL, ORACLE), чем избавляет аналитика от необходимости проводить исследования средствами самой СУБД. При этом информация не потеряет свою организацию и будет донесена до исследователя в «исходном» виде.
Рассмотрим исходные данные, предоставленные в виде таблицы Excel. Импортировав данные в STATISTICA, получим:

Рисунок 1. Источник данных
Табличный формат хранения данных не оставляет простора для полета фантазии при организации данных, но делает импорт быстрым и практичным. Имеющаяся информация представляет собой набор несвязанных записей, соответствующих собираемой информации о потреблении электроэнергии и различных факторах.
Мы располагаем информацией по потреблению за 4 первых месяца 2004 года. В таблицах указана информация о почасовом потреблении (январь, февраль) и с интервалом в 3 часа (март, апрель) и дневном потреблении(сумма за сутки). При этом указаны текущие объемы потребления электроэнергии, влажность воздуха, ветер, облачность и различные погодные явления. Мы не располагаем детализацией по объектам потребления электроэнергии, что не позволяет построить какую-либо связную аналитическую модель решения задачи Х_энерго.
Подобной информации достаточно для решения задачи прогнозирования потреблении электроэнергии, которая была заявлена в самом начале. Анализ имеющихся данных позволяет поставить ряд задач, которые, в конечном счете, позволят достичь поставленной цели - построения прогноза максимальной точности. Общая задача разделяется на ряд подзадач, среди которых:
-
Описательный (графический) анализ временного ряда;
-
Исследования временного ряда, в том числе выявление постоянных и регулярных компонент;
-
Точный прогноз временного ряда, как с учетом суточных колебаний, так и на «дневной» шкале;
-
Независимая оценка качества прогноза.
Все эти задачи могут быть решены с помощью пакета STATISTICA. Далее приводятся основные этапы исследования и результаты.
Исследование проходит по классической для подобных задач схеме: начинается с описательных методов и заканчивается построением корректирующих моделей:
-
Описательные исследования временного ряда и визуализация;
-
Предварительные исследования структуры потребления электроэнергии;
-
Построение наивного прогноза потребления;
-
Построение корректирующих моделей и анализ дополнительных факторов;
-
Анализ полученных результатов и их масштабируемости.
Ниже приведено решение всех приведенных задач. Для этого использовались как классические, так и современные методы анализа данных и прогнозирования. Все подходы приведены с подробными описаниями и примерами пользовательского интерфейса пакета.
Описательный анализ временного ряда и визуализация
Исходная информация доступна как по часовому потреблению, так и по дневному потреблению, поэтому анализ необходимо разделить на две стадии. Первая будет касаться исследования суточных колебаний потребления электроэнергии, а вторая будет иметь главной целью построение менее точного прогноза на больший период; иными словами, первое исследование будет опираться на данные о почасовом потреблении, а второе - на данные о дневном потреблении.
Для анализа были выбраны два зимних месяца - январь и февраль. Ниже приведены линейные графики потребления с периодом в 1 день и 1 час.

Рисунок 2. Потребление электроэнергии по дням за 2 месяца

Рисунок 3. Почасовое потребление электроэнергии за январь
На обоих графиках выявляются сезонные колебания. Они могут быть связаны с изменением времени суток, наличием рабочей недели и другими причинами.
Первым шагом будет выделение периоды колебаний сезонной компоненты. Это может быть сделано с помощью спектрального анализа. Приведем результаты - графики периодограмм.

Рисунок 4. Периодограмма для часового потребления

Рисунок 5. Периодограмма для дневного потребления
На обеих периодограммах есть явные пики. Для почасового потребления он соответствует 24 часам, для дневного - 7 дням. Это дневные и недельные колебания потребления. Внутри одного сезонного цикла потребление меняется в соответствии с некоторыми законами, которые могут быть выявлены с помощью классической сезонной декомпозиции. Результаты исследования приведены в виде нескольких графиков.

Рисунок 6. Суточные колебания потребления электроэнергии

Рисунок 7. Недельные колебания потребления электроэнергии
Как видно из первого графика, потребление максимально в вечернее время от 17 до 21 часа. В ночные часы наступает очевидный спад, затем потребление растет до вечера, после чего также снижается. Итак, потребление воды имеет явный сезонный характер. При этом наблюдается трендовое падение общего потребления с конца февраля, связанное с ростом среднесуточной температуры. Эту тенденцию можно видеть на сглаженном скользящим средним графике. Получить этот график можно следующим образом.
Шаг 1. Выберете Анализ - Углубленные методы анализа - Временные ряды и прогнозирование. Нажмите на кнопку Классическая сезонная декомпозиция (Census 1), будет отображена стартовая панель метода.

Рисунок 8. Диалоговое окно настройка сезонной декомпозиции
Шаг 2. Задайте период сезонности равный 7 (неделя) и аддитивную сезонность. В группе «Добавить в рабочую область» выберите Скользящие средние. Нажмите ОК для начала вычислений. По окончании в рабочую область добавится величина скользящего среднего.
Шаг 3. На вкладке Прогноз нажмите на кнопку Просмотр нескольких переменных. Будет отображен следующий график.

Рисунок 9. Графики исходного и преобразованного рядов потребления электроэнергии за два месяца
Следовательно, стоит ожидать на графике прогноза падения общего потребления.
Прогнозирование потребления
Следующим шагом будет построение прогноза данного временного ряда различными методами. Применяемыми инструментами будут модели экспоненциального сглаживания и модель АРПСС. Это два достаточно мощных алгоритма, позволяющие строить прогнозы временных рядов.
Первым объектом анализа станет ряд почасового потребления. Построение прогноза с помощью этого метода - непростая задача и требует предварительных исследований. Необходимым условием применения модели АРПСС является приведение рассматриваемого ряда к стационарному. Ниже приведен окончательный вариант задания модели. Теоретические и практические аспекты работы с моделью изложены в [1].
Шаг 1. Выберете Анализ - Углубленные методы анализа - Временные ряды и прогнозирование. Нажмите на кнопку АРПСС и автокорреляционные функции. Будет отображено диалоговое окно настройки модели.
Шаг 2. Задайте взятие разностей: нам понадобится одна разность с лагом 1 и 1 разность с лагом 24 (т.к. этот период равен периоду сезонности). Исследования автокорреляционной и частной автокорреляционной функции требуют задания модели, содержащей один параметр авторегрессии и два сезонных параметра авторегрессии. Правильно настроенная панель выглядит следующим образом:

Рисунок 10. Диалоговое окно настройки модели АРПСС
Шаг 3. Нажмите на ОК для начала оценки параметров. По окончании итерационного процесса будет отображено диалоговое окно результатов.

Рисунок 11. Результаты модели АРПСС
Шаг 4. Нажмите на кнопку График ряда и прогнозов - будет отображен график прогноза на трое суток вперед.

Рисунок 12. Почасовой прогноз потребления на трое суток в феврале
Красным цветом показан прогноз, зеленым - доверительные интервалы для него. Учитывая специфику модели, можно сказать, что был получен прогноз довольно высокого качества.
Альтернативой модели АРПСС является модель экспоненциального сглаживания. Приведем график прогноза и статистики подгонки.
Шаг 1. Когда работа с АРПСС закончена, вернитесь на стартовую панель, выберете Экспоненциальное сглаживание и прогноз.
Шаг 2. На вкладке Дополнительно необходимо задать параметры модели. Судя по всему, ряд содержит аддитивную сезонность и не имеет ярко выраженного тренда. Выберем эту модель для анализа. Сезонность модели равна 24.

Рисунок 13. Настройка модели экспоненциального сглаживания
Шаг 4. Следующий шаг - подборка параметров жесткости модели - альфа и дельта. Это можно сделать Автоматическим поиском. Перейдите на эту вкладку.

Рисунок 14. Настройка автоматического поиска
Установите критерий согласия на Средняя абс. относительная ошибка. Нажмите на кнопку Автоматический поиск - будет отображен график прогноза и его параметры.

Рисунок 15. Прогноз методом экспоненциального сглаживания

Рисунок 16. Статистики подгонки
Статистика средней абсолютной относительной ошибки говорит о том, что подгонка осуществлена с точностью около 3%. Данная ошибка является хорошей мерой прогноза: она получается как отношение средней абсолютной ошибки и среднего данных. Значение этой ошибки в 3% говорит нам о том, что абсолютное значение ошибки будущего прогноза составит около 5% от среднего значения потребления. Среднее почасовое потребление электроэнергии составляет около 560 единиц, и, таким образом, мы ошибемся не более чем на 16-17 единиц.
Следующий шаг - построение прогноза дневного потребления. На первой стадии это будет сделано без учета температурных колебаний. В самом деле, потребление энергии снижается, так как растет среднесуточная температура. Это в первом приближении видно из наличия убывающего линейного тренда.
Прогноз может быть построен несколькими методами, приведем результирующие графики для алгоритмов экспоненциального сглаживания и АРПСС.
Первый график иллюстрирует применение метода экспоненциального сглаживания. Прогноз построим на две недели вперед (в марте). Другим цветом обозначен существующий ряд. Таким образом, можно визуально оценить качество подогнанного ряда.

Рисунок 17. Прогноз и наблюдаемое потребление энергии на 2 недели марта
Вычислим ошибку прогнозирования - ниже приведена стандартная таблица с ошибками.

Рисунок 18. Ошибки прогнозирования
Как видно, средняя абсолютная относительная ошибка (которую наиболее часто используют для оценки качества подгонки) составляет всего 3%. В качестве альтернативы построим прогноз с помощью модели АРПСС. График и статистики ошибок приведены ниже.

Рисунок 19. Прогноз и потребление электроэнергии на 2 недели марта

Рисунок 20. Статистики качества прогноза
В данном случае ошибка прогнозирования (опять же, используется средняя абсолютная относительная ошибка) составила около 5%. Ниже приведен график прогноза обоими методами.

Рисунок 21. Наблюдаемый ряд и прогнозы потребления электроэнергии
Корректировка дневного потребления проводится довольно простым образом. В часы пикового потребления она повышается на 100 единиц, в часы наименьшего потребления - снижается примерно также. Подсчитать качество прогноза можно с помощью модуля Качество подгонки. Для этого необходимо выполнить следующие шаги.
Шаг 1. Выберете Анализ - Добыча данных - Качество подгонки, классификации, прогноза. Будет отображено диалоговое окно настройки.

Рисунок 22. Настройка определения качества подгонки
Шаг 2. Нажмите на кнопку Переменные и задайте переменную, отражающую наблюдения - как независимую, а переменную, отражающую прогноз - как зависимую. Нажмите ОК для возврата на основную панель.
Шаг 3. На вкладке Дополнительно Задайте параметры вычисляемых ошибок - выберете все возможные. Нажмите на кнопку ОК - будет отображена таблица, подобная таблице на рисунке 20.
Прогноз потребления энергии с поправкой на погодный режим
Эта часть посвящена коррекции прогноза в зависимости от погодных условий. Будет построен прогноз потребления на несколько дней вперед в апреле; информация может быть взята, например, из прогноза гидрометеобюро. Первым шагом будет определение влияния различных факторов на потребление. Этих факторов несколько, в зависимости от этого приведем несколько графиков. Все они могут быть получены из меню Анализ - Графика. Например, приведенный ниже график может быть построен с помощью следующей последовательности шагов.
Шаг 1. Выберете Графика - Диаграммы размаха. Будет отображено диалоговое окно настройки отображения графика.

Рисунок 23. Настройка диаграммы размаха
Шаг 2. Нажмите на кнопку Переменные и задайте переменную, отражающую потребление электроэнергии как зависимую, а переменную Эффекты - как группирующую. Показатели потребления, по-видимому, будут носить характер, далекий от нормального, поэтому график должен содержать медианы группированных выборок. Нажмите на кнопку ОК для начала вычислений. По окончании будет отображен график.

Рисунок 24. Средние потребления в зависимости от погодных явлений
Как видно, потребление снижается при ясной погоде, и повышается при дожде или снеге. Далее, очистим ряд от нерегулярной компоненты и приступим к ее исследованиям. Графики очищенного, исходного рядов и нерегулярной компоненты приведены ниже.

Рисунок 25. Ряд очищенный и нерегулярная компонента
(по оси Х отложены регламентные дни от начала года)
Нерегулярная компонента коррелированна с влажностью и с температурой (зависимостей разные):

Рисунок 26. Корреляционная матрица
Будем считать, что эти две переменные определяют нерегулярную компоненту. Зависимость изменений в потреблении от температуры задается уравнением delta = Z0 - 49,5*delta(T). Т.е. с ростом температуры на 1 градус потребление электроэнергии падает на 50 единиц. Зависимость от влажности имеет следующий вид: delta = Z0 - 3880,5*delta(Р), т.е. при низкой влажности потребление возрастает.
Учесть другие факторы пока достаточно трудно. Прогноз временного ряда с учетом погоды можно построить несколькими способами. Можно скорректировать полученный прогноз на погодные условия или прогнать данные через нейронную сеть. Последний вариант избавляет от необходимости делать корректировку вручную. Результаты приведены ниже.

Рисунок 27. График прогноза на 10 дней в апреле с учетом погодных условий
(по оси Х отложены дни в апреле)
В качестве независимых переменных рассматривались еще и температура и влажность воздуха. Зная эти параметры (например, из прогноза), мы можем прогнать их через нейронную сеть со следующей архитектурой:

Рисунок 28. Архитектура нейронной сети
И получить прогноз, приведенный на рисунке 22. Альтернативный вариант состоит в ручной корректировке прогноза. Погода на первые дни апреля «предсказана» следующая.
01.04.04
|
0 °C
|
735 мм
|
74%
|
Зап (270), 7 м/с
|
Сплошная
|
02.04.04
|
-6 °C
|
739 мм
|
86%
|
Сев (10), 5 м/с
|
Сплошная
|
03.04.04
|
-8 °C
|
744 мм
|
86%
|
Сев (360), 8 м/с
|
Сплошная
|
04.04.04
|
-8 °C
|
745 мм
|
62%
|
С-З (330), 8 м/с
|
20-30%
|
05.04.04
|
-3 °C
|
737 мм
|
93%
|
Ю-З (230), 5 м/с
|
Сплошная
|
06.04.04
|
-11 °C
|
738 мм
|
85%
|
Южн (190), 4 м/с
|
20-30%
|
Учесть мы пока можем только колебания температуры и влажности. Ниже представлен нескорректированный прогноз.

Рисунок 29. Нескорректированный прогноз потребления на неделю в апреле
(по оси Х отложены дни апреля)
4 апреля характеризовалось небольшой влажностью. Скорректированное значение составляет 11400 единиц. 5 апреля температура упала, скорректированное значение составит 11300 единиц. Заметим, что 7 апреля необходимо скорректировать предсказанный ряд в сторону уменьшения (еще более усугубить ошибку). Остальные параметры прогноза погоды не сильно отличаются от средних, нет смысла проводить корректировку. В итоге получаем график прогноза, скорректированного на погоду.

Рисунок 30.Скорректированный график прогноза
(по оси Х отложены дни апреля)
Такой способ корректировки непрактичен, но позволяет наиболее полным образом воспользоваться возможностями для анализа корреляционных взаимодействий. Приведенные здесь расчеты СУГУБО ПРЕДВАРИТЕЛЬНЫЕ и могут применяться для реального прогнозирования только с большими оговорками. Главным выводом из всей части является то, что взаимодействия между погодными факторами и потреблением можно обнаружить и провести некоторую корректировку.
Резюме
Исходя из полученных результатов, можно сделать следующие выводы.
-
Потребление электроэнергии имеет явную сезонную структуру, причем один из периодов сезонности равен 24 часам, второй- 7 суткам.
-
Наблюдается трендовое снижение потребления, связанное с повышением среднесуточной температуры.
-
Полученный прогноз довольно высокого качества, но вероятно, годится только для применения в короткие сроки.
-
Для получения среднесрочного и долгосрочного прогноза необходимы дополнительные данные.
Немаловажным выводом является сама необходимость построения прогноза потребления электроэнергии. Временные ряды, относящиеся к потреблению, часто относят к классу детерминированных, то есть обладающих ярко выраженными законами развития. В соответствии с проведенным анализом это утверждение неверно.
Потребление электроэнергии имеет не только разнообразную сезонную структуру, но и подвержено влиянию многих сторонних факторов, таких как температура или влажность. Построение даже простых линейных моделей может значительно повысить качество прогноза, что наглядно продемонстрировано на рисунках 29-30.
Полученный прогноз объемов потребления электроэнергии явился результатом комплексных исследований, включающих в себя множество стадий, как предварительного исследования, так и применения прогностических алгоритмов. Все графики и таблицы были построены в системе STATISTICA, что еще раз демонстрирует ее как полноценную аналитическую среду, способную решить любые задачи.
В начало
Комментарии: