Содержание
Вербальная постановка задачи
Приведенные данные
В Excel-таблице содержится информация о построенных дорогах. Конкретно, приведенные параметры таковы:
Дороги: приведена информация о стоимости прокладки, протяженности, типе рельефа, на котором дорога строилась, типе покрытия, расстояниях подвоза материалов (асфальта, щебня, шлака и т.д.). Также приводятся данные о курсе доллара США на начало и конец строительства.
Импортированная в среду STATISTICA таблица данных выглядит следующим образом:

Рис. 1. Таблица данных для строительства дорог
Задачи исследований
На основании приведенной информации необходимо построить следующие прогнозы и оценки. Нужно предсказать стоимость строительства новой дороги по заданным ее параметрам, а именно:
- Протяженности дороги
- Типу покрытия
- Ширине покрытия
- Объему насыпи
- Типу рельефа, по которому дорога прокладывалась
- Расстояниям возки материалов
- Параметрам построенного моста (если он имеется) (материалу, длине и т.д.)
Описательный анализ
Приведем описание исходных данных, то есть всех переменных анализа - входных и выходных.
Стоимость., руб. Цены построенных дорог выражены в рублях. Для двух приведенных дорог они составляют от 10 до 23 млн. рублей. Это важная выходная переменная анализа. В конечном счете, целью задачи является построение прогноза для этой «стоимости».
Дата начала/окончания строительства. Здесь приводятся сроки начала и окончания работ по прокладке дороги. На сооружение их уходит, согласно приведенным данным, от месяца до года, в среднем около 5 месяцев.
Протяженность, м. Выраженная в метрах длина дорожного полотна. Для проведенных дорог составляет около 2 км. Приведем гистограмму для этой переменной. Как видно, распределение близко к нормальному. Значения протяженности лежат в пределах от 1.7 до 2.3 км., при этом половина из них в пределах от 1.92 до 2.04 км.

Рис. 2. Гистограмма для переменной Протяженность
Тип покрытия. Категориальная переменная, означающая тип дорожного покрытия. Для приведенных дорог это были щебень/асфальтобетон и шлак. Ниже будет приведена корреляционная матрица для установления возможных корреляций между этой переменной и типом рельефа.
Высота слоя покрытия. Выраженная в сантиметрах толщина уложенного на дорожную основу покрытия. Для приведенных дорог значение этой переменной лежит в пределах от 19 до 36 см., в среднем составляет 25 см.
Расстояние возки. Группа переменных. В таблицах приведены расстояния возки для леса, щебня и асфальта. Все переменные выражены в километрах и означают расстояние от источников каких-либо материалов. Для приведенных дорог значение этой переменной лежит в пределах от 12 до 105 км., в среднем составляет около 60 км.
Вырубка. Выраженная в гектарах площадь вырубленного для постройки дороги леса. Лежит в пределах от 5 до 15 га, в среднем для прокладки каждой дороги было вырублено около 9 гектаров.
Рельеф. Категориальная переменная, отражающая рельеф местности, на которой дорога была построена. Представленные дороги прокладывались на различных рельефах - сухому (суходол) и болотистому (болото), что, очевидно, сильно влияет на стоимость прокладки тракта. Приведем гистограмму для данной переменной:

Рис. 3. Гистограмма для переменной Рельеф
Как видно из данной гистограммы, дороги в основном прокладывали по болотистой местности. Доля проложенных на сухом грунте дорог составляет около 39%.
Визуализация данных
Попробуем визуализировать полученную информацию. Рассмотрим переменные, влияющие на стоимость прокладки дороги. Переменная протяженность. Рассмотрим ее влияние на отклик - переменную Стоимость.

Рис. 4. Диаграмма рассеяния для переменных Протяженность и Стоимость
Как видно, явная линейная зависимость между стоимостью и протяженностью дороги отсутствует. Приведем график средних с ошибками для пары переменных Рельеф - Стоимость.

Рис. 5. График средних с ошибками для переменных Рельеф и Стоимость
Из графика становится ясно видно, и это даже не надо доказывать, что стоимости прокладки дорог по суходолу и болоту отличаются на порядок. При этом все различия в ценах для прокладки дорог по суходолу скрыты за разностью средних (межгрупповых дисперсий). Приведем также корреляционную матрицу для этих переменных:

Рис. 6. Корреляционная матрица для переменных Рельеф и Стоимость
Матрица показывает наличие заметной линейной связи между стоимостью прокладки дороги и рельефа, по которому она прокладывается. В сочетании с предыдущим графиком, эта матрица подтверждает вывод о большой стоимости строительства дороги на болоте.
Подходы к решению поставленных задач
Целью данной задачи является построение как можно более точного прогноза стоимости прокладки дороги. Рассмотрим решение этой задачи с помощью продукта STATISTICA Нейронные сети. Так как выходная переменная является непрерывной, то тип задачи устанавливается на Регрессионный.
Шаг 1. Выберите Анализ --> Нейронные сети. Задайте тип анализа на Регрессионный.
Шаг 2. Нажмите на кнопку Переменные, чтобы задать переменные анализа. Задайте в качестве непрерывной зависимой переменной - Стоимость, в качестве категориальных предикторов - все остальные, исключая переменные справочного/экономического характера, например, даты.
Шаг 3. Нажмите на кнопку ОК, чтобы перейти на диалог задания моделей. Выглядит он следующим образом.

Нажмите на кнопку Выборки и установите размер контрольной выборки на 0. Задайте число сетей для обучения: чем больше, тем лучше. На вкладке Тип сети установите все опции на Вкл.
Шаг 4. Нажмите на кнопку Ок для того, чтобы начать обучение. По его окончании будет отображено окно результатов. Выглядит оно следующим образом.

Шаг 5. Нажмите на кнопку итоги моделей на вкладке Быстрый. Полученные модели имеют следующие параметры:

Рис. 7. Итоги работы персептронов
В данном случае созданная модель обладает невысоким качеством. Рассмотрим описательные статистики для рабочих моделей:

Рис. 8. Описательные статистики для персептронов
Как видно, для различных моделей уровни ошибки составляют от 5% до 15%. Такой разброс в уровне ошибки, в общем, свидетельствует о слабой адекватности применения нейросетей для решения подобной задачи. Об этом может свидетельствовать хотя бы график отклика для переменной Ширина покрытия:

Рис. 9. График отклика для переменной Стоимость
Для различных моделей отклики стоимости в зависимости от ширины покрытия различны - от возрастания до «безразличия». Альтернативным методом прогнозирования цен является использование модуля Ковариационный анализ. Целью в данном случае является построение линейной модели связи между зависимыми переменными и стоимостью; коэффициенты линейного уравнения будут определены при минимизации ошибки исходя из представленных данных.
В качестве категориального (качественного) предиктора была выбрана переменная Рельеф, в качестве непрерывных предикторов - переменные Протяженность, Ширина покрытия, Длина моста и Диаметр ВПУ2.
Полученная линейная регрессионная модель значима со следующими параметрами:

Рис. 10. Значимость гипотезы
Полученная гипотеза значима, хотя и низкого качества. Рассмотрим ее предсказывающую способность. Приведем линейный график для предсказанных и наблюдаемых значений.

Рис. 11. График наблюдаемых и предсказанных значений
Приведем также таблицу с результатами работы модели. Тут собраны различные виды ошибок, подсчитанные модулем «качество подгонки».

Рис. 12. Таблица итогов работы модели
Итак, полученная регрессионная модель допускает ошибку около 25%. Этот уровень является приемлемым и, следовательно, модель заслуживает внимания. Качественным отличием построенной модели от нейросетевой является независимо доказанная устойчивость и интерпретируемость. В то время как различные нейросетевые модели дают непредсказуемые прогнозы, часто не объясняющие реального поведения отклика, регрессионная модель дает прогнозируемый результат.
Какие же выводы можно сделать на основании результатов работы нейросетевых и регрессионных моделей? Начнем с того, что поставленная задача - прогнозирование стоимости строительства - является по своей природе линейной. Нейросетевые модели дают наиболее общий прогноз, не связанный с какими-либо заранее известным характером зависимости. Регрессионные методы специально заточены под решение линейных задач.
Характерным примером для сравнения двух методов может служить приведенный здесь пример – прогнозирование стоимости прокладки дороги. Из двух моделей, нейросетевой и регрессионной, предпочтительной является последняя. Причиной этого является явная неустойчивость персептронов и плохо предсказуемая применимость модели вообще (примером этого может служить рисунок 12, где, казалось бы, качественные модели дают различный отклик, иногда даже противоречащий интуитивному пониманию зависимости).
В начало
Комментарии: