Содержание
Пример выполнен в 5ой версии системы STATISTICA
Постановка задачи
В таблице ниже приведены данные о капитальных затратах на строительство атомных электростанций с реактором водяного охлаждения. Данные собраны для 32 различных станций США.
Требуется: оценить зависимость между ценой станции и рядом параметров, приведенных в таблице, предсказать величину капитальных затрат на строительство новой станции, попробовать выделить наиболее значимые величины, влияющие на цену станции.
Структура данных
№
|
C
|
D
|
T1
|
T2
|
S
|
PR
|
NE
|
CT
|
BW
|
N
|
PT
|
1
|
460.05
|
68.58
|
14
|
46
|
687
|
0
|
1
|
0
|
0
|
14
|
0
|
2
|
452.99
|
67.33
|
10
|
73
|
1065
|
0
|
0
|
1
|
0
|
1
|
0
|
3
|
443.22
|
67.33
|
10
|
85
|
1065
|
1
|
0
|
1
|
0
|
1
|
0
|
4
|
652.32
|
68.00
|
11
|
67
|
1065
|
0
|
1
|
1
|
0
|
12
|
0
|
5
|
642.23
|
68.00
|
11
|
78
|
1065
|
1
|
1
|
1
|
0
|
12
|
0
|
6
|
345.39
|
67.92
|
13
|
51
|
514
|
0
|
1
|
1
|
0
|
3
|
0
|
7
|
272.37
|
68.17
|
12
|
50
|
822
|
0
|
0
|
0
|
0
|
5
|
0
|
8
|
317.21
|
68.42
|
14
|
59
|
457
|
0
|
0
|
0
|
0
|
1
|
0
|
9
|
457.12
|
68.42
|
15
|
55
|
822
|
1
|
0
|
0
|
0
|
5
|
0
|
10
|
690.19
|
68.33
|
12
|
71
|
792
|
0
|
1
|
1
|
1
|
2
|
0
|
11
|
350.63
|
68.58
|
12
|
64
|
560
|
0
|
0
|
0
|
0
|
3
|
0
|
12
|
402.59
|
68.75
|
13
|
47
|
790
|
0
|
1
|
0
|
0
|
6
|
0
|
13
|
412.18
|
68.42
|
15
|
62
|
530
|
0
|
0
|
1
|
0
|
2
|
0
|
14
|
495.58
|
68.92
|
17
|
52
|
1050
|
0
|
0
|
0
|
0
|
7
|
0
|
15
|
394.36
|
68.92
|
13
|
65
|
850
|
0
|
0
|
0
|
1
|
16
|
0
|
16
|
423.32
|
68.42
|
11
|
67
|
778
|
0
|
0
|
0
|
0
|
3
|
0
|
17
|
712.27
|
69.50
|
18
|
60
|
845
|
0
|
1
|
0
|
0
|
17
|
0
|
18
|
289.66
|
68.42
|
15
|
76
|
530
|
1
|
0
|
1
|
0
|
2
|
0
|
19
|
881.24
|
69.17
|
15
|
67
|
1090
|
0
|
0
|
0
|
0
|
1
|
0
|
20
|
490.88
|
68.92
|
16
|
59
|
1050
|
1
|
0
|
0
|
0
|
8
|
0
|
21
|
567.79
|
68.75
|
11
|
70
|
913
|
0
|
0
|
1
|
1
|
15
|
0
|
22
|
665.99
|
70.92
|
22
|
57
|
828
|
1
|
1
|
0
|
0
|
20
|
0
|
23
|
621.45
|
69.67
|
16
|
59
|
786
|
0
|
0
|
1
|
0
|
18
|
0
|
24
|
608.80
|
70.08
|
19
|
58
|
821
|
1
|
0
|
0
|
0
|
3
|
0
|
25
|
473.64
|
70.42
|
19
|
44
|
538
|
0
|
0
|
1
|
0
|
19
|
0
|
26
|
697.14
|
71.08
|
20
|
57
|
1130
|
0
|
0
|
1
|
0
|
21
|
0
|
27
|
207.51
|
67.25
|
13
|
63
|
745
|
0
|
0
|
0
|
0
|
8
|
1
|
28
|
288.48
|
67.17
|
9
|
48
|
821
|
0
|
0
|
1
|
0
|
7
|
1
|
29
|
284.88
|
67.83
|
12
|
63
|
886
|
0
|
0
|
0
|
1
|
11
|
1
|
30
|
280.36
|
67.83
|
12
|
71
|
886
|
1
|
0
|
0
|
1
|
11
|
1
|
31
|
217.38
|
67.25
|
13
|
72
|
745
|
1
|
0
|
0
|
0
|
8
|
1
|
32
|
270.71
|
67.83
|
7
|
80
|
886
|
1
|
0
|
0
|
1
|
11
|
1
|
Таблица 1. Исходные данные
Здесь:
C — Цена в млн. долларах, приведенная к курсу 1976.
D — Срок разрешения на строительство.
T1 — Время между обращением за разрешением и получением разрешения на строительство.
T2 — Время между получением оперативной лицензии и разрешением на строительство.
S — Номинальная мощность электростанции, Мвт.
PR — Наличие в той же самой местности ранее построенной электростанции на РВО. Если значение равно 1, то имеется уже построенная станция.
NE — Характеристика района, в котором строится станция.
CT — Использование нагревательной башни. Если равно 1, то используется, если 0 — нет.
BW — Использование силовой установки производства фирмы Babcock-Wilcox. Если значение равно 1, то используется установка этой фирмы, 0 — нет.
N — Суммарное число электростанций, построенное архитектором-инженером станции.
PT — Электростанции, строящиеся под частичным надзором. PT=1, если надзор есть, PT=0, если надзора нет.
Математическая постановка задачи
Для исследования данной задачи воспользуемся методами регрессионного анализа. В этом примере имеется несколько независимых переменных, поэтому применяется метод множественной регрессии.
Воспользуемся векторными обозначениями. Обозначим через Y вектор наблюдений, состоящий из n элементов, через X - матрицу независимых переменных, размером m на n, где m - число независимых переменных, а n - число наблюдений.
В этих обозначениях задача может быть сформулирована следующим образом:
Y = Xb + e; (*)
где e есть независимые случайные ошибки со средним 0, которые интерпретируются как ошибки наблюдений, а b – вектор неизвестных параметров, которые необходимо оценить. Оценки параметров b будем обозначать через B.
В данном примере зависимая переменная – цена станции, а независимые – D, T1, T2, S, PR, NE, CT, BW, N, PR (т.е. все остальные переменные, перечисленные в таблице). Зависимость между переменными предполагается линейной.
Создание электронной таблицы с исходными данными
Электронная таблица с исходными данными для этого примера имеет следующий вид:

Рис. 1. Исходные данные. Просмотрены в численном режиме
Ввод исходных данных. Текстовые и численные значения
Переменные в электронной таблице могут принимать как текстовые, так и численные значения. Текстовые значения вводятся аналогично численным. Необходимо поместить указатель на ячейку в таблице, щелкнуть левой кнопкой мыши и ввести требуемое значение с клавиатуры. Для переменных, которые принимают текстовые значения, в STATISTICA используется так называемое соглашение "двойной записи", при котором каждому текстовому значению приписывается некоторый численный эквивалент. Для просмотра переменных, принимающих текстовые значения, переключитесь в режим просмотра текстовых значений при помощи кнопки
на панели инструментов электронной таблицы. Например, для повышения наглядности восприятия таблицы можно ввести для переменных PR и BW текстовые значения. Для переменной PR - ДА (1) будет обозначать наличие уже построенной в этой местности станции на РВО, а НЕТ (0) - ее отсутствие. Аналогично и для переменной BW введены текстовые значения ИСП и НЕИСП для обозначения использования установок фирмы BW или нет. Для просмотра этих значений нажмите на кнопку
Диспетчер текстовых значений.

Рис. 2. Исходные данные. Просмотрены в текстовом режиме

Рис. 3. Диспетчер текстовых значений для переменной PR
Преобразование исходных данных
В электронных таблицах STATISTICA вы можете выполнить все необходимые преобразования. Такая задача часто возникает в процессе обработки данных. В систему STATISTICA включено большое количество общих математических и специализированных статистических функций. Для некоторых из переменных мы применим, аналогично предыдущему примеру, преобразование логарифмирования. Формулы преобразования задаются в диалоговом окне спецификаций переменной, которое вызывается двойным щелчком на имени переменной в строке заголовка электронной таблицы. Вам, возможно, потребуется вставить дополнительные строки или столбцы в таблицу. Воспользуйтесь для этого кнопками
для вызова соответствующих команд по работе с переменными и наблюдениями. Таблица с данными примет следующий вид:

Рис. 4. Преобразование переменных
При помощи кнопки
вы можете просмотреть спецификации всех переменных в электронной таблице с исходными данными.

Рис. 5. Спецификации всех переменных в электронной таблице
Поставим задачу построения линейной регрессии между зависимой переменной LOG_C = Ln(C) и независимыми переменными D, PR, NE, CT, BW, PT, LOG_N, LOG_S, LOG_T1, LOG_T2.
Предварительный анализ и визуализация данных
Построим ряд специализированных статистических графиков для более полного исследования исходных данных. Для этого поместите указатель мыши на ту переменную в таблице, которую необходимо отобразить графически, щелкните правой кнопкой мыши и из появившегося контекстного меню выберите необходимый график. Для вызова графических средств системы можно воспользоваться также меню Графика и выбрать необходимый тип графика. В этом случае в диалоговом окне определения графика при помощи кнопки Переменные выберите необходимые переменные, которые вы хотите отобразить графически, и необходимый тип графика.

Рис. 6. Гистограмма для переменной T1

Рис. 7. Диаграмма размаха для переменной C
Вызов стартовой панели модуля и определение процедуры анализа
Для начала статистического анализа вам необходимо вызвать Стартовую панель модуля. Это основное диалоговое окно модуля, в котором необходимо задать различные опции анализа. Если Стартовая панель модуля закрыта, то откройте ее. Для этого войдите в меню Анализ и выберите команду Стартовая панель.
Выбор переменных для анализа
Далее необходимо выбрать переменные для анализа. В нашем примере имеется одна зависимая переменная LOG_C и набор независимых переменных. Для их задания воспользуйтесь кнопкой Переменные из Стартовой панели.

Рис. 8. Выбор переменных для анализа
В открывшемся окне Списки зависимых и независимых переменных выберите необходимые переменные. Для выбора переменной щелкните мышью на ее имени. Для выбора нескольких переменных удерживайте при этом клавишу CTRL. Нажмите кнопку ОК в правом верхнем углу. Вы вновь окажетесь в Стартовой панели модуля Множественная регрессия.
Задание дополнительных параметров анализа
Заметьте, что в Стартовой панели вы можете задать и дополнительные опции и параметры анализа. Например, вы можете выбрать определенное подмножество наблюдений для анализа, приписать веса переменным – эти опции относятся к исходным данным. Вы также можете задать и опции, которые относятся непосредственно к статистической процедуре: задать правило обработки пропущенных данных, выбрать метод анализа по умолчанию и др. Мы отменили выбор метода анализа по умолчанию. После нажатия на кнопку OK появится следующее диалоговое окно определения метода:

Рис. 9. Выбор метода анализа и задание дополнительных параметров
В прокручиваемом списке методов выберите одну из пошаговых регрессионных процедур, например, Пошаговую с включением, значения остальных параметров оставьте неизменными. Нажмите OK.
Замечание
Метод пошаговой регрессии состоит в том, что на каждом шаге в модель включается, либо исключается какая-то независимая переменная. Таким образом, выделяется множество наиболее "значимых" переменных. Это позволяет сократить число переменных, которые описывают зависимость.
В данном случае выбран пошаговый метод c включением. При использовании этого метода в регрессионное уравнение последовательно включаются независимые переменные, пока уравнение не станет удовлетворительно описывать исходные данные. Включение переменных определяется при помощи F-критерия.
Вывод результатов и их анализ
В стартовой панели нажмите на кнопку ОК. Система произведет вычисления и на экране появится окно результатов:

Рис. 10. Окно результатов анализа. Отмечены переменные, которые были включены в модель
Нажав на кнопку ОК, вы откроете основное окно анализа результатов.

Рис. 11. Окно с результатами анализа. Красным цветом выделены значимые коэффициенты регрессии
Окно результатов анализа имеет следующую простую структуру: верхняя часть окна - информационная, нижняя содержит функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа.
В информационной части вы прежде всего смотрите на значение коэффициента детерминации. В нашем примере R2 = 0.857... Это значит, что построенная регрессия объясняет 85.7% разброса значений относительно среднего.
Далее вы смотрите на значение F-критерия и уровень его значимости p. F-критерий используется для проверки значимости регрессии.
Щелкните далее на кнопку Итоговая таблица регрессии. Вы увидите следующую электронную таблицу с результатами анализа:

Рис. 12. Краткие результаты регрессии
В третьем столбце расположены искомые коэффициенты. Итак, искомая регрессия имеет вид:
LOG_C = -13.2603 + 0.2261*PT + 0.7234*LOG_S +
+ 0.2124*D + 0.249*NE + 0.1404*CT - 0.0876*LOG_N
Качественно построенное уравнение можно интерпретировать следующим образом:
-
Стоимость строительства растет с увеличением мощности станции (S), при использовании нагревательной башни и при строительстве в NE районе;
-
Стоимость уменьшается с возрастанием опыта инженера-архитектора и при строительстве под частичным надзором.
Итак, на рассмотренных примерах мы проследили технологию обработки данных и стиль работы в системе STATISTICA и увидели, что даже несложные модели линейной регрессии позволяют в реальных задачах получать содержательные результаты.
Дополнительная информация
О методах статистического анализа данных в системе STATISTICA можно прочесть в книгах [3-5]. На нашем Web-сайте, а также на американском сайте компании StatSoft имеется много разнообразной информации о системе, областях и примерах ее применения, новинках, наградах и т. д.
Литература
-
В.П. Боровиков, И.П. Боровиков "STATISTICA - статистический анализ и обработка данных в среде Windows", М.: "Филин", 1998.
-
В.П. Боровиков "Популярное введение в программу STATISTICA", М.: "Компьютер Пресс", 1998.
-
В.П. Боровиков, Г.И. Ивченко "Прогнозирование в системе STATISTICA в среде Windows" (основы теории и интенсивная практика на компьютере), М.: "Финансы и статистика", 2000 (книга имеет гриф учебного пособия).
-
С.А. Айвазян, З.И. Бежаева, О.В. Староверов "Классификация многомерных наблюдений", М.: "Финансы и статистика", 1974.
-
Д. Кокс, Э. Снелл "Прикладная статистика. Принципы и примеры", М.: "Мир", 1984.
В начало
Комментарии: