Содержание
Постановка задачи
На сталелитейном заводе были произведены измерения значений толщины одной трубы в конечном числе точек. Вследствие шероховатости поверхности и погрешности измерительных приборов эти значения оказались различны в различных точках. Требуется построить модель, восстанавливающую значения толщины по всей трубе.
Математическая модель
1. В трехмерном евклидовом пространстве в полярных цилиндрических координатах лежит отрезок трубы. Ось z направлена вдоль трубы, а начало координат лежит в её центре. Отрезок задан значениями координат обеих поверхностей в точках вида:
,
где p – значение радиус-вектора на уровне
;
n – параметр шага по вертикальной оси (вдоль трубы), изменяется от 0 до 29;
m – параметр шага поворота радиус-вектора, изменяется от 0 до 29;
l – длина отрезка трубы.
Для того чтобы оперировать с данными в более удобном формате, рассмотрим следующее преобразование пространства. Зададим стандартное отображение пространства с полярными цилиндрическими координатами на пространство с прямоугольной системой координат так, что величина угла будет откладываться на отрезке оси X, величина высоты на оси Y, а величина радиус-вектора на оси Z. Другими словами, мы «разрежем» трубу вдоль и «развернем» её на плоскость.
Таким образом, получаем конечную сетку на плоскости с приписанными значениями высоты в её узлах. Задать эту сетку можно квадратной таблицей, где (i,j)-тым элементом является значение, приписанное (i,j)-тому узлу.

Рис. 1. Фрагмент таблицы, задающей сетку
2. На измерения влияет огромное число различных факторов (например, брак при отливке в сталелитейном цехе, ошибка измерительного прибора, условия измерения и т.д.).
Поэтому целесообразно предположить, что функция толщины трубы z(x,y) = a + ξ, где a – некоторое постоянное число, физический смысл которого – требуемая толщина трубы; ξ – случайная нормальная величина, ξ ~ N(0,σ2); σ2 – малая дисперсия. В рассмотренном далее примере a = 4, σ = 0.03.

Рис. 2. Графики сечений для внутренней и внешней поверхностей трубы
На графике выделено:
Синим – наблюдаемое значение.
Красным пунктиром – требуемое значение.

Рис. 3. Сечение трубы
В точках внешней поверхности указана толщина в этой точке данного сечения.
Заполнив таблицу соответствующими значениями, построим график поверхности толщины трубы. Для этого в меню Графика выберем 3М последовательные графики, Диаграммы исходных данных.

Рис. 4. Меню Графика, 3М последовательные графики, Диаграммы исходных данных

Рис. 5. График поверхности толщины трубы
Для того чтобы восстановить значение толщины в произвольной точке, воспользуемся методом построения уравнения регрессии. Для этого нам необходимо очертить круг факторов, т.е. определить, что именно оказывает наибольшее влияние на толщину трубы.
Из физики известно, что степень взаимодействия между частицами твердого тела убывает обратно пропорционально расстоянию. Поэтому рассмотрим следующую схему. Пусть имеется произвольная точка на поверхности трубы. Рассмотрим 8 точек, расположенных в узлах сетки таким образом, как показано на рисунке.

Рис. 6. Схема влияния точек решетки на толщину в произвольной точке поверхности трубы
Значением влияния каждой точки на искомую точку будем считать величину
,
где
- значение толщины в i-той точке,
ri– расстояние между i-той и рассматриваемой точками, i изменяется от 1 до 8.
Ниже представлены графики первых четырех факторов (т.е. влияние точек 1-4).
Замечание: здесь и далее вместо рассмотрения задачи зависимости толщины трубы от двумерного пространства координат, будем рассматривать зависимость значения толщин трубы от одномерного пространства координат. А именно будем однозначно сопоставлять каждой точке (x,y), где
, двумерной координатной плоскости число
, где
. Таким образом, мы будем рассматривать обычную функцию одной переменной.

Рис. 7. Графики первых четырех факторов влияния
Будем строить регрессию вида
. В качестве обучающей, контрольной и тестовой выборок рассмотрим точки решетки, для которых заранее вычислим значения факторов влияния. Таким образом, каждая точка будет выступать как в роли зависимой переменной, так и в роли независимого предиктора для другой точки.
Теперь, когда в нашем распоряжении есть все необходимые данные, можно приступить непосредственно к построению модели.
В меню Анализ выберем Нейронные сети. После указания типа переменных, и присвоения им меток «Зависимая», «Независимая» обратимся к инструменту Мастер решений.

Рис. 8. Диалог Мастер решений
Для нахождения модели с лучшими характеристиками, построим 1000 сетей различных типов (сети с Радиально – Базисной Функцией, Многослойный Персептрон, Линейная сеть).
Прежде рассмотрим вкратце особенности всех типов сетей.
Многослойный персептрон
Архитектура сети многослойный персептрон используется сейчас наиболее часто. Каждый элемент сети строит взвешенную сумму своих входов с поправкой в виде слагаемого и затем пропускает эту величину активации через передаточную функцию, и таким образом получается выходное значение этого элемента. Элементы организованы в послойную топологию с прямой передачей сигнала.
Такую сеть легко можно интерпретировать как модель вход-выход, в которой веса и пороговые значения (смещения) являются свободными параметрами модели. Такая сеть может моделировать функцию практически любой степени сложности, причем число слоев и число элементов в каждом слое определяют сложность функции.
Сеть РБФ
Суть работы сетей, построенных с использованием архитектуры РБФ, основана на разбиении пространства окружностями или (в общем случае) гиперсферами. Гиперсфера задается своим центром и радиусом. Подобно тому, как элемент МП реагирует (нелинейно) на расстояние от данной точки до линии "сигмоидного склона", в сети, построенной на радиальных базисных функциях, элемент реагирует (нелинейно) на расстояние от данной точки до "центра", соответствующего этому радиальному элементу.
Поверхность отклика радиального элемента представляет собой гауссову функцию (колоколообразной формы), с вершиной в центре и понижением к краям. Наклон гауссова радиального элемента можно менять подобно тому, как можно менять наклон сигмоидной кривой в МП.
Линейная сеть
Линейная сеть, по сути, является вырожденным случаем многослойного персептрона, а именно, персептрона только с входным и выходным слоями. Иногда выбор такой простой конфигурации позволяет избежать переобучения сети или её излишней громоздкости, что зачастую служит причиной ухудшения обобщающих способностей.
Итак, построив с помощью Мастера решений различные сети, получим следующие результаты:

Рис. 9. Результаты работы Мастера Решений

Статистики в колонках Производительность обучения, Контрольная производительность и Тестовая производительность являются отношениями стандартных отклонений на этих выборках.
Это отношение является индикатором качества регрессионной модели. Чем это отношение меньше, тем лучше. Оно получается делением стандартного отклонения остатков на стандартное отклонение исходных данных. Модели с отношением SD 1.0 или близким к этому плохо предсказывают, а модели с отношением из диапазона 0.1-0.2, как правило, прогнозируют хорошо.
Полученные результаты производительности говорят о том, что в среднем построенные сети не обладают хорошей предсказывающей способностью, точнее их предсказывающая способность не многим лучше предсказания средним значением.
Проанализировав таблицы результатов, можно сделать вывод о том, что архитектура РБФ – сети наилучшим образом подходит для решения данной задачи. Следует также помнить и о том, что сети РБФ плохо предназначены для задач интерполяции.
Несмотря на кажущееся превосходство, как мы увидим далее, эти модели окажутся не адекватными.

Анализ чувствительности также указывает на превосходство сетей РБФ, потому что, как подсказывает здравый смысл, все факторы равноправны и выделение приоритетных факторов ошибочно. Наилучшей сетью в таком смысле является первая сеть.

Также отметим, что корреляция прогноза и исходных данных очень мала (порядка 0,05), а ошибка Отношение ст. откл. почти равна единице, что говорит о слабой объясняющей способности моделей и сильном влиянии ошибки на результат.
Подтверждением этих слов служат диаграммы рассеяния Предсказанных значений от Наблюдаемых.

Рис. 10. Диаграммы рассеяния Предсказанных значений от Наблюдаемых для наилучшей модели каждого типа (РБФ, МП, Линейная сеть)
Такая ситуация легко объяснима, если вспомнить о том, что мы генерировали поверхность, как сумму постоянной величины и нормальной ошибки. Следует вновь отметить, что такое представление корректно и не является искусственным. Поскольку ошибки случайны и независимы, то неспособность нейронных сетей построить адекватную модель вполне обоснована.
Продолжая анализ полученных результатов, отметим, что ошибки моделей наоборот очень хорошо предсказываются наблюдаемыми значениями моделей РБФ и МП. Этот факт тоже вполне логичен с точки зрения приведенных выше рассуждений.
Ниже представлены диаграммы рассеяния значений остатков в зависимости от Наблюденных значений для лучших моделей в каждом классе.

Рис. 11. Диаграммы рассеяния значений Остатков в зависимости от Наблюденных значений для наилучшей модели каждого типа (РБФ, МП, Линейная сеть)
Имея в виду эту особенность сетей типов РБФ и МП, воспользуемся следующим методом для восстановления значения толщины трубы в произвольной точке. Имеют место следующие соотношения:
Наблюденное значение = Прогноз - Ошибка,
Ошибка = a * Наблюденное значение + b + ξ;
Таким образом, получаем:
Наблюденное значение ≈ (Прогноз - b)/(1 + a).
Основываясь на хорошем линейном приближении ошибок наблюдаемыми значениями (их сильной корреляции), можно предположить, что вычисления по данной формуле будут достаточно точными.
Тем не менее, среди моделей типов РБФ и МП попытаемся найти сеть, которая наиболее хорошо объясняет поведение переменной толщины трубы. Для этого воспользуемся инструментом Конструктор сетей.
Поиск наилучшей РБФ сети
Нарочно зададим большое число скрытых элементов, но далее разрешим удалять внутренние элементы с малыми выходными весами и удалять входные элементы с низкой чувствительностью.

Рис. 12. Диалог Нейронные сети
Значение весового порога чувствительности оставим данными по умолчанию.

Рис. 13. Диалог Конструктор сетей
Повторив процедуру построения сети несколько раз, получим 13 моделей сети РБФ.
Ниже представлены таблицы оценок результатов для построенных моделей.


Проанализировав таблицы, а также диаграммы рассеяния ошибок, остановимся на модели № 21, как на лучшей в совокупности. Уравнение регрессии для ошибок имеет вид:
Ошибка = 3,9869 – 0,9965 * Наблюдаемое значение

Рис. 14. Диаграмма рассеяния ошибок в зависимости от наблюдаемых значений для модели 3.21
Поиск наилучшей сети архитектуры МП
Займемся теперь поиском оптимальной сети типа Многослойный Персептрон. В диалоге Конструктор Сетей выберем флажок Многослойный Персептрон. После этого отобразится соответствующий диалог. На вкладках данного диалога можно задать различные параметры, характеризующие строящуюся сеть.
Следует отметить, что параметров сети типа МП больше, чем у сети РБФ. Это говорит о том, что круг задач, решаемых персептронами, гораздо шире.

Рис. 15. Диалог Многослойный персептрон
Комбинирование различных значений этих параметров дает возможность получить сети с очень отличающимися характеристиками. Ниже представлены таблицы оценок результатов некоторых сетей, полученных в результате многократной процедуры конструирования нейронной сети.


Проанализировав результаты таблиц, остановимся на модели №39. Уравнение регрессии для ошибок данной модели имеет вид:
Ошибка = 3,9626 – 0,9907 * Наблюденное значение

Рис. 16. Диаграмма рассеяния ошибок в зависимости от наблюдаемых значений для модели 3.21
Пока не будем выделять из этих двух значений одно, потому что очевидные причины сделать конкретный выбор мы увидим далее.
Сделаем некоторые предварительные выводы.
В рассматриваемой нами модели (как впрочем, и во всех других построенных в настоящей работе), предсказанные значения максимально близки к теоретической толщине, т.е. без шума. Это вполне объяснимо и говорит о том, что рассматриваемая совокупность факторов достаточно хорошо характеризует поверхность в смысле её теоретической толщины.
Текущая задача состояла в том, чтобы, наоборот, определить именно реальное значение толщины трубы с учетом шума, а поэтому мы и прибегли к изложенной выше процедуре косвенного вычисления необходимого значения.

Рис. 17. Графики предсказанной и наблюдаемой толщин трубы
На графике выделено:
Синим – наблюдаемая толщина.
Красным пунктиром – предсказанная толщина.
Рассмотрим одно дополнение решенной задачи. Мы уже построили модель нейронных сетей. Восстановим значение толщины трубы в некотором количестве точек и проверим эти значения на предмет принадлежности интервалу допуска. Задача может быть практически полезна при процедуре контроля качества выпускаемой продукции в условиях ограниченных (выборочных) сведениях о качестве этой продукции.
Поскольку технологические границы допуска диктуются конкретной задачей и методом производства, а в рассматриваемом примере значения толщины моделировались искусственно, то интервалом допуска логично будет считать интервал (μ - 3σ2; μ + 3σ2), где μ – требуемое значение (в нашем случае требуемое значение толщины), σ – есть среднеквадратическое отклонение ошибки (в нашем случае 0.03).
Мы рассмотрим 50 произвольных точек. Зададим параметры шага угла и шага длины случайным образом. Для этих значений вычислим значения факторов f1-f8. В результате получим таблицу.

Рис. 18. Таблица параметров произвольных 50 точек
После того, как таблица факторов получена, запустим поочередно заранее сохраненные сети №№21,39 на новых данных и получим прогноз.
Итак, сеть РБФ дала следующие прогнозы толщины:

Теперь стали понятны причины для отвержения сети РБФ в пользу архитектуры МП в данной задаче. Одинаковые предсказанные значения объясняются тем, что сети с архитектурой РБФ непригодны для задач интерполяции (каковой и является данная).
Хорошие результаты при обучении объясняются тем, что на множестве обучения, т.е. на той наименьшей области пространства факторов, содержащей точки обучающей выборки (назовем её область обучения), рассматриваемая сеть действительно хорошо аппроксимирует функцию выхода.
Но значения факторов для рассматриваемых 50 точек очень сильно отличаются от тех, что использовались при обучении. Другими словами, те точки пространства факторов, которые соответствуют рассматриваемым 50 точкам поверхности, довольно далеки от области обучения.
Иначе дело обстоит с сетью с архитектурой МП.
Итак, строим прогноз толщины.


Рис. 19. Предсказанные значения толщины сетью с архитектурой МП
Согласно методологии выше, для вычисления реальных значений. необходимо воспользоваться формулой.
Наблюденное значение = (Прогноз - 3,9626)/(1 – 0,9907),
поскольку имеет место регрессия для ошибки.
Ошибка = 3,9626 – 0,9907 * Наблюденное значение
После корректировки результатов прогноза имеем:


Рис. 20. Скорректированные предсказанные значения толщины сетью с архитектурой МП и наблюдаемые значения толщины трубы
Где:
Синия линия – наблюдаемые значения.
Красный пунктир – скорректированные предсказанные значения.
Даже невооруженным глазом видно, что построенный прогноз едва ли можно считать правильным. Заключить это можно хотя бы из того, что размах значений предсказанных значений на порядок больше размаха наблюдаемых.
Подведем итоги.
Мы рассматривали нейронные сети, обладающие чрезвычайно малыми коэффициентами корреляции с наблюдаемыми значениями. Такая особенность этих сетей обуславливалась особенностями прогнозируемой величины (которая представляла собой сумму постоянной и случайной составляющих).
Для увеличения объясняющей способности сети была предложена модель корректировки с помощью сильнокоррелирующих с исходными данными ошибок (см. выше). Заключение о возможности применения данного метода делалось опять же исходя из особенностей прогнозируемой величины.
Как показали результаты, модель оказалась непригодной в данном случае. Причинами тому, возможно, стали неучтенные более сложные взаимосвязи между предсказанными значениями, ошибками и наблюденными значениями, а также низкая производительность самой сети.
Далее сделаем небольшое отступление от решаемой задачи в сторону теоретических рассуждений.
Теоретические рассуждения
Имеют место следующие следствия из работ Колмогорова-Арнольда, Хехт-Нильсена.
Следствие 1. Из теоремы в формулировке Хехт-Нильсена следует представимость любой многомерной функции нескольких переменных с помощью нейронной сети фиксированной размерности. Неизвестными остаются следующие характеристики функций активации нейронов:
1. Ограничения области значений (т.е. координаты асимптот) сигмоидальных функций активации нейронов "скрытого" слоя.
2. Наклон сигмоидальных функций активации.
3. Вид функций активации нейронов второго слоя.
Следствие 2. Было показано, что для любого множества пар (Xk, yk), где yk - скаляр, существует двухслойная однородная (с одинаковыми функциями активации) нейронная сеть первого порядка с последовательными связями и с конечным числом нейронов, которая выполняет отображение
, выдавая на каждый входной сигнал Xk правильный выходной сигнал yk. Нейроны в такой двухслойной нейронной сети должны иметь сигмоидальные передаточные функции.
Рассматриваемая теоретическая функция (теоретическая функция толщины) являет собой «почти» постоянную величину, следовательно, функциональная зависимость величины наблюдаемой толщины трубы в точке от положения этой точки очень слабая. Другими словами производная функции наблюдаемой толщины от координат очень разрывна. Интуитивно понятно, что чем большей непрерывностью обладает производная, тем больше возможность предсказать поведение самой функции.
Если подойти к этому вопросу с другой стороны, можно отметить, что чем больше соотношение между вариацией самой функции и вариацией нерегулярной компоненты, тем лучше регистрируются изменения функции, исключая шумы.
Очевидна прямая аналогия с акустикой: рассматривая случай низкой громкости чистого звука и сильного шума и случай громкого звука и слабого шума, мы отметим лучшее восприятие чистого звука во втором случае. В первом случае вариация шума буквально затмевает собой слабые изменения основного звука.
Таким образом, ключевым моментом является отношение σ искомой функции без шумов/ σ шума , где σ искомой функции без шумов – среднеквадратическое отклонение искомой функции, σ шума - среднеквадратическое отклонение шума. В рассматриваемой задаче это отношение близко к нулю (оно не равно нулю, как кажется на первый взгляд, потому как оцененная искомая функция уже не является постоянной).
Для решения этой проблемы добьемся того, чтобы:
1. данное отношение увеличилось;
2. искомая функция осталась непрерывной;
3. производная функции стала непрерывной.
Достичь желаемого результата можно прибавлением к исходной функции другой непрерывной функции, например, равной циклически повторяющемуся куску параболы.
Во-первых, полученная суммарная функция останется непрерывной.
Во-вторых, отношение вариаций можно сделать произвольным, изменяя параметры параболы.
В-третьих, в зависимости от параметров параболы производная суммарной функции будет больше приближаться к непрерывной функции.
После того, как мы получим приемлемый результат (а критерием этого будем считать близость к 1 отношения σ прогноза /σ исходных данных), применим к результату обратную процедуру, т.е. отнимем используемую параболу. Конечный результат будем считать итоговым.
Общий вид прибавляемой функции: g(x) = a(x mod30)2 + b(x mod30) +c.
Рассчитаем значение параметров одного куска параболы (
)
Для непрерывности необходимо, чтобы: g(0) = g(30) = 4.
Для ограничения вариации суммарной функции необходимо, чтобы:

Таким образом, вычислим значения параметров параболы. Будем варьировать значение d (т.е. фактически отношение σ искомой функции / σ шума), для того чтобы добиться желаемой близости σ отношения σпрогноза /σ исходных данных к единице.
Методология построения моделей для различных функций thd(x) = th(x) + g(x, d) следующая:
1) Фиксируем значение параметра d = d0;
2) Вычисляем параметры a(d0), b(d0), c(d0) параболы g(x, d0);
3) Вычисляем значения факторов для функции
;
4) В модуле Нейронные сети строим модели регрессии различных типов сетей для функции
;
5) Находим наилучшую сеть и значение дисперсии ошибок для данной сети
6) Если значение σ прогноза /σ исходных данных достаточно близко к единице, вычисляем прогнозируемые значения и преобразуем их путем вычитания соответствующих значений функции g(x, d0).
Экспериментируя с различными значениями d, замечаем следующие закономерности:
1) С ростом d в среднем увеличивается значение корреляции, вариация предсказанных значений.
2) С ростом d в среднем уменьшается значение ошибки, значение отношения стандартного отклонения, значение производительности.
Именно поэтому необходимо искать некий баланс между всеми этими факторами.
Перебирая различные значения
, остановимся подробнее на экспериментально найденном значении d=0.2.
Для данного значения найдем значение параметров параболы:
;
.
Итак, построим суммарный график исходной толщины и циклически повторяющегося куска параболы.

Рис. 21. Суммарный график исходной толщины и циклически повторяющегося куска параболы
Далее, как и указывалось выше, применим процедуру вычисления значений факторов. Сам метод вычисления останется тем же, разница состоит в том, что вместо значений будем брать вычисленные значения
.
Обратимся к Мастеру решений. Результатами работы стали сети, характеристики которых представлены ниже.


Также представим таблицы описательных статистик для исходных данных и спрогнозированных значений.

Выберем модель №6, потому как в данной модели наиболее приемлемое сочетание описывающих модель параметров (ошибка, коэффициент корреляции), а также достаточно близкое к 1 отношение σ прогноза /σ исходных данных = 1.28.
Следует отметить вновь, что при других значениях d мы улучшим значения одних показателей качества модели, но понизим другие. Выбор функции баланса остается за пользователем и определяет его личную «функцию полезности», поэтому выбор именно этой сети вполне обоснован.
Итак, представим прогноз.

Возвращаясь к поставленной в начале раздела задаче определения соответствия точек интервалу допуска, и основываясь на результатах, полученных выше, представим ниже карту контроля качества для выбранных точек. Дабы не загромождать рисунок, будем указывать координаты только тех точек, которые выходят за пределы допустимого интервала.

Рис. 22. Карта контроля качества для выбранных точек (пунктиром помечен интервал допуска)
Итоги
Была поставлена задача построения модели, которая позволяла бы находить значения толщины трубы в произвольной точке, имея в распоряжении значения толщины только лишь в конечном множестве точек трубы.
Поставленная задача имеет большую практическую важность, потому как в реальности довольно проблематично иметь данные, представляющие собой непрерывные функции аргументов: мы имеем только таблицу конечных значений этой функции. Тем не менее, необходимость находить значения от произвольного набора аргументов имеет место.
В данной работе рассматриваются два метода построения такой (вообще говоря, сложной, в виду случайности оцениваемой функции) модели.
Первый метод, основанный на использовании сильной корреляции ошибок модели и исходных данных, оказался не состоятельным, потому что математическая модель метода учитывала не все влияния и взаимосвязи своих компонент. Несмотря на это, результаты данного метода были получены и мы могли наглядно убедиться в неадекватности модели.
Второй метод, основанный на дополнительном построении, которое обеспечивало меньшее влияние ошибки на значение самой функции, а также более ярко выраженную функциональную зависимость между значениями толщины и координатами точки на трубе, оказалась более полезна. С её помощью была построена модель нейронной сети, судя по показателям которой, можно было сделать вывод о её хорошей объясняющей способности.
На основании полученных вторым методом результатов, была построена карта контроля качества для выбранных произвольным образом 50 точек на поверхности трубы. С её помощью были выявлены отклонения значений толщины трубы от нормы для 5 точек.
Следует также отметить, что все рассуждения в данной работе были проведены для абстрактной трубы произвольной длины, толщины стенки и произвольного диаметра. Эти три параметра являются характеризующими для трубы. Без особых трудностей результаты могут быть применимы к реальной трубе, для которой, например, l = 3 - 6 метра, Ø = 20-140 мм (прокат отожженный, обточенный, улучшенный – улучшенная легированная сталь для машиностроения; нормативный документ на профиль и тех. требования - ГОСТ 2590).
В начало
Комментарии: