Neurocontrol Methods: A Survey
We consider methods of using neural networks to control dynamic objects. Schemes of neural networks training and connecting inside the control systems are presented in details. Analysis of benefits and disadvantages of described methods is presented.Problems in programming 2011; 2: 79-94
Saved in:
| Date: | 2025 |
|---|---|
| Main Authors: | , |
| Format: | Article |
| Language: | rus |
| Published: |
PROBLEMS IN PROGRAMMING
2025
|
| Subjects: | |
| Online Access: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/810 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Problems in programming |
| Download file: | |
Institution
Problems in programming| id |
pp_isofts_kiev_ua-article-810 |
|---|---|
| record_format |
ojs |
| resource_txt_mv |
ppisoftskievua/16/757c90c241cb7ac09083791bdc388516.pdf |
| spelling |
pp_isofts_kiev_ua-article-8102025-08-28T20:52:26Z Neurocontrol Methods: A Survey Обзор методов нейроуправления Огляд методів нейроуправління Chernodub, A.N. Dziuba, D.A. UDC 621.8:681.5 УДК 621.8:681.5 УДК 621.8:681.5 We consider methods of using neural networks to control dynamic objects. Schemes of neural networks training and connecting inside the control systems are presented in details. Analysis of benefits and disadvantages of described methods is presented.Problems in programming 2011; 2: 79-94 Рассматриваются методы применения нейронных сетей для решения задач управления динамическими объектами. Для каждого вида нейроуправления приводятся схемы соединения нейросетей внутри системы управления и детально описываются процедуры их обучения. Анализируются преимущества и недостатки описанных методов.Problems in programming 2011; 2: 79-94 Розглянуто способи використання нейронних мереж для вирішення задач управління динамічними об’єктами. Для кожного виду нейроуправління наводяться схеми з’єднання нейромереж всередині системи управління і детально викладаються процедури їх навчання. Приводиться аналіз переваг та недоліків описаних методів.Problems in programming 2011; 2: 79-94 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-08-28 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/810 PROBLEMS IN PROGRAMMING; No 2 (2011); 79-94 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2 (2011); 79-94 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2 (2011); 79-94 1727-4907 rus https://pp.isofts.kiev.ua/index.php/ojs1/article/view/810/862 Copyright (c) 2025 PROBLEMS IN PROGRAMMING |
| institution |
Problems in programming |
| baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| datestamp_date |
2025-08-28T20:52:26Z |
| collection |
OJS |
| language |
rus |
| topic |
UDC 621.8:681.5 |
| spellingShingle |
UDC 621.8:681.5 Chernodub, A.N. Dziuba, D.A. Neurocontrol Methods: A Survey |
| topic_facet |
UDC 621.8:681.5 УДК 621.8:681.5 УДК 621.8:681.5 |
| format |
Article |
| author |
Chernodub, A.N. Dziuba, D.A. |
| author_facet |
Chernodub, A.N. Dziuba, D.A. |
| author_sort |
Chernodub, A.N. |
| title |
Neurocontrol Methods: A Survey |
| title_short |
Neurocontrol Methods: A Survey |
| title_full |
Neurocontrol Methods: A Survey |
| title_fullStr |
Neurocontrol Methods: A Survey |
| title_full_unstemmed |
Neurocontrol Methods: A Survey |
| title_sort |
neurocontrol methods: a survey |
| title_alt |
Обзор методов нейроуправления Огляд методів нейроуправління |
| description |
We consider methods of using neural networks to control dynamic objects. Schemes of neural networks training and connecting inside the control systems are presented in details. Analysis of benefits and disadvantages of described methods is presented.Problems in programming 2011; 2: 79-94 |
| publisher |
PROBLEMS IN PROGRAMMING |
| publishDate |
2025 |
| url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/810 |
| work_keys_str_mv |
AT chernoduban neurocontrolmethodsasurvey AT dziubada neurocontrolmethodsasurvey AT chernoduban obzormetodovnejroupravleniâ AT dziubada obzormetodovnejroupravleniâ AT chernoduban oglâdmetodívnejroupravlínnâ AT dziubada oglâdmetodívnejroupravlínnâ |
| first_indexed |
2025-09-17T09:23:41Z |
| last_indexed |
2025-09-17T09:23:41Z |
| _version_ |
1843502537171271680 |
| fulltext |
Експертні та інтелектуальні інформаційні системи
УДК 621.8:681.5
А.Н. Чернодуб, Д.А. Дзюба
ОБЗОР МЕТОДОВ НЕЙРОУПРАВЛЕНИЯ
Рассматриваются методы применения нейронных сетей для решения задач управления динамическими
объектами. Для каждого вида нейроуправления приводятся схемы соединения нейросетей внутри сис-
темы управления и детально описываются процедуры их обучения. Анализируются преимущества и
недостатки описанных методов.
Введение
Нейроуправление динамическими
объектами является новым перспективным
направлением, находящимся на стыке та-
ких дисциплин, как автоматическое управ-
ление, искусственный интеллект, нейро-
физиология. Нейронные сети обладают
рядом уникальных свойств, которые де-
лают их мощным инструментом для соз-
дания систем управления: способностью к
обучению на примерах и обобщению дан-
ных, способностью адаптироваться к из-
менению свойств объекта управления и
внешней среды, пригодностью для синтеза
нелинейных регуляторов, высокой устой-
чивость к повреждениям своих элементов
в силу изначально заложенного в нейросе-
тевую архитектуру параллелизма. В лите-
ратуре описаны многочисленные примеры
практического применения нейронных се-
тей для решения задач управление само-
летом [1–3], автомобилем [4], горнообога-
тительным процессом [5], скоростью вра-
щения вала двигателя [6], электропечью
[7], турбогенератором [8], сварочным ап-
паратом [9], пневмоцилиндром [10].
По-видимому, идея применения
нейронных сетей для управления динами-
ческими объектами впервые была выска-
зана У. Видроу [11] еще в 1964 г., однако
интенсивные исследования этого направ-
ления развернулись лишь в конце 80-х го-
дов прошлого века. Один из первых обзо-
ров в области нейроуправления (1992 г.)
упоминает 5 методов обучения нейросети
для непосредственного управления объек-
том. С тех пор количество методов нейро-
управление многократно увеличилось, по-
явились новые решения на основе много-
модульного подхода и приближенного ди-
намического программирования.
В ходе развития нейроуправления,
исследовались различные способы по-
строения нейроконтроллеров с применени-
ем различных типов нейронных сетей: ли-
нейных типа «Адалина» [12], многослой-
ных персептронов [13], рекуррентных се-
тей [14], сетей радиальных базисных
функций [1] и др. Наилучшие результаты
получены при использовании многослой-
ных персептронов с линиями задержек [8,
15, 16]. Сформировались два основных на-
правления в применения нейронных сетей
внутри синтезируемых регуляторов: пря-
мые методы, основанные на непосредст-
венном управлении объектом с помощью
нейронной сети, и непрямые методы, ко-
гда нейронная сеть используется для вы-
полнения вспомогательных функций
управления, таких как фильтрация шума
или идентификация динамического объек-
та. В зависимости от числа нейронных се-
тей, составляющих нейроконтроллер, сис-
темы нейроуправления могут быть одно-
модульными или многомодульными. Схе-
мы нейроуправления, которые применяют-
ся совместно с традиционными контролле-
рами, называются гибридными.
© Чернодуб А.Н., Дзюба Д.А., 2011 79
Ключевой проблемой при решении
задач управления динамическими объек-
тами является реализация модели инверс-
ной динамики управляемого объекта. Ана-
литическое решение этой задачи не всегда
возможно, поскольку требуется обращение
причинно-следственных зависимостей по-
ведения реального объекта. Применение
нейронных сетей позволяет находить при-
ближенные решения этой задачи путем
ISSN 1727-4907. Проблеми програмування. 2011. № 2
Експертні та інтелектуальні інформаційні системи
обучения сети на примерах управления ре-
альным объектом. При использовании
прямых методов нейроуправленяия, в ча-
стности, в методе обобщенного инверсно-
го нейроуправления [7, 15, 17–20] это
достигается путем непосредственного обу-
чения нейронной сети на примерах пове-
дения управляемого объекта. Однако, ис-
пользуемые для такого обучения последо-
вательности примеров, полученные путем
обращения результатов наблюдения ре-
альных объектов часто содержат противо-
речия, резко снижающие качество обуче-
ния нейронной сети. Для решения этой
проблемы предложен ряд методов. В ме-
тоде специализированного инверсного
нейроуправления [15, 17–21, 22] и некото-
рых версиях систем адаптивной критики
[3] проблема обучения инверсной дина-
мике решается путем аппроксимации ана-
литической модели управляемого объекта
и вычисления локальных значений яко-
биана для различных областей пространст-
ва состояний. В методе обратного распро-
странения ошибки через прямой нейро-
эмулятор для формирования линеаризо-
ванной модели инверсной динамики объ-
екта используется обычная схема обратно-
го распространения ошибки, применяемая
для обучения многослойных персептронов.
В системах многомодульного нейроуправ-
лении эта же задача решается путем раз-
деления пространства состояний объекта
на локальные области, в которых инверс-
ные модели представлены однозначными
функциями. Для каждой такой области
выделяется отдельный нейронный модуль
[20, 23]. Перспективными для моделиро-
вания инверсной динамики могут оказать-
ся новые типы нейронных сетей, позво-
ляющие моделировать многозначные
функции, в частности, вероятностные сети
Бишопа на основе смесей гауссовских мо-
делей (Mixture Density Networks) [24].
1. Структура системы
управления динамическими
объектами
В задачах нейроуправления для
представления объекта управления ис-
пользуют модель черного ящика, в кото-
ром наблюдаемыми являются текущие
значения входа и выхода. Состояние объ-
екта считается недоступным для внешнего
наблюдения, хотя размерность вектора со-
стояний обычно считается фиксированной.
Динамику поведения объекта управления
можно представить в дискретном виде:
)),(),(()1( kukSkS Φ=+ (1)
)),(()1( kSky Ψ=+ (2)
где – значение -мерного век-
тора состояния объекта на -м такте;
– значение
NkS ℜ∈)( N
k
Pku ℜ∈)( P -мерного вектора
управления; – значение Vky ℜ∈+ )1(
V -мерного выхода объекта управления на
такте 1+k .
Общая схема управления динами-
ческим объектом показана на рис.1.
Рис. 1. Общая схема управления
по обратной связи
Для оценки вектора состояния ди-
намического объекта порядка может быть
использована модель нелинейной авторег-
рессии с дополнительными входными сиг-
налами (NARX) [25]:
.
)(
...
)2(
)1(
)(
...
)1(
)(
)(
⎟
⎟
⎟
⎟
⎟
⎟
⎟
⎟
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎝
⎛
−
−
−
−
−
=
Qku
ku
ku
Nky
ky
ky
kS
(3)
На практике, это соотношение
обычно используют без ретроспективных
управляющих входов:
80
Експертні та інтелектуальні інформаційні системи
.
)(
...
)1(
)(
)(
⎟⎟
⎟
⎟
⎟
⎠
⎞
⎜⎜
⎜
⎜
⎜
⎝
⎛
−
−
=
Nky
ky
ky
kS (4)
Состояние динамического объекта
можно также представить мгновенным
снимком его фазовой траектории:
.
)(
...
)'(
)(
)(
)( ⎟⎟
⎟
⎟
⎟
⎠
⎞
⎜⎜
⎜
⎜
⎜
⎝
⎛
=
Nky
ky
ky
kS
(5)
При описании конкретных схем
нейроуправления мы будем отдавать пред-
почтение модели (4). На схемах для ввода
в контроллер задержанных данных обрат-
ной связи будет использоваться модуль
линии задержек «TDL» (Tapped Delay
Line). Для упрощения мы будем рассмат-
ривать только одноканальные системы
управления (SISO), однако приводящиеся
соотношения могут использоваться и для
многоканальных систем (MIMO). Для это-
го следует лишь заменить в формулах ска-
лярные переменные на входе и выходе
объекта управления векторными.
2. Подражающее нейроуправ-
ление
Название «подражающее нейро-
управление» (Neurocontrol learning based
on mimic, Controller Modeling, Supervised
Learning Using an Existing Controller) [11,
19–21] охватывает системы нейроуправле-
ния, в которых нейроконтроллер обучает-
ся на примерах динамики обычного кон-
троллера по обратной связи, построенного,
например, на основе обычной пропорцио-
нально-интегрально-дифференциальной
(ПИД) схемы управления. Схема подра-
жающего нейроуправления показана на
рис. 2. После обучения нейронная сеть в
точности воспроизводит функции исход-
ного контроллера. В качестве примеров
динамики контроллера может быть ис-
пользована запись поведения человека-
оператора. Обучающая выборка для ней-
ронной сети формируется следующим об-
разом.
Обычный контроллер по обратной
связи (или человек-оператор) управляет
объектом управления в штатном режиме.
Значения величин на входе и выходе кон-
тролера протоколируются, и на основе
протокола формируется обучающая вы-
борка для нейроной нейроной сети
, содержащая M
iii TPU 1},{ == M пар зна-
чений входа и ожидаемых реакций
нейросети:
iP iT
,])()1([ T
i iSirP += (6)
).(iuTi = (7)
После обучения с помощью, напри-
мер, метода обратного распространения
ошибки, нейронная сеть подключается
вместо исходного контроллера. Получен-
ный нейроконтроллер может заменить че-
ловека в управлении устройством, а также
быть более выгодным экономически, чем
исходный контроллер. Основным недос-
татком этого метода является необходи-
мость в предварительно настроенном ис-
ходном контроллере, что не всегда пред-
ставляется возможным. Кроме того, полу-
ченный путем обучения нейроконтроллер
в принципе не может обеспечить лучшее
качество управления, чем копируемый
контроллер. Поэтому, сейчас подражаю-
Рис. 2. Схема подражающего нейроуправления: слева – режим обучения
нейронной сети; справа – режим управления
81
щее нейроуправление применяют, в ос-
Експертні та інтелектуальні інформаційні системи
82
Рис. 3. Схема обобщенного инверсного нейроуправления: слева – режим обучения
3. нверсное нейроуправление
форми и
управл
(8
В ходе обучения, нейронная с
должн
инверсного нейроэмулятора; справа – режим управления объектом
новном, для первичного обучения ней-
ронной сети с использованием других ме-
тодов для последующего дообучения ней-
роконтроллера.
И
При инверсном нейроуправлении
рован е инверсной модели объекта
управления осуществляется путем обуче-
ния нейронной сети. Известно несколько
разновидностей такого нейроуправления.
Обобщенное инверсное нейро-
ение (Generalized Inverse
Neurocontrol, Direct Inverse Neurocontrol)
[7, 15, 17–20], предусматривает обучение
сети в режиме офф-лайн, на основе запи-
санных траекторий поведения динамиче-
ского объекта. Для получения таких траек-
торий, на объект управления в качестве
управляющего сигнала подают некоторый
случайный процесс. Значения управляю-
щих сигналов и ответных реакций объекта
протоколируют и на этой основе форми-
руют обучающую выборку M
iii TPU 1},{ == :
,])1()([ T
i iSiyP −= )
).(iuTi = (9)
еть
а уловить и запомнить зависимость
значений управляющего сигнала )1( −ku
от последуюшего значения реакц
екта управления )(ky , находящегося перед
этим в состояни )1(
ии объ-
и −k . Для обучения
нейронной сети ис метод обрат-
25]). Эту нейронную сеть называют «ин-
версный нейроэмулятор».
При управлении об
S
пользуют
ного распространения ошибки (см. [24,
ъектом, инверс-
ный н
которо
TkS (10)
Благодаря стабилизирующему
янию
ейроэмулятор подключается как
контроллер, причем возможны два способа
подключения: замкнутый и разомкнутый.
При замкнутом подключении, схема
го показана на рис. 3 слева, на
вход нейроконтроллера подаются текущие
значения уставки и вектора состояния
объекта управления, поступающего по це-
пи обратной связи:
1([)( krkx += .])()
вли-
обратной связи, достигается доста-
точно высокое качество управления дина-
мическим объектом. В работе [47] пред-
ставлена вариация обобщенного инверсно-
го управления, в которой в качестве устав-
ки вместо одного целевого значения по-
дается целевая траектория на L тактов
вперед: ])(...)2()1([ Lkrkrkr + ++ .
П и ри разомкнутом подключени на
вход н
T (11)
При этом предполагается,
сформ
родействием, поскольку на вход нейрокон-
ейроконтроллера поступают только
значения уставки с задержками:
)1(...)1([)( Nkrkrkx +−+= .]
что
ированная при обучении инверсная
модель объекта управления является аде-
кватной, следовательно сигнал управле-
ния, выдаваемый нейронной сетью, обес-
печит переход объекта в положение, за-
данное уставкой. Разомкнутая система
нейроуправления обладает высоким быст-
Експертні та інтелектуальні інформаційні системи
83
нством обобщенного ин-
версно о
нейроу
троллера не поступает значение текущего
состояния объекта управления, обработка
которого требует значительных ресурсов.
Однако, из-за отсутствия обратной связи
качество такого управления оказывается
низким [20].
Достои
го нейроуправления является бу-
чения нейроконтроллера в режиме офф-
лайн и отсутствие необходимости в точной
математической модели объекта управле-
ния. К недостаткам следует отнести слож-
ность формирования обучающей выборки
из-за необходимости тщательного подбора
идентифицирующего случайного процес-
са, подаваемого на вход системы, а также
низкое качество работы в тех случаях, ко-
гда инверсия объекта управления оказыва-
ется неоднозначной функцией. Неодно-
значность приводит к наличию противоре-
чий в обучающей выборке, заводящих в
тупик процесс обучения нейронной сети.
Специализированное инверсное
правление (Specialised Inverse
Neurocontrol) [15, 17–22], позволяет обу-
чать инверсный нейроконтроллер в ре-
жиме он-лайн, используя ошибку откло-
нения положения объекта от уставки
yre −= . Схема по ключени нейронной
объекту управления показана на
рис. 3, справа. На вход сети поступает век-
тор
д я
сети к
(12)
В ответ нейронная сеть генери
управл
ты нейр
+k (13)
оррекция весовых коэффициентов
нейрон
kw
.])()1([)( TkSkrkx +=
рует
яющий сигнал )(ku , который при-
водит объект управления в положение
1( +ky . Далее вычисляется ошибка рабо-
оконтроллера
()1()( −+= ykrke
)
).1
К
ной сети выполняется по методу
наискорейшего спуска:
)()1( kwkw ),(Δ−=+
(14)
.
)(
)(
)(
)1()()(
kw
ku
ku
kykekw
∂
∂
∂
+∂
−=Δ α
(15)
Здесь
α — параметр скорости обучения
нейронной сети. Величина производной в
частиправой формулы (14)
)(
)(
kw
ku
∂
∂
вычис-
ляется по методу обратного распростране-
ния ошибки. Производная
)(
)
ku∂
∂
пред-
ставляет собой якобиан объ к а управле-
ния, значение которого мож ти ана-
модели объекта управления. Однако, на
практике, для получения приемлемого ка-
чества управления часто бывает доста-
точно вычислить лишь знак якобиана [22,
25]. Итерации коррекции значений коэф-
фициентов w продолжаются до достиже-
ния приемлемого качества управления.
Плюсом данного подхода является
более высокое качество управления по
сравнению с обобщенным методом ин
1(ky +
е т
но най
литически по заданной математической
-
версно
м
me, Internal
Model
де
н
ий сигнал , изме-
няющи
i iSuP −=
го нейроуправления. Его сущест-
венным недостатком является необходи-
мость знания точной математической мо-
дели объекта управления, требуе ой для
обучения нейроконтроллера.
Метод обратного пропуска ошиб-
ки через прямой нейроэмулятор
(Backpropagation Through Ti
Control) [17, 19, 20, 26–28] основан
на и е применения тандема из двух ней-
ронных сетей, одна из которых выполняет
функцию контроллера, а вторая – прямого
нейроэмулятора, который обучается мо-
делировать динамику объекта управления
(рис. 4). В процессе обучения нейрокон-
троллера, текущая ошибка управления
пропускается через нейроэмулятор в об-
ратном направлении.
При обучении прямого ейроэмуля-
тора, на вход объекта управления подается
случайный управляющ u
й положение объекта управления
y , и формируется обучающая выборка
M
iii TPU 1},{ == :
)( Ti (16) ,)]1([
).(iyTi = (17)
чение прямого н роэмуля
выполняется в режиме офф лайн. Нейро
эмулятор считается обученным, если
одинак
Обу ей
-
тора
-
при
овых значениях на входах нейро-
эмулятора и реального объекта, отличие
Експертні та інтелектуальні інформаційні системи
Рис. 4. Метод обратного пропуска ошибки через прямой нейроэмулятор: слева – схема
обучения прямого нейроэмулятора; cправа – схема обучения нейроконтроллера
между значениями их выходов становится
незначительным. После завершения обу-
84
чения прямого нейроэмулятора, проводит-
ся обучение нейроконтроллера. Обучение
выполняется в режиме он-лайн по такой
же схеме, как и в случае инверсного спе-
циализированного нейроуправления. Сна-
чала (на такте k ) на вход нейроконтролле-
ра поступает желаемое положение объекта
управления для следующего такта )1( +kr .
Нейроконтроллер генерирует сигнал
управления )(ku , который поступает на
входы объекта управления и нейр -
тора. В результате управляемы объект
переходит в ожение )1( +ky , а нейро-
эмулятор генерирует реакцию )1(ˆ
оэмуля
, й
пол
+ky .
Далее вычисляется ошибка управления
)1()1(ˆ)( +−+= kykyke и пропускается в
обратном направлении по правилу обрат-
ного распространения. Весовые коэффи-
эмулятора при этом
не корректируются. Механизм обратного
прохождения ошибки через прямой нейро-
эмулятор реализует локальную инверсную
модель в текущей точке пространства со-
стояний объекта управления. Пройдя че-
рез нейроэмулятор, ошибка далее распро-
страняется через нейроконтроллер, но те-
перь ее прохождение сопровождается
коррекцией весовых коэффициентов ней-
роконтроллера. Нейроэмулятор при этом
выпол яет функции дополнительных сло-
ев нейроной сети нейроконтроллера, в ко-
торых веса связей не корректируются.
циенты связей нейро
н
о-
управление
-
ров, п о-
нение текущего п та управ-
ления
4. Прогнозирующее нейр
Метод обучения нейроконтролле
ри котором минимизируется откл
оложения объек
от уставки для каждого такта, не
всегда обеспечивает наилучшее инте-
гральное качество управления, оценивае-
мое выражением:
.))()((
1
2∑
=
несколько. Во-пер
качество управления ухудшается из
свойства запаздывания минимум на один
такт, о
р
с
e Control, Neural Generalized
−=
K
k
kykrIAE
(18)
Причин тому вых,
-за
бщего для систем управления по об-
ратной связи. Во-вторых, если для дости-
жения целевого положения нужно не-
сколько тактов, нейроконтроллер, стре-
мясь минимизировать текущую ошибку,
может выдать чрезмерно сильный уп ав-
ляющий игнал, что ведет к перерегулиро-
ванию.
Прогнозирующее модельное нейро-
управление (NN Predictive Control , Model
Predictiv
Predictive Control) [17, 29, 30–33] миними-
зирует функционал стоимости интеграль-
ной ошибки, прогнозируемой на
),max( 32 LLL = , 210 LL ≤≤ тактов
вперед:
Експертні та інтелектуальні інформаційні системи
Рис. 5. Схема прогнозирующего
модельного нейроуправления
++=∑
=
2
1
2)()(
L
Li
ikekQ
.))1()((
2
0
2∑
=
−+−++
L
i
ikuikuρ
(19)
Здесь – ошибка выхода системы, e ρ –
вклад изменения управляющего сигнала в
общий функционал стоимости . Схема
показана на рис. 5. Для прогнозирования
будущего поведения системы и вычисле-
ния ошибок используется прямой нейро-
эмулятор, обученный так же, как в случае
обратного распространения ошибки через
прямой нейроэмулятор (см. рис. 4, слева).
Примечательность этого метода состоит в
том, что в нем отсутствует обучаемый
нейроконтроллер. Его место занимает оп-
тимизационный модуль, работающий в
режиме реального времени, в котором
может быть использован сиплекс-
Q
метод [31] или квази-ньютоновский алго-
ритм [32].
Оптимизационный модуль получа-
ет на такте целевую траекторию на так-
тов вперед, а если ее нет, то раз дубли-
рует значение текущей уставки
k L
L
)1( +kr и
использует это в качестве целевой траек-
тории. Далее, для выбора оптимального
управляющего воздействия, вычисления
происходят во внутреннем цикле системы
нейроуправления (его итерации обозначе-
ны как j ). За время одного такта управ-
ления оптимизационный модуль подает на
вход нейроэмулятора серию различных
воздействий , где – глубина
прогнозирования, , получает
различные варианты поведения системы
, вычисляет функцию стои-
мости по формуле (19) и определяет наи-
лучшу стратегию управления
),(ˆ jtku + t
10 −≤≤ Lt
),1(ˆ jtky ++
85
ю
}),1(ˆ;...;),1(ˆ),(ˆ{ 21 LjLkujkujkuST −++=
в смысле минимизации функционала сто-
имости (19). В итоге, на объект подается
управляющий сигнал . На
следующем такте стратегия пересчи-
тывается заново.
),(ˆ)( 1jkuku =
ST
Минусом систем прогнозирующего
модельного нейроуправления является не-
возможность их применения в системах с
большой частотой дискретизации, так как
оптимизационный алгоритм, работающий
в режиме реального времени, за время од-
ного такта не будет успевать находить
наилучшую стратегию действий.
Методы нейроуправления на ос-
нове адаптивной критики (Adaptive
Critics), которые также известны как
«Приближенное динамическое програм-
мирование» (Approximated Dynamic
Programming, ADP), в последние годы
весьма популярны [3, 8, 16, 33–35]. Подоб-
но системам прогнозирующего модельного
управления, системы адаптивной критики
выбирают управляющий сигнал на основе
оценок ошибок будущего с бесконечным
горизонтом:
.)()(
0
2∑
∞
=
+=
i
i ikekJ γ
(20)
Здесь γ – коэффициент забывания, 10 ≤<γ ;
– ошибка, вычисляемая по формуле
(13). Система включает два нейронных
модуля: нейроконтроллер и модуль крити-
ки. Нейроконтроллер обучают минимизи-
ровать функционал стоимости , кото-
рый играет ту же роль, что и ошибка
в методах обучения по ошибке обратной
связи. Модуль критики выполняет аппрок-
симацию значений функции стоимости.
)(ke
)(kJ
)(ke
На рис. 6, слева показана схема ра-
боты системы адаптивной критики в ре-
жиме управления объектом. На вход ней-
роконтроллера поступает вектор
, вызывающий появ-
ление на его выходе сигнала управления
, в результате чего объект управления
переходит в положение . Далее
производится вычисление значения те-
кущей ошибки управления .
TkSkrkx )]()1([)( +=
)(ku
)1( +ky
)(ke
Модуль критики, получая на входе
вектор , про-
изводит оценку функции стоимости .
На следующем такте процесс повторяется:
вычисляются новые значения
TkSkukrkz )]()()1([)( +=
)(kJ
)1( +ke и
. )1( +kJ
Експертні та інтелектуальні інформаційні системи
Обучение системы нейроуправле-
ния происходит в режиме он-лайн и состо-
ит из двух этапов: обучения модуля крити-
ки и обучения нейроконтроллера. Сначала,
рассчитывается ошибка временной разно-
сти )(kδ :
).(ˆ)1(ˆ)()( kJkJkek −++= γδ
(21)
Затем по методу наискорейшего
спуска выполняется коррекция веса свя-
зей для модуля критики : CRITICw
.
)(
)()()( 1 kw
kJkkw
CRITIC
CRITIC ∂
∂
−=Δ δα
(22)
Значение градиента
)(
)(
kw
kJ
CRITIC∂
∂ рас-
считывается по методу обратного распро-
странения ошибки. Коррекция веса свя-
зей нейроконтроллера произво-
дится аналогично:
CONTROLw
.
)(
)(
)(
)()( 2 kw
ku
ku
kJkw
CONTROL
CONTROL ∂
∂
∂
∂
−=Δ α
(23)
Значение производной находят
путем обратного распространения величи-
ны через модуль критики, а значение гра-
диента – путем обратного распростране-
ния ошибки через модуль контроллера.
Коррекция весов продолжается, пока сис-
тема не достигнет требуемого уровня ка-
чества управления. Таким образом, на ка-
ждом шаге улучшается закон управления,
путем обучения нейроконтроллера (Policy
Iteration), а также повышается способность
системы оценивать ситуацию, путем обу-
чения критика (Value Iteration).
86
Рис. 6. Схема адаптивной критики: слева – этап управления; справа – этап обучения
Конкретная схема построения сис-
темы адаптивной критики может отли-
чаться от вышеописанной, носящей назва-
ние Heuristic Dynamic Programming (HDP).
В методе DHP (Dual Heuristic
Programming), где модуль критики вычис-
ляет производную функционала глобаль-
ной стоимости
t
J
∂
∂ , а в методе GDHP
(Global Dual Heuristic Programming) вы-
числяются как сам функционал функции
стоимости , так и его производная J
t
J
∂
∂ .
Известны модификации метода, в которых
модуль критики принимает решения ис-
ключительно на основе управляющего
сигнала [35]. Они имеют
приставкуAD («Action Dependent»):
ADHDP, ADDHP, ADGDHP. В некоторых
версиях адаптивной критики модуль кри-
тики состоит из двух частей: собственно,
модуля критики и прямого нейроэмулято-
ра. Последний выдает предсказания пове-
дение объекта управления, на основе кото-
рых критик формирует оценку функции
стоимости . Такие версии носят название
«основанные на модели» («Model based»).
Систематическое описание существующих
разновидностей систем адаптивной крити-
ки представлено в [3].
)(ku
J
Популярность систем адаптивной
критики объясняется наличием развитой
теоретической базы в виде теории динами-
ческого программирования Беллмана, а
также их способностью сходиться к опти-
мальному или близкому к оптимальному
управлению [35].
`
5. Многомодульное
нейроyправление
Многомодульные нейросистемы,
построенные по типу комитетов экспертов
[25], получили значительное распростра-
нение в системах распознавания, позже
они дали толчок развитию многомодуль-
ных систем нейроуправления. В рамках
многомодульного подхода, исходная зада-
Експертні та інтелектуальні інформаційні системи
ча разделяется на отдельные подзадачи,
которые решают отдельные модули. Фи-
нальное решение выполняет шлюзовая
сеть на основе частных решений модулей-
экспертов.
Системы многомодульного ней-
ро-управления на основе локальных
инверсных моделей (Incremental Clustered
Control Networks) [20, 23], состоят из мно-
жества линейных нейроконтроллеров и
шлюзового модуля. Каждый из линейных
нейроконтроллеров представляет нейрон-
ную сеть Адалина [25], обученную управ-
лять в пределах локальной области про-
странства состояний объекта:
.
);(
...
);( 1111
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
+−
+−
=
lLlLlLlN
llll
l
dydy
dydy
LS
Здесь – количество модулей-
экспертов. Преимуществом линейных се-
тей перед многослойными персептронами
состоит в том, что их поведение проще
анализировать, а также они быстрее обу-
чаются. Это особенно важно для анализа
устойчивости синтезируемой системы
управления. Для формирования линей-
ных нейроконтроллеров могут применять-
ся различные методы: обобщенное ин-
версное нейроуправление, специализиро-
ванное инверсное нейроуправление, метод
обратного пропуска ошибки через нейро-
эмулятор.
L
После того, как локальные линей-
ные нейроконтроллеры были обучены,
производится обучение шлюзовой сети.
Она обучается по входной оценке состоя-
ния управляемого объекта находить
локальную область пространства состоя-
ний такую, что и выдавать
на объект управления сигнал , сгене-
рированный локальным линейным нейро-
контроллером, соответствующим этому
локальному участку. Недостатком этого
метода является необходимость в большом
количестве примеров для обучения нейро-
контроллеров, распределенных во всех
областях пространства состояний управ-
ляемого объекта.
)(kS
jLS jLSkS ∈)(
)(ku j
Метод многомодульного нейроуп-
равления на основе пар прямых и инве-
рсных моделей (Multiple Paired Forward
and Inverse Models, Multiple Switched Mod-
els), [36–40] показан на рис. 7. В отличие от
метода нейроуправления на основе ло-
кальных инверсных моделей, в котором
поведение системы формируется при обу-
чении, и в ходе управления не корректи-
руется, данный метод предусматривает
корректировку поведения нейронных мо-
дулей на каждом такте нейроуправления.
Для этого, каждый модуль включает два
нейроэмулятора: прямой и инверсный.
Обучение прямого нейроэмулятора произ-
водится по схеме метода обратного про-
пуска ошибки через прямой нейроэмуля-
тор, показанной на рис. 4, слева. Инверс-
ный нейроэмулятора обучается по схеме
обобщенного инверсного нейроуправле-
ния, показанной рис. 3, слева. Предпола-
гается, что каждая пара нейроэмуляторов
обучается на своем примере динамики
объекта управления и специализируется
именно на нем. Поэтому, если прямой ней-
Рис. 7. Схема многомодульного нейроуправления на основе пар прямых и инверсных
моделей: слева – этап переоценки коэффициентов ответственности модулей;
cправа – этап коллективного управления
87
Експертні та інтелектуальні інформаційні системи
роэмулятор правильно предсказывает ди-
намику объекта управления, то соответст-
вующий ему инверсный нейроэмулятор
хорошо управляет объектом. Предполага-
ется также, что применяющиеся для обу-
чения пар эмуляторов траектории состоя-
ний управляемого объекта существенно
отличаются между собой.
Работа системы на каждом такте
включает два этапа: 1) переоценки коэф-
фициентов ответственности модулей и
2) коллективного управления модулями на
основе вычисленных коэффициентов от-
ветственности. Общая схема работы сис-
темы нейроуправления, состоящей из
модулей, показана на рис. 7. На первом
этапе, на вход прямого нейроэмулятора
каждого из модулей поступает сигнал
, соответствующий значению
управления на предыдущем такте, а также
вектор предыдущего состояния
L
)1( −ku
)1( −kS ,
характеризующий предыдущее положение
управляемого объекта. По входным дан-
ным, каждый прямой нейроэмулятор про-
изводит свою оценку текущего положения
объекта , после чего
вычисляются ошибки оценок предвидения
для всех модулей системы:
)}(ˆ;...;)(ˆ{ 1 kyky L
,)}(;...;)({ 1 keke L
)(ˆ)()( kykyke ll −= , .1 Ll ≤≤
(24)
На основе ошибок предвидения,
рассчитываются коэффициенты предвиде-
ния )}(;...;)({ 1 kk Lλλ , σ – масшта-
бирующая константа:
,
)/)(exp(
)/)(exp()(
1
22
22
∑
=
−
−
= L
j
j
l
l
ke
kek
σ
σλ
.1
1
∑
=
=
L
j
jλ
(25)
На этапе управления, инверсный
нейроэмулятор -го модуля действует по
схеме обобщенного инверсного нейро-
управления. На его вход поступают значе-
ние уставки и оценки текущего со-
стояния объекта , вызывая реак-
цию . Итоговый управляющий сигнал
представляет собой взвешенную сум-
му управляющих сигналов отдельных мо-
дулей, при этом управляющий сигнал каж-
дого модуля обеспечивает вклад, пропор-
циональный коэффициенту предвидения
соответствующего модуля:
l
)(kr
)1( −kS
)(kul
)(ku
.)()()(
1
∑
=
=
L
l
ll kukku λ
(26)
В некоторых системах, вместо этой
формулы при выборе текущего управляю-
щего модуля применяют принцип «побе-
дитель получает все» [35, 36]. Впрочем,
проблема выбора способа декомпозиции
задачи на подзадачи характерна для мно-
гомодульного подхода вообще.
Существенным минусом систем
многомодульного нейроуправления явля-
ется непрозрачная процедура разделения
обучающей выборки на подвыборки для
обучения прямых и инверсных нейроэму-
ляторов разных модулей.
6. Гибридное нейроуправление
Гибридными называют системы
нейроуправления, в которых нейронные
сети работают совместно с обычными
контроллерами, ПИД-регуляторами или
другими типами контроллеров.
Гибридное нейро-ПИД управле-
ние (NNPID Auto-tuning, Neuromorphic PID
Self-tuning) [9, 17, 41–43] позволяет осу-
ществлять самонастройку ПИД-регулятора
в режиме он-лайн с использованием ней-
ронных сетей.
Управление с использованием
ПИД-контроллера основано на минимиза-
ции ошибки обратной связи. Вырабаты-
ваемый контроллером сигнал управления
представляет взвешенную сумму пропор-
циональной, интегральной и дифференци-
альной частей:
.)()()()( 3
0
21 dt
tdeKdeKteKtu
t
++= ∫ ττ
(27)
Коэффициенты , , получаются
при настройке ПИД-контроллера, которая
может быть выполнена вручную по прави-
лу Зиглера – Никольса, правилу Коэна –
Куна или другими методами [42], либо с
использованием нейронной сети, как пока-
зано на рис. 8.
1K 2K 3K
88
Експертні та інтелектуальні інформаційні системи
Рис. 8. Схема гибридного нейро-ПИД
управления
Обученная система нейроуправле-
ния действует следующим образом. На
такте нейронная сеть получает уставку
и генерирует коэффициенты
управления ПИД-контроллера ,
, , которые поступают на
ПИД-контроллер вместе со значением те-
кущей ошибки обратной связи , вы-
числяемой по формуле (11). ПИД-
контроллер рассчитывает управляющий
сигнал по формуле:
k
)1( +kr
)(1 kK
)(2 kK )(3 kK
)(ke
)(ku
+−−+−= ))1()()(()1()( 1 kekekKkuku
−++ )()(()()( 32 kekKkekK
)),2()1(2 −+−− keke
(28)
применяемой для дискретных ПИД-
контроллеров и подает его на объект
управления.
Обучение нейросети происходит в
режиме реального времени по ошибке об-
ратной связи, методом наискорейшего
спуска:
.
)(
)(
)(
)(
)(
)1()()(
kw
kK
kK
ku
ku
kykekw
∂
∂
∂
∂
∂
+∂
−=Δ α (29)
Здесь –
вектор выходов нейронной сети, посту-
пающий на ПИД-контроллер.
TkKkKkKkK )]()()([)( 321=
89
Рис. 9. Схема гибридного
параллельного нейроуправления
⎪
⎩
⎪
⎨
⎧
−+−−
−−
=
∂
∂
)2()1(2)(
)(
)1()(
)(
kekeke
ke
keke
K
ku
i
при i = 1;
при i = 2; (30)
при i = 3.
Градиенты вычисляют методом
обратного распространения ошибки. Яко-
биан находится аналитически, на основе
математической модели объекта управле-
ния. Плюсами использования этого подхо-
да является упрощение эксплуатации
вследствие устранения процедуры на-
стройки ПИД-контроллера вручную. Кро-
ме того, в случае применения нейронной
сети с нелинейными активационными
функциями, ПИД-контроллер фактически
превращается в нелинейный контроллер,
что потенциально обеспечивает более вы-
сокое качество управления нелинейными
динамическими объектами. Обратная сто-
рона медали – сложность оценки устойчи-
вости полученного нелинейного контрол-
лера. Также минусом является необходи-
мость в точной математической модели
объекта управления, необходимой для вы-
числения якобиана объекта управления.
Эту трудность можно обойти, используя
прямой нейроэмулятор и действуя по ме-
тоду обратного распространения ошибки
через прямой нейроэмулятор.
Методы гибридного параллель-
ного нейроуправления (Parallel
Neurocontrol, Stable Direct Adaptive Control,
NARMA L2 Feedback Linearization Control,
Additive Feedforward Control) [7, 17, 29]
предусматривают параллельное использо-
вание нейроконтроллеров и обычных
контроллеров для управления динамиче-
скими объектами. Соответствующая схема
показана на рис. 9. При этом нейрокон-
троллер и обычный контроллер, в роли ко-
торого выступает, например, ПИД-
контроллер, получают одинаковые значе-
ния уставки.
Возможны следующие варианты
совместного подключения обычного кон-
троллера и нейроконтроллера:
1) к объекту управления подключа-
ется обычный контроллер, после чего ней-
роконтроллер обучается управлять уже
замкнутой обычным контроллером систе-
мой. После обучения нейроконтролле-
ра, он подключается к системе, а управ-
ляющие сигналы обоих контроллеров сум-
мируются;
2) нейроконтроллер учится управ-
лять объектом управления, после обучения
Експертні та інтелектуальні інформаційні системи
начинает функционировать в штатном ре-
жиме. Далее, для управления замкнутой
нейроконтроллером системой настраива-
ется обычный контроллер. После настрой-
ки обычного контроллера, он подключает-
ся к системе, управляющий сигнал обоих
контроллеров суммируется;
3) области действия обычного кон-
троллера и нейроконтроллера разграничи-
ваются. Например, в пространстве состоя-
ний объекта управления для нейрокон-
троллера выделяется отдельная область
: LS
.
);(
...
);( 1111
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎝
⎛
+−
+−
=
NNNN dydy
dydy
LS
Рис. 10. Схема метода нейросетевой
фильтрации внешних возмущений
При этом, обычный контроллер
рассчитывается на управление объектом
вне этой области пространства состояния.
При параллельной работе обоих контрол-
леров, управляющий сигнал поступает на
объект либо от нейроконтроллера, если
текущее состояние системы находится в
пределах области , либо, в противном
случае, от обычного контроллера.
LS
Гибридное параллельное нейро-
управление представляет компромиссное
решение для внедрения нейроуправления в
промышленность и перехода от обычных
контроллеров к нейросетевым.
7. Вспомогательное
нейроуправление
Нейронные сети могут решать раз-
личные вспомогательные задачи, возни-
кающие в ходе управления динамическим
объектом. Качество управления контрол-
лера можно повысить и сделать траекто-
рию движения объекта управления более
гладкой при использовании метода нейро-
сетевой фильтрации внешних возмуще-
ний (Adaptive Inverse Control, Adaptive
Inverse Control based on Linear and
Nonlinear Adaptive Filtering, Internal Model
Control) [7, 12, 13, 18]. Изначально, эта
схема была предложена Б. Видроу для ис-
пользования совместно с нейроконтролле-
рами, обученными по методу обобщенно-
инверсного нейроуправления [12]. В более
поздней работе [13] им были применены
нейроконтроллеры, обученные по методу
обратного распространения ошибки через
прямой нейроэмулятор. В принципе, ней-
росетевую фильтрацию ошибок можно ис-
пользовать для повышения качества рабо-
ты контроллера любого типа, не обяза-
тельно нейросетевого. Схема работы такой
подсистемы показана на рис. 10. В ней ис-
пользуется две предварительно обученных
нейронных сети: инверсный нейроэмуля-
тор, обученный так же, как это делается в
методе обобщенного инверсного нейро-
управления (рис. 3, слева) и прямой ней-
роэмулятор, обученный так же, как это де-
лается в методе обратного распростране-
ния ошибки через прямой нейроэмулятор
(рис. 4, слева).
Пусть на объект управления посту-
пает управляющий сигнал , явив-
шийся результатом суммирования сигнала
контроллера и корректирующего
сигнала системы фильтрации внешних
возмущений , вычисленного на пре-
дыдущем такте. Сигнал направляет-
ся на прямой нейроэмулятор объекта
управления, а реакция прямого нейроэму-
лятора сравнивается с реальным по-
ложением системы . Разница этих ве-
личин трактуется как нежелательное
отклонение системы, вызванное внешним
возмущением. Для подавления нежела-
тельного эффекта, сигнал поступает
на инверсный нейроэмулятор, который
рассчитывает корректирующий сигнал
)(ˆ kuF
)(ˆ ku
)(ˆ kuC
)(ˆ kuF
)(ˆ ky
)(ky
)(ke
)(ke
90
Експертні та інтелектуальні інформаційні системи
)1(ˆ +kuC для корректировки управляюще-
го сигнала нейроконтроллера на
следующем такте. Для использования это-
го метода, объект управления должен об-
ладать обращаемой динамикой, а также
необходимо иметь адекватную математи-
ческую или имитационную модель объекта
управления для обучения прямого и ин-
версного нейроэмуляторов.
)1(ˆ +ku
Нейроуправление с эталонной
моделью (Model Reference Adaptive Con-
trol, Neural Adaptive Control) [11, 15, 18,
26] – вариант нейроуправления по методу
обратного распространения ошибки через
прямой нейроэмулятор, с дополнительно
внедренной в схему эталонной моделью
(Reference Model). Это делается в целях
повышения устойчивости переходного
процесса: в случае, когда переход объекта
в целевое положение за один такт невоз-
можен, траектория движения и время осу-
ществления переходного процесса стано-
вятся плохо прогнозируемыми величинами
и могут привести к нежелательным режи-
мам работы системы. Схема нейроуправ-
ления с эталонной моделью показана на
рис.11.
91
Рис. 11. Схема нейроуправления
с эталонной моделью
Для уменьшения этой неопреде-
ленности, между уставкой и нейрокон-
троллером вводится эталонная модель,
представляющая собой, как правило, ли-
нейную динамическую систему невысоко-
го порядка, которую можно легко анали-
тически проверить на устойчивость. В хо-
де как обучения, так и управления, эталон-
ная модель получает на вход уставку r и
генерирует опорную траекторию r′ , кото-
рая дальше поступает на нейроконтроллер
в качестве новой уставки, которую нужно
выполнить. Эталонная модель подбирается
таким образом, чтобы генерируемая ею
опорная траектория на каждом такте была
достижима для объекта управления. Хотя
под системой нейроуправления по эталон-
ной модели чаще всего подразумевается
именно система конструкции. К. Нарендры
и К. Пасарати [26], нет принципиальных
ограничений против применения эталон-
ных моделей совместно с системами ней-
роуправления других типов, например,
обобщенного инверсного нейроуправления
или специализированного инверсного ней-
роуправления.
К. Кришнакумаром и др. [2, 44]
предложена оригинальная модификация
нейроуправления с адаптируемой эталон-
ной моделью для создания аварийно-
устойчивой системы управления летатель-
ным аппаратом. В качестве контроллера
используется классический неадаптируе-
мый ПИД-контроллер, а эталонная модель
представляет система нейроуправления
типа адаптивной критики, способная ме-
нять свое поведение в ходе полета, генери-
руя на выходе для отслеживания контрол-
лером различные опорные траектории.
Эталонная модель дообучается в режиме
он-лайн путем минимизации среднеквад-
ратичной ошибки отклонения траектории
движения объекта управления от целевой
траектории. Такую адаптивную систему
можно рассматривать как обычный нейро-
контроллер типа адаптивной критики,
управляющий объединенной динамиче-
ской системой «ПИД-контроллер + объект
управления».
Выводы
За последние 20 лет нейроуправле-
ние получило значительное развитие. Как
было обозначено в одном из первых обзо-
ров по тематике нейроуправления [21] в
качестве перспективного направления ис-
следований, доминирующая доля внима-
Експертні та інтелектуальні інформаційні системи
92
ния была уделена задачам разработки ней-
росистем для управления нелинейными
динамическими объектами, получено
множество примеров успешно работаю-
щих систем этого типа. В качестве универ-
сального эффективного метода нейро-
управления был заявлен разработанный
относительно недавно метод адаптивной
критики. Показано, что рекуррентные сети
типа NARX наилучшим образом подходят
для моделирования динамических систем
[45], что привело к их распространению в
качестве идентификаторов объектов
управления в непрямых и прогнозирую-
щих методах нейроуправления. Вместе с
тем, все существующие на сегодняшний
день алгоритмы обучения рекуррентных
нейросетей являются вариациями разрабо-
танных в начале 90-х алгоритмов BPTT и
RTRL [46], обучение которых проходит
сравнительно медленно и требует значи-
тельных вычислительных ресурсов.
Вместе с тем, остается ряд нере-
шенных проблем, мешающих широкому
применению систем нейроуправления в
индустрии.
1. Все еще отсутствует универсаль-
ная процедура анализа устойчивости не-
линейных нейроконтролеров. Были пред-
ложены лишь частные решения для от-
дельных видов нейроконтроллеров при из-
вестной математической модели объекта
управления.
2. Конструкция почти всех схем
нейроуправления выглядит слишком ус-
ложненной из-за наличия нескольких ней-
росетей и нетривиальной последователь-
ности процедур их обучения. Перспектив-
ным направлением исследований является
получение унифицированного алгоритма
обучения единой управляющей нейросети.
3. Для дальнейшего развития мето-
дов нейроуправления, актуальной пробле-
мой остается создание новых моделей ди-
намических нейронных сетей и способов
из обучения, так как базовыми блоками
построения многих методов нейроуправ-
ления являются эмпирически полученные
модели прямой или инверсной динамики
объекта управления.
1. Li Y., Sundararajan N., Saratchandran P.
Neuro-controller design for nonlinear fighter
aircraft maneuver using fully tuned RBF net-
works // Automatica. – 2001. – Vol. 37, N 8.
– P. 1293 – 1301.
2. Gundy-Burlet K., Krishnakumar K., Limes G.,
Bryant D. Augmentation of an Intelligent
Flight Control System for a Simulated C-17
Aircraft // J. of Aerospace Computing, Infor-
mation, and Communication. – 2004. –
Vol. 1, N 12. – P. 526 – 542.
3. Prokhorov D. and Wunsch D. Adaptive Critic
Designs // IEEE Transactions on
Neural Networks. – 1997. – Vol. 8, N 5. –
P. 997 – 1007.
4. Архангельский В.И., Богаенко И.Н., Гра-
бовский Г.Г., Рюмшин Н.А. Нейронные се-
ти в системах автоматизации. – К.: Техни-
ка, 1999. – 234 c.
5. Купін А.І. Інтеллектуальна ідентифікація та
керування в умовах процесів збагачуваль-
ної технології. – Кривий Ріг: КТУ, 2008. –
204 с.
6. Терехов В.А., Ефимов Д.В., Тюкин И.Ю.
Нейросетевые системы управления: Учеб.
пособие для вузов. – М.: Высш. школа
2002. – 183 с.
7. Dias F.M., Mota A.M. Comparison between
Different Control Strategies using Neural
Networks // 9th Mediterranean Conference on
Control and Automation. – Dubrovnik, Croa-
tia, 2001.
8. Venayagamoorthy G.K., Harley R.G., Wun-
sch D.C. Implementation of Adaptive Critic-
based Neurocontrollers for Turbogenerators in
a Multimachine Power System”, IEEE Trans-
actions on Neural Networks. – 2003. –
Vol. 14, Issue 5. – P. 1047 – 1064.
9. D’Emilia G., Marrab A., Natalea E. Use of
neural networks for quick and accurate auto-
tuning of PID controller // Robotics and
Computer-Integrated Manufacturing. – 2007.
– Vol. 23. – P. 170 – 179.
10. Змеу К.В., Марков Н.А., Шипитько И.А.,
Ноткин Б.С. Безмодельное прогнозирую-
щее инверсное нейроуправление с регене-
рируемым эталонным переходным про-
цессом // Интеллектуальные системы. –
2009. – № 3. – С. 109 – 117.
11. Widrow B., Smith F.W. Pattern-recognizing
control systems // Proceedings of Computer
and Information Sciences. – Washington,
USA – 1964. – Vol. 12. – P. 288 – 317.
12. Widrow B., Adaptive Inverse Control // Pro-
ceedings of the 2nd IFAC Workshop on
Adaptive Systems in Control and Signal
Експертні та інтелектуальні інформаційні системи
93
Processing – Lund, Sweden, July 1986. –
P. 1 – 5.
13. Widrow B., Plett G.L. Adaptive Inverse Con-
trol based on Linear and Nonlinear Adaptive
Filtering // Proceedings of International
Workshop on Neural Networks for Identifica-
tion, Control, Robotics, and Signal/Image
Processing – 21–23 Aug 1996, Venice, Italy.
– P. 30 – 38.
14. Zhang Y., Wang J. Recurrent neural networks
for nonlinear output regulation // Automatica.
– 2001. – Vol. 37, N 8. – P. 1161 – 1173.
15. Psaltis D., Sideris A., Yamamura A.A. A Mul-
tilayered Neural Network Controller // IEEE
Control Systems Magazine. – 1988. – Vol. 8,
Issue 2. – P. 17 – 21.
16. Редько В.Г., Прохоров Д.В. Нейросетевые
адаптивные критики // VI Всероссийская
научно-техническая конференция “Нейро-
информатика-2004". Сборник научных
трудов. Часть 2. М.: МИФИ, 2004. –
C. 77 – 84.
17. Омату С., Халид М., Юсоф Р. Нейро-
управление и его приложения: пер. с англ.
– М.: ИПРЖР, 2000. – 272 с.
18. Пупков К.А., Егупов Н.Д. Методы робаст-
ного, нейро-нечеткого и адаптивного
управления: Учебник. М. : Изд-во МГТУ
им. Н.Э. Баумана, 2001. – 744 с.
19. Omidvar O., Elliott D.L. eds. Neural Systems
for Control // Academic Press, New York,
1997. – 272 с.
20. Ronco E. Incremental Polynomial Controller
Networks: Two Self-Organising Non-Linear
Controllers // Ph.D. Disseration Thesis, Glas-
gow, 1997. – 207 с.
21. Hunt K.J., Sbarbaro D., Zbikowski R., Gaw-
throp P.J. Neural Networks for Control:
A Survey // Automatica 28. – 1992. – N 6. –
P. 1083 – 1112.
22. Zhang Y., Sen P., Hearn G.F. An on-line
trained adaptive controller // IEEE Control
Systems Magazine. – 1995. – Vol. 15, N 5. –
P. 67 – 75.
23. Ronco E., Gawthrop P. J., Hill D. J. Gated
modular neural networks for control oriented
modeling // Technical Report EE-98009, La-
boratory for Dynamic Systems and Control,
Sydney, Australia, 1998.
24. Bishop C.M. Pattern Recognition and Ma-
chine Learning // Springer, 2006. – 738 с.
25. Хайкин С. Нейронные сети: полный курс /
Хайкин С.; пер. с англ. – [2-е изд., испр.]. –
М.: Вильямс, 2006. – 1102 с.
26. Narendra K.S., Parthasarathy K.K. Identifica-
tion and control of dynamical systems using
neural networks // IEEE Transactions on Neu-
ral Networks. – 1990. – N 1. – P. 4 – 27.
27. Werbos P. Backpropagation through time:
what it does and how to do it // Proceedings of
the IEEE. – October 1990. – Vol. 78, N. 10. –
P. 1550 – 1560.
28. Jordan M.I. and Rumelhart D.E. Forward-
models: Supervised learning with a distal
teacher // Cognitive Science – 1990. –
Vol. 16. – P. 313 – 355.
29. Hagan M.T., Demuth H.B. Neural networks
for control // Proceedings of the American
Control Conference. – San Diego, USA, 1999.
– Vol. 3. – P. 1642 – 1656.
30. Rossiter J.A. Model-based Predictive Control:
a Practical Approach // CRC Press, 2003. –
318 c.
31. Takahashi Y. Adaptive Predictive Control of
Nonlinear Time-Varying System using Neural
Network // Proceedings of the IEEE Interna-
tional Conference on Neural Networks – Na-
goya, Japan, 25 – 29 October, 1993. – Vol. 3.
– P. 1464 – 1468.
32. Soloway D., Haley P.J. Neural Generalized
Predictive Control // Proceedings of the
IEEE International Symposium on Intelligent
Control. – 15 – 18 September 1996. –
P. 277 – 281.
33. Lendaris G.G. A Retrospective on Adaptive
Dynamic Programming for Control // Pro-
ceedings of International Joint Conference on
Neural Networks, Atlanta, USA, June 14-19,
2009. – P. 1750 – 1757.
34. Barto A.G. Reinforcement learning and adap-
tive critic methods. // Handbook of Intelligent
Control. – New York: Van Nostrand Rein-
hold, 1992. – P. 469 – 491.
35. Ferrari S., Stengel R.F. Model-Based Adap-
tive Critic Designs // Learning and Approxi-
mated Dynamic Programming, J. Si, A. Barto,
W. Powell, and D. Wunsch, Eds. New York:
Wiley, 2004, Chapter. 3.
36. Wolpert D.M., Kawato M. Multiple Paired
Forward and Inverse Models for Motor Con-
trol // Neural Networks. – 1998. – Vol. 11. –
Issue 7 – 8. – P. 1317 – 1329.
37. Oyama E., Agah A., MacDorman K.F.,
Maeda T., Tachi S. A Modular Neural Net-
work Architecture for Inverse Kinematics
Model Learning // Neurocomputing. – 2001. –
N 38 – 40. – P. 797 – 805.
38. Haruno M., Wolpert D.M., Kawato M. Multi-
ple Paired Forward-Inverse Models for Hu-
man Motor Learning and Control // Advances
in Neural Information Processing Systems.
MIT Press, Cambridge, Massachusetts. –
1999. – Vol. 11. – P. 31 – 37.
Експертні та інтелектуальні інформаційні системи
94
39. Narendra K.S., Kumpati S., Balakrishnan J.,
Ciliz K.M. Adaptation and LearningUsing
Multiple Models, Switching and Tuning //
IEEE Control Systems Magazine. – 1996. –
Vol. 15, Issue 3. – P. 37 – 51.
40. Kumpati S., Narendra K.S., Balakrishnan J.
Adaptive Control Using Multiple Models //
IEEE Transactions on Automatic Control. –
1997. – Vol. 42, N 2. – P. 171 – 187.
41. Saiful A., Omatu S. Neuromorphic self-tuning
PID controller // Proceedings of IEEE Interna-
tional Conference on Neural Networks, San
Francisco, USA, 1993. – P. 552 – 557.
42. Chang W.D., Hwang R.C., Hsiehc J.G. A
multivariable on-line adaptive PID controller
using auto-tuning neurons // Engineering Ap-
plications of Artificial Intelligence. – 2003. –
Vol. 16, Issue 1. – P. 57 – 63.
43. Tan Y., De Keyser R. Auto-tuning PID control
using neural predictor to compensate large
time-delay // Proceedings of the Third IEEE
Conference on Control Applications. – 1994.
– Vol. 2. – P. 1429 – 1434.
44. Krishnakumar K., Limes G., Gundy-Burlet K.,
Bryant D. An Adaptive Critic Approach to
Reference Model Adaptation // Proceedings
of 2003 AIAA Guidance, Navigation, and
Control Conference, August 11 – 14, Austin,
USA. – P. 5790 – 5801.
45. Siegelmann H.T., Horne B.G., Giles C.L.
Computational capabilities of recurrent
NARX neural networks // IEEE Transactions
on Systems, MAN and Cybernetics, Part
B:Cybernetics. – 1997. – N 27. – Vol. 2. –
P. 208 – 215.
46. De Jesus O., Hagan M.T. Backpropagation:
Algorithms for a Broad Class of
Dynamic Networks // IEEE Transactions on
Neural Networks. – 2007. – N 1, Vol. 18. –
P. 14 – 27.
Получено 01.12.2010
Об авторах:
Чернодуб Артем Николаевич,
младший научный сотрудник,
Дзюба Дмитрий Александрович,
младший научный сотрудник.
Место работы авторов:
Институт проблем математических машин
и систем НАН Украины,
03680, Киев-187,
Проспект Академика Глушкова, 40.
Тел.: (044) 526 5548.
E-mail: achernodub@immsp.kiev.ua
ddziuba@immsp.kiev.ua
mailto:achernodub@immsp.kiev.ua
mailto:ddziuba@immsp.kiev.ua
ОБЗОР МЕТОДОВ НЕЙРОУПРАВЛЕНИЯ
Введение
|