Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням
Метою статті є розробка ефективного алгоритму інтелектуального керування космічними апаратами (КА) на базі методів навчання з підкріпленням (НЗП). Целью статьи является разработка эффективного алгоритма интеллектуального управления космическими аппаратами (КА) на базе методов обучения с подкрепление...
Збережено в:
| Опубліковано в: : | Технічна механіка |
|---|---|
| Дата: | 2019 |
| Автори: | , |
| Формат: | Стаття |
| Мова: | Ukrainian |
| Опубліковано: |
Інститут технічної механіки НАН України і НКА України
2019
|
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/174081 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням / С.В. Хорошилов, М.О. Редька // Технічна механіка.— 2019.— № 4.— С. 29-43.— Бібліогр.: 15 назв.— рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-174081 |
|---|---|
| record_format |
dspace |
| spelling |
Хорошилов, С.В. Редька, М.О. 2021-01-01T20:00:44Z 2021-01-01T20:00:44Z 2019 Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням / С.В. Хорошилов, М.О. Редька // Технічна механіка.— 2019.— № 4.— С. 29-43.— Бібліогр.: 15 назв.— рос. 1561-9184 DOI: doi.org/10.15407/itm2019.04.029 https://nasplib.isofts.kiev.ua/handle/123456789/174081 004.89+629.7 Метою статті є розробка ефективного алгоритму інтелектуального керування космічними апаратами (КА) на базі методів навчання з підкріпленням (НЗП). Целью статьи является разработка эффективного алгоритма интеллектуального управления космическими аппаратами (КА) на базе методов обучения с подкреплением (ОСП). The aim of this paper is to develop an effective algorithm for intelligent control of spacecraft based on reinforcement learning (RL) methods. Дослідження проведені за рахунок фінансування за бюджетною програмою "Підтримка розвитку пріоритетних напрямків наукових досліджень" (КПКВК 6541230). uk Інститут технічної механіки НАН України і НКА України Технічна механіка Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням Intelligent control of spacecraft attitude using reinforcement leaning Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням |
| spellingShingle |
Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням Хорошилов, С.В. Редька, М.О. |
| title_short |
Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням |
| title_full |
Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням |
| title_fullStr |
Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням |
| title_full_unstemmed |
Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням |
| title_sort |
інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням |
| author |
Хорошилов, С.В. Редька, М.О. |
| author_facet |
Хорошилов, С.В. Редька, М.О. |
| publishDate |
2019 |
| language |
Ukrainian |
| container_title |
Технічна механіка |
| publisher |
Інститут технічної механіки НАН України і НКА України |
| format |
Article |
| title_alt |
Intelligent control of spacecraft attitude using reinforcement leaning |
| description |
Метою статті є розробка ефективного алгоритму інтелектуального керування космічними апаратами (КА) на базі методів навчання з підкріпленням (НЗП).
Целью статьи является разработка эффективного алгоритма интеллектуального управления космическими аппаратами (КА) на базе методов обучения с подкреплением (ОСП).
The aim of this paper is to develop an effective algorithm for intelligent control of spacecraft based on reinforcement learning (RL) methods.
|
| issn |
1561-9184 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/174081 |
| citation_txt |
Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням / С.В. Хорошилов, М.О. Редька // Технічна механіка.— 2019.— № 4.— С. 29-43.— Бібліогр.: 15 назв.— рос. |
| work_keys_str_mv |
AT horošilovsv íntelektualʹnekeruvannâoríêntacíêûkosmíčnihaparatívízvikoristannâmnavčannâzpídkríplennâm AT redʹkamo íntelektualʹnekeruvannâoríêntacíêûkosmíčnihaparatívízvikoristannâmnavčannâzpídkríplennâm AT horošilovsv intelligentcontrolofspacecraftattitudeusingreinforcementleaning AT redʹkamo intelligentcontrolofspacecraftattitudeusingreinforcementleaning |
| first_indexed |
2025-11-27T06:02:01Z |
| last_indexed |
2025-11-27T06:02:01Z |
| _version_ |
1850803879965360128 |
| fulltext |
29
УДК 004.89+629.7 https://doi.org/10.15407/itm2019.04.029
С. В. ХОРОШИЛОВ, М. О. РЕДЬКА
ІНТЕЛЕКТУАЛЬНЕ КЕРУВАННЯ ОРІЄНТАЦІЄЮ КОСМІЧНИХ АПАРАТІВ
ІЗ ВИКОРИСТАННЯМ НАВЧАННЯ З ПІДКРІПЛЕННЯМ
Інститут технічної механіки
Національної академії наук України та Державного космічного агентства України,
вул. Лєшко-Попеля, 15, 49005, Дніпро, Україна; e-mail: skh@ukr.net , mix5236@ukr.net
Метою статті є розробка ефективного алгоритму інтелектуального керування космічними апаратами
(КА) на базі методів навчання з підкріпленням (НЗП).
При розробці алгоритму та його дослідженні використано методи теоретичної механіки, теорії авто-
матичного керування, теорії стійкості, методи машинного навчання та комп’ютерного моделювання. Для
підвищення ефективності НЗП використано статистичну модель динаміки, яка базується на понятті гаусо-
вих процесів. Така модель, з одного боку, дозволяє використовувати апріорну інформацію про об’єкт
керування та має достатню гнучкість, а з іншого – дозволяє охарактеризувати невизначеність у динаміці у
вигляді довірчих інтервалів, та може уточнюватися у процесі функціонування КА. У цьому випадку, зада-
ча дослідження простору станів-керувань зводиться до отримання таких вимірів, які дозволяють зменши-
ти границі довірчих інтервалів. У якості сигналу підкріплення використано відомий квадратичний крите-
рій, який дозволяє враховувати як вимоги до точності, так і до затрат на керування. Пошук керуючих
впливів на базі НЗП виконано із використанням алгоритму ітерацій закону керування. Для реалізації регу-
лятора та оцінювання функції вартості використано апроксиматори у вигляді нейронних мереж. Гарантії
стійкості руху КА із врахуванням невизначеності моделі його динаміки отримано з використанням апара-
ту функцій Ляпунова. У якості кандидата функції Ляпунова обрано функцію вартості. Для того щоб спро-
стити перевірку стійкості на базі розглянутої методології, використано припущення про ліпшицеву непе-
рервність динаміки об’єкту керування, що дозволило застосувати метод множників Лагранжа для пошуку
керуючих впливів із врахуванням обмежень, сформульованих із використанням верхньої границі невизна-
ченості та ліпшицевих констант динаміки.
Ефективність запропонованого алгоритму ілюструється результатами комп’ютерного моделювання.
Запропонований підхід дає можливість розроблювати системи керування, які можуть покращувати свої
характеристики по мірі накопичення даних під час функціонування конкретного об’єкту, що дозволяє
знизити вимоги до їхніх елементів (сенсорів, виконавчих органів), відмовитись від спеціального стендово-
го обладнання, зменшити терміни та вартість розробки.
Ключові слова: навчання з підкріпленням, інтелектуальна система керування, космічний апарат,
стійкість, модель динаміки.
Целью статьи является разработка эффективного алгоритма интеллектуального управления космиче-
скими аппаратами (КА) на базе методов обучения с подкреплением (ОСП).
При разработке алгоритма и его исследовании использованы методы теоретической механики, тео-
рии автоматического управления, теории устойчивости, методы машинного обучения и компьютерного
моделирования. Для повышения эффективности ОСП использована статистическая модель динамики,
основанная на понятии гауссовых процессов. Такая модель с одной стороны позволяет использовать
априорную информацию об объекте управления и обладает достаточной гибкостью, а с другой стороны
позволяет охарактеризовать неопределенность в динамике в виде доверительных интервалов и может
уточняться в процессе функционирования КА. В этом случае задача исследования пространства состоя-
ний-управлений заключается в получении таких измерений, которые позволяют уменьшить границы до-
верительных интервалов. В качестве сигнала подкрепления использован известный квадратичный крите-
рий, позволяющий учесть, как требования к точности, так к затратам на управление. Поиск управляющих
воздействий на базе ОСП выполнен с использованием алгоритма итераций закона управления. Для реали-
зации регулятора и оценивания функции стоимости применены нейросетевые аппроксиматоры. Гарантии
устойчивости движения КА с учетом неопределенности модели его динамики получены с использованием
аппарата функций Ляпунова. В качестве кандидата функции Ляпунова выбрана функция стоимости. Для
того, чтобы упростить проверку устойчивости на базе рассмотренной методологии, использовано допуще-
ние о липшицевой непрерывности динамики объекта управления, что позволило применить метод множи-
телей Лагранжа для поиска управляющих воздействий с учетом ограничений, сформулированных с ис-
пользованием верхней границы неопределенности и липшицевых констант динамики.
Эффективность предложенного алгоритма иллюстрируется результатами компьютерного моделиро-
вания. Предложенный подход дает возможность разрабатывать системы управления, которые могут улуч-
шать свои характеристики по мере накапливания данных при функционировании конкретного объекта,
что позволяет снизить требования к их элементам (датчикам, исполнительным органам), отказаться от
специального стендового оборудования, уменьшить сроки и стоимость разработки.
Ключові слова: обучение с подкреплением, интеллектуальная система управления, космический
аппарат, стойкость, модель динамики.
С. В. Хорошилов, М. О. Редька, 2019
Техн. механіка. – 2019. – № 4.
30
The aim of this paper is to develop an effective algorithm for intelligent control of spacecraft based on rein-
forcement learning (RL) methods.
In the development and analysis of the algorithm, methods of theoretical mechanics, automatic control and
stability theories, machine learning, and computer simulation were used. To increase the RL efficiency, a statisti-
cal model of spacecraft dynamics based on the concept of Gaussian processes was used. On the one hand, such a
model allows one to use a priori information about the plant and is sufficiently flexible, and on the other hand, it
characterizes uncertainty in the dynamics in the form of confidence intervals and can be refined during the space-
craft operation. In this case, the problem of control/state space analysis reduces to obtaining such measurements
that narrow the confidence intervals. The familiar quadratic criterion, which allows one to take into account both
the accuracy requirements and the control cost, was used as the reinforcement signal. An RL-based search for
control actions was made using a control law iterative algorithm. To implement the regulator and evaluate the cost
function, neural network approximators were used. Spacecraft motion stability guarantees were obtained using the
Lyapunov function method with account for the uncertainty in the spacecraft dynamics. The cost function was
chosen as a candidate Lyapunov function, To simplify the stability test on the basis of this methodology, the dy-
namics of the plant was assumed to be Lipschitz continuous, which made it possible to use the Lagrange multipli-
er method for searching for control actions with account for the constraints formulated using the upper uncertainty
bound and Lipschitz dynamics constants.
The efficiency of the proposed algorithm is illustrated by computer simulation results. The approach makes
it possible to develop control systems that can improve their performance as data are accumulated during the
operation of a specific object, thus allowing one to reduce the requirements for its elements (sensors, actuators),
do without special test equipment, and reduce the development time and cost.
Keywords: reinforcement leaning, intelligent control system, spacecraft, stability, dynamic model.
Вступ. Система керування орієнтацією та стабілізації (СКОС) грає важ-
ливу роль у процесі функціонування сучасних космічних апаратів (КА), тому
що від її характеристик багато в чому залежить можливість виконання цільо-
вих задач, покладених на КА. При розробці СКОС широко використовуються
методи класичної теорії керування [1] та оптимального керування [2], які пе-
редбачають наявність точної математичної моделі об’єкта керування (ОК).
Однак на практиці усі математичні моделі у тій чи іншій мірі є неточними.
Таким чином, параметри об’єкту часто відомі лише приблизно, а його мате-
матична модель може бути настільки складною, що це не дозволяє її викори-
стати під час синтезу законів керування. Крім цього зовнішні збурення, за-
звичай також точно невідомі.
Для керування КА при наявності невизначеності можуть бути використа-
ні методи теорії робастного керування [3]. Однак, недоліком такого підходу є
те, що робастність алгоритмів керування по відношенню до невизначеності
ОК зазвичай досягається за рахунок зниження якості керування. Тому, для
забезпечення високих характеристик системи керування, необхідний точний
опис невизначеності у тій чи іншій формі, що не завжди можливо.
Іншим напрямком методології керування в умовах невизначеності є тео-
рія адаптивного керування [4], основний принцип якої полягає у отриманні
інформації про ОК в процесі його функціонування та використання її для ке-
рування. Такий підхід дозволяє підлаштовувати регулятор у процесі функці-
онування ОК таким чином, щоб забезпечувалась задана точність відстеження
деякої оптимальної траєкторії руху, яка розрахована з використанням номі-
нальної моделі. Але, тому що номінальний ОК відрізняється від реального, в
цілому таке керування не завжди є оптимальним.
Враховуючи те, що складність та різноманіття задач, які вирішуються за
допомогою КА, постійно зростають, використання зазначених вище підходів
при розробці СКОС КА призводить до край високих вимог до її елементів
(сенсорів, виконавчих органів), необхідності використання спеціального сте-
ндового обладнання, високим термінам та вартості розробки.
Розробка СКОС із використанням методів штучного інтелекту має поте-
нціал змінити цю ситуацію. Інтелектуальна система керування може мати
31
можливість покращення характеристик по мірі накопичення даних про особ-
ливості функціонування конкретного об’єкту. Такий підхід аналогічний тому,
як люди вдосконалюють свої навички по мірі накопичення досвіду.
Серед різноманітних методів штучного інтелекту, в останній час особли-
вий інтерес вчених та практиків направлено на навчання з підкріпленням
(НЗП) [7]. Ці методи найбільш близько імітують можливості людини вдоско-
налювати свою поведінку для досягнення довгострокових цілей по мірі нако-
пичення нового досвіду.
Відомі різноманітні приклади успішного застосування НЗП для вирішен-
ня поставлених задач у різних напрямках техніки, наприклад робототехніки
[8, 9], транспорту [10, 11], авіації [12].
Однак, інтерес розробників космічної техніки до цього підходу наразі не-
значний. На нашу думку, це зумовлено низкою причин. По-перше, вважаєть-
ся, що для реалізації такого підходу потрібні значні обчислювальні ресурси,
які недоступні на борту КА. Однак це представлення склалось давно, і врахо-
вуючи сучасний рівень комп’ютерної техніки та перспективи її розвитку,
можна сказати, що доступні на орбіті обчислювальні можливості можуть бу-
ти достатні для використання такого підходу. По-друге, відомо, що НЗП вла-
стива відносно невисока ефективність навчання. Це призводить до того, що
об’єкту необхідно виконати велику кількість спроб, перед тим як він на-
вчиться виконувати необхідну функцію належним чином. Крім цього, у бі-
льшості випадків, методологія не забезпечує гарантій досягнення необхідних
результатів, до яких звикли розробники космічної техніки.
Таким чином, вдосконалення методів НЗП представляє інтерес із враху-
ванням специфіки вирішення задач керування КА.
Ціллю статті є розробка ефективного алгоритму інтелектуального керу-
вання КА на базі методів навчання із підкріпленням.
Постановка задачі та вхідні дані. Оцінимо можливість використання
НЗП для керування кутовим рухом КА на прикладі такої модельної задачі.
Припустимо, що на етапі розробки системи керування відома деяка наближе-
на (номінальна) модель динаміки КА, яка відрізняється від реальної як зна-
ченням її параметрів, так і деякою динамікою, що не моделюється. З викори-
станням цієї номінальної моделі, синтезуємо базовий алгоритм керування,
достатній для виконання КА деякого початкового переліку задач. Далі буде-
мо вважати, що КА, використовуючи цей алгоритм керування, починає фун-
кціонувати на орбіті. Потім інтелектуальна система керування виконує пос-
лідовно такі дії:
1. Збір даних про особливості динаміки КА;
2. Уточнення моделі динаміки КА з використанням отриманих даних;
3. Покращення алгоритму керування КА з використанням уточненої мо-
делі.
Приведені вище дії повторюються доти, поки забезпечується покращення
якості керування. У кінці мають бути отримані такі алгоритми, які максима-
льно наближаються за якістю до оптимального керування, синтезованого з
використанням точної математичної моделі ОК.
Математична модель. Для опису кутового руху КА використаємо інер-
ціальну систему координат (ІСК) IIII zyxO із початком у центрі мас Землі
IO . Вісь II yO ІСК направлена за віссю обертання Землі, а вісь II zO – у точку
32
весняного рівнодення у задану епоху. Використаємо також зв’язану з КА сис-
тему координат (ЗСК) SSSS zyxO з початком у центрі мас та осями, які спів-
падають із головними центральними осями інерції апарату.
Рівняння обертального руху абсолютно жорсткого КА можуть бути
представлені таким чином:
cdJJ MM ωωω , (1)
де J – тензор інерції КА; Tzyx ,,ω – вектор абсолютної кутової шви-
дкості КА, заданий проекціями на осі ЗСК; dM , cM – вектори сумарного збу-
рюючого та керуючого моментів, відповідно.
У якості параметрів орієнтації використаємо кути Крилова , ,
(крен, тангаж, рискання). Перехід від ІСК до ЗСК можна зробити послідовні-
стю поворотів (z-y-x) на кути , , . У цьому випадку кінематичні рівнян-
ня, які зв’язують вектор абсолютної кутової швидкості КА та похідні кутів
орієнтації, можуть бути представлені у такому вигляді:
z
y
x
cossin
cossincoscos
cossinsinsincos
cos
0
01
. (2)
Далі, при проведенні числових експериментів, будемо вважати, що рів-
няння (1), (2) точно описують динаміку КА.
Рівняння (1), (2) суттєво нелінійні, але для малих кутових відхилень КА
значення похідних кутів орієнтації приблизно рівні x , y , z та
рівняння (1), (2) можуть бути представлені у лінійній формі у вигляді трьох
незалежних диференційних рівнянь:
c
x
d
xx MMJ , c
y
d
yy MMJ , c
z
d
zz MMJ , (3)
де xJ , yJ , zJ – центральні моменти інерції КА відносно відповідних осей
ЗСК; d
xM , d
yM , d
zM і c
xM , c
yM , c
zM – проекції векторів сумарного збурю-
ючого та керуючого моментів на відповідні осі ЗСК.
Вважатимемо, що саме модель (3) відома до виводу КА на орбіту.
Оптимальне керування. Для синтезу регулятора рівняння (3) можна
представити у формі простору станів у такому дискретному вигляді:
kkk BA UXX 1 , (4)
де Tk ,,,,,X , Tczc
y
c
xk MMM ,,U – вектори стану та керування на
k-му такті керування, відповідно.
Матриці стану та керування, які входять у представлення (4), мають ви-
гляд:
33
100000
010000
001000
000000
000000
000000
A
1
1
1
00
00
00
z
y
x
J
J
J
B .
Для оцінки якості керування використаємо такий квадратичний критерій,
який враховує точність керування та затрати на керування:
0
UUXX
k
K
T
KK
T
K FQI , (5)
де Q та F – вагові матриці.
Для такого критерію і лінійного ОК (4), керування може бути знайдено у
формі лінійно-квадратичного регулятора [3]:
k
L
k KXU . (6)
Матриця коефіцієнтів підсилення регулятора K знаходиться шляхом
розв’язання алгебраїчного рівняння Ріккаті:
APBPBBFPBPAQP TTT
1 (7)
у такому вигляді:
PBFK T1
~ , PBBFF T
~ ,
де P – розв’язок рівняння (7).
Саме керування (6) будемо використовувати далі у якості базового.
Використовуючи метод лінеаризації зворотного зв’язку та вводячи нове
керування *
kU , початкова нелінійна система рівнянь може бути представлена
таким чином:
**
kkk BA UXX 1 , (8)
де
100
010
001
*B ,
kk K XU ** . (9)
Перехід від лінійного керування для системи (8) до нелінійного керуван-
ня для початкової системи (1), (2) виконується таким чином:
T
kk
T
kkkk
N
k JFJJJF ωωω*
UU
11 , (10)
де
kkkk
kk
kkkk
kF
cossecsinsec
sincos
costansintan
0
0
1
,
34
kkkkkkkkkkkk
kkkk
kkkkkkkkkkkk
kF
sintancosseccostansinsec
cossin
tansincossectancossinsec
0
0
0 22
.
Синтез керування (9) виконується аналогічно тому, як у випадку з (6).
На рис. 1 – 3 наведено залежності зміни кутів орієнтації від часу при ви-
користанні лінійного та нелінійного регуляторів для КА, який має такі цент-
ральні моменти інерції: 6000xJ 2мкг , 4000yJ
2мкг , 5000xJ
2мкг . Як
видно із цих рисунків, керування лінійним регулятором призводить до знач-
ного перерегулювання, і, як наслідок, його якість значно поступається нелі-
нійному. Траєкторії руху КА під керування нелінійного регулятора можна
розглядати як еталонні у рамках розглянутої задачі.
Рис. 1 – Залежність кута крену від часу для лінійного та нелінійного регуляторів
Рис. 2 – Залежність кута тангажу від часу для лінійного та нелінійного регуляторів
Рис. 3 – Залежність кута рискання від часу для лінійного та нелінійного регуляторів
Навчання з підкріпленням. При вирішенні задач керування із викорис-
танням НЗП передбачається, що система керування навчається, аналізуючи
35
результати своїх дій. Ці результати оцінюються за скалярним сигналом (під-
кріпленням), який отримується від ОК і з яким взаємодіє система керування.
Сигнал підкріплення, який можна трактувати як вартість, дозволяє інтелекту-
альній системі керування змінювати свої алгоритми керування, враховуючі
досягнення довгострокової цілі.
Загальний алгоритм НЗП, наведений на рис. 4, включає такі дії:
1) у момент часу kt ОК знаходиться у стані kX ;
2) у цьому стані система керування обирає один із можливих керуючих
впливів (дій) kU ;
3) система керування виконує цю дію, що призводить до переходу ОК у
новий стан 1X k і отримання підкріплення kR ;
4) виконується перехід до пункту 2 із врахуванням отриманого підкріп-
лення, або, якщо новий стан є кінцевим, то виконується завершення алгорит-
му.
Нехай – множина станів, а A – множина керуючих впливів. Підкріп-
лення kR є наслідком дії kU , обраної у стані kX . Сигнал підкріплення являє
собою функцію, яка залежить від вектору, визначеного у просторі A .
Рис. 4 – Схема навчання з підкріпленням
Система керування обирає дії таким чином, щоб мінімізувати сумарну
вартість, яка визначається наступним чином:
ik
i
i
kkkk RRRRG
0
2
2
1 ... , 10 .
Коефіцієнт знецінення задає ступінь важливості прогнозних значень
вартості у майбутньому при виборі керуючих впливів.
Одним із ключових понять ОЗП є функція вартості. Нехай у кожному
стані kX система керування формує керуючу дію згідно до визначеної стра-
тегії :
kk XU ,
тоді функція вартості дозволяє визначити сумарну вартість дій при русі із
початкового стану kX і виборі керуючих дій згідно до стратегії . Цю фун-
кцію можна представити таким чином:
...,, 111 UXUXX kkkkkkk RRV
1
0
UXUX
kkkkikikik
i
k XVRR ,, .
36
Модель для НЗП. Алгоритм НЗП може бути реалізовано із використан-
ням моделі ОК. Така модель повинна описувати перехід ОК із початкового
стану kX під дією керування kU у наступний стан 1X k таким чином:
),( kkk f UXX 1 . (11)
Цю модель доречно представити у такому вигляді:
),(),( kkkkk gh UXUXX 1 , (12)
де ),( kkh UX – номінальна модель; ),( kkg UX – невизначеність.
Особливістю НЗП із використанням моделі є те, що при навчанні вико-
ристовується інформація не про реальні переходи ОК під дією керуючих
впливів, а аналогічні дані, отримані за допомогою моделі. При такому підхо-
ді якість отриманих результатів визначається точністю використаної при на-
вчанні моделі ОК. У зв’язку з цим, для вирішення розглянутої задачі, викори-
стаємо таку модель ОК, яка має потенціал для уточнення. Необхідно запро-
понувати алгоритми, які дозволяють зменшувати невизначеність ),( kkg UX
моделі по мірі накопичення даних про особливості функціонування ОК.
Такі моделі можуть бути отримані із використанням різних підходів, на-
приклад методів механіки. У такому випадку, структура моделі буде фіксо-
ваною, а її параметри можуть бути уточнені з використанням методів пара-
метричної ідентифікації [13]. Однак для нашої задачі такий підхід не є доре-
чним, тому що у нашому випадку модель має як параметричну, так і структу-
рну невизначеність.
Великий потенціал для опису різних процесів за експериментальними
даними мають моделі, які побудовані на базі нейронних мереж. Нажаль, та-
кий підхід потребує дуже великої кількості даних для забезпечення якісних
результатів, що ускладнює їх використання у випадку КА.
Враховуючи наведені вище складності, у цій роботі використана статис-
тична модель, яка базується на понятті гаусових процесів [14]. Такий підхід
дозволяє отримати апостеріорне розподілення функції ),( kkf UX за наявними
даними із використанням непараметричної байесової регресії:
),()( kGPfp .
Гаусовий процес GP повністю визначається функцією математичного
очікування та додатньою коваріаційною функцією k , яка також назива-
ється ядром.
У якості функції математичного очікування доцільно обрати номінальну
модель ОК:
),(μ kkk h UX .
У якості ядра зазвичай обирають стандартні коваріаційні функції
(рис. 5), які найбільш повно задовольняють особливостям процесу, що розг-
лядається.
37
Рис. 5 – Стандартні коваріаційні функції
Під даними будемо розуміти отримані у процесі функціонування КА за-
шумлені виміри вигляду:
)()(ˆ kkk ff ZZY , ),( kkk UXZ , 20 ,N .
Нехай у нас є n навчальних наборів вхідних даних nZZZZ 21 ,,, та
відповідні їм виміри виходу nYYYY 21 ,,, .
Апостеріорне розподілення )( *Zfp функції )( kf Z для довільного, але
відомого тестового входу *Z також є гаусовим. Математичне очікування та
дисперсія цього розподілення визначаються таким чином:
YZ
12
IKkT** , 2122 Z
***** kIKkk T ,
де ** Ζ,ΖKk , **** Ζ,ΖKk , jiij kK Ζ,Ζ .
На рис. 6 наведено опис динаміки ОК із використанням GP. Тут світло-
сірим кольором показано область значень, куди з високою ймовірністю по-
трапляє реальний процес. На лівому рисунку показана ця область (довірчі
інтервали) перед початком отримання вимірів про динаміку ОК. Два наступ-
них рисунки показують, як виміри, що надходять (позначені хрестиком), доз-
воляють послідовно звузити довірчі інтервали, тим самим зменшивши неви-
значеність у динаміці ОК.
Рис. 6 – Опис ОК за допомогою гаусових процесів
Архітектура «Виконавець – Критик». Існують різні алгоритми знахо-
дження оптимального керування із використанням НЗП. У цей роботі обрано
алгоритм ітерацій закону керування, який має кращу збіжність у порівнянні з
38
іншими алгоритмами, однак він програє їм з точки зору ефективності нав-
чання (потребує більше даних для навчання). Враховуючи те, що при навчан-
ні використовується модель, а не реальні переходи ОК, цей фактор не є ви-
значальним.
Суть цього алгоритму полягає у позмінному уточненні функції вартості і
закону керування і включає такі кроки:
1. Обирається початковий закон керування ;
2. Оцінюється функція вартості V для цього закону керування;
3. Виконується деяке число ітерацій з уточнення закону керування,
виходячи із мінімізації такої цільової функції:
kkk VR XUXX U
,minarg .
Кроки 2 та 3 повторюються доти, поки не буде отриманий оптимальний
закон керування * і відповідна йому функція вартості
*V .
Рис. 7 – Алгоритм ітерацій закону керування
Такий алгоритм може бути реалізовано із використанням двох модулів –
критика та виконавця. У цьому випадку, критик формує на виході оцінки фу-
нкції вартості, а виконавець – керуючі впливи.
Критика та виконавця реалізовано у формі багатошарових нейронних
мереж із прямим поширенням сигналів, які апроксимують відповідно функ-
цію вартості та закон керування:
XηV , Xθ ,
де η , θ – вектори параметрів критика та виконавця відповідно.
Для навчання критика використано метод скінчених різниць (СР) [7], ос-
нований на мінімізації помилки СР, яка обчислюється таким чином:
kkkk VVR XX 1
.
Враховуючи це, цільова функція критика приймає такий вигляд:
kπ
k
π
kV
π VVV π XXRX 1
η
minargη .
Цільова функція виконавця із використанням оцінок критика сформова-
на таким чином:
1XXXU k
π
k VR ηθθ ,minarg
θ
. (13)
39
Аналіз стійкості та робастність системи. Оптимізація закону керуван-
ня із використання НЗП часто призводить до того, що замкнутий контур сис-
теми керування знаходиться на межі області стійкості. Враховуючи те, що
використана у цій роботі для навчання модель ОК містить невизначеність,
керований рух реального КА може стати нестійким. Тому критерій (13) по-
винен бути доповнений умовами, які враховують невизначеність моделі.
У розглянутому у цій статті прикладі, КА починає функціонувати з регу-
лятором, синтезованим із використанням лінійної моделі, яка адекватно опи-
сує динаміку тільки для малих відхилень компонент вектору стану від нульо-
вого положення, і, таким чином, стійкість замкнутого контуру системи керу-
вання забезпечується лише для деякої підмножини простору станів. Будь-які
траєкторії керованого руху ОК, які беруть початок всередині області атракції,
у кінці кінців, збігаються до цільового стану.
У роботі [15] для отримання гарантій стійкості авторами робляться деякі
припущення про динаміку системи. Так, передбачається, що динаміка систе-
ми ліпшицево неперервна. Слідуючи результатам цієї роботи, також будемо
рахувати, що функції ),( kkh UX та ),( kkg UX , які описують динаміку ОК, та
керування kX відповідно hL , gL та L – ліпшицево неперервні. Тут
hL , gL та L – відповідні ліпшицеві константи.
Крім цього, будемо рахувати, що наша статистична модель динаміки за-
довольняє такій вимозі:
*** ZZZ 1 f .
Тут масштабуючий коефіцієнт обирається таким чином, щоб забезпе-
чити із високою ймовірністю потрапляння значень функції *Zf у обраний
довірчій інтервал.
Метод функцій Ляпунова широко використовується у теорії керування
для дослідження стійкості. Для випадку, коли динаміка системи ліпшицево
неперервна, функція Ляпунова v є квазіопуклою в межах області атракції.
Ця особливість дозволяє замінити (для перевірки стійкості) вимогу
від’ємності похідної від функції Ляпунова вимогою її убування на одному
кроці:
kkk vfv XXX θ, . (14)
Використана у цій роботі функція вартості (5) строго додатна на усій ро-
зглянутій області змінення вектору стану, крім нуля. Враховуючи це, у якості
кандидата функції Ляпунова оберемо функцію вартості:
Vv kX .
Крім цього, слід зазначити, що використана нами модель динаміки міс-
тить невизначеність. Тому, оцінки функції Ляпунова також будуть мати де-
яку невизначеність. Для того щоб врахувати це, умову (14) можна представи-
ти у такому вигляді:
vkkk Lvu XXX θ* , , (15)
40
де *u – верхня границя змінення функції v ; – шаг дискретизації простору
станів; vL – ліпшицева константа, яка визначається таким чином:
vfvv LLLLL 1 .
Цільова функція виконавця (13) може бути доповнена вимогою робастної
стійкості (15) за допомогою методу множників Лагранжа таким чином:
vkkkkk
kk
LvuV
R
XXXXX
XX
θ*θ*η
θ
,,
,
minarg
θ
, (16)
де – множник Лагранжа.
Рис. 8 – Перевірка приналежності вектору стану області атракції
Алгоритм ефективного НЗП. На базі наведеної вище методології, алго-
ритм ефективного НЗП для СКОС КА може бути представлено таким чином:
1. Вибір детермінованої моделі динаміки КА ),( kkh UX .
2. Синтез базового регулятора kX із використанням моделі
),( kkh UX .
3. Навчання виконавця Xθ .
4. Навчання критика XηV .
Початок циклу
5. Збір даних про особливості динаміки КА із використанням керу-
вання Xθ .
6. Уточнення статистичної моделі ),( kkg UX .
Початок циклу
7. Покращення керування Xθ .
8. Уточнення критика XηV .
Кінець циклу
Кінець циклу
Числові експерименти. При проведенні числових експериментів перед-
бачалося, що спочатку відома лише лінійна модель КА (3). Точність визна-
чення її параметрів %20 від її істинних значень, наведених у розділі «Оп-
тимальне керування». Обрано наступні структури нейронних мереж:
критика: число прихованих шарів – 4, число нейронів у прихованому
шарі – 64, функції активації – лінійний випрямний елемент (ReLU);
виконавця: число прихованих шарів – 3, число нейронів у прихованому
шарі – 64, функції активації ReLU (всюди крім виходу) і Tanh (на виході).
41
На рис. 9 показано зміну цільової функції виконавця при його навчанні
лінійному керуванню (6) із використанням методу навчання із вчителем.
Рис. 9 – Навчання виконавця базовому керуванню
На рис. 10 наведено графіки цільових функцій критика та виконавця у
процесі реалізації алгоритму ітерацій закону керування. При навчанні вико-
ристано коефіцієнт знецінення 9940, .
Рис. 10 – Ітерації закону керування
Як видно з рис. 11 – рис. 13, запропонований алгоритм ОЗП дозволяє
суттєво покращити базовий лінійний регулятор. Для цього розрахункового
випадку, сумарні вартості для лінійного та інтелектуального регуляторів
склали 882,491 і 720,718, відповідно. Однак результати інтелектуального ре-
гулятора дещо поступаються результатам нелінійного регулятора із розділу
«Оптимальне керування», який отримано з використанням точної моделі ОК.
Це пояснюється такими факторами. По-перше, у нашому випадку, при НЗП
передбачається деяка залишкова невизначеність моделі динаміки КА, що
призводить до необхідності отримання робастного регулятора, який, як пра-
вило, консервативний. По-друге, при навчанні критика з використанням ме-
тода скінчених різниць, було обрано коефіцієнт знецінення менше одиниці.
Це, як правило, необхідно для забезпечення збіжності використаного алгори-
тму при використанні апроксиматорів (нейронних мереж).
42
Рис. 11 – Залежність кута крену від часу для лінійного та
інтелектуального регуляторів
Рис. 12 – Залежність кута тангажу від часу для лінійного та
інтелектуального регуляторів
Рис. 13 – Залежність кута рискання від часу для лінійного та
інтелектуального регуляторів
Висновки. У статті продемонстрована можливість покращення якості
керування КА у процесі його функціонування із використанням навчання із
підкріпленням. Для підвищення ефективності навчання, використано модель,
яка базується на понятті гаусових процесів. Застосування апарата функцій
Ляпунова дозволяє гарантувати стійкість керованого руху при використанні
таких моделей.
Запропонований метод дає можливість розробляти системи керування,
які можуть покращувати свої характеристики по мірі накопичення даних при
функціонуванні конкретного об’єкту. Методологія дозволяє знизити вимоги
до елементів систем керування (сенсорів, виконавчих органів), відмовитись
від спеціального стендового обладнання, знизити терміни та вартість розробки.
43
Представляється можливим покращити запропонований алгоритм шля-
хом використання іншого методу навчання критика, наприклад методу нав-
чання Монте-Карло [7], що може бути напрямком подальших досліджень.
Дослідження проведені за рахунок фінансування за бюджетною програ-
мою "Підтримка розвитку пріоритетних напрямків наукових досліджень"
(КПКВК 6541230).
1. Бесекерский В. А., Попов Е. П. Теория систем автоматического управления. 4-е изд СПб.: Профессия,
2003. 768 с.
2. Лейтман Дж. Введение в теорию оптимального управления. Москва: Наука, 1968. 192 с.
3. Zhou K., Doyle J.C., Glover K. Robust and optimal Control. NJ : Prentice-Hall, 1996. 596 p.
4. Alpatov A., Khoroshylov S., Bombardelli C. Relative Control of an Ion Beam Shepherd Satellite Using the
Impulse Compensation Thruster. Acta Astronautica. 2018. Vol. 151. P. 543–554.
https://doi.org/10.1016/j.actaastro.2018.06.056
5. Astrom K. J., Wittenmark B. Adaptive Control. MA : Addison-Wesley, 1995. 580 p.
6. Хорошилов С. В. Управление ориентацией солнечной электростанции космического базирования с ис-
пользованием наблюдателя для расширенного вектора состояния. Техническая механика. 2011. Вып. 3.
С.117–125.
7. Sutton R. S., Barto A. G. Reinforcement learning: an introduction. MIT press, 1998. 338 p.
8. Gullapalli V. Skillful control under uncertainty via direct reinforcement learning. Reinforcement Learning and
Robotics. 1995. Vol. 15(4). P. 237–246. https://doi.org/10.1016/0921-8890(95)00006-2
9. Kober J., Bagnell J. A., and Peters J. Reinforcement learning in robotics: A survey. International Journal of
Robotic Research. 2013. Vol. 32(11). P. 1238–1274. https://doi.org/10.1177/0278364913495721
10. Theodorou E., Buchli J., Schaal S. Reinforcement learning of motor skills in high dimensions. In International
Conference on Robotics and Automation (ICRA), 2010. Р. 2397–2403.
https://doi.org/10.1109/ROBOT.2010.5509336
11. Endo G., Morimoto J., Matsubara T., Nakanishi J., Cheng G. Learning CPG-based biped locomotion with a
policy gradient method: Application to a humanoid robot. International Journal of Robotic Research. 2008.
Vol. 27(2). P. 213–228. https://doi.org/10.1177/0278364907084980
12. Ng A. Y., Kim H. J., Jordan M. I., Sastry S. Inverted autonomous helicopter flight via reinforcement learning.
In International Symposium on Experimental Robotics, 2004. Р. 363–372.
https://doi.org/10.1007/11552246_35
13. Juang J.-N. Applied System Identification. N.J: Prentice Hall, Upper Saddle River, 1994. 394 p.
14. Seeger M. Gaussian Processes for Machine Learning. International Journal of Neural Systems. 2004. Vol.
14 (2).P. 69–104. https://doi.org/10.1142/S0129065704001899
15. Berkenkamp F., Turchetta M., Schoellig A. P., Krause A. Safe Model-based Reinforcement Learning with
Stability Guarantees, 31st Conference on Neural Information Processing Systems, 2017. Р. 908–919.
Отримано 28.10.2019,
в остаточному варіанті 12.11.2019
|