Methods for implementing quadrotors autonomy based on hybrid learning methods

This paper reviews and analyzes methods for achieving quadcopter autonomy. It shows disadvantages and lim itations of the classical "Perception-Planning-Control" pipeline. A fundamental limitation of this approach is the inability of mathematical models to take into account all com...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2026
Автори: Ramyk, I.P., Linder, Ya.M.
Формат: Стаття
Мова:Українська
Опубліковано: PROBLEMS IN PROGRAMMING 2026
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/876
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
_version_ 1859489107110002688
author Ramyk, I.P.
Linder, Ya.M.
author_facet Ramyk, I.P.
Linder, Ya.M.
author_sort Ramyk, I.P.
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection OJS
datestamp_date 2026-02-12T15:27:30Z
description This paper reviews and analyzes methods for achieving quadcopter autonomy. It shows disadvantages and lim itations of the classical "Perception-Planning-Control" pipeline. A fundamental limitation of this approach is the inability of mathematical models to take into account all complex effects of the unpredictable environment. In return, the application of machine learning algorithms enables the implementation of control agents based on experience of interactions with real or simulated environments, significantly improving system adaptability to non-standard conditions. The core of this work compares machine learning methods applied to quadcopter au tonomy task. It provides a detailed overview of reinforcement learning. It is shown that model-free algorithms are able to outperform professional human pilots in specific tasks. However, they require significant amounts of data and training time. In return, model-based reinforcement learning improves training efficiency. During the training, the agent learns a world model that can be used to predict environment dynamics. The article also explores imitation learning and derived methods. An effective approach is to sequentially apply imitation learn ing and reinforcement learning, which combines the strengths of both approaches. The paper reviews works relying on physics-informed methods using differentiable simulators. Differentiable simulators are used to cal culate loss function gradients relative to control parameters. All discussed methods are analyzed regarding data efficiency, computational resource requirements, and fundamental limitations. The analysis results can be used to select quadcopter control architectures based on available computational resources and specific task require ments.Problems in programming 2025; 4: 53-62
first_indexed 2026-03-12T19:16:49Z
format Article
fulltext Штучний інтелект 53 © І.П. Рамик, Я.М. Ліндер, 2025 ISSN 1727-4907. Проблеми програмування. 2025. №4 УДК 681.3 https://doi.org/10.15407/pp2025.04.053 І.П. Рамик, Я.М. Ліндер МЕТОДИ РЕАЛІЗАЦІЇ АВТОНОМНОСТІ КВАДРОКОПТЕРІВ НА ОСНОВІ ГІБРИДНИХ МЕТОДІВ НАВЧАННЯ У роботі здійснено огляд та представлено аналіз методів реалізації автономності квадрокоптерів. Пока- зано недоліки та обмеження класичного конвеєрного підходу «Сприйняття-Планування-Керування». Од- ним з його фундаментальних обмежень є нездатність математичних моделей врахувати всі складні ефе- кти непередбачуваного середовища. Натомість застосування алгоритмів машинного навчання дозволяє реалізовувати агентів керування на основі досвіду взаємодії агента з реальним чи симульованим середо- вищем. Це значно покращує адаптивність системи до нестандартних умов. Основна частина роботи при- свячена порівнянню методів машинного навчання, що застосовувались до задачі реалізації автономності квадрокоптерів. Детально розглянуто методи навчання з підкріпленням. Зокрема, показано, що алгори- тми, які не використовують модель світу, здатні перевершувати професіних пілотів в окремих задачах. Проте вони потребують значних обсягів даних та часу для навчання. Натомість навчання з підкріпленням на основі моделей підвищує ефективність тренування. В процесі тренування агент вивчає модель світу, що дозволяє йому передбачати динаміку середовища. Окремо в статті було розглянуто імітаційне нав- чання та похідні від нього. Ефективним підходом є послідовне застосування імітаційного навчання та навчання з підкріпленням, що дозволяє поєднувати їхні переваги. Було також розглянуто дослідження, що спираються на фізично інформовані методи, які базуються на використанні диференційованих симу- ляторів. Диференційовані симулятори дозволяють обчислювати градієнти функції втрат відносно пара- метрів керування. Всі розглянуті методи було проаналізовано в розрізі ефективності використання да- них, вимог до обчислювальних ресурсів та фундаментальних обмежень. Результати аналізу можуть бути використані для вибору архітектури системи керування квадрокоптером залежно від доступних обчис- лювальних ресурсів та специфіки конкретного завдання. Ключові слова: квадрокоптери, автономний політ, машинне навчання, навчання з підкріпленням, іміта- ційне навчання, бортовий комп'ютер, польотний контролер, диференційована симуляція. I.P. Ramyk, Ya.M. Linder METHODS FOR IMPLEMENTING QUADROTORS AUTONOMY BASED ON HYBRID LEARNING METHODS This paper reviews and analyzes methods for achieving quadcopter autonomy. It shows disadvantages and lim- itations of the classical "Perception-Planning-Control" pipeline. A fundamental limitation of this approach is the inability of mathematical models to take into account all complex effects of the unpredictable environment. In return, the application of machine learning algorithms enables the implementation of control agents based on experience of interactions with real or simulated environments, significantly improving system adaptability to non-standard conditions. The core of this work compares machine learning methods applied to quadcopter au- tonomy task. It provides a detailed overview of reinforcement learning. It is shown that model-free algorithms are able to outperform professional human pilots in specific tasks. However, they require significant amounts of data and training time. In return, model-based reinforcement learning improves training efficiency. During the training, the agent learns a world model that can be used to predict environment dynamics. The article also explores imitation learning and derived methods. An effective approach is to sequentially apply imitation learn- ing and reinforcement learning, which combines the strengths of both approaches. The paper reviews works relying on physics-informed methods using differentiable simulators. Differentiable simulators are used to cal- culate loss function gradients relative to control parameters. All discussed methods are analyzed regarding data efficiency, computational resource requirements, and fundamental limitations. The analysis results can be used to select quadcopter control architectures based on available computational resources and specific task require- ments. Keywords: quadrotors, autonomous flight, machine learning, reinforcement learning, imitation learning, com- panion computer, flight controller, differentiable simulation. Штучний інтелект 54 Вступ Системи керування квадрокопте- рами удосконалюються, перетворюючись на складні системи, здатні самостійно вико- нувати комплексні задачі без втручання людини. Класичні методи високорівневої ав- томатизації польоту реалізують конвеєр “Сприйняття-Планування-Керування”, де окремі компоненти виконують ізольовані задачі на основі математичних моделей. Цей підхід забезпечує на виході передбачу- вану модель, проте вона не може врахувати всі аспекти складного середовища. Методи машинного навчання дося- гають автономності інакше, а саме шляхом навчання стратегій керування через досвід. Такі методи дозволяють системам керу- вання вдосконалюватись безпосередньо з даних польотів (симульованих або реаль- них). Ця стаття розглядає апаратну архіте- ктуру квадрокоптерів, а також методи реа- лізації їхньої автономності від класичних підходів до сучасних алгоритмів машин- ного навчання. В роботі розглянуто їхні пе- реваги та обмеження. Апаратна архітектура квадрокоптера У дослідженнях, присвячених авто- номним квадрокоптерам, обчислювальні задачі зазвичай розподіляються між двома компонентами: низькорівневим польотним контролером і високорівневим бортовим комп’ютером [1]. Польотний контролер – це плата, яка відповідає за стабілізацію та безпеку по- льоту. Основною функцією польотного ко- нтролера є підтримання стабільності по- льоту, зокрема, утримання заданих кута і висоти. Польотний контролер зазвичай має інерційний вимірювальний пристрій (Inertial measurement unit, IMU) та, мож- ливо, інші сенсори для визначення швидко- сті та орієнтації квадрокоптера у просторі. Він формує високочастотні сигнали для електронних регуляторів швидкості, таким чином впливаючи на тягу моторів, і, відпо- відно, рух квадрокоптера [3]. Польотний контролер може отримувати високорівневі команди (наприклад бажану орієнтацію чи швидкість) від пульта пілота або від борто- вого комп’ютера, який забезпечує автоном- ність квадрокоптера (Рис. 1). Найбільш по- ширені вбудовані програми польотних кон- тролерів включають PX4, ArduPilot або BetaFlight. Рис. 1. Апаратна архітектура квадрокоптера Бортовий комп’ютер – це окремий комп’ютер або модуль на борту квадрокоп- тера, що виконує ресурсомісткі задачі ви- щого рівня: обробку зображень, побудову карти середовища, планування траєкторії, ухвалення рішень тощо [3]. Бортовий комп’ютер отримує дані від додаткових се- нсорів (як-от, камери, лідару) та від польо- тного контролера (телеметрія IMU, стан ба- тареї). Комбінуючи всю наявну інформа- цію, він ухвалює рішення про подальші ко- манди, які необхідно передати польотному контролеру. Зв’язок між двома компонентами зазвичай здійснюється через високошвид- кісний послідовний інтерфейс (UART, SPI) або Ethernet. Найчастіше протоколом обміну інформацією обирають MAVLink [3]. Така модульна архітектура доволі гнучка, адже польотний контролер здатний стабілізувати політ (або реалізовувати ін- ший, визначений на цей випадок, план дій) навіть у ситуації, якщо бортовий комп’ютер виходить з ладу. Розподіл задач між бортовим комп'- ютером та польотним контролером став за- Штучний інтелект 55 гальноприйнятим та використовується в бі- льшості досліджень. Найбільш поширена конфігурація поєднує польотний контролер Pixhawk та бортовий комп'ютер NVIDIA Jetson. За- вдяки графічному процесору NVDIA стає можливою реалізація алгоритмів комп’ютерного зору та інші складні обчис- лення. Наприклад, у роботі [4] така комбі- нація була використана для розробки сис- тем пошуку та виявлення людей на відео з бортової камери. Аналогічні конфігурації було застосовано у роботі [5] для прохо- дження смуг перешкод. З інших бортових комп'ютерів у до- слідженнях зустрічається використання мо- делей Intel, які також дозволяють оброб- ляти великі обсяги даних у реальному часі [6]. Коли обчислення потребують мен- ших потужностей, то можуть використову- ватись одноплатні комп'ютери Raspberry Pi, які є більш енергоефективними та водночас дешевшими. Системи, реалізовані на Raspberry Pi, здатні забезпечувати просте розпізнавання зображення в режимі реаль- ного часу [7]. Класичні методи реалізації автономності квадрокоптерів За класичним підходом до реалізації автономності квадрокоптерів будується конвеєр “Сприйняття-Планування-Керу- вання”, де виділяються три відповідні підзадачі, які реалізуються окремими ком- понентами. “Сприйняття” будує модель світу, “Планування” відповідає за прокла- дання маршруту, а “Керування” забезпечує відповідність цьому маршруту. Таке рі- шення забезпечує простоту розробки й ін- терпретованість поведінки квадрокоптера. Проте воно має й ряд недоліків, зокрема ві- дсутність зворотного зв’язку між компоне- нтами та накопичення похибки на всіх ета- пах конвеєра [8]. “Сприйняття” покладається на сиг- нал з відео чи тепловізійної камери, GPS си- гнал та бортові датчики для оцінки влас- ного положення: орієнтації в просторі, швидкості тощо. Візуальна інерціальна одометрія (VIO) є підсистемою ”Сприй- няття”, що поєднує дані з камер та інерцій- них блоків. Класичні методи VIO неефекти- вні в специфічних умовах, таких як погане освітлення, політ над однотонною місцеві- стю [9]. “Планування” складається з двох етапів: спочатку здійснюється пошук шляху з урахуванням перешкод, а потім ге- нерація траєкторії. Шлях являє собою пос- лідовність точок. На його основі будується гладка траєкторія зазвичай у вигляді полі- номіальних сплайнів [10]. Модуль “Керування” забезпечує до- тримання цієї запланованої траєкторії шля- хом надсилання сигналів електродвигунам. Зазвичай до цього процесу залучений висо- корівневий контролер, що регулює поло- ження квадрокоптера в просторі та низько- рівневий контролер орієнтації [11]. Найбільш поширеними є два типи контролерів: Пропорційно-інтегрально-ди- ференціальні (ПІД) контролери та Лінійно- квадратичні регулятори. ПІД-контролери відносно прості та поширені, але їхньої ефективності недостатньо для керування динамікою квадрокоптера у високошвидкі- сних режимах [12]. Лінійно-квадратичний регулятор реалізує техніку оптимального керування, що забезпечує надійнішу та ста- більну роботу, мінімізуючи функцію варто- сті помилок стану та керувальних впливів [12]. Проте класичні контролери поклада- ються на спрощені математичні моделі, які не можуть врахувати складні явища реаль- ного світу. Через це будь-яке отримане у та- кий спосіб керування є субоптимальним [12]. Саме ці обмеження стимулювали спроби реалізації автономності на основі навчання. Машинне навчання створює стратегію керування квадрокоптером шляхом спроб та помилок, здійснених в симульованому або реальному середови- щах. Нижче розглядаються основні під- ходи, що використовують машинне нав- чання для реалізації автономності квадро- коптерів. Штучний інтелект 56 Навчання з підкріпленням Навчання з підкріпленням (Reinforcement Learning, RL) – це галузь ма- шинного навчання для розв'язання задач Марковського процесу ухвалення рішень (МП). Ключові поняття RL – це агент та се- редовище. Агент навчається оптимальної стратегії взаємодії з середовищем. Середо- вище забезпечує зворотний зв'язок у ви- гляді винагород. Задачею агента є максимі- зація кумулятивної винагороди [13]. Задачу керування квадрокоптером можна формалізувати як МП, що визнача- ється кортежем . Тут – простір станів (наприклад, положення, орієнтація, швидкості квадрокоптера), – простір дій (команди для моторів або польотного конт- ролера), – функція ймовірності переходу до стану зі стану при вико- нанні дії , – миттєва винагорода, а – коефіцієнт знецінення, що визначає цінність майбутніх винагород [13]. Залежно від поставленої задачі, винагорода може ви- значатись по-різному, проте зазвичай агент, що керує квадрокоптером, отримує від’ємні винагороди за зіткнення, додатні за досягнення поставлених цілей, та неве- ликі нагороди на кожному кроці, які вказу- ють на наближення чи віддалення від мети (наприклад, від’ємні винагороди, що за ве- личиною пропорційні відстані до наступної цілі). Метою агента є знаходження опти- мальної стратегії , яка максимізує очіку- вану кумулятивну дисконтовану винаго- роду: де – траєкторія, згенерована страте- гією [13]. Навчання з підкріпленням без мо- делі. Методи RL без моделі навчають стра- тегії безпосередньо з досвіду, не намага- ючись вивчити динаміку середовища [14]. Ці методи здатні досягати високої ефектив- ності, що було показано в практичних екс- периментах, проте їхнім головним недолі- ком є потреба у великій кількості даних для навчання. Одним із найпереконливіших прик- ладів застосування навчання з підкріплен- ням є система Swift [15], яка змогла перемо- гти чемпіонів світу з перегонів квадрокоп- терів у змаганнях. Причому змагання відбу- вались на трасі, на якій квадрокоптер не лі- тав до того. Система Swift використовувала алгоритм PPO (Proximal policy optimization) для тренування стратегії керування в симу- ляції. Через стан середовища агент отриму- вав інформацію про позицію, швидкість, орієнтацію квадрокоптера, відносне розта- шування брами та свою попередню дію. Дія агента визначалась четвіркою чисел: колек- тивною тягою та кутовими швидкостями корпусу квадрокоптера вздовж трьох осей. Ці команди далі обробляв польотний конт- ролер. Агент отримував винагороду за на- ближення до центру наступної брами, а та- кож за те, що тримав її в полі зору. За колізії та занадто різкі маневри отримував штрафи (від’ємні винагороди). Інші дослідження також демонстру- ють успішне застосування PPO для агреси- вного польоту в рандомізованих симуля- ційних сценаріях [16] , а також для керу- вання роями квадрокоптерів у задачах спо- стереження [17]. Однак головним недоліком методів навчання з підкріпленням без моделі вклю- чно з PPO, є їхня низька ефективність вико- ристання даних. Вони вимагають великої кількості взаємодій із середовищем, особ- ливо коли вхідні дані мають високу розмір- ність як, наприклад, необроблені зобра- ження з камери. Навчання з підкріпленням на ос- нові моделі. На відміну від агента RL без моделі, агент навчання з підкріпленням на основі моделі (model-based RL, MBRL) не сприймає середовище як чорну скриню. На- томість він вивчає модель динаміки середо- вища. Цю модель називають “Моделлю світу”. На практиці це призводить до змен- шення кількості даних, необхідних для нав- чання агента [18]. Вивчивши модель світу, агент може використовувати її для прогно- зування майбутніх сценаріїв та тренувати свою стратегію за допомогою цього про- гнозування, не потребуючи такої великої кількості взаємодій із середовищем. Штучний інтелект 57 Наразі DreamerV3 є одним із най- більш розповсюджених алгоритмів MBRL, який продемонстрував переконливі резуль- тати в задачах керування [18]. Архітектура DreamerV3 складається з трьох ключових компонентів, які тренуються паралельно. Першим компонентом є “Модель світу”, яка відповідає за перетворення вхі- дних сенсорних даних високої розмірності в латентний стан. Модель світу також вчиться прогнозувати перехід з поточного латентного стану до наступного внаслідок обраної дії. Таким чином, модель вивчає та орієнтується на значущі ознаки середовища для моделювання сценаріїв [18]. Другий компонент, “Критик”, на- вчається апроксимувати функцію цінності, яка визначає очікувану сумарну винаго- роду для траєкторій у латентному просторі вивченої моделі світу. Третім компонентом є “Актор” (Actor, виконавець). Компонент “Актора” безпосередньо навчає стратегії керування. Під час навчання “Актор” максимізує оці- нки цінності, що надаються “Критиком” для траєкторій, згенерованих у латентному просторі “Моделі світу”. DreamerV3 був використаний для тренування квадрокоптера, що взяв участь в перегонах. Модель навчалась безпосеред- ньо на необроблених пікселях з бортової камери [18]. Дослідження показало що DreamerV3 успішно впорався із завданням, тоді як алгоритм PPO не зміг навчитися ке- рувати квадрокоптером, отримуючи ті самі дані для навчання (необроблені зобра- ження) [18]. Імітаційне навчання В основі Імітаційного навчання (Imitation Learning, IL) лежить ідея ви- вчення стратегії, яка імітує дії експерта [21]. На відміну від RL, де агент досліджує середовище шляхом спроб та помилок, в IL агенту показують набір демонстрацій екс- перта [22]. Демонстрації можуть бути надані пі- лотом квадрокоптера або згенеровані конт- ролером. Тож IL можна розглядати як керо- ване навчання. Класичне IL, або клонування поведі- нки, має суттєві недоліки, що прямо випли- вають з особливостей навчання. Проблеми виникають, коли навчена стратегія потрап- ляє у стани, яких не було в демонстраційній вибірці. Оскільки вона не отримала даних про еталонну поведінку в таких станах, на- віть невеликі помилки можуть накопичува- тися, призводячи до непередбачуваної по- ведінки. Поширеною спробою розв'язання цієї проблеми є агрегація набору даних (Dataset Aggregation, DAgger), що збирає дані в станах, які відвідує агент згідно на- вченої стратегії, і запитує в експерта прави- льні дії [20]. Ще одним суттєвим недоліком IL є те, що через особливості навчання, отри- мана стратегія обмежена продуктивністю експерта. Вона може навчитися імітувати експерта, але не перевершити його [20]. Привілейоване навчання Привілейоване навчання можна роз- глядати як логічний крок у розвитку IL. В симуляційному середовищі можливо ство- рити експерта, який володіє повною інфор- мацією про його стан, що, очевидно, не до- ступно квадрокоптеру під час звичайного польоту. Такого експерта можна викорис- тати для тренування стратегії на основі IL, що вчиться відтворювати еталонні дії не маючи доступу до всієї інформації. Страте- гія, що вчиться, отримує на вхід лише реа- лістичні, зашумлені сенсорні дані (напри- клад, зображення з камери, дані IMU), до яких квадрокоптер і буде мати доступ в ре- альному світі [21]. У дослідженні [21] стратегія керу- вання була повністю навчена в симуляції за допомогою привілейованого оптимального контролера, який мав доступ до повної ін- формації про середовище в симуляторі. Квадрокоптер зміг виконати складні ма- неври, зокрема, повний оберт у повітрі, під час яких досягав прискорення до 3g. Переконливим результатом є також те, що стратегія керування не потребувала додаткового навчання в даних з реального світу, перехід від симуляції відбувся без ускладнень [21]. Штучний інтелект 58 Гібридні методології На практиці дослідники часто вико- ристовують IL та RL послідовно для отри- мання кращих результатів [22]. Спочатку стратегія навчається за до- помогою IL на демонстраційному наборі, наданому експертом. Результатом цього етапу є доволі ефективна початкова страте- гія, яку потім покращує алгоритм RL. Та- ким чином IL усуває найбільшу проблему RL, а саме неефективну початкову фазу на- вчання, під час якої агент діє майже випад- ково. Водночас застосування RL дозволяє перевершити стратегію експерта [22]. Залишкове навчання з підкріп- ленням. Ідея залишкового навчання з під- кріпленням полягає в тому, щоб поєднати переваги класичних ПІД-контролерів з мо- жливістю врахування складних явищ реа- льного світу, яке забезпечує навчання з пі- дкріпленням. У такій системі основою керування є класичний контролер. Модель навчання з підкріпленням відповідає за компенсацію динаміки, що не передбачено у випадку ро- зробки контролера. Під час тренування агент вчиться, яку коригувальну дію потрі- бно додати до сигналу контролера в різних умовах [24]. Висока точність та адаптивність цього методу була підтверджена у дослі- дженні [25]. Фізично-інформовані методи навчання В цьому розділі розглядаються ме- тоди, які враховують знання про фізичні процеси безпосередньо під час навчання. Ключовою технологією, яка використову- ється в цих методах, є диференційовані си- мулятори. На відміну від традиційних си- муляторів, які є чорними скриньками для алгоритму тренування, диференційовані симулятори дозволяють обчислювати гра- дієнти першого порядку від цільової функ- ції, наприклад, помилки траєкторії, і вико- ристовувати це в процесі тренування для оновлення стратегії. Градієнти першого по- рядку мають нижчу дисперсію, ніж стохас- тичні оцінки, що використовуються в алго- ритмах навчання з підкріпленням, на кшталт PPO. Це забезпечує швидше трену- вання моделі [26, 27, 28]. Нижче описано процес тренування у диференційованому симуляторі, що вико- ристовувався у [26]. Система тренує модель динаміки квадрокоптера, починаючи з простої аналі- тичної моделі [26, 29]. А також безперервно збирає дані під час польоту квадрокоптера і використовує їх для тренування залишкової моделі, яка має компенсувати ефекти, що не закладались у базову модель. Це може бути аеродинамічний опір, пориви вітру, будь-які інші явища реального світу, які складно завчасно аналітично представити. Інтеграція оновленої моделі дина- міки (включно з навченою залишковою мо- деллю) в диференційований симулятор дає змогу виконувати наскрізне диференцію- вання. Це дозволяє обчислювати градієнти цільової функції (наприклад, помилки трає- кторії), диференціюючи її щодо параметрів стратегії крізь весь процес симуляції, і ви- користовувати їх для прямої оптимізації [26]. Використання градієнтів на основі диференційованої симуляції виявляється ефективнішим за використання градієнтів нульового порядку в PPO. У дослідженні [26] порівняли аген- тів навчених алгоритмом на основі дифере- нційованої симуляції та RL на задачі зави- сання. Було показано, що диференційована симуляція забезпечує кращу стійкість до збурень, тоді як PPO потребує значно бі- льше симуляційних кроків і гірше адапту- ється до змінних умов. Порівняння У даній роботі було розглянуто ос- новні методи реалізації автономності ква- дрокоптерів. Кожен метод має свої пере- ваги, вимоги до середовища та даних. Ці особливості визначають, який із методів найкращі для конкретної задачі. У Табл. 1 наведено порівняльний аналіз розглянутих методів. Штучний інтелект 59 Таблиця 1. Порівняльний аналіз методів навчання автономних квадрокоптерів Метод Вимоги до даних та/або середовища Переваги Недоліки RL (без моделі) [15] Потребує великої кі- лькості взаємодій з середовищем. Здатний досягати ефективності, що пе- реважає рівень про- фесійних пілотів. Низька ефективність даних. RL (на основі моделі) [18] Потребує середо- вища для симуляцій. Висока ефективність даних. Здатний дося- гати ефективності, що переважає рівень експертів. Велика обчислюва- льна складність тре- нування та роботи в реальному часі. Імітаційне навчання (IL) [20] Потребує демонстра- цій від експерта (на- приклад, професій- ного пілота). Швидке навчання за- вдяки демонастрацій- ній вибірці. Потреба демонстра- цій від експерта. Ефе- ктивність обмежена ефективністю експе- рта. Гібридний: IL + RL [22, 23] Потребує демонстра- цій від експерта (на- приклад, професій- ного пілота). Дозволяє перевер- шити експерта (на ві- дміну від чистого IL). Краща ефективність даних, ніж в RL. Потреба демонстра- цій від експерта. Привілейоване нав- чання [21] Потребує привілейо- ваного експерта, що має доступ до повної інформації про стан середовища. Дозволяє вивчати оп- тимальні дії для умов складної/незвичної динаміки. Необхідність приві- лейованого експерта. Залишкове RL (Residual RL) [24, 25] Потребує наявності стабільного базового класичного контро- лера та значної кіль- кості даних. Підвищує точність класичних контроле- рів. Залежність від ефек- тивності класичного контролера. Фізично-інформовані методи навчання [26, 29] Вимагає диференці- йованого симуля- тора. Висока ефективність даних. Демонструє значно швидше нав- чання, ніж RL. Необхідність мати повністю диференці- йовану модель дина- міки. Одним із ключових критеріїв оці- нки методів машинного навчання є ефек- тивність використання даних. Як видно з таблиці 1, навчання з підкріпленням без моделі [15], хоч і здатне перевершувати професійних пілотів, має доволі низьку Штучний інтелект 60 ефективність даних, що вимагає тривалого тренування. Цю проблему вирішують методи, що враховують динаміку середовища під час тренування: RL на основі моделі [18] та фі- зично інформовані методи [26, 29]. Висновки Методи машинного навчання, зок- рема, навчання з підкріпленням, мають такі переваги: 1. кращу адаптивність до складної, змін- ної динаміки, ніж класичні методи на основі спрощених математичних моде- лей; 2. можливість перевершувати рівень про- фесійних пілотів; 3. наявність різних підходів дозволяє оби- рати метод, оптимальний для конкрет- ного класу задач і умов експлуатації. Проведений порівняльний аналіз виявив прогалини в існуючих алгоритмах, а саме: 1. для деяких алгоритмів актуальна про- блема неузгодженості між цифровою моделлю, на якій тренується агент, і ре- альним світом; 2. низька ефективність даних для деяких існуючих алгоритмів; 3. низька здатність до узагальнення та проблема виродження стратегій. Проведений порівняльний аналіз стане основою для вибору ефективного ал- горитму машинного навчання у задачі авто- номної навігації квадрокоптера у міській забудові. Література 1. Lukash Y., Prystavka P. A research platform for vision-based UAV autonomy: Architecture and implementation. Fourth International Conference on Cyber Hygiene & Conflict Management in Global Information Networks (CHCM 2025). 2025. Vol. 4024. P. 250-259. URL: https://ceur-ws.org/Vol- 4024/paper16.pdf (дата звернення: 05.11.2025). 2. Faessler M., Fontana F., Forster C., Scaramuzza D. Automatic Re-Initialization and Failure Recovery for Aggressive Flight with a Monocular Vision-Based Quadrotor. 2015 IEEE International Conference on Robotics and Automation (ICRA). 2015. P. 1722–1729. DOI: 10.1109/ICRA.2015.7139420. 3. Companion Computers | PX4 Guide (main). PX4 Documentation. URL: https://docs.px4.io/main/en/companion_comp uter/ (дата звернення: 05.11.2025). 4. Ciccone F., Ceruti A. Real-Time Search and Rescue with Drones: A Deep Learning Approach for Small-Object Detection Based on YOLO. Drones. 2025. Vol. 9, no. 8. P. 514. DOI: 10.3390/drones9080514. 5. Jain R., Jones C., Lucas R., Siddiqui H. Autonomous Aerial Drone with Infrared Depth Tracking. University of Central Florida. 2020. URL: https://www.ece.ucf.edu/seniordesign/fa2019s p2020/g18/G18_Conference%20Paper.pdf (date of access: 05.11.2025). 6. Liu X., Nardari G. V., Cladera Ojeda F., Tao Y., Zhou A., Donnelly T., Qu C., Chen S. W., Romero R. A. F., Taylor C. J., Kumar V. Large-scale Autonomous Flight with Real- time Semantic SLAM under Dense Forest Canopy. arXiv. 2021. DOI: 10.48550/arXiv.2109.06479. 7. Daspan A., Nimsongprasert A., Srichai P., Wiengchand P. Implementation of Robot Operating System in Raspberry Pi 4 for Autonomous Landing Quadrotor on ArUco Marker. International Journal of Mechanical Engineering and Robotics Research. 2023. Vol. 12, no. 4. P. 210–217. URL: https://www.ijmerr.com/2023/IJMERR- V12N4-210.pdf (date of access: 05.11.2025). 8. Xiao J., Zhang R., Zhang Y., Feroskhan M. Vision-based Learning for Drones: A Survey. arXiv preprint. 2023. arXiv:2312.05019. DOI: 10.48550/arXiv.2312.05019. 9. George A., Koivumäki N., Hakala T., Suomalainen J., Honkavaara E. Visual-Inertial Odometry Using High Flying Altitude Drone Datasets. Drones. 2023. Vol. 7, no. 1. С. 36. DOI: 10.3390/drones7010036. 10. Richter C., Bry A., Roy N. Polynomial trajectory planning for aggressive quadrotor flight in dense indoor environments. In: Masayuki Inaba, Peter Corke (eds.) Robotics Research. The 16th International Symposium ISRR, 16–19 December 2013, Singapore. Springer Tracts in Advanced Robotics, vol. 114. Cham: Springer, 2016. С. 649–666. DOI: 10.1007/978-3-319-28872-7_37. Штучний інтелект 61 11. Mamo M. B. Trajectory tracking control of quadcopter by designing Third order SMC Controller. Global Scientific Journals. 2020. Vol. 8, no. 9. С. 2100–2108. 12. Abu Ihnak M. S., Edardar M. M. Comparing LQR and PID Controllers for Quadcopter Control Effectiveness and Cost Analysis. 2023 International Conference on Systems and Control (ICSC). IEEE, 2023. С. 770–775. DOI: 10.1109/ICSC58660.2023.10449763. 13. Mnih V., Kavukcuoglu K., Silver D., Rusu A. A., Veness J., Bellemare M. G., Graves A., Riedmiller M., Fidjeland A. K., Ostrovski G., Petersen S., Beattie C., Sadik A., Antonoglou I., King H., Kumaran D., Wierstra D., Legg S., Hassabis D. Human-level control through deep reinforcement learning. Nature. 2015. Vol. 518, no. 7540. С. 529–533. DOI: 10.1038/nature14236. 14. Olivares D., Fournier P., Vasishta P., Marzat J. Model-Free versus Model-Based Reinforcement Learning for Fixed-Wing UAV Attitude Control Under Varying Wind Conditions. arXiv preprint. 2024. arXiv:2409.17896. DOI: 10.48550/arXiv.2409.17896. 15. Kaufmann E., Bauersfeld L., Loquercio A., Müller M., Koltun V., Scaramuzza D. Champion-level drone racing using deep reinforcement learning. Nature. 2023. Vol. 620, no. 7976. С. 982–987. DOI: 10.1038/s41586-023-06419-4. 16. Mengozzi S. Learning Agile Flight Using Massively Parallel Deep Reinforcement Learning: Master’s thesis. University of Bologna, Department of Electrical, Electronic, and Information Engineering “Guglielmo Marconi”, 2022. 67 p. URL: https://amslaurea.unibo.it/id/eprint/28648/1/S ebastianoMengozzi_Thesis.pdf (дата звер- нення: 11.11.2025). 17. Arranz R., Carramiñana D., de Miguel G., Besada J. A., Bernardos A. M. Application of Deep Reinforcement Learning to UAV Swarming for Ground Surveillance. Sensors. 2023. Vol. 23, no. 21. С. 8766. DOI: 10.3390/s23218766. 18. Romero A., Shenai A., Geles I., Aljalbout E., Scaramuzza D. Dream to Fly: Model-Based Reinforcement Learning for Vision-Based Drone Flight. arXiv preprint. 2025. arXiv:2501.14377. DOI: 10.48550/arXiv.2501.14377. 19. Chen D., Zhou B., Koltun V., Krähenbühl P. Learning by Cheating. arXiv preprint. 2019. arXiv:1912.12294. DOI: 10.48550/arXiv.1912.12294. 20. Pfeiffer C., Wengeler S., Loquercio A., Scaramuzza D. Visual Attention Prediction Improves Performance of Autonomous Drone Racing Agents. arXiv preprint. 2022. arXiv:2201.02569. DOI: 10.48550/arXiv.2201.02569. 21. Kaufmann E., Loquercio A., Ranftl R., Müller M., Koltun V., Scaramuzza D. Deep Drone Acrobatics. Robotics: Science and Systems (RSS), 2020. DOI: 10.48550/arXiv.2006.05768. 22. Abusadeh R. Evaluation of Imitation Learning with Reinforcement Learning-Based Fine- Tuning for Different Control Tasks. Master’s thesis. Czech Technical University in Prague, Faculty of Electrical Engineering, Department of Cybernetics, 2025. URL: https://dspace.cvut.cz/bitstream/handle/10467/ 120386/F3-DP-2025-Abusadeh-Rawan- evaluation_IL_RL.pdf (дата звернення: 05.11.2025). 23. Xing J., Romero A., Bauersfeld L., Scaramuzza D. Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight. arXiv preprint. 2024. arXiv:2403.12203. DOI: 10.48550/arXiv.2403.12203. 24. Nahrendra I. M. A., Tirtawardhana C., Yu B., Lee E. M., Myung H. Retro-RL: Reinforcing Nominal Controller With Deep Reinforcement Learning for Tilting-Rotor Drones. arXiv preprint. 2022. arXiv:2207.03124. DOI: 10.48550/arXiv.2207.03124. 25. Zhang R., Zhang D., Mueller M. ProxFly: Robust Control for Close Proximity Quadcopter Flight via Residual Reinforcement Learning. arXiv preprint. 2024. arXiv:2409.13193. DOI: 10.48550/arXiv.2409.13193. 26. Blukis V., Huber S., Wrona K. K., Büchler D., Muehlebach M., Krause A., Hanna J. P., Hennan D. D., Ansari S. S. P. Learning on the Fly: Rapid Policy Adaptation via Differentiable Simulation. arXiv preprint. 2025. arXiv:2508.21065. DOI: 10.48550/arXiv.2508.21065. 27. Schnell P., Thuerey N. Stabilizing Backpropagation Through Time to Learn Complex Physics. International Conference on Learning Representations (ICLR), 2024. arXiv:2405.02041. DOI: 10.48550/arXiv.2405.02041. 28. Ren J., Yu C., Chen S., Ma X., Pan L., Liu Z. DiffMimic: Efficient Motion Mimicking with Штучний інтелект 62 Differentiable Physics. arXiv preprint. 2023. arXiv:2304.03274. DOI: 10.48550/arXiv.2304.03274. 29. Heeg J., Song Y., Scaramuzza D. Learning Quadrotor Control From Visual Features Using Differentiable Simulation. arXiv preprint. 2024. arXiv:2410.15979. DOI: 10.48550/arXiv.2410.15979. Одержано: 19.11.2025 Внутрішня рецензія отримана: 26.11.2025 Зовнішня рецензія отримана: 28.11.2025 Про авторів: 1Рамик Іван Петрович, аспірант. https://orcid.org/0009-0008-5034-676X 1Ліндер Ярослав Миколайович, кандидат фізико-математичних наук, доцент кафедри Інтелектуальних Програмних Систем. https://orcid.org/0000-0003-1076-9211 Місце роботи авторів: 1Факультет комп’ютерних наук та кібернетики Київського національного університету імені Т.Г. Шевченка тел. +38(044) 521-32-74 E-mail: csc@knu.ua https://csc.knu.ua
id pp_isofts_kiev_ua-article-876
institution Problems in programming
keywords_txt_mv keywords
language Ukrainian
last_indexed 2026-03-12T19:16:49Z
publishDate 2026
publisher PROBLEMS IN PROGRAMMING
record_format ojs
resource_txt_mv ppisoftskievua/3a/d502dae22ffa0c459bce7984aeaa813a.pdf
spelling pp_isofts_kiev_ua-article-8762026-02-12T15:27:30Z Methods for implementing quadrotors autonomy based on hybrid learning methods Методи реалізації автономності квадрокоптерів на основі гібридних методів навчання Ramyk, I.P. Linder, Ya.M. quadrotors; autonomous flight; machine learning; reinforcement learning; imitation learning; companion computer; flight controller, differentiable simulation UDC 681.3 квадрокоптери; автономний політ; машинне навчання; навчання з підкріпленням; імітаційне навчання; бортовий комп'ютер; польотний контролер; диференційована симуляція УДК 681.3 This paper reviews and analyzes methods for achieving quadcopter autonomy. It shows disadvantages and lim itations of the classical "Perception-Planning-Control" pipeline. A fundamental limitation of this approach is the inability of mathematical models to take into account all complex effects of the unpredictable environment. In return, the application of machine learning algorithms enables the implementation of control agents based on experience of interactions with real or simulated environments, significantly improving system adaptability to non-standard conditions. The core of this work compares machine learning methods applied to quadcopter au tonomy task. It provides a detailed overview of reinforcement learning. It is shown that model-free algorithms are able to outperform professional human pilots in specific tasks. However, they require significant amounts of data and training time. In return, model-based reinforcement learning improves training efficiency. During the training, the agent learns a world model that can be used to predict environment dynamics. The article also explores imitation learning and derived methods. An effective approach is to sequentially apply imitation learn ing and reinforcement learning, which combines the strengths of both approaches. The paper reviews works relying on physics-informed methods using differentiable simulators. Differentiable simulators are used to cal culate loss function gradients relative to control parameters. All discussed methods are analyzed regarding data efficiency, computational resource requirements, and fundamental limitations. The analysis results can be used to select quadcopter control architectures based on available computational resources and specific task require ments.Problems in programming 2025; 4: 53-62 У роботі здійснено огляд та представлено аналіз методів реалізації автономності квадрокоптерів. Пока зано недоліки та обмеження класичного конвеєрного підходу «Сприйняття-Планування-Керування». Од ним з його фундаментальних обмежень є нездатність математичних моделей врахувати всі складні ефе кти непередбачуваного середовища. Натомість застосування алгоритмів машинного навчання дозволяє реалізовувати агентів керування на основі досвіду взаємодії агента з реальним чи симульованим середо вищем. Це значно покращує адаптивність системи до нестандартних умов. Основна частина роботи при свячена порівнянню методів машинного навчання, що застосовувались до задачі реалізації автономності квадрокоптерів. Детально розглянуто методи навчання з підкріпленням. Зокрема, показано, що алгори тми, які не використовують модель світу, здатні перевершувати професіних пілотів в окремих задачах. Проте вони потребують значних обсягів даних та часу для навчання. Натомість навчання з підкріпленням на основі моделей підвищує ефективність тренування. В процесі тренування агент вивчає модель світу, що дозволяє йому передбачати динаміку середовища. Окремо в статті було розглянуто імітаційне нав чання та похідні від нього. Ефективним підходом є послідовне застосування імітаційного навчання та навчання з підкріпленням, що дозволяє поєднувати їхні переваги. Було також розглянуто дослідження, що спираються на фізично інформовані методи, які базуються на використанні диференційованих симу ляторів. Диференційовані симулятори дозволяють обчислювати градієнти функції втрат відносно пара метрів керування. Всі розглянуті методи було проаналізовано в розрізі ефективності використання да них, вимог до обчислювальних ресурсів та фундаментальних обмежень. Результати аналізу можуть бути використані для вибору архітектури системи керування квадрокоптером залежно від доступних обчис лювальних ресурсів та специфіки конкретного завдання.Problems in programming 2025; 4: 53-62 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2026-02-12 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/876 PROBLEMS IN PROGRAMMING; No 4 (2025); 53-62 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2025); 53-62 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2025); 53-62 1727-4907 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/876/929 Copyright (c) 2026 PROBLEMS IN PROGRAMMING
spellingShingle quadrotors; autonomous flight; machine learning; reinforcement learning; imitation learning; companion computer; flight controller
differentiable simulation
UDC 681.3
Ramyk, I.P.
Linder, Ya.M.
Methods for implementing quadrotors autonomy based on hybrid learning methods
title Methods for implementing quadrotors autonomy based on hybrid learning methods
title_alt Методи реалізації автономності квадрокоптерів на основі гібридних методів навчання
title_full Methods for implementing quadrotors autonomy based on hybrid learning methods
title_fullStr Methods for implementing quadrotors autonomy based on hybrid learning methods
title_full_unstemmed Methods for implementing quadrotors autonomy based on hybrid learning methods
title_short Methods for implementing quadrotors autonomy based on hybrid learning methods
title_sort methods for implementing quadrotors autonomy based on hybrid learning methods
topic quadrotors; autonomous flight; machine learning; reinforcement learning; imitation learning; companion computer; flight controller
differentiable simulation
UDC 681.3
topic_facet quadrotors; autonomous flight; machine learning; reinforcement learning; imitation learning; companion computer; flight controller
differentiable simulation
UDC 681.3
квадрокоптери
автономний політ
машинне навчання
навчання з підкріпленням
імітаційне навчання
бортовий комп'ютер
польотний контролер
диференційована симуляція
УДК 681.3
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/876
work_keys_str_mv AT ramykip methodsforimplementingquadrotorsautonomybasedonhybridlearningmethods
AT linderyam methodsforimplementingquadrotorsautonomybasedonhybridlearningmethods
AT ramykip metodirealízacííavtonomnostíkvadrokopterívnaosnovígíbridnihmetodívnavčannâ
AT linderyam metodirealízacííavtonomnostíkvadrokopterívnaosnovígíbridnihmetodívnavčannâ