Мультиагентне навчання з підкріпленням для оптимізації квантових схем

У статті представлено підхід до оптимізації квантових схем на основі мультиагентного навчання з підкріпленням (Multi-Agent Reinforcement Learning — MARL), у якому алгоритм MAPPO (Multi-Agent Proximal Policy Optimization — мультиагентна проксимальна оптимізація політики) поєднується з графовими нейро...

Full description

Saved in:
Bibliographic Details
Published in:Проблеми керування та інформатики
Date:2025
Main Authors: Кирилов, І.І., Сініцин, І.П.
Format: Article
Language:Ukrainian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2025
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/211413
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Мультиагентне навчання з підкріпленням для оптимізації квантових схем / І.І. Кирилов, І.П. Сініцин // Проблемы управления и информатики. — 2025. — № 4. — С. 109-123. — Бібліогр.: 16 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859819159146201088
author Кирилов, І.І.
Сініцин, І.П.
author_facet Кирилов, І.І.
Сініцин, І.П.
citation_txt Мультиагентне навчання з підкріпленням для оптимізації квантових схем / І.І. Кирилов, І.П. Сініцин // Проблемы управления и информатики. — 2025. — № 4. — С. 109-123. — Бібліогр.: 16 назв. — укр.
collection DSpace DC
container_title Проблеми керування та інформатики
description У статті представлено підхід до оптимізації квантових схем на основі мультиагентного навчання з підкріпленням (Multi-Agent Reinforcement Learning — MARL), у якому алгоритм MAPPO (Multi-Agent Proximal Policy Optimization — мультиагентна проксимальна оптимізація політики) поєднується з графовими нейронними мережами (Graph Neural Networks — GNN). Актуальність дослідження зумовлена необхідністю зменшення кількості вентилів і глибини схем у квантовій компіляції задля підвищення стійкості до шумів та ефективності виконання алгоритмів на сучасних квантових пристроях. The article presents an approach to quantum circuit optimization based on Multi-Agent Reinforcement Learning (MARL), which integrates the MAPPO algorithm with Graph Neural Networks (GNNs). The relevance of the research stems from the need to reduce gate counts and circuit depth in quantum compilation to enhance noise resilience and execution efficiency on current quantum devices.
first_indexed 2026-03-16T11:49:25Z
format Article
fulltext © І.І. КИРИЛОВ, І.П. СІНІЦИН, 2025 Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 4 109 УДК 004.4ʼ427 004.4ʼ416 І.І. Кирилов, І.П. Сініцин МУЛЬТИАГЕНТНЕ НАВЧАННЯ З ПІДКРІПЛЕННЯМ ДЛЯ ОПТИМІЗАЦІЇ КВАНТОВИХ СХЕМ Кирилов Іван Ігорович Інститут програмних систем НАН України, м. Київ, https://orcid.org/0009-0006-9756-5391 ivan.kyrylov.science@gmail.com Сініцин Ігор Петрович Інститут програмних систем НАН України, м. Київ, https://orcid.org/0000-0002-4120-0784 ips@nas.gov.ua У статті представлено підхід до оптимізації квантових схем на основі мультиагентного навчання з підкріпленням (Multi-Agent Reinforcement Learning — MARL), у якому алгоритм MAPPO (Multi-Agent Proximal Policy Optimization — мультиагентна проксимальна оптимізація політи- ки) поєднується з графовими нейронними мережами (Graph Neural Networks — GNN). Актуальність дослідження зумовлена необхідністю зменшення кількості вентилів і глибини схем у квантовій компіляції за- для підвищення стійкості до шумів та ефективності виконання алгори- тмів на сучасних квантових пристроях. На відміну від традиційного од- ноагентного підходу запропонована архітектура MAQCO (Multi-Agent Quantum Circuit Optimizer — мультиагентний оптимізатор квантової схеми) дає змогу розподіляти завдання між агентами, що забезпечує кращу масштабованість, координацію та врахування локального контексту схеми. У дослідженні реалізовано процес оптимізації на основі еквівален- тних перетворень із системи Quartz, що дає можливість зберігати функ- ціональність схеми під час її спрощення. Експериментальна перевірка на тестах продуктивності з використанням вентильних баз Nam та IBM про- демонструвала, що за допомогою MAQCO можна досягти кращих або зі- ставних результатів порівняно з сучасними оптимізаторами, такими як Quarl і Quartz, зокрема щодо зменшення глибини квантової схеми та зага- льної кількості вентилів і CNOT (CX) (Controlled NOT — контрольоване заперечення). У подальших дослідженнях передбачаються масштабування MAQCO на великі схеми, інтеграція ECC (Equivalent Circuit Class — клас ек- вівалентних схем) та ZX-перетворень, а також адаптація методу для апарат- но-залежної оптимізації на розподілених квантових архітектурах з ураху- ванням топології та комунікаційних витрат. Ключові слова: мінімізація кількості вентилів, квантова компіляція, кван- тові обчислення. Вступ Квантова схема — це набір інструкцій для виконання на квантовому ком- пʼютері, що складається з кубітів та операцій (вентилів). Під час реалізації квантових алгоритмів на фізичних пристроях виникає низка проблем: декоге- ренція кубітів, зашумленість вентилів (чим більше вентилів, тим менш стабільні обчислення) та масштабованість обчислювачів. Все це зумовлює необхідність оп- тимізації квантових схем — зменшення їхньої глибини та загальної кількості од- но- та двокубітних вентилів. Існує два класи оптимізації квантових схем [1] — апаратно-незалежні та апаратно-залежні. За методологією оптимізації поді- 110 ISSN 2786-6491 ляються на аналітично-алгоритмічні (математичні методи для систематичного вдосконалення схем), евристичні (підходи на основі правил для поширених шаб- лонів оптимізації), на основі машинного навчання (методи машинного навчання, включно з навчанням із підкріпленням та генетичними алгоритмами) та гібридні квантово-класичні (варіаційні алгоритми, що оптимізують схеми за допомогою класично-квантових алгоритмів). За останні п’ять років у дослідженнях з оптимі- зації квантових схем спостерігається помітне зростання кількості методів, що ґру- нтуються на машинному навчанні. Компанія DeepMind для розробки програми AlphaTensor [2] застосовує підхід на основі навчання з підкріпленням для пошуку тензорних перетворень. Подальший розвиток навчання з підкріпленням продемонстровано за допомогою оптимізатора Quarl [3], у якому використано алгоритм PPO (Proximal Policy Optimization — прок- симальна оптимізація політики) для навігації простором локальних еквівалентних перетворень. Агент Quarl завдяки використанню баз ECC (Equivalent Circuit Class — клас еквівалентних схем) системи Quartz [4] навчається послідовно застосовувати трансформації для мінімізації глибини квантової схеми та кількості вентилів. У контексті пошуку нових еквівалентних схем виділяється оптимізатор Quan- to [5], що фокусується на автоматичному породженні ідентичностей за допомогою графових методів і машинного навчання. Такий підхід дає можливість виявляти нові скорочення, раніше невідомі навіть експертам. Так само програмна бібліоте- ка PyZX [6] та теоретична аксіоматизація ZX-Calculus [7] забезпечують формаль- ний фундамент для спрощення схем через графове подання у формі павукоподіб- ної структури, що особливо ефективно для схем на основі Clifford+T. Варто також відзначити роботу [8], присвячену оптимізації параметризованих схем у варіацій- них алгоритмах. Як показує аналіз останніх публікацій, домінує одноагентне навчання з під- кріпленням. Однак такий підхід має низку недоліків, зокрема обмежену здатність до масштабування, а також труднощі з узгодженням локальних рішень із глобаль- ною метою оптимізації. З огляду на це в роботі пропонується використовувати мультиагентне навчання з підкріпленням (Multi-Agent Reinforcement Learning — MARL), яке дає змогу розподілити завдання між агентами, забезпечити спеціалі- зацію на різних типах вентилів чи задач та скоординувати їхні дії для досягнення загального результату. Зокрема, використовуючи алгоритм MAPPO [9] (Multi- Agent Proximal Policy Optimization — мультиагентна проксимальна оптимізація політики) у поєднанні з GNN (Graph Neural Network — графова нейронна мере- жа) [10], агенти можуть отримувати контекстно-насичені подання схеми на основі її графової структури. Це дасть змогу ефективніше зменшувати кількість вентилів (загальну та CNOT (Controlled NOT — контрольоване заперечення) і глибину кван- тової схеми. Об’єкт дослідження статті — процес оптимізації квантових схем з викорис- танням MARL. Мета дослідження — зменшення кількості вентилів у квантовій схемі за до- помогою MARL та GNN. Завдання дослідження — розробити архітектуру MARL для вибору трансфор- мацій та інтегрувати GNN для аналізу підсхем і застосування оптимізацій, а також провести експериментальне оцінювання запропонованого підходу та порівняти його з існуючими рішеннями. Методологія оптимізації Процес оптимізації квантових схем (рис. 1) ґрунтується на формальних пра- вилах еквівалентних перетворень, що дають можливість скоротити чи трансфор- мувати схему та зменшити кількість елементів схеми (вентилів), її глибину або за- гальну складність без зміни функціоналу. Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 4 111 Рис. 1 Квантова схема задається як упорядкована послідовність вентилів, що діють на одному або кількох кубітах. Для подальшого аналізу схема конвертується у графову структуру ( , ),G v e= кожен вузол v якої відповідає вентилю, а ребра e — залежностям між ними (наприклад, зв’язки між кубітами або залежність від тополо- гії виконання). Для кожного набору вентилів (Nam [11]: { , , , };CX Rz H X IBM: [12] { , , , })CX Rz X SX попередньо генерується ECC, представлений як kT = s( , ,)ource targetg g= 1, , ,k K=  де sourceg — послідовність вентилів, яку можна за- мінити еквівалентною: .targetg У роботі використано ECC із компілятора Quartz [4], який дає змогу виконувати процес, зображений на рис. 2. Ідентифікація кандидатів на трансформацію. Для кожного підграфа ,P G що збігається зі структурою s ,ourceg проводиться перевірка: s( ,     ) .ourcematch P g true= У разі збігу схема трансформується за правилом .kT Де- тальний процес трансформації продемонстровано на рис. 2. Рис. 2 У методі оптимізації квантових схем використовується GNN для побудови векторних подань з орієнтованого ациклічного графа (Directed Acyclic Graph — DAG) квантової схеми в поєднанні з MARL для вибору локальних перетворень (рис. 3). Кожен агент отримує векторне подання підграфа й вирішує, яку трансфор- мацію застосувати / спростити, переписати чи залишити без змін. Обрані дії узгод- жуються трансформаційним селектором, який змінює DAG та генерує нову схему. Спільний для агентів модуль оцінювання з доступом до глобального стану сере- довища (централізований критик) аналізує якість оптимізації на основі метрик схеми (глибина та кількість вентилів) і формує винагороду. Політики агентів оно- влюються через алгоритм PPO, робота якого спрямована на поступове вдоскона- лення оптимізаційних стратегій. Графова нейронна мережа в архітектурі виконує функцію інтелектуального ко- дування квантової схеми, яке кожному агенту дає можливість приймати контекст- но-залежні рішення щодо трансформацій схеми. Це забезпечує узгоджене, локаль- но-оптимальне та глобально-ефективне вдосконалення квантового обчислення. Графова нейронна мережа приймає DAG та ітеративно обчислює векторні подання (node embeddings) для кожної вершини; гіперпараметри GNN наведено в табл. 1. У дослідженні використано нейронну мережу з передачею повідомлень (Message Passing Neural Network — MPNN) [11], бо оптимізація схеми залежить від локального шаблону вентилів. Ця мережа дає вузлу (вентилю) змогу отримати q 0 q 1 q 0 q 1 H H H H q 0 q 1 q q H H H H q 0 q 1 H H q 0 q 1 H H H H H H H H q 0 q 1 q 0 q 1 112 ISSN 2786-6491 інформацію про сусідні вузли через механізм «message passing». Кожен вузол iv у DAG (відповідає вентилю в квантовій схемі) описується векторним поданням l ih на l -му шарі. Агрегація інформації про сусідні вузли та ребра в єдиний вектор від- бувається за формулою ( ) ( ) ( )( ) ( ) ( , , ,) l l ll iji i j j N i m M h h e  =  (1) де ( )l ih — векторне подання вузла i на l -му шарі; ( )N i — сусідні вузли ;i ije — ознаки ребра (наприклад, тип вентиля або напрям зв’язку); ( )lM — функція фор- мування повідомлення MLP (Multilayer Perceptron — багатошаровий перцептрон). Оновлення стану векторного подання відбувається за формулою ( 1) ( ) ( )( ) ( ,   ,) l l ll i i ih U h m + = де ( )l ih — векторне подання вузла i на l -му шарі; ( )l im — агреговане повідомлен- ня з (1); ( )lU — функція оновлення (MLP з функцією активації ReLU (Rectified Linear Unit — зрізаний лінійний вузол)). Рис. 3 Мультиагентна проксимальна оптимізація політики [9] функціонує як алго- ритм мультиагентного навчання з централізованою оцінкою та децентралізовани- ми діями. В контексті оптимізації квантових схем кожен агент відповідає за локаль- ну частину DAG-подання схеми та приймає рішення щодо трансформації. Цей метод обрано за його здатність до масштабування на велику кількість агентів; він підтримує часткову спостережуваність і забезпечує стабільне навчання завдяки функції втрат. Унаслідок поєднання з MPNN кожен агент отримує узагальнене подання квантової схеми, що робить рішення більш інформованими та узгодже- ними на глобальному рівні. Агент отримує вхідні дані як векторні подання вузлів, що обчислюються GNN. Нейронна мережа з передачею повідомлень виконує їх агрегацію між суміж- ними вузлами DAG та оновлює векторні подання, що кожному агенту дає змогу q 0 q 1 H H H H GNN Нова схема q 2 q 3 H H H H H H H H DAG Агент N Агент 2 Агент 1 q 0 q 1 q 2 q 3 Дія 1 Дія 2 Дія N Селектор трансформацій Критик Нагорода Оновлення політики Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 4 113 мати контекстну інформацію про оточення. Використовуючи ці векторні подання ih як вхід для політики θ , i  агент обирає дію стохастично: θ~ ( | ), ii i ia a h де  ia A — обрана дія; θi — параметри політики агента. Дії всіх агентів надсила- ються в селектор трансформацій, у якому узгоджені зміни застосовуються до DAG, і формується нова квантова схема. Централізований критик ( )V s отримує повний DAG і обчислює спільну винагороду :tr 1 1 1) ) ),( (   (t t t t t t tr size size depth depth CXcount CXcount− − −= − + − + − ~ 0 ( ) T t a t t V s E r  =          . Після цього він оновлює політики агентів за допомогою обмеженої функції втрат PPO: (ˆ ˆ( ) [min ( ( ) , ( ),1 ,1 ) ],)Clip t t t t tL E r A clip r A =   − + θ ( | ) ( ) , ( | ) old i i t i i a s r a h  =  0  ˆ ( ) ,l t t l l A  + = =   1( ( .) )t t t tr V s V s+ = +  − Гіперпараметри, використані для навчання агентів у межах MAPPO, наведено в табл. 1. Таблиця 1 Гіперпараметр Попереднє навчання (pre-training) Тонке налаштування (fine-tuning) Кількість шарів GNN 4 4 Кількість епох GNN 20 12 Розмір векторних подань (embedding size) 64 64 Кількість акторів (number actors) 16 16 Кількість епох (number epochs) 5 10 Коефіцієнт знижки () (discount ()) 0,98 0,98 Коефіцієнт відсікання 𝜖 (clipping parameter 𝜖) 0,2 0,1 Оцінки переваги (advantage estimation) 0,95 0,99 Коефіцієнт ентропії (entropy coefficient) 0,01 0,005 Результати дослідження Для перевірки та оцінки запропонованого підходу (в табл. 2–7 вказаний як «MAQCO») застосовано такий самий набір тестів продуктивності квантових схем, як і в [4, 6, 12–14]; MAQCO порівнюється з іншими відомими оптимізаторами: VOQC (Verified Optimizer for Quantum Circuits — перевірений оптимізатор кван- тових схем) [13], Qiskit [15], Tket [16], Quartz [4] та Quarl [3]. Метод апробо- вано на двох різних наборах вентилів для перевірки ефективності (Nam [11] : { , , , }CX Rz H X ; IBM [12]: { , , , }).CX Rz X SX Оцінювання здійснено за трьо- 114 ISSN 2786-6491 ма метриками: загальною кількістю вентилів (див. табл. 2 та 5), кількістю венти- лів CX (див. табл. 3 та 6) та глибиною схеми (див. табл. 4 та 7). Для загальної оцін- ки ефективність обчислено за формулою 1/ 0 ,1 N N i ii y GMR x=   = −       (2) де x — базова кількість вентилів квантової схеми; y — оптимізована кількість вентилів квантової схеми. Мультиагентний оптимізатор квантової схеми демонструє (див. табл. 2) або кращі результати порівняно з оптимізаторами Quarl та Quartz, або співставні з ни- ми на більшості схем. Зокрема, за допомогою MAQCO на схемах mod5_4, vbe_adder_3, barenco_tof_5 та adder_8 більш суттєво зменшено кількість вентилів порівняно з іншими методами. Значення 0,325 демонструє високу середню ефек- тивність (рис. 4), поступаючись лише Quarl (0,352), але має кращу узгодженість за складними схемами. Таблиця 2 Загальна кількість вентилів (набір вентилів Nam) Схема Оригінал Nam VOQC Qiskit Tket Quartz Quarl MAQCO tof_3 45 35 35 43 39 35 33 33 barenco_tof_3 58 40 40 54 49 40 35 36 mod5_4 63 51 51 61 57 37 24 29 tof_4 75 55 55 71 64 51 51 51 barenco_tof_4 114 72 72 106 97 72 62 66 tof_5 105 75 75 99 89 75 69 71 mod_mult_55 119 91 92 115 103 90 84 86 vbe_adder_3 150 89 89 189 130 89 71 79 barenco_tof_5 170 104 104 158 145 104 90 96 csla_mux_3 170 155 158 249 149 148 141 143 rc_adder_6 200 140 152 226 172 152 134 142 gf2ˆ4_mult 225 187 186 212 205 176 160 167 tof_10 255 175 175 239 214 175 169 171 mod_red_21 278 180 184 256 223 198 179 187 hwb6 259 — 209 258 217 214 250 231 gf2ˆ5_mult 347 296 287 327 319 274 257 264 csum_mux_9 420 266 280 420 365 256 224 239 barenco_tof_10 450 264 264 418 385 264 236 249 qcla_com_7 443 284 269 498 377 288 258 272 ham15-low 443 — 348 421 392 360 323 340 gf2ˆ6_mult 495 403 401 464 453 391 352 370 qcla_adder_10 521 399 416 630 444 404 380 391 gf2ˆ7_mult 669 555 543 627 614 531 484 506 gf2ˆ8_mult 883 712 706 819 806 703 648 674 qcla_mod_7 884 624 678 933 759 652 629 639 adder_8 900 606 596 1001 802 624 560 591 GMR — 0,261 0,270 – 0,006 0,131 0,285 0,352 0,325 Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 4 115 Рис. 4 Кількість CX-вентилів мультиагентний оптимізатор квантової схеми зменшує краще (див. табл. 3), ніж більшість інших рішень (рис. 5). Значення 0,280 демонс- трує суттєве зменшення кількості дорогоцінних двокубітних вентилів (CX), що критично важливо для фізичних реалізацій. Таблиця 3 Кількість вентилів CX (набір вентилів Nam) Схема Оригінал Nam VOQC Qiskit Tket Quartz Quarl MAQCO tof_3 18 14 14 18 18 14 12 12 barenco_tof_3 24 18 18 24 24 18 13 15 mod5_4 28 28 28 28 28 20 13 16 tof_4 30 22 22 30 30 22 18 19 barenco_tof_4 48 48 34 48 48 34 24 28 tof_5 42 30 30 42 42 30 24 26 mod_mult_55 48 40 42 48 48 39 37 37 vbe_adder_3 70 50 50 62 62 44 32 37 barenco_tof_5 72 50 50 72 72 50 36 42 csla_mux_3 80 70 74 71 71 70 63 66 rc_adder_6 93 71 71 81 81 71 61 65 gf2ˆ4_mult 99 99 99 99 99 95 79 86 tof_10 102 70 70 102 102 70 64 66 mod_red_21 105 81 81 105 104 81 105 92 hwb6 116 — 104 115 111 99 86 92 gf2ˆ5_mult 154 154 154 154 154 149 132 140 csum_mux_9 168 140 140 168 168 140 112 125 barenco_tof_10 192 130 130 192 192 130 102 115 qcla_com_7 186 132 132 174 174 127 111 118 ham15-low 236 — 210 236 225 209 185 196 gf2ˆ6_mult 221 221 221 221 221 221 182 201 qcla_adder_10 233 183 199 213 205 187 165 175 gf2ˆ7_mult 300 300 300 300 300 300 253 276 gf2ˆ8_mult 405 405 405 405 402 405 364 384 qcla_mod_7 382 292 328 366 366 307 285 295 adder_8 409 291 301 385 383 305 265 284 GMR — 0,183 0,178 0,025 0,030 0,206 0,331 0,280 – 0,05 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 Nam[11] VOQC[10] Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO 116 ISSN 2786-6491 Рис. 5 Мультиагентний оптимізатор квантової схеми посідає друге місце (див. табл. 4, рис. 6) після Quarl, що свідчить про високу здатність пропонованого методу змен- шувати час виконання квантових алгоритмів. Таблиця 4 Глибина схеми (набір вентилів Nam) Схема Оригінал Nam VOQC Qiskit Tket Quartz Quarl MAQCO tof_3 33 31 31 33 31 31 25 27 barenco_tof_3 45 38 39 45 42 37 34 35 mod5_4 52 46 46 52 51 29 18 23 tof_4 54 46 46 54 50 46 40 42 barenco_tof_4 87 68 70 87 80 64 56 59 tof_5 75 61 61 75 69 61 47 53 mod_mult_55 55 47 50 54 51 45 48 46 vbe_adder_3 90 58 60 96 81 60 42 50 barenco_tof_5 129 95 98 129 118 90 87 88 csla_mux_3 72 63 68 84 64 62 61 61 rc_adder_6 111 83 95 111 97 90 88 88 gf2ˆ4_mult 112 102 102 110 108 105 81 92 tof_10 180 136 136 180 164 136 121 128 mod_red_21 176 129 135 173 150 146 135 140 hwb6 178 — 153 177 157 147 130 138 gf2ˆ5_mult 146 132 131 142 141 135 133 133 csum_mux_9 64 47 46 64 61 55 70 62 barenco_tof_10 339 230 238 339 308 228 249 238 qcla_com_7 94 70 67 99 88 66 63 64 ham15-low 285 — 245 283 258 250 209 229 gf2ˆ6_mult 184 166 166 180 178 165 186 175 qcla_adder_10 84 63 67 89 78 65 75 69 gf2ˆ7_mult 220 199 196 220 213 197 245 220 gf2ˆ8_mult 262 233 235 255 253 235 315 274 qcla_mod_7 229 184 199 231 211 195 205 199 adder_8 259 193 196 264 243 199 217 207 GMR — 0,181 0,173 – 0,008 0,074 0,196 0,234 0,220 – 0,05 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 Nam[11] VOQC[10] Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 4 117 Рис. 6 Найкращі результати мультиагентний оптимізатор квантової схеми демонст- рує (див. табл. 5) зі значенням 0,278, яке наближається до Quarl (0,358) і виперед- жає (рис. 7) всі класичні компілятори (Qiskit, Tket). Особливо ефективно MAQCO працює на схемах із великою кількістю вентилів (adder_8, portfolioqaoa_8). Таблиця 5 Загальна кількість вентилів (набір вентилів IBM) Схема Оригінал Qiskit Tket Quartz Quarl MAQCO tof_3 53 51 51 42 39 40 barenco_tof_3 65 61 61 52 42 46 mod5_4 71 69 69 62 50 55 tof_4 88 84 84 67 62 64 barenco_tof_4 123 117 117 92 85 88 tof_5 125 117 117 99 75 86 mod_mult_55 140 135 145 114 100 106 vbe_adder_3 165 186 159 124 82 102 barenco_tof_5 185 173 173 146 108 126 csla_mux_3 200 235 188 181 164 172 rc_adder_6 229 250 277 189 164 176 gf2ˆ4_mult 246 232 232 229 192 210 tof_10 287 281 282 272 208 239 mod_red_21 294 279 317 292 204 247 hwb6 298 282 282 217 203 209 gf2ˆ5_mult 374 353 353 372 295 333 csum_mux_9 459 453 474 459 318 388 barenco_tof_10 485 453 453 482 278 379 qcla_com_7 485 456 455 480 366 422 ham15-low 486 511 486 470 304 386 gf2ˆ6_mult 528 496 496 528 422 474 qcla_adder_10 587 636 556 586 412 498 gf2ˆ7_mult 708 665 665 708 573 640 gf2ˆ8_mult 928 864 861 923 821 871 qcla_mod_7 982 980 933 978 746 861 adder_8 1004 1010 1169 997 685 840 – 0,05 0,00 0,05 0,10 0,15 0,20 0,25 Nam[11] VOQC[10] Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO 118 ISSN 2786-6491 Продовження таблиці 5 vqe_8 199 91 93 92 89 90 qgan_8 256 114 98 100 81 90 qaoa_8 284 211 159 157 163 159 ae_8 502 350 283 373 305 338 qpeexact_8 555 373 286 371 326 348 qpeinexact_8 571 381 312 381 332 356 qft_8 578 392 262 326 298 311 qftentangled_8 647 415 295 489 332 410 portfoliovqe_8 708 288 232 359 202 280 portfolioqaoa_8 1352 975 712 1207 806 1006 GMR — 0,140 0,196 0,194 0,358 0,278 Рис. 7 Мультиагентний оптимізатор квантової схеми зменшує кількість вентилів CX ефективніше (див. табл. 6, рис. 8), ніж Quartz та Qiskit (0,147), і поступається лише Quarl (0,208), що підтверджує релевантність використання GNN для врахування контексту вентилів під час трансформації. Таблиця 6 Кількість вентилів CX (набір вентилів IBM) Схема Оригінал Qiskit Tket Quartz Quarl MAQCO tof_3 18 18 18 14 14 14 barenco_tof_3 24 24 24 20 16 17 mod5_4 28 28 28 27 22 24 tof_4 30 30 30 22 22 22 barenco_tof_4 42 42 42 30 30 29 tof_5 48 48 48 40 30 34 mod_mult_55 48 48 48 41 39 39 vbe_adder_3 70 62 62 50 36 42 barenco_tof_5 72 72 72 60 44 51 csla_mux_3 80 71 71 72 65 68 rc_adder_6 93 81 81 75 71 72 gf2ˆ4_mult 99 99 99 99 84 91 tof_10 116 115 111 114 85 99 0,00 0,10 0,05 0,15 0,20 0,25 Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO 0,30 0,35 0,40 Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 4 119 Продовження таблиці 6 mod_red_21 105 105 104 105 77 90 hwb6 102 102 102 70 70 70 gf2ˆ5_mult 154 154 154 154 135 144 csum_mux_9 168 168 168 168 140 153 barenco_tof_10 192 192 192 192 116 153 qcla_com_7 236 236 225 234 188 210 ham15-low 186 174 174 174 119 146 gf2ˆ6_mult 221 221 221 221 198 209 qcla_adder_10 233 213 205 232 164 197 gf2ˆ7_mult 300 300 300 300 273 286 gf2ˆ8_mult 405 405 402 403 392 397 qcla_mod_7 382 366 366 382 308 344 adder_8 409 385 383 405 283 343 vqe_8 14 14 14 14 14 14 qgan_8 28 28 28 26 18 21 qaoa_8 32 32 32 32 32 32 ae_8 56 56 56 56 56 56 qpeexact_8 64 64 55 64 63 63 qpeinexact_8 65 65 56 65 65 65 qft_8 68 68 56 67 67 67 qftentangled_8 75 75 61 75 75 75 portfoliovqe_8 84 84 84 84 54 68 portfolioqaoa_8 168 168 168 168 161 164 GMR — 0,017 0,040 0,075 0,208 0,147 Рис. 8 0,00 0,10 0,05 0,15 0,20 0,25 Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO 120 ISSN 2786-6491 Цей оптимізатор квантової схеми досягає значення 0,175 (див. табл. 7), що вище за значення Tket та Qiskit (рис. 9); це свідчить про баланс між скорочен- ням кількості вентилів і збереженням глибини. Таблиця 7 Глибина схеми (набір вентилів IBM) Схема Оригінал Qiskit Tket Quartz Quarl MAQCO tof_3 37 37 37 32 32 32 barenco_tof_3 50 50 50 40 39 39 mod5_4 57 57 57 52 47 49 tof_4 60 60 60 47 47 47 barenco_tof_4 83 83 83 64 61 62 tof_5 96 96 96 80 67 73 mod_mult_55 60 58 61 55 52 53 vbe_adder_3 98 99 93 73 48 60 barenco_tof_5 142 142 142 119 94 106 csla_mux_3 80 83 75 84 65 74 rc_adder_6 124 119 125 109 92 100 gf2ˆ4_mult 117 115 114 118 95 106 tof_10 186 183 189 188 131 159 mod_red_21 183 178 201 183 128 155 hwb6 198 198 198 149 140 144 gf2ˆ5_mult 148 144 143 149 138 143 csum_mux_9 68 68 77 68 84 75 barenco_tof_10 372 372 372 376 249 312 qcla_com_7 310 298 288 300 235 267 ham15-low 98 100 97 95 78 86 gf2ˆ6_mult 189 185 184 189 197 192 qcla_adder_10 89 92 84 89 77 82 gf2ˆ7_mult 225 220 219 225 248 236 gf2ˆ8_mult 267 260 259 268 312 289 qcla_mod_7 241 241 235 238 250 243 adder_8 278 274 318 275 208 241 vqe_8 69 20 27 24 28 25 qgan_8 60 31 30 45 34 39 qaoa_8 56 45 42 48 51 49 ae_8 193 143 136 175 142 158 qpeexact_8 199 140 132 160 149 154 qpeinexact_8 212 144 146 165 156 160 qft_8 170 115 108 131 120 125 qftentangled_8 184 121 153 162 129 145 portfoliovqe_8 151 67 61 86 100 92 portfolioqaoa_8 300 232 216 288 305 296 GMR — 0,132 0,125 0,130 0,215 0,175 Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 4 121 Рис. 9 Отже, підхід MAQCO демонструє стабільне скорочення кількості вентилів у квантових схемах на обох наборах вентилів — Nam та IBM. Метод дає змогу пе- ревершити показники класичних компіляторів (Qiskit, Tket) і наблизитися до по- казників сучасних оптимізаторів, таких як Quartz та Quarl. Середня ефективність MAQCO щодо зменшення загальної кількості вентилів є однією з найвищих серед протестованих методів. Особливо помітне зменшення досягається у складних схемах з великою кількістю вентилів, таких як adder_8 чи portfolioqaoa_8. Мульти- агентний оптимізатор квантової схеми також ефективно скорочує кількість CX-вен- тилів, що критично важливо для зменшення кількості фізичних помилок. За гли- биною схем MAQCO показує збалансовані результати, що забезпечує конкурент- ну паралелізацію обчислень. Мультиагентна архітектура дає змогу враховувати локальний контекст і взаємодію агентів під час вибору трансформацій. Інтеграція GNN дає агентам можливість отримати глобальне уявлення про структуру схеми. Підхід демонструє хорошу масштабованість і адаптивність до різних типів схем. Отже, MAQCO — це перспективний метод оптимізації квантових схем для сучас- них і майбутніх квантових обчислювальних платформ. Висновок Запропонований для оптимізації квантових схем (MAQCO) метод MARL де- монструє високі результати за всіма ключовими метриками — зменшення загаль- ної кількості одно- та двокубітних CX-вентилів і глибини схем. Порівняно з кла- сичними компіляторами (Qiskit, Tket) та сучасними підходами на основі навчання з підкріпленням (Quarl) MAQCO забезпечує кращу або співставну ефективність, особливо у складних схемах. Результати застосування методу підтверджують ефективність мультиагентної архітектури. На відміну від підходів, які ґрунтуються на одноагентному навчанні (як у Quarl або AlphaTensor, у яких є труднощі, по’вязані з масштабуванням та ко- ординацією дій), MAQCO дає змогу розподілити завдання між спеціалізованими агентами. Це відповідає висновкам авторів роботи [9], які продемонстрували ефек- тивність MAPPO у кооперативних сценаріях. Інтеграція GNN дає можливість враховувати локальні та глобальні контексти під час вибору трансформацій. Це підтверджує ефективність її використання для оптимізації графових структур, зокрема квантових схем, що також узгоджується з підходами, реалізованими у Quanto та PyZX. Дослідницькі завдання, окреслені у вступі (розробка мультиагентної ар- хітектури, інтеграція GNN та експериментальне оцінювання), повністю вико- 0,00 0,10 0,05 0,15 0,20 0,25 Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO 122 ISSN 2786-6491 нані. Проведено порівняння з шістьма відомими оптимізаторами, що забезпе- чує об’єктивність результатів. Ефективність GMR (2) щодо кількості вентилів для MAQCO (0,325 — Nam та 0,278 — IBM) свідчить про стабільність методу. Практичне значення MAQCO полягає в тому, що він дає змогу скорочувати кількість операцій у квантових схемах без втрати функціональності, що знижує ймовірність виникнення помилок у фізичних реалізаціях. Зменшення кількості CX-вентилів, які є критичними з погляду фізичних ресурсів, підтверджує доці- льність застосування MAQCO на реальних пристроях NISQ (Noisy Intermediate- Scale Quantum — шумні квантові (пристрої) проміжного масштабу). Перспективи подальших досліджень такі. 1. Масштабування на великі квантові схеми з тисячами вентилів, інтеграція адаптивних стратегій вибору агентів та підсхем і використання комбінованого простору ECC та ZX-перетворень. 2. Адаптація MAQCO до оптимізацій на апаратному рівні, зокрема для роз- поділених квантових обчислювальних архітектур, у яких враховуються топо- логічні обмеження, комунікаційні витрати між вузлами та розподілена коор- динація агентів. Отже, MAQCO — вагомий внесок у розвиток адаптивної квантової компіля- ції з поєднанням сильних сторін MARL та GNN і демонстрація реальних перспек- тив для впровадження в інструменти оптимізації квантових програм. I. Kyrylov, I. Sinitsyn MULTI-AGENT REINFORCEMENT LEARNING FOR QUANTUM CIRCUIT OPTIMIZATION Ivan Kyrylov Institute of Software System, Kyiv, ivan.kyrylov.science@gmail.com, Igor Sinitsyn Institute of Software System, Kyiv, ips@nas.gov.ua The article presents an approach to quantum circuit optimization based on Multi-Agent Reinforcement Learning (MARL), which integrates the MAPPO algorithm with Graph Neural Networks (GNNs). The relevance of the re- search stems from the need to reduce gate counts and circuit depth in quan- tum compilation to enhance noise resilience and execution efficiency on current quantum devices. Unlike traditional single-agent approaches, the proposed architecture, MAQCO (Multi-Agent Quantum Circuit Optimizer), enables task distribution among agents, facilitating better scalability, coor- dination, and consideration of the local context of the circuit. The optimiza- tion process is implemented using equivalence-preserving transformations from the Quartz system, allowing simplification of circuits without altering their functionality. Experimental evaluation on benchmark circuits using Nam and IBM gate sets demonstrates that MAQCO achieves superior or comparable results to state-of-the-art optimizers such as Quarl and Quartz, particularly in reducing total gate count, CNOT (CX) gates, and circuit depth. Future research directions include scaling MAQCO to larger circuits, integrating ECC and ZX-based transformations, and adapting the method for hardware-aware optimization on distributed quantum architectures, taking into account topology constraints and communication costs. Keywords: gate count minimization, quantum compilation, quantum computing. Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 4 123 ПОСИЛАННЯ 1. A comprehensive review of quantum circuit optimization: current trends and future directions / K. Karuppasamy, V. Puram, S. Johnson, J.P. Thomas. Quantum Reports. 2025. Vol. 7, N 1. P. 2. DOI: https://doi.org/10.3390/quantum7010002 2. Quantum circuit optimization with AlphaTensor / F.J.R. Ruiz, T. Laakkonen, J. Bausch, M. Ba- log, M. Barekatain et al. Nature Machine Intelligence. 2025. Vol. 7, N 3. P. 374–385. DOI: https://doi.org/10.1038/s42256-025-01001-1 3. Quarl: a learning-based quantum circuit optimizer / Z. Li, J. Peng, Y. Mei, S. Lin et al. arXiv. 2023. DOI: https://doi.org/10.48550/arXiv.2307.10120 4. Quartz: superoptimization of quantum circuits (extended version) / M. Xu, Z. Li, O. Padon, S. Lin et al. arXiv. 2022. DOI: https://doi.org/10.48550/arXiv.2204.09033 5. Quanto: optimizing quantum circuits with automatic generation of circuit identities / J. Pointing, O. Padon, Z. Jia, H. Ma et al. arXiv. 2021. DOI: https://doi.org/10.48550/arXiv.2111.11387 6. Kissinger A., Wetering J. van de. PyZX: large scale automated diagrammatic reasoning. Electro- nic Proceedings in Theoretical Computer Science. 2020. Vol. 318. P. 229–241. DOI: https:// doi.org/10.4204/EPTCS.318.14 7. Jeandel E., Perdrix S., Vilmart R. A complete axiomatisation of the ZX-calculus for Clifford+T quantum mechanics. Proceedings of the 33rd Annual ACM/IEEE Symposium on Logic in Com- puter Science. New York, NY, USA : Association for Computing Machinery, 2018. P. 559–568. DOI: https://doi.org/10.1145/3209108.3209131 8. Reinforcement learning for optimization of variational quantum circuit architectures / M. Osta- szewski, L.M. Trenkwalder, W. Masarczyk, E. Scerri, V. Dunjko. arXiv. 2021. DOI: https://doi.org/ 10.48550/arXiv.2103.16089 9. The surprising effectiveness of PPO in cooperative, multi-agent games / C. Yu, A. Velu, E. Vinit- sky, J. Gao et al. arXiv. 2022. DOI: https://doi.org/10.48550/arXiv.2103.01955 10. The graph neural network model / F. Scarselli, M. Gori, A.C. Tsoi, M. Hagenbuchner, G. Mon- fardini. IEEE Transactions on Neural Networks. 2009. Vol. 20, N 1. P. 61–80. DOI: https:// doi.org/10.1109/TNN.2008.2005605 11. Neural message passing for quantum chemistry / J. Gilmer, S.S. Schoenholz, P.F. Riley, O. Vinyals, G.E. Dahl. arXiv. 2017. DOI: https://doi.org/10.48550/arXiv.1704.01212 12. Amy M., Maslov D., Mosca M. Polynomial-time T-depth optimization of Clifford+T circuits via matroid partitioning. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems. 2014. Vol. 33, N 10. P. 1476–1489. DOI: https://doi.org/10.1109/TCAD.2014.2341953 13. A verified optimizer for Quantum circuits / K. Hietala, R. Rand, S.-H. Hung, X. Wu, M. Hicks. 2021. Vol. 5, N 37. P. 1–29. DOI: https://doi.org/10.1145/3434318 14. Automated optimization of large quantum circuits with continuous parameters / Y. Nam, N.J. Ross, Y. Su, A.M. Childs, D. Maslov. npj Quantum Information. 2018. Vol. 4, N 1. P. 23. DOI: https://doi.org/10.1038/s41534-018-0072-4 15. Qiskit: an open-source framework for quantum computing / G. Aleksandrowicz, T. Alexander, P. Barkoutsos, L. Bello et al. Zenodo. 2019. Version 0.7.2. DOI: https://doi.org/10.5281/zenodo. 2562111 16. t|ket⟩: a retargetable compiler for NISQ devices / S. Sivarajah, S. Dilkes, A. Cowtan, W. Sim- mons et al. Quantum Science and Technology. 2021. Vol. 6, N 1. P. 014003. DOI: https://doi. org/10.1088/2058-9565/ab8e92 Отримано 30.06.2025 https://doi.org/10.1038/s41534-018-0072-4
id nasplib_isofts_kiev_ua-123456789-211413
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0572-2691
language Ukrainian
last_indexed 2026-03-16T11:49:25Z
publishDate 2025
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
record_format dspace
spelling Кирилов, І.І.
Сініцин, І.П.
2026-01-01T22:52:07Z
2025
Мультиагентне навчання з підкріпленням для оптимізації квантових схем / І.І. Кирилов, І.П. Сініцин // Проблемы управления и информатики. — 2025. — № 4. — С. 109-123. — Бібліогр.: 16 назв. — укр.
0572-2691
https://nasplib.isofts.kiev.ua/handle/123456789/211413
004.4ʼ427 004.4ʼ416
10.34229/1028-0979-2025-4-7
У статті представлено підхід до оптимізації квантових схем на основі мультиагентного навчання з підкріпленням (Multi-Agent Reinforcement Learning — MARL), у якому алгоритм MAPPO (Multi-Agent Proximal Policy Optimization — мультиагентна проксимальна оптимізація політики) поєднується з графовими нейронними мережами (Graph Neural Networks — GNN). Актуальність дослідження зумовлена необхідністю зменшення кількості вентилів і глибини схем у квантовій компіляції задля підвищення стійкості до шумів та ефективності виконання алгоритмів на сучасних квантових пристроях.
The article presents an approach to quantum circuit optimization based on Multi-Agent Reinforcement Learning (MARL), which integrates the MAPPO algorithm with Graph Neural Networks (GNNs). The relevance of the research stems from the need to reduce gate counts and circuit depth in quantum compilation to enhance noise resilience and execution efficiency on current quantum devices.
uk
Інститут кібернетики ім. В.М. Глушкова НАН України
Проблеми керування та інформатики
Роботи та системи штучного інтелекту
Мультиагентне навчання з підкріпленням для оптимізації квантових схем
Multi-agent reinforcement learning for quantum circuit optimization
Article
published earlier
spellingShingle Мультиагентне навчання з підкріпленням для оптимізації квантових схем
Кирилов, І.І.
Сініцин, І.П.
Роботи та системи штучного інтелекту
title Мультиагентне навчання з підкріпленням для оптимізації квантових схем
title_alt Multi-agent reinforcement learning for quantum circuit optimization
title_full Мультиагентне навчання з підкріпленням для оптимізації квантових схем
title_fullStr Мультиагентне навчання з підкріпленням для оптимізації квантових схем
title_full_unstemmed Мультиагентне навчання з підкріпленням для оптимізації квантових схем
title_short Мультиагентне навчання з підкріпленням для оптимізації квантових схем
title_sort мультиагентне навчання з підкріпленням для оптимізації квантових схем
topic Роботи та системи штучного інтелекту
topic_facet Роботи та системи штучного інтелекту
url https://nasplib.isofts.kiev.ua/handle/123456789/211413
work_keys_str_mv AT kirilovíí mulʹtiagentnenavčannâzpídkríplennâmdlâoptimízacííkvantovihshem
AT síníciníp mulʹtiagentnenavčannâzpídkríplennâmdlâoptimízacííkvantovihshem
AT kirilovíí multiagentreinforcementlearningforquantumcircuitoptimization
AT síníciníp multiagentreinforcementlearningforquantumcircuitoptimization