Мультиагентне навчання з підкріпленням для оптимізації квантових схем
У статті представлено підхід до оптимізації квантових схем на основі мультиагентного навчання з підкріпленням (Multi-Agent Reinforcement Learning — MARL), у якому алгоритм MAPPO (Multi-Agent Proximal Policy Optimization — мультиагентна проксимальна оптимізація політики) поєднується з графовими нейро...
Saved in:
| Published in: | Проблеми керування та інформатики |
|---|---|
| Date: | 2025 |
| Main Authors: | , |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2025
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/211413 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Мультиагентне навчання з підкріпленням для оптимізації квантових схем / І.І. Кирилов, І.П. Сініцин // Проблемы управления и информатики. — 2025. — № 4. — С. 109-123. — Бібліогр.: 16 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859819159146201088 |
|---|---|
| author | Кирилов, І.І. Сініцин, І.П. |
| author_facet | Кирилов, І.І. Сініцин, І.П. |
| citation_txt | Мультиагентне навчання з підкріпленням для оптимізації квантових схем / І.І. Кирилов, І.П. Сініцин // Проблемы управления и информатики. — 2025. — № 4. — С. 109-123. — Бібліогр.: 16 назв. — укр. |
| collection | DSpace DC |
| container_title | Проблеми керування та інформатики |
| description | У статті представлено підхід до оптимізації квантових схем на основі мультиагентного навчання з підкріпленням (Multi-Agent Reinforcement Learning — MARL), у якому алгоритм MAPPO (Multi-Agent Proximal Policy Optimization — мультиагентна проксимальна оптимізація політики) поєднується з графовими нейронними мережами (Graph Neural Networks — GNN). Актуальність дослідження зумовлена необхідністю зменшення кількості вентилів і глибини схем у квантовій компіляції задля підвищення стійкості до шумів та ефективності виконання алгоритмів на сучасних квантових пристроях.
The article presents an approach to quantum circuit optimization based on Multi-Agent Reinforcement Learning (MARL), which integrates the MAPPO algorithm with Graph Neural Networks (GNNs). The relevance of the research stems from the need to reduce gate counts and circuit depth in quantum compilation to enhance noise resilience and execution efficiency on current quantum devices.
|
| first_indexed | 2026-03-16T11:49:25Z |
| format | Article |
| fulltext |
© І.І. КИРИЛОВ, І.П. СІНІЦИН, 2025
Міжнародний науково-технічний журнал
Проблеми керування та інформатики, 2025, № 4 109
УДК 004.4ʼ427 004.4ʼ416
І.І. Кирилов, І.П. Сініцин
МУЛЬТИАГЕНТНЕ НАВЧАННЯ З ПІДКРІПЛЕННЯМ
ДЛЯ ОПТИМІЗАЦІЇ КВАНТОВИХ СХЕМ
Кирилов Іван Ігорович
Інститут програмних систем НАН України, м. Київ,
https://orcid.org/0009-0006-9756-5391
ivan.kyrylov.science@gmail.com
Сініцин Ігор Петрович
Інститут програмних систем НАН України, м. Київ,
https://orcid.org/0000-0002-4120-0784
ips@nas.gov.ua
У статті представлено підхід до оптимізації квантових схем на основі
мультиагентного навчання з підкріпленням (Multi-Agent Reinforcement
Learning — MARL), у якому алгоритм MAPPO (Multi-Agent Proximal
Policy Optimization — мультиагентна проксимальна оптимізація політи-
ки) поєднується з графовими нейронними мережами (Graph Neural
Networks — GNN). Актуальність дослідження зумовлена необхідністю
зменшення кількості вентилів і глибини схем у квантовій компіляції за-
для підвищення стійкості до шумів та ефективності виконання алгори-
тмів на сучасних квантових пристроях. На відміну від традиційного од-
ноагентного підходу запропонована архітектура MAQCO (Multi-Agent
Quantum Circuit Optimizer — мультиагентний оптимізатор квантової
схеми) дає змогу розподіляти завдання між агентами, що забезпечує
кращу масштабованість, координацію та врахування локального контексту
схеми. У дослідженні реалізовано процес оптимізації на основі еквівален-
тних перетворень із системи Quartz, що дає можливість зберігати функ-
ціональність схеми під час її спрощення. Експериментальна перевірка на
тестах продуктивності з використанням вентильних баз Nam та IBM про-
демонструвала, що за допомогою MAQCO можна досягти кращих або зі-
ставних результатів порівняно з сучасними оптимізаторами, такими як
Quarl і Quartz, зокрема щодо зменшення глибини квантової схеми та зага-
льної кількості вентилів і CNOT (CX) (Controlled NOT — контрольоване
заперечення). У подальших дослідженнях передбачаються масштабування
MAQCO на великі схеми, інтеграція ECC (Equivalent Circuit Class — клас ек-
вівалентних схем) та ZX-перетворень, а також адаптація методу для апарат-
но-залежної оптимізації на розподілених квантових архітектурах з ураху-
ванням топології та комунікаційних витрат.
Ключові слова: мінімізація кількості вентилів, квантова компіляція, кван-
тові обчислення.
Вступ
Квантова схема — це набір інструкцій для виконання на квантовому ком-
пʼютері, що складається з кубітів та операцій (вентилів). Під час реалізації
квантових алгоритмів на фізичних пристроях виникає низка проблем: декоге-
ренція кубітів, зашумленість вентилів (чим більше вентилів, тим менш стабільні
обчислення) та масштабованість обчислювачів. Все це зумовлює необхідність оп-
тимізації квантових схем — зменшення їхньої глибини та загальної кількості од-
но- та двокубітних вентилів. Існує два класи оптимізації квантових схем [1] —
апаратно-незалежні та апаратно-залежні. За методологією оптимізації поді-
110 ISSN 2786-6491
ляються на аналітично-алгоритмічні (математичні методи для систематичного
вдосконалення схем), евристичні (підходи на основі правил для поширених шаб-
лонів оптимізації), на основі машинного навчання (методи машинного навчання,
включно з навчанням із підкріпленням та генетичними алгоритмами) та гібридні
квантово-класичні (варіаційні алгоритми, що оптимізують схеми за допомогою
класично-квантових алгоритмів). За останні п’ять років у дослідженнях з оптимі-
зації квантових схем спостерігається помітне зростання кількості методів, що ґру-
нтуються на машинному навчанні.
Компанія DeepMind для розробки програми AlphaTensor [2] застосовує підхід
на основі навчання з підкріпленням для пошуку тензорних перетворень. Подальший
розвиток навчання з підкріпленням продемонстровано за допомогою оптимізатора
Quarl [3], у якому використано алгоритм PPO (Proximal Policy Optimization — прок-
симальна оптимізація політики) для навігації простором локальних еквівалентних
перетворень. Агент Quarl завдяки використанню баз ECC (Equivalent Circuit Class —
клас еквівалентних схем) системи Quartz [4] навчається послідовно застосовувати
трансформації для мінімізації глибини квантової схеми та кількості вентилів.
У контексті пошуку нових еквівалентних схем виділяється оптимізатор Quan-
to [5], що фокусується на автоматичному породженні ідентичностей за допомогою
графових методів і машинного навчання. Такий підхід дає можливість виявляти
нові скорочення, раніше невідомі навіть експертам. Так само програмна бібліоте-
ка PyZX [6] та теоретична аксіоматизація ZX-Calculus [7] забезпечують формаль-
ний фундамент для спрощення схем через графове подання у формі павукоподіб-
ної структури, що особливо ефективно для схем на основі Clifford+T. Варто також
відзначити роботу [8], присвячену оптимізації параметризованих схем у варіацій-
них алгоритмах.
Як показує аналіз останніх публікацій, домінує одноагентне навчання з під-
кріпленням. Однак такий підхід має низку недоліків, зокрема обмежену здатність
до масштабування, а також труднощі з узгодженням локальних рішень із глобаль-
ною метою оптимізації. З огляду на це в роботі пропонується використовувати
мультиагентне навчання з підкріпленням (Multi-Agent Reinforcement Learning —
MARL), яке дає змогу розподілити завдання між агентами, забезпечити спеціалі-
зацію на різних типах вентилів чи задач та скоординувати їхні дії для досягнення
загального результату. Зокрема, використовуючи алгоритм MAPPO [9] (Multi-
Agent Proximal Policy Optimization — мультиагентна проксимальна оптимізація
політики) у поєднанні з GNN (Graph Neural Network — графова нейронна мере-
жа) [10], агенти можуть отримувати контекстно-насичені подання схеми на основі
її графової структури. Це дасть змогу ефективніше зменшувати кількість вентилів
(загальну та CNOT (Controlled NOT — контрольоване заперечення) і глибину кван-
тової схеми.
Об’єкт дослідження статті — процес оптимізації квантових схем з викорис-
танням MARL.
Мета дослідження — зменшення кількості вентилів у квантовій схемі за до-
помогою MARL та GNN.
Завдання дослідження — розробити архітектуру MARL для вибору трансфор-
мацій та інтегрувати GNN для аналізу підсхем і застосування оптимізацій, а також
провести експериментальне оцінювання запропонованого підходу та порівняти
його з існуючими рішеннями.
Методологія оптимізації
Процес оптимізації квантових схем (рис. 1) ґрунтується на формальних пра-
вилах еквівалентних перетворень, що дають можливість скоротити чи трансфор-
мувати схему та зменшити кількість елементів схеми (вентилів), її глибину або за-
гальну складність без зміни функціоналу.
Міжнародний науково-технічний журнал
Проблеми керування та інформатики, 2025, № 4 111
Рис. 1
Квантова схема задається як упорядкована послідовність вентилів, що діють
на одному або кількох кубітах. Для подальшого аналізу схема конвертується у
графову структуру ( , ),G v e= кожен вузол v якої відповідає вентилю, а ребра e —
залежностям між ними (наприклад, зв’язки між кубітами або залежність від тополо-
гії виконання).
Для кожного набору вентилів (Nam [11]: { , , , };CX Rz H X IBM: [12]
{ , , , })CX Rz X SX попередньо генерується ECC, представлений як kT =
s( , ,)ource targetg g= 1, , ,k K= де sourceg — послідовність вентилів, яку можна за-
мінити еквівалентною: .targetg У роботі використано ECC із компілятора Quartz [4],
який дає змогу виконувати процес, зображений на рис. 2.
Ідентифікація кандидатів на трансформацію. Для кожного підграфа
,P G що збігається зі структурою s ,ourceg проводиться перевірка:
s( , ) .ourcematch P g true= У разі збігу схема трансформується за правилом .kT Де-
тальний процес трансформації продемонстровано на рис. 2.
Рис. 2
У методі оптимізації квантових схем використовується GNN для побудови
векторних подань з орієнтованого ациклічного графа (Directed Acyclic Graph —
DAG) квантової схеми в поєднанні з MARL для вибору локальних перетворень
(рис. 3). Кожен агент отримує векторне подання підграфа й вирішує, яку трансфор-
мацію застосувати / спростити, переписати чи залишити без змін. Обрані дії узгод-
жуються трансформаційним селектором, який змінює DAG та генерує нову схему.
Спільний для агентів модуль оцінювання з доступом до глобального стану сере-
довища (централізований критик) аналізує якість оптимізації на основі метрик
схеми (глибина та кількість вентилів) і формує винагороду. Політики агентів оно-
влюються через алгоритм PPO, робота якого спрямована на поступове вдоскона-
лення оптимізаційних стратегій.
Графова нейронна мережа в архітектурі виконує функцію інтелектуального ко-
дування квантової схеми, яке кожному агенту дає можливість приймати контекст-
но-залежні рішення щодо трансформацій схеми. Це забезпечує узгоджене, локаль-
но-оптимальне та глобально-ефективне вдосконалення квантового обчислення.
Графова нейронна мережа приймає DAG та ітеративно обчислює векторні подання
(node embeddings) для кожної вершини; гіперпараметри GNN наведено в табл. 1.
У дослідженні використано нейронну мережу з передачею повідомлень
(Message Passing Neural Network — MPNN) [11], бо оптимізація схеми залежить
від локального шаблону вентилів. Ця мережа дає вузлу (вентилю) змогу отримати
q
0
q
1
q
0
q
1
H
H
H
H
q
0
q
1
q q
H
H
H
H
q
0
q
1
H H
q
0
q
1
H
H
H
H
H
H
H
H
q
0
q
1
q
0
q
1
112 ISSN 2786-6491
інформацію про сусідні вузли через механізм «message passing». Кожен вузол iv у
DAG (відповідає вентилю в квантовій схемі) описується векторним поданням l
ih
на l -му шарі. Агрегація інформації про сусідні вузли та ребра в єдиний вектор від-
бувається за формулою
( ) ( ) ( )( )
( )
( , , ,)
l l ll
iji i j
j N i
m M h h e
= (1)
де
( )l
ih — векторне подання вузла i на l -му шарі; ( )N i — сусідні вузли ;i ije —
ознаки ребра (наприклад, тип вентиля або напрям зв’язку); ( )lM — функція фор-
мування повідомлення MLP (Multilayer Perceptron — багатошаровий перцептрон).
Оновлення стану векторного подання відбувається за формулою
( 1) ( ) ( )( ) ( , ,)
l l ll
i i ih U h m
+
=
де
( )l
ih — векторне подання вузла i на l -му шарі;
( )l
im — агреговане повідомлен-
ня з (1); ( )lU — функція оновлення (MLP з функцією активації ReLU (Rectified
Linear Unit — зрізаний лінійний вузол)).
Рис. 3
Мультиагентна проксимальна оптимізація політики [9] функціонує як алго-
ритм мультиагентного навчання з централізованою оцінкою та децентралізовани-
ми діями. В контексті оптимізації квантових схем кожен агент відповідає за локаль-
ну частину DAG-подання схеми та приймає рішення щодо трансформації. Цей
метод обрано за його здатність до масштабування на велику кількість агентів; він
підтримує часткову спостережуваність і забезпечує стабільне навчання завдяки
функції втрат. Унаслідок поєднання з MPNN кожен агент отримує узагальнене
подання квантової схеми, що робить рішення більш інформованими та узгодже-
ними на глобальному рівні.
Агент отримує вхідні дані як векторні подання вузлів, що обчислюються
GNN. Нейронна мережа з передачею повідомлень виконує їх агрегацію між суміж-
ними вузлами DAG та оновлює векторні подання, що кожному агенту дає змогу
q
0
q
1
H
H
H
H
GNN
Нова схема
q
2
q
3
H
H
H
H
H
H
H
H
DAG
Агент N Агент 2 Агент 1
q
0
q
1
q
2
q
3
Дія 1 Дія 2 Дія N
Селектор
трансформацій
Критик Нагорода
Оновлення
політики
Міжнародний науково-технічний журнал
Проблеми керування та інформатики, 2025, № 4 113
мати контекстну інформацію про оточення. Використовуючи ці векторні подання
ih як вхід для політики θ ,
i
агент обирає дію стохастично: θ~ ( | ),
ii i ia a h де
ia A — обрана дія; θi — параметри політики агента. Дії всіх агентів надсила-
ються в селектор трансформацій, у якому узгоджені зміни застосовуються до
DAG, і формується нова квантова схема. Централізований критик ( )V s отримує
повний DAG і обчислює спільну винагороду :tr
1 1 1) ) ),( ( (t t t t t t tr size size depth depth CXcount CXcount− − −= − + − + −
~
0
( )
T
t
a t
t
V s E r
=
.
Після цього він оновлює політики агентів за допомогою обмеженої функції втрат
PPO:
(ˆ ˆ( ) [min ( ( ) , ( ),1 ,1 ) ],)Clip
t t t t tL E r A clip r A = − +
θ
( | )
( ) ,
( | )
old
i i
t
i i
a s
r
a h
=
0
ˆ ( ) ,l
t t l
l
A
+
=
=
1( ( .) )t t t tr V s V s+ = + −
Гіперпараметри, використані для навчання агентів у межах MAPPO, наведено
в табл. 1.
Таблиця 1
Гіперпараметр
Попереднє навчання
(pre-training)
Тонке налаштування
(fine-tuning)
Кількість шарів GNN 4 4
Кількість епох GNN 20 12
Розмір векторних подань
(embedding size)
64 64
Кількість акторів
(number actors)
16 16
Кількість епох
(number epochs)
5 10
Коефіцієнт знижки ()
(discount ())
0,98 0,98
Коефіцієнт відсікання 𝜖
(clipping parameter 𝜖)
0,2 0,1
Оцінки переваги
(advantage estimation)
0,95 0,99
Коефіцієнт ентропії
(entropy coefficient)
0,01 0,005
Результати дослідження
Для перевірки та оцінки запропонованого підходу (в табл. 2–7 вказаний як
«MAQCO») застосовано такий самий набір тестів продуктивності квантових схем,
як і в [4, 6, 12–14]; MAQCO порівнюється з іншими відомими оптимізаторами:
VOQC (Verified Optimizer for Quantum Circuits — перевірений оптимізатор кван-
тових схем) [13], Qiskit [15], Tket [16], Quartz [4] та Quarl [3]. Метод апробо-
вано на двох різних наборах вентилів для перевірки ефективності (Nam [11] :
{ , , , }CX Rz H X ; IBM [12]: { , , , }).CX Rz X SX Оцінювання здійснено за трьо-
114 ISSN 2786-6491
ма метриками: загальною кількістю вентилів (див. табл. 2 та 5), кількістю венти-
лів CX (див. табл. 3 та 6) та глибиною схеми (див. табл. 4 та 7). Для загальної оцін-
ки ефективність обчислено за формулою
1/
0
,1
N
N
i
ii
y
GMR
x=
= −
(2)
де x — базова кількість вентилів квантової схеми; y — оптимізована кількість
вентилів квантової схеми.
Мультиагентний оптимізатор квантової схеми демонструє (див. табл. 2) або
кращі результати порівняно з оптимізаторами Quarl та Quartz, або співставні з ни-
ми на більшості схем. Зокрема, за допомогою MAQCO на схемах mod5_4,
vbe_adder_3, barenco_tof_5 та adder_8 більш суттєво зменшено кількість вентилів
порівняно з іншими методами. Значення 0,325 демонструє високу середню ефек-
тивність (рис. 4), поступаючись лише Quarl (0,352), але має кращу узгодженість за
складними схемами.
Таблиця 2
Загальна кількість вентилів (набір вентилів Nam)
Схема Оригінал Nam VOQC Qiskit Tket Quartz Quarl MAQCO
tof_3 45 35 35 43 39 35 33 33
barenco_tof_3 58 40 40 54 49 40 35 36
mod5_4 63 51 51 61 57 37 24 29
tof_4 75 55 55 71 64 51 51 51
barenco_tof_4 114 72 72 106 97 72 62 66
tof_5 105 75 75 99 89 75 69 71
mod_mult_55 119 91 92 115 103 90 84 86
vbe_adder_3 150 89 89 189 130 89 71 79
barenco_tof_5 170 104 104 158 145 104 90 96
csla_mux_3 170 155 158 249 149 148 141 143
rc_adder_6 200 140 152 226 172 152 134 142
gf2ˆ4_mult 225 187 186 212 205 176 160 167
tof_10 255 175 175 239 214 175 169 171
mod_red_21 278 180 184 256 223 198 179 187
hwb6 259 — 209 258 217 214 250 231
gf2ˆ5_mult 347 296 287 327 319 274 257 264
csum_mux_9 420 266 280 420 365 256 224 239
barenco_tof_10 450 264 264 418 385 264 236 249
qcla_com_7 443 284 269 498 377 288 258 272
ham15-low 443 — 348 421 392 360 323 340
gf2ˆ6_mult 495 403 401 464 453 391 352 370
qcla_adder_10 521 399 416 630 444 404 380 391
gf2ˆ7_mult 669 555 543 627 614 531 484 506
gf2ˆ8_mult 883 712 706 819 806 703 648 674
qcla_mod_7 884 624 678 933 759 652 629 639
adder_8 900 606 596 1001 802 624 560 591
GMR — 0,261 0,270 – 0,006 0,131 0,285 0,352 0,325
Міжнародний науково-технічний журнал
Проблеми керування та інформатики, 2025, № 4 115
Рис. 4
Кількість CX-вентилів мультиагентний оптимізатор квантової схеми зменшує
краще (див. табл. 3), ніж більшість інших рішень (рис. 5). Значення 0,280 демонс-
трує суттєве зменшення кількості дорогоцінних двокубітних вентилів (CX), що
критично важливо для фізичних реалізацій.
Таблиця 3
Кількість вентилів CX (набір вентилів Nam)
Схема Оригінал Nam VOQC Qiskit Tket Quartz Quarl MAQCO
tof_3 18 14 14 18 18 14 12 12
barenco_tof_3 24 18 18 24 24 18 13 15
mod5_4 28 28 28 28 28 20 13 16
tof_4 30 22 22 30 30 22 18 19
barenco_tof_4 48 48 34 48 48 34 24 28
tof_5 42 30 30 42 42 30 24 26
mod_mult_55 48 40 42 48 48 39 37 37
vbe_adder_3 70 50 50 62 62 44 32 37
barenco_tof_5 72 50 50 72 72 50 36 42
csla_mux_3 80 70 74 71 71 70 63 66
rc_adder_6 93 71 71 81 81 71 61 65
gf2ˆ4_mult 99 99 99 99 99 95 79 86
tof_10 102 70 70 102 102 70 64 66
mod_red_21 105 81 81 105 104 81 105 92
hwb6 116 — 104 115 111 99 86 92
gf2ˆ5_mult 154 154 154 154 154 149 132 140
csum_mux_9 168 140 140 168 168 140 112 125
barenco_tof_10 192 130 130 192 192 130 102 115
qcla_com_7 186 132 132 174 174 127 111 118
ham15-low 236 — 210 236 225 209 185 196
gf2ˆ6_mult 221 221 221 221 221 221 182 201
qcla_adder_10 233 183 199 213 205 187 165 175
gf2ˆ7_mult 300 300 300 300 300 300 253 276
gf2ˆ8_mult 405 405 405 405 402 405 364 384
qcla_mod_7 382 292 328 366 366 307 285 295
adder_8 409 291 301 385 383 305 265 284
GMR — 0,183 0,178 0,025 0,030 0,206 0,331 0,280
– 0,05
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
Nam[11] VOQC[10] Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO
116 ISSN 2786-6491
Рис. 5
Мультиагентний оптимізатор квантової схеми посідає друге місце (див. табл. 4,
рис. 6) після Quarl, що свідчить про високу здатність пропонованого методу змен-
шувати час виконання квантових алгоритмів.
Таблиця 4
Глибина схеми (набір вентилів Nam)
Схема Оригінал Nam VOQC Qiskit Tket Quartz Quarl MAQCO
tof_3 33 31 31 33 31 31 25 27
barenco_tof_3 45 38 39 45 42 37 34 35
mod5_4 52 46 46 52 51 29 18 23
tof_4 54 46 46 54 50 46 40 42
barenco_tof_4 87 68 70 87 80 64 56 59
tof_5 75 61 61 75 69 61 47 53
mod_mult_55 55 47 50 54 51 45 48 46
vbe_adder_3 90 58 60 96 81 60 42 50
barenco_tof_5 129 95 98 129 118 90 87 88
csla_mux_3 72 63 68 84 64 62 61 61
rc_adder_6 111 83 95 111 97 90 88 88
gf2ˆ4_mult 112 102 102 110 108 105 81 92
tof_10 180 136 136 180 164 136 121 128
mod_red_21 176 129 135 173 150 146 135 140
hwb6 178 — 153 177 157 147 130 138
gf2ˆ5_mult 146 132 131 142 141 135 133 133
csum_mux_9 64 47 46 64 61 55 70 62
barenco_tof_10 339 230 238 339 308 228 249 238
qcla_com_7 94 70 67 99 88 66 63 64
ham15-low 285 — 245 283 258 250 209 229
gf2ˆ6_mult 184 166 166 180 178 165 186 175
qcla_adder_10 84 63 67 89 78 65 75 69
gf2ˆ7_mult 220 199 196 220 213 197 245 220
gf2ˆ8_mult 262 233 235 255 253 235 315 274
qcla_mod_7 229 184 199 231 211 195 205 199
adder_8 259 193 196 264 243 199 217 207
GMR — 0,181 0,173 – 0,008 0,074 0,196 0,234 0,220
– 0,05
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
Nam[11] VOQC[10] Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO
Міжнародний науково-технічний журнал
Проблеми керування та інформатики, 2025, № 4 117
Рис. 6
Найкращі результати мультиагентний оптимізатор квантової схеми демонст-
рує (див. табл. 5) зі значенням 0,278, яке наближається до Quarl (0,358) і виперед-
жає (рис. 7) всі класичні компілятори (Qiskit, Tket). Особливо ефективно MAQCO
працює на схемах із великою кількістю вентилів (adder_8, portfolioqaoa_8).
Таблиця 5
Загальна кількість вентилів (набір вентилів IBM)
Схема Оригінал Qiskit Tket Quartz Quarl MAQCO
tof_3 53 51 51 42 39 40
barenco_tof_3 65 61 61 52 42 46
mod5_4 71 69 69 62 50 55
tof_4 88 84 84 67 62 64
barenco_tof_4 123 117 117 92 85 88
tof_5 125 117 117 99 75 86
mod_mult_55 140 135 145 114 100 106
vbe_adder_3 165 186 159 124 82 102
barenco_tof_5 185 173 173 146 108 126
csla_mux_3 200 235 188 181 164 172
rc_adder_6 229 250 277 189 164 176
gf2ˆ4_mult 246 232 232 229 192 210
tof_10 287 281 282 272 208 239
mod_red_21 294 279 317 292 204 247
hwb6 298 282 282 217 203 209
gf2ˆ5_mult 374 353 353 372 295 333
csum_mux_9 459 453 474 459 318 388
barenco_tof_10 485 453 453 482 278 379
qcla_com_7 485 456 455 480 366 422
ham15-low 486 511 486 470 304 386
gf2ˆ6_mult 528 496 496 528 422 474
qcla_adder_10 587 636 556 586 412 498
gf2ˆ7_mult 708 665 665 708 573 640
gf2ˆ8_mult 928 864 861 923 821 871
qcla_mod_7 982 980 933 978 746 861
adder_8 1004 1010 1169 997 685 840
– 0,05
0,00
0,05
0,10
0,15
0,20
0,25
Nam[11] VOQC[10] Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO
118 ISSN 2786-6491
Продовження таблиці 5
vqe_8 199 91 93 92 89 90
qgan_8 256 114 98 100 81 90
qaoa_8 284 211 159 157 163 159
ae_8 502 350 283 373 305 338
qpeexact_8 555 373 286 371 326 348
qpeinexact_8 571 381 312 381 332 356
qft_8 578 392 262 326 298 311
qftentangled_8 647 415 295 489 332 410
portfoliovqe_8 708 288 232 359 202 280
portfolioqaoa_8 1352 975 712 1207 806 1006
GMR — 0,140 0,196 0,194 0,358 0,278
Рис. 7
Мультиагентний оптимізатор квантової схеми зменшує кількість вентилів CX
ефективніше (див. табл. 6, рис. 8), ніж Quartz та Qiskit (0,147), і поступається лише
Quarl (0,208), що підтверджує релевантність використання GNN для врахування
контексту вентилів під час трансформації.
Таблиця 6
Кількість вентилів CX (набір вентилів IBM)
Схема Оригінал Qiskit Tket Quartz Quarl MAQCO
tof_3 18 18 18 14 14 14
barenco_tof_3 24 24 24 20 16 17
mod5_4 28 28 28 27 22 24
tof_4 30 30 30 22 22 22
barenco_tof_4 42 42 42 30 30 29
tof_5 48 48 48 40 30 34
mod_mult_55 48 48 48 41 39 39
vbe_adder_3 70 62 62 50 36 42
barenco_tof_5 72 72 72 60 44 51
csla_mux_3 80 71 71 72 65 68
rc_adder_6 93 81 81 75 71 72
gf2ˆ4_mult 99 99 99 99 84 91
tof_10 116 115 111 114 85 99
0,00
0,10
0,05
0,15
0,20
0,25
Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO
0,30
0,35
0,40
Міжнародний науково-технічний журнал
Проблеми керування та інформатики, 2025, № 4 119
Продовження таблиці 6
mod_red_21 105 105 104 105 77 90
hwb6 102 102 102 70 70 70
gf2ˆ5_mult 154 154 154 154 135 144
csum_mux_9 168 168 168 168 140 153
barenco_tof_10 192 192 192 192 116 153
qcla_com_7 236 236 225 234 188 210
ham15-low 186 174 174 174 119 146
gf2ˆ6_mult 221 221 221 221 198 209
qcla_adder_10 233 213 205 232 164 197
gf2ˆ7_mult 300 300 300 300 273 286
gf2ˆ8_mult 405 405 402 403 392 397
qcla_mod_7 382 366 366 382 308 344
adder_8 409 385 383 405 283 343
vqe_8 14 14 14 14 14 14
qgan_8 28 28 28 26 18 21
qaoa_8 32 32 32 32 32 32
ae_8 56 56 56 56 56 56
qpeexact_8 64 64 55 64 63 63
qpeinexact_8 65 65 56 65 65 65
qft_8 68 68 56 67 67 67
qftentangled_8 75 75 61 75 75 75
portfoliovqe_8 84 84 84 84 54 68
portfolioqaoa_8 168 168 168 168 161 164
GMR — 0,017 0,040 0,075 0,208 0,147
Рис. 8
0,00
0,10
0,05
0,15
0,20
0,25
Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO
120 ISSN 2786-6491
Цей оптимізатор квантової схеми досягає значення 0,175 (див. табл. 7), що
вище за значення Tket та Qiskit (рис. 9); це свідчить про баланс між скорочен-
ням кількості вентилів і збереженням глибини.
Таблиця 7
Глибина схеми (набір вентилів IBM)
Схема Оригінал Qiskit Tket Quartz Quarl MAQCO
tof_3 37 37 37 32 32 32
barenco_tof_3 50 50 50 40 39 39
mod5_4 57 57 57 52 47 49
tof_4 60 60 60 47 47 47
barenco_tof_4 83 83 83 64 61 62
tof_5 96 96 96 80 67 73
mod_mult_55 60 58 61 55 52 53
vbe_adder_3 98 99 93 73 48 60
barenco_tof_5 142 142 142 119 94 106
csla_mux_3 80 83 75 84 65 74
rc_adder_6 124 119 125 109 92 100
gf2ˆ4_mult 117 115 114 118 95 106
tof_10 186 183 189 188 131 159
mod_red_21 183 178 201 183 128 155
hwb6 198 198 198 149 140 144
gf2ˆ5_mult 148 144 143 149 138 143
csum_mux_9 68 68 77 68 84 75
barenco_tof_10 372 372 372 376 249 312
qcla_com_7 310 298 288 300 235 267
ham15-low 98 100 97 95 78 86
gf2ˆ6_mult 189 185 184 189 197 192
qcla_adder_10 89 92 84 89 77 82
gf2ˆ7_mult 225 220 219 225 248 236
gf2ˆ8_mult 267 260 259 268 312 289
qcla_mod_7 241 241 235 238 250 243
adder_8 278 274 318 275 208 241
vqe_8 69 20 27 24 28 25
qgan_8 60 31 30 45 34 39
qaoa_8 56 45 42 48 51 49
ae_8 193 143 136 175 142 158
qpeexact_8 199 140 132 160 149 154
qpeinexact_8 212 144 146 165 156 160
qft_8 170 115 108 131 120 125
qftentangled_8 184 121 153 162 129 145
portfoliovqe_8 151 67 61 86 100 92
portfolioqaoa_8 300 232 216 288 305 296
GMR — 0,132 0,125 0,130 0,215 0,175
Міжнародний науково-технічний журнал
Проблеми керування та інформатики, 2025, № 4 121
Рис. 9
Отже, підхід MAQCO демонструє стабільне скорочення кількості вентилів у
квантових схемах на обох наборах вентилів — Nam та IBM. Метод дає змогу пе-
ревершити показники класичних компіляторів (Qiskit, Tket) і наблизитися до по-
казників сучасних оптимізаторів, таких як Quartz та Quarl. Середня ефективність
MAQCO щодо зменшення загальної кількості вентилів є однією з найвищих серед
протестованих методів. Особливо помітне зменшення досягається у складних
схемах з великою кількістю вентилів, таких як adder_8 чи portfolioqaoa_8. Мульти-
агентний оптимізатор квантової схеми також ефективно скорочує кількість CX-вен-
тилів, що критично важливо для зменшення кількості фізичних помилок. За гли-
биною схем MAQCO показує збалансовані результати, що забезпечує конкурент-
ну паралелізацію обчислень. Мультиагентна архітектура дає змогу враховувати
локальний контекст і взаємодію агентів під час вибору трансформацій. Інтеграція
GNN дає агентам можливість отримати глобальне уявлення про структуру схеми.
Підхід демонструє хорошу масштабованість і адаптивність до різних типів схем.
Отже, MAQCO — це перспективний метод оптимізації квантових схем для сучас-
них і майбутніх квантових обчислювальних платформ.
Висновок
Запропонований для оптимізації квантових схем (MAQCO) метод MARL де-
монструє високі результати за всіма ключовими метриками — зменшення загаль-
ної кількості одно- та двокубітних CX-вентилів і глибини схем. Порівняно з кла-
сичними компіляторами (Qiskit, Tket) та сучасними підходами на основі навчання
з підкріпленням (Quarl) MAQCO забезпечує кращу або співставну ефективність,
особливо у складних схемах.
Результати застосування методу підтверджують ефективність мультиагентної
архітектури. На відміну від підходів, які ґрунтуються на одноагентному навчанні
(як у Quarl або AlphaTensor, у яких є труднощі, по’вязані з масштабуванням та ко-
ординацією дій), MAQCO дає змогу розподілити завдання між спеціалізованими
агентами. Це відповідає висновкам авторів роботи [9], які продемонстрували ефек-
тивність MAPPO у кооперативних сценаріях.
Інтеграція GNN дає можливість враховувати локальні та глобальні контексти
під час вибору трансформацій. Це підтверджує ефективність її використання для
оптимізації графових структур, зокрема квантових схем, що також узгоджується
з підходами, реалізованими у Quanto та PyZX.
Дослідницькі завдання, окреслені у вступі (розробка мультиагентної ар-
хітектури, інтеграція GNN та експериментальне оцінювання), повністю вико-
0,00
0,10
0,05
0,15
0,20
0,25
Qiskit [12] Tket [13] Quartz [4] Quarl [3] MAQCO
122 ISSN 2786-6491
нані. Проведено порівняння з шістьма відомими оптимізаторами, що забезпе-
чує об’єктивність результатів. Ефективність GMR (2) щодо кількості вентилів
для MAQCO (0,325 — Nam та 0,278 — IBM) свідчить про стабільність методу.
Практичне значення MAQCO полягає в тому, що він дає змогу скорочувати
кількість операцій у квантових схемах без втрати функціональності, що знижує
ймовірність виникнення помилок у фізичних реалізаціях. Зменшення кількості
CX-вентилів, які є критичними з погляду фізичних ресурсів, підтверджує доці-
льність застосування MAQCO на реальних пристроях NISQ (Noisy Intermediate-
Scale Quantum — шумні квантові (пристрої) проміжного масштабу).
Перспективи подальших досліджень такі.
1. Масштабування на великі квантові схеми з тисячами вентилів, інтеграція
адаптивних стратегій вибору агентів та підсхем і використання комбінованого
простору ECC та ZX-перетворень.
2. Адаптація MAQCO до оптимізацій на апаратному рівні, зокрема для роз-
поділених квантових обчислювальних архітектур, у яких враховуються топо-
логічні обмеження, комунікаційні витрати між вузлами та розподілена коор-
динація агентів.
Отже, MAQCO — вагомий внесок у розвиток адаптивної квантової компіля-
ції з поєднанням сильних сторін MARL та GNN і демонстрація реальних перспек-
тив для впровадження в інструменти оптимізації квантових програм.
I. Kyrylov, I. Sinitsyn
MULTI-AGENT REINFORCEMENT LEARNING
FOR QUANTUM CIRCUIT OPTIMIZATION
Ivan Kyrylov
Institute of Software System, Kyiv,
ivan.kyrylov.science@gmail.com,
Igor Sinitsyn
Institute of Software System, Kyiv,
ips@nas.gov.ua
The article presents an approach to quantum circuit optimization based on
Multi-Agent Reinforcement Learning (MARL), which integrates the MAPPO
algorithm with Graph Neural Networks (GNNs). The relevance of the re-
search stems from the need to reduce gate counts and circuit depth in quan-
tum compilation to enhance noise resilience and execution efficiency on
current quantum devices. Unlike traditional single-agent approaches, the
proposed architecture, MAQCO (Multi-Agent Quantum Circuit Optimizer),
enables task distribution among agents, facilitating better scalability, coor-
dination, and consideration of the local context of the circuit. The optimiza-
tion process is implemented using equivalence-preserving transformations
from the Quartz system, allowing simplification of circuits without altering
their functionality. Experimental evaluation on benchmark circuits using
Nam and IBM gate sets demonstrates that MAQCO achieves superior or
comparable results to state-of-the-art optimizers such as Quarl and Quartz,
particularly in reducing total gate count, CNOT (CX) gates, and circuit
depth. Future research directions include scaling MAQCO to larger circuits,
integrating ECC and ZX-based transformations, and adapting the method for
hardware-aware optimization on distributed quantum architectures, taking
into account topology constraints and communication costs.
Keywords: gate count minimization, quantum compilation, quantum computing.
Міжнародний науково-технічний журнал
Проблеми керування та інформатики, 2025, № 4 123
ПОСИЛАННЯ
1. A comprehensive review of quantum circuit optimization: current trends and future directions /
K. Karuppasamy, V. Puram, S. Johnson, J.P. Thomas. Quantum Reports. 2025. Vol. 7, N 1. P. 2.
DOI: https://doi.org/10.3390/quantum7010002
2. Quantum circuit optimization with AlphaTensor / F.J.R. Ruiz, T. Laakkonen, J. Bausch, M. Ba-
log, M. Barekatain et al. Nature Machine Intelligence. 2025. Vol. 7, N 3. P. 374–385. DOI:
https://doi.org/10.1038/s42256-025-01001-1
3. Quarl: a learning-based quantum circuit optimizer / Z. Li, J. Peng, Y. Mei, S. Lin et al. arXiv.
2023. DOI: https://doi.org/10.48550/arXiv.2307.10120
4. Quartz: superoptimization of quantum circuits (extended version) / M. Xu, Z. Li, O. Padon, S. Lin
et al. arXiv. 2022. DOI: https://doi.org/10.48550/arXiv.2204.09033
5. Quanto: optimizing quantum circuits with automatic generation of circuit identities / J. Pointing,
O. Padon, Z. Jia, H. Ma et al. arXiv. 2021. DOI: https://doi.org/10.48550/arXiv.2111.11387
6. Kissinger A., Wetering J. van de. PyZX: large scale automated diagrammatic reasoning. Electro-
nic Proceedings in Theoretical Computer Science. 2020. Vol. 318. P. 229–241. DOI: https://
doi.org/10.4204/EPTCS.318.14
7. Jeandel E., Perdrix S., Vilmart R. A complete axiomatisation of the ZX-calculus for Clifford+T
quantum mechanics. Proceedings of the 33rd Annual ACM/IEEE Symposium on Logic in Com-
puter Science. New York, NY, USA : Association for Computing Machinery, 2018. P. 559–568.
DOI: https://doi.org/10.1145/3209108.3209131
8. Reinforcement learning for optimization of variational quantum circuit architectures / M. Osta-
szewski, L.M. Trenkwalder, W. Masarczyk, E. Scerri, V. Dunjko. arXiv. 2021. DOI: https://doi.org/
10.48550/arXiv.2103.16089
9. The surprising effectiveness of PPO in cooperative, multi-agent games / C. Yu, A. Velu, E. Vinit-
sky, J. Gao et al. arXiv. 2022. DOI: https://doi.org/10.48550/arXiv.2103.01955
10. The graph neural network model / F. Scarselli, M. Gori, A.C. Tsoi, M. Hagenbuchner, G. Mon-
fardini. IEEE Transactions on Neural Networks. 2009. Vol. 20, N 1. P. 61–80. DOI: https://
doi.org/10.1109/TNN.2008.2005605
11. Neural message passing for quantum chemistry / J. Gilmer, S.S. Schoenholz, P.F. Riley, O. Vinyals,
G.E. Dahl. arXiv. 2017. DOI: https://doi.org/10.48550/arXiv.1704.01212
12. Amy M., Maslov D., Mosca M. Polynomial-time T-depth optimization of Clifford+T circuits via
matroid partitioning. IEEE Transactions on Computer-Aided Design of Integrated Circuits and
Systems. 2014. Vol. 33, N 10. P. 1476–1489. DOI: https://doi.org/10.1109/TCAD.2014.2341953
13. A verified optimizer for Quantum circuits / K. Hietala, R. Rand, S.-H. Hung, X. Wu, M. Hicks.
2021. Vol. 5, N 37. P. 1–29. DOI: https://doi.org/10.1145/3434318
14. Automated optimization of large quantum circuits with continuous parameters / Y. Nam,
N.J. Ross, Y. Su, A.M. Childs, D. Maslov. npj Quantum Information. 2018. Vol. 4, N 1. P. 23.
DOI: https://doi.org/10.1038/s41534-018-0072-4
15. Qiskit: an open-source framework for quantum computing / G. Aleksandrowicz, T. Alexander,
P. Barkoutsos, L. Bello et al. Zenodo. 2019. Version 0.7.2. DOI: https://doi.org/10.5281/zenodo.
2562111
16. t|ket⟩: a retargetable compiler for NISQ devices / S. Sivarajah, S. Dilkes, A. Cowtan, W. Sim-
mons et al. Quantum Science and Technology. 2021. Vol. 6, N 1. P. 014003. DOI: https://doi.
org/10.1088/2058-9565/ab8e92
Отримано 30.06.2025
https://doi.org/10.1038/s41534-018-0072-4
|
| id | nasplib_isofts_kiev_ua-123456789-211413 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 0572-2691 |
| language | Ukrainian |
| last_indexed | 2026-03-16T11:49:25Z |
| publishDate | 2025 |
| publisher | Інститут кібернетики ім. В.М. Глушкова НАН України |
| record_format | dspace |
| spelling | Кирилов, І.І. Сініцин, І.П. 2026-01-01T22:52:07Z 2025 Мультиагентне навчання з підкріпленням для оптимізації квантових схем / І.І. Кирилов, І.П. Сініцин // Проблемы управления и информатики. — 2025. — № 4. — С. 109-123. — Бібліогр.: 16 назв. — укр. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/211413 004.4ʼ427 004.4ʼ416 10.34229/1028-0979-2025-4-7 У статті представлено підхід до оптимізації квантових схем на основі мультиагентного навчання з підкріпленням (Multi-Agent Reinforcement Learning — MARL), у якому алгоритм MAPPO (Multi-Agent Proximal Policy Optimization — мультиагентна проксимальна оптимізація політики) поєднується з графовими нейронними мережами (Graph Neural Networks — GNN). Актуальність дослідження зумовлена необхідністю зменшення кількості вентилів і глибини схем у квантовій компіляції задля підвищення стійкості до шумів та ефективності виконання алгоритмів на сучасних квантових пристроях. The article presents an approach to quantum circuit optimization based on Multi-Agent Reinforcement Learning (MARL), which integrates the MAPPO algorithm with Graph Neural Networks (GNNs). The relevance of the research stems from the need to reduce gate counts and circuit depth in quantum compilation to enhance noise resilience and execution efficiency on current quantum devices. uk Інститут кібернетики ім. В.М. Глушкова НАН України Проблеми керування та інформатики Роботи та системи штучного інтелекту Мультиагентне навчання з підкріпленням для оптимізації квантових схем Multi-agent reinforcement learning for quantum circuit optimization Article published earlier |
| spellingShingle | Мультиагентне навчання з підкріпленням для оптимізації квантових схем Кирилов, І.І. Сініцин, І.П. Роботи та системи штучного інтелекту |
| title | Мультиагентне навчання з підкріпленням для оптимізації квантових схем |
| title_alt | Multi-agent reinforcement learning for quantum circuit optimization |
| title_full | Мультиагентне навчання з підкріпленням для оптимізації квантових схем |
| title_fullStr | Мультиагентне навчання з підкріпленням для оптимізації квантових схем |
| title_full_unstemmed | Мультиагентне навчання з підкріпленням для оптимізації квантових схем |
| title_short | Мультиагентне навчання з підкріпленням для оптимізації квантових схем |
| title_sort | мультиагентне навчання з підкріпленням для оптимізації квантових схем |
| topic | Роботи та системи штучного інтелекту |
| topic_facet | Роботи та системи штучного інтелекту |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/211413 |
| work_keys_str_mv | AT kirilovíí mulʹtiagentnenavčannâzpídkríplennâmdlâoptimízacííkvantovihshem AT síníciníp mulʹtiagentnenavčannâzpídkríplennâmdlâoptimízacííkvantovihshem AT kirilovíí multiagentreinforcementlearningforquantumcircuitoptimization AT síníciníp multiagentreinforcementlearningforquantumcircuitoptimization |