Integration of large language models with semantic processing tools as an instrument for knowledge digitization
The paper addresses the task of automating the analysis, generation, and management of complex natural language documents based on the integration of generative artificial intelligence with semantic technologies, in particular Semantic MediaWiki. It analyzes how the use of ontological models of subj...
Збережено в:
| Дата: | 2025 |
|---|---|
| Автори: | , , |
| Формат: | Стаття |
| Мова: | Ukrainian |
| Опубліковано: |
PROBLEMS IN PROGRAMMING
2025
|
| Теми: | |
| Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/838 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Problems in programming |
| Завантажити файл: | |
Репозитарії
Problems in programming| id |
pp_isofts_kiev_ua-article-838 |
|---|---|
| record_format |
ojs |
| resource_txt_mv |
ppisoftskievua/b6/b11d6de0433668a2e73d561998f7fcb6.pdf |
| spelling |
pp_isofts_kiev_ua-article-8382025-11-03T11:01:51Z Integration of large language models with semantic processing tools as an instrument for knowledge digitization Інтеграція великих мовних моделей із засобами семантичної обробки як інструмент цифровізації знань Sinitsyn, I.P. Rogushina, J.V. Yurchenko, K.Yu. agent technologies; large language models; LLM; Semantic MediaWiki; semantic technologies; knowledge base; formalized documents UDC 004.8:004.724 агентні технології; великі мовні моделі; LLM; Semantic MediaWiki; семантичні технології; база знань; формалізовані документи УДК 004.8:004.724 The paper addresses the task of automating the analysis, generation, and management of complex natural language documents based on the integration of generative artificial intelligence with semantic technologies, in particular Semantic MediaWiki. It analyzes how the use of ontological models of subject domains and semantic markup makes it possible to prevent such critical shortcomings of large language models as the tendency to “hallucinations” (generation of false statements) and the lack of transparency in decision explanations. This integration is explored using the example of the instrumental system “LINZA,” which is being developed for automated intelligent processing of content from heterogeneous documents with complex and weakly formalized structure, with the aim of generating natural language reports according to specified requirements in various domains, such as public administration, jurisprudence, certification, and standardization. The system is based on the combination of the flexibility and adaptability of large language models with formalized ontological knowledge and support for semantic queries about pertinent facts in the Semantic MediaWiki environment or external sources (Retrieval-Augmented Generation). The proposed approach will significantly reduce the risks of typical errors in generative models and ensure factual accuracy and transparency in the decision-making process. Special attention is paid to mechanisms of transparency, reliability, and the possibility of human control to increase trust in the generated data, which is especially important in areas with high information security requirements, and ensures greater confidence in automatically created documents. The multi-level architecture of the system defines the tasks of agents and services that perform specialized functions of data collection, analysis, transformation, and verification, and ensures flexibility, scalability, and adaptability of the system to changes in input data and requirements.Problems in programming 2025; 2: 63-76 У роботі розглядається задача автоматизації аналізу, генерації та управління складними природномов ними документами на основі інтеграції генеративного штучного інтелекту із семантичними технологі ями, зокрема, Semantic MediaWiki. Аналізується, яким чином застосування онтологічних моделей пре дметних областей та семантичної розмітки дозволяє запобігати таким критичним недолікам великих мовних моделей, як схильність до "галюцинацій" (генерації неправдивих тверджень) та відсутність прозорості у поясненні рішень. Така інтеграція досліджується на прикладі інструментальної системи “ЛІНЗА”, яка розробляється для автоматизованої інтелектуальної обробки контенту розрізнених документів зі складною слабоформалі зованою структурою з метою генерації природномовних звітів за заданими вимогами у різних галузях, таких як публічне адміністрування, юриспруденція, цифровізації знань, сертифікація та стандартизація. Система базується на поєднанні гнучкості та адаптивності великих мовних моделей із формалізовани ми онтологічними знаннями та підтримкою семантичних запитів щодо пертинентних фактів у середо вищі Semantic MediaWiki, або зовнішніх джерел (Retrieval-Augmented Generation). Запропонований під хід дозволить значно знизити ризики помилок, типових для генеративних моделей, та забезпечити фак тичну правдивість і прозорість процесу ухвалення рішень. Особлива увага приділяється механізмам прозорості, достовірності та можливості контролю людиною для підвищення довіри до згенерованих даних, що особливо важливо у сферах із підвищеними вимогами до безпеки інформації. Такий підхід також забезпечує більшу довіру до автоматично створених документів. Багаторівнева архітектура системи характеризує задачі агентів і сервісів, що виконують спеціалізовані функції збору, аналізу, перетворення та перевірки даних, і забезпечує гнучкість, масштабованість та адаптивність системи до зміни вхідних даних і вимог.Problems in programming 2025; 2: 63-76 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-09-07 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/838 10.15407/pp2025.02.063 PROBLEMS IN PROGRAMMING; No 2 (2025); 63-76 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2 (2025); 63-76 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2 (2025); 63-76 1727-4907 10.15407/pp2025.02 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/838/889 Copyright (c) 2025 PROBLEMS IN PROGRAMMING |
| institution |
Problems in programming |
| baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| datestamp_date |
2025-11-03T11:01:51Z |
| collection |
OJS |
| language |
Ukrainian |
| topic |
agent technologies large language models LLM Semantic MediaWiki semantic technologies knowledge base formalized documents UDC 004.8:004.724 |
| spellingShingle |
agent technologies large language models LLM Semantic MediaWiki semantic technologies knowledge base formalized documents UDC 004.8:004.724 Sinitsyn, I.P. Rogushina, J.V. Yurchenko, K.Yu. Integration of large language models with semantic processing tools as an instrument for knowledge digitization |
| topic_facet |
agent technologies large language models LLM Semantic MediaWiki semantic technologies knowledge base formalized documents UDC 004.8:004.724 агентні технології великі мовні моделі LLM Semantic MediaWiki семантичні технології база знань формалізовані документи УДК 004.8:004.724 |
| format |
Article |
| author |
Sinitsyn, I.P. Rogushina, J.V. Yurchenko, K.Yu. |
| author_facet |
Sinitsyn, I.P. Rogushina, J.V. Yurchenko, K.Yu. |
| author_sort |
Sinitsyn, I.P. |
| title |
Integration of large language models with semantic processing tools as an instrument for knowledge digitization |
| title_short |
Integration of large language models with semantic processing tools as an instrument for knowledge digitization |
| title_full |
Integration of large language models with semantic processing tools as an instrument for knowledge digitization |
| title_fullStr |
Integration of large language models with semantic processing tools as an instrument for knowledge digitization |
| title_full_unstemmed |
Integration of large language models with semantic processing tools as an instrument for knowledge digitization |
| title_sort |
integration of large language models with semantic processing tools as an instrument for knowledge digitization |
| title_alt |
Інтеграція великих мовних моделей із засобами семантичної обробки як інструмент цифровізації знань |
| description |
The paper addresses the task of automating the analysis, generation, and management of complex natural language documents based on the integration of generative artificial intelligence with semantic technologies, in particular Semantic MediaWiki. It analyzes how the use of ontological models of subject domains and semantic markup makes it possible to prevent such critical shortcomings of large language models as the tendency to “hallucinations” (generation of false statements) and the lack of transparency in decision explanations. This integration is explored using the example of the instrumental system “LINZA,” which is being developed for automated intelligent processing of content from heterogeneous documents with complex and weakly formalized structure, with the aim of generating natural language reports according to specified requirements in various domains, such as public administration, jurisprudence, certification, and standardization. The system is based on the combination of the flexibility and adaptability of large language models with formalized ontological knowledge and support for semantic queries about pertinent facts in the Semantic MediaWiki environment or external sources (Retrieval-Augmented Generation). The proposed approach will significantly reduce the risks of typical errors in generative models and ensure factual accuracy and transparency in the decision-making process. Special attention is paid to mechanisms of transparency, reliability, and the possibility of human control to increase trust in the generated data, which is especially important in areas with high information security requirements, and ensures greater confidence in automatically created documents. The multi-level architecture of the system defines the tasks of agents and services that perform specialized functions of data collection, analysis, transformation, and verification, and ensures flexibility, scalability, and adaptability of the system to changes in input data and requirements.Problems in programming 2025; 2: 63-76 |
| publisher |
PROBLEMS IN PROGRAMMING |
| publishDate |
2025 |
| url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/838 |
| work_keys_str_mv |
AT sinitsynip integrationoflargelanguagemodelswithsemanticprocessingtoolsasaninstrumentforknowledgedigitization AT rogushinajv integrationoflargelanguagemodelswithsemanticprocessingtoolsasaninstrumentforknowledgedigitization AT yurchenkokyu integrationoflargelanguagemodelswithsemanticprocessingtoolsasaninstrumentforknowledgedigitization AT sinitsynip íntegracíâvelikihmovnihmodelejízzasobamisemantičnoíobrobkiâkínstrumentcifrovízacííznanʹ AT rogushinajv íntegracíâvelikihmovnihmodelejízzasobamisemantičnoíobrobkiâkínstrumentcifrovízacííznanʹ AT yurchenkokyu íntegracíâvelikihmovnihmodelejízzasobamisemantičnoíobrobkiâkínstrumentcifrovízacííznanʹ |
| first_indexed |
2025-09-17T09:25:08Z |
| last_indexed |
2025-11-04T02:10:23Z |
| _version_ |
1850410907671199744 |
| fulltext |
Семантик Веб та лінгвістичні системи
63
© І.П. Сініцин, Ю.В. Рогушина, К.Ю. Юрченко, 2025
ISSN 1727-4907. Проблеми програмування. 2025. №2
УДК 004.8:004.724 https://doi.org/10.15407/pp2025.02.063
І.П. Сініцин, Ю.В. Рогушина, К.Ю. Юрченко
ІНТЕГРАЦІЯ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ
ІЗ ЗАСОБАМИ СЕМАНТИЧНОЇ ОБРОБКИ ЯК ІНСТРУМЕНТ
ЦИФРОВІЗАЦІЇ ЗНАНЬ
У роботі розглядається задача автоматизації аналізу, генерації та управління складними природномов-
ними документами на основі інтеграції генеративного штучного інтелекту із семантичними технологі-
ями, зокрема, Semantic MediaWiki. Аналізується, яким чином застосування онтологічних моделей пре-
дметних областей та семантичної розмітки дозволяє запобігати таким критичним недолікам великих
мовних моделей, як схильність до "галюцинацій" (генерації неправдивих тверджень) та відсутність
прозорості у поясненні рішень.
Така інтеграція досліджується на прикладі інструментальної системи “ЛІНЗА”, яка розробляється для
автоматизованої інтелектуальної обробки контенту розрізнених документів зі складною слабоформалі-
зованою структурою з метою генерації природномовних звітів за заданими вимогами у різних галузях,
таких як публічне адміністрування, юриспруденція, цифровізації знань, сертифікація та стандартизація.
Система базується на поєднанні гнучкості та адаптивності великих мовних моделей із формалізовани-
ми онтологічними знаннями та підтримкою семантичних запитів щодо пертинентних фактів у середо-
вищі Semantic MediaWiki, або зовнішніх джерел (Retrieval-Augmented Generation). Запропонований під-
хід дозволить значно знизити ризики помилок, типових для генеративних моделей, та забезпечити фак-
тичну правдивість і прозорість процесу ухвалення рішень. Особлива увага приділяється механізмам
прозорості, достовірності та можливості контролю людиною для підвищення довіри до згенерованих
даних, що особливо важливо у сферах із підвищеними вимогами до безпеки інформації. Такий підхід
також забезпечує більшу довіру до автоматично створених документів.
Багаторівнева архітектура системи характеризує задачі агентів і сервісів, що виконують спеціалізовані
функції збору, аналізу, перетворення та перевірки даних, і забезпечує гнучкість, масштабованість та
адаптивність системи до зміни вхідних даних і вимог.
Ключові слова: агентні технології, великі мовні моделі, LLM, Semantic MediaWiki, семантичні техноло-
гії, база знань, формалізовані документи.
I.P. Sinitsyn, Yu.V. Rogushina, K.Yu. Yurchenko
INTEGRATION OF LARGE LANGUAGE MODELS
WITH SEMANTIC PROCESSING TOOLS AS AN INSTRUMENT
FOR KNOWLEDGE DIGITIZATION
The paper addresses the task of automating the analysis, generation, and management of complex natural
language documents based on the integration of generative artificial intelligence with semantic technologies, in
particular Semantic MediaWiki. It analyzes how the use of ontological models of subject domains and semantic
markup makes it possible to prevent such critical shortcomings of large language models as the tendency to
“hallucinations” (generation of false statements) and the lack of transparency in decision explanations.
This integration is explored using the example of the instrumental system “LINZA,” which is being developed
for automated intelligent processing of content from heterogeneous documents with complex and weakly
formalized structure, with the aim of generating natural language reports according to specified requirements in
various domains, such as public administration, jurisprudence, certification, and standardization. The system is
based on the combination of the flexibility and adaptability of large language models with formalized
ontological knowledge and support for semantic queries about pertinent facts in the Semantic MediaWiki
environment or external sources (Retrieval-Augmented Generation). The proposed approach will significantly
reduce the risks of typical errors in generative models and ensure factual accuracy and transparency in the
decision-making process.
Special attention is paid to mechanisms of transparency, reliability, and the possibility of human control to
increase trust in the generated data, which is especially important in areas with high information security
requirements, and ensures greater confidence in automatically created documents.
The multi-level architecture of the system defines the tasks of agents and services that perform specialized
functions of data collection, analysis, transformation, and verification, and ensures flexibility, scalability, and
adaptability of the system to changes in input data and requirements.
Семантик Веб та лінгвістичні системи
64
Keywords: agent technologies, large language models, LLM, Semantic MediaWiki, semantic technologies,
knowledge base, formalized documents.
Вступ
Сучасні інформаційні системи де-
далі частіше застосовують технології гене-
ративного штучного інтелекту (ГШІ) для
автоматизації рутинних завдань, зокрема,
створення, підтримки та адаптації докуме-
нтів. У цьому контексті особливої важли-
вості набуває розробка гібридних плат-
форм, що поєднують не лише швидке, а й
семантично узгоджене та перевірене гене-
рування документів на основі спеціального
підкласу ГШІ – великих мовних моделей
(Large Language Models, LLM) з перевіре-
ними структурами збереження знань [1].
Більшість наявних рішень, які зараз
використовують штучний інтелект для ав-
томатизованого формування документації,
обмежуються використанням шаблонів або
спрощених структур для опису потрібних
документів [2]. Але розвиток LLM-
моделей дозволяє створювати потужніші
системи зі значно ширшим функціоналом,
здатні генерувати комплексні, формалізо-
вані документи з поясненням логіки ухва-
лених рішень.
Значна частина чинних систем на
базі LLM базуються на графах знань або
векторних базах, що забезпечують лише
часткову семантичну підтримку [3]. Однак
такі підходи мають суттєві обмеження: во-
ни не завжди здатні пояснити результати
генерації, а використання LLM без конт-
ролю призводить до ризику появи "галю-
цинацій" — некоректних або вигаданих
даних [4].
Попри значні досягнення у галузі
обробки природної мови (ПМ), сучасні
LLM все ще виявляють певні слабкі сторо-
ни, особливо в роботі зі спеціалізованими
предметними областями (ПрО), що вико-
ристовують специфічну термінологію та
правила побудови документів.
Це пояснюється тим, що робота
LLM базується на виявленні статистичних
закономірностей у великих обсягах даних,
а для таких специфічних ПрО обсяг даних
для обробки може бути недостатнім (або ж
інформація, релевантна до цієї ПрО, не ви-
окремлена з усього масиву даних, що ана-
лізуються). Використання статистичних
моделей дозволяє LLM ефективно генеру-
вати стилістично коректні тексти, проте не
завжди забезпечує фактичну правдивість
та прозорість процесу ухвалення рішень.
Це може призвести до значних перешкод у
застосуванні LLM в тих сферах, де потрі-
бен високий ступінь довіри, аудит та мож-
ливість експертної інтервенції, зокрема, у
сфері підвищеної секретності.
З огляду на зазначені обмеження,
виникає об'єктивна необхідність у допов-
ненні можливостей LLM інструментами
менеджменту знань. Це передбачає ство-
рення гібридної архітектури, яка поєднує
різні технології обробки інформації для
досягнення синергетичного ефекту. LLM
можуть ефективно використовуватися для
первинного аналізу великих обсягів не-
структурованих текстових даних, іденти-
фікації ключових сутностей та формування
початкових версій документів. Системи
управління знаннями, такі як SMW, забез-
печать формалізоване представлення витя-
гнутих даних, дозволяючи їх структурова-
не зберігання, легке редагування, валіда-
цію експертами та побудову чітких логіч-
них висновків.
Формулювання задачі
У роботі аналізується доцільність
інтеграції семантичних технологій із вели-
кими мовними моделями LLM з метою ав-
томатизованого створення документів
складної структури на основі гетерогенних
даних – природномовних документів, таб-
лиць, баз даних та знань, онтологій та те-
заурусів ПрО, мультимедійної інформації
тощо. А також вимог щодо подання ре-
зультатів аналізу та відомостей про корис-
тувача. Результуючі документи мають від-
повідати формалізованим вимогам щодо
складу, логіки побудови та оформлення,
що визначаються нормативними або внут-
рішніми регламентами. Прикладами таких
задач є побудова спеціального профілю
захищеності інформаційної системи, уза-
Семантик Веб та лінгвістичні системи
65
гальнення досвіду діяльності в певній сфе-
рі та його впровадження, генерація персо-
нальної траєкторії навчання для здобувача
освіти.
Складність кожної конкретної зада-
чі залежить від ступеня формалізованості
вхідних даних (особливо – вимог до ре-
зультату); складності правил, за якими
елементи вхідних даних перетворюються
на елементи результуючих документів, та
від обсягу бази знань ПрО, яка потрібна
для побудови цих правил. Але, незалежно
від цього, всі подібні задачі потребують
однакового набору операцій над вхідними
даними (складність задачі впливає лише на
час аналізу), і тому для їх розв’язання до-
цільно створити універсальне інструмен-
тальне середовище, що підтримує весь по-
трібний функціонал. З огляду на те, що на-
бір задач може розширюватися, а інфор-
маційні потреби користувачів – ускладню-
ватись, доцільно передбачити можливості
гнучкого розширення архітектури такої
системи, яка дозволить поповнювати її но-
вими модулями без змін вже існуючих.
У найбільш узагальненому вигляді
ця задача має наступний вигляд: вхідними
даними для аналізу є: 1) набір документів,
що містить знання щодо ПрО, – як семан-
тично формалізовані (тезауруси, онтології,
бази знань), так і слабо формалізовані
(природномовні описи, стандарти, різно-
манітні сирі дані, проаналізовані приклади
тощо); 2) індивідуальні дані користувача,
які конкретизують його інформаційні пот-
реби, в тому числі – специфічні вимоги,
правила оформлення контенту та терміно-
логії; 3) засоби визначення вимог до ре-
зультуючих документів – формалізовані
вимоги, природномовні описи, приклади.
В результаті обробки треба згенеру-
вати документи, структура яких відповідає
визначеним вимогам, а контент характери-
зує вказані користувачем об’єкти із засто-
суванням знань щодо ПрО. Відповідно до
специфіки ПрО, результуючими докумен-
тами можуть бути спеціалізовані профілі
організацій або інформаційних систем; ре-
комендації, що узагальнюють відомості з
сирих даних; аналітичні огляди технічної
та наукової інформації, структуровані за
певними правилами; оцінки діяльності
підрозділів організацій тощо. Для цього
необхідно розв’язати низку підзадач: вио-
кремлення структури результуючого до-
кумента на основі наявних прикладів та
описів, зв’язування на рівні семантики
елементів контенту цього документа з ві-
домостями ПрО, співставлення інформації
від користувача з терміносистемою ПрО
тощо. Найбільш складними елементами є
коректне розпізнавання фрагментів доку-
ментації, що відповідають слабо формалі-
зованим вимогам до результату, та аналіз
семантичної коректності отриманого ре-
зультату.
Важливо розуміти, що використан-
ня лише логічного виведення та семантич-
них запитів є недостатнім для здобуття
знань з ПМ-документів, а передача задачі в
цілому до LLM (навіть з великою кількіс-
тю попередніх налаштувань та значною
кількістю ітерацій) виявляється занадто
складною для аналізу якості отриманого
результату та виокремлення причин, що
призвели до некоректних результатів. То-
му доцільно інтегрувати в одній інформа-
ційній системі обидві можливості, допов-
нивши їх гнучкими засобами менеджменту
інформації – як на рівні документів, так і
на рівні знань.
Але потрібно відзначити, що просте
механічне поєднання одного технологічно-
го середовища LLM та Semantic MediaWiki
не вирішує поставлене завдання: потрібно
чітко визначити етапи обробки інформації,
формати збереження даних та моделі об-
міну між окремими модулям, передбачити
засоби керування та зворотного зв’язку.
Така система має забезпечити фун-
кціонально повний набір сервісів для пере-
творення вхідної інформації на результую-
чий набір документів, що відповідають
вимогам користувача. Технологія викорис-
тання системи повинна визначати порядок
застосування сервісів, коректні перетво-
рення інформації та можливість контролю
людиною всіх етапів таких перетворень з
метою вчасного виявлення та запобігання
семантичним неоднозначностям (рис.1).
Семантик Веб та лінгвістичні системи
66
семантизаціяLINZA
LLM-1
LLM-2
SMW
LLM-3
Protege
Генерація звітів та рекомендацій
• Природномовні рекомендації
• Шаблони запитів для генерації
спеціалізованих звітів
• Аналітика та оцінка впровадження досвіду
• Стуктуровані результуючі документи
База семантично розмічених документів
• Первинні документи з семантичною
розміткою, що перевірені експертом
• Cемантично розмічена інформація
про користувача
• Узгоджений тезаурус ПрО
Репозиторій документів
На платформі Semantic MediaWiki
• Формалізований набір семантичних
властивостей документів в форматі SMW
• Типові пошукові запити
• Категорії документів
• Генерація онтологій за результатами запитів
База первинних документів
• Первинні документи
• Інформація про користувача
• Нормативні документи ПрО
• Приклади результатів
База знань
• Аналіз найкращих практик
• Спеціалізовані профілі об’єктів
• Узгоджені та перевірені
• рекомендації на основі аналізу
• Узгоджений тезаурус ПрО
• Візуалізована онтологія ПрО
Рис. 1. Узагальнена схема технологічного середовища “Лінза”
На попередньому етапі розробки цьо-
го інтегрованого технологічного середо-
вища потрібно чітко визначити його приз-
начення та базовий функціонал, формалі-
зувати основні види перетворень інформа-
ції в процесі обробки. Саме це дозволяє
визначити як склад цього середовища, так і
призначення окремих модулів і засобів
взаємодії між ними та користувачами, оха-
рактеризувати необхідні операції у життє-
вому циклі інформації (Рис.2).
LLM-1
SMW
LLM-3 Protege
Інформація
про користувача
Первинні
документи
Нормативні
документи ПрО
Приклади
результатів
Генерація тезаурусу ПрО
та семантичної розмітки
документів
Тезаурус
ПрО Перевірка тезаурусу ПрО
та семантичної розмітки
експертами
Збереження документів
у сематичному
репозиторії
Генерація правил
побудови результуючих
документів
Узгодження
результатів
з користувачем
Розробка
пошукових запитів
та шаблонів звітів
Генерація пояснень
побудови
результатів
Аналіз
найкращих практик
Спеціалізовані
профілі об’єктів Рекомендації Тезаурус та
онтологія ПрО
LLM-2
LLM-1 SMW
LLM-3
Рис. 2. Життєвий цикл інформації у технологічному середовищі “Лінза”
Семантик Веб та лінгвістичні системи
67
Для цього потрібно формалізувати
вимоги до системи, яка має забезпечити
автоматизацію процесу формування та-
ких документів на основі поєднання ге-
неративних можливостей LLM з контро-
льованістю та прозорістю семантичних
платформ, а саме: визначити базові
принципи побудови такої системи, її
компоненти, механізми інтеграції джерел
знань і способи забезпечення відповідно-
сті результату очікуваним формальним
критеріям.
Теоретичні засади
системи аналізу документів
“Лінза”
Ключем до успішної реалізації
гібридної системи є детермінація та
структуризація вхідних і вихідних ін-
формаційних потоків. Вхідні дані в та-
ких задачах здебільшого представлені
масивними колекціями неструктурова-
них чи напівструктурованих документів
із ПрО. До них належать нормативні
документи та стандарти, зокрема, у
сферах з обмеженим або контрольова-
ним доступом до інформації, та емпіри-
чні описи конкретних систем. Ці джере-
ла, як правило, представлені у вільному
форматі та містять складні внутрішні
структури, термінологію та взаємозв'яз-
ки, що вимагають глибокого семантич-
ного аналізу. Обробка цих вхідних да-
них здійснюється за допомогою інтег-
рованих LLM та спеціалізованих серві-
сів, які виконують функції парсингу,
ідентифікації ключових сутностей, ви-
явлення реляційних зв'язків та первин-
ної семантичної розмітки.
Вихідними даними системи є фо-
рмалізовані та структуровані знання, що
зберігаються у базі знань на платформі
SMW, а також кінцеві згенеровані доку-
менти. Зокрема, до вихідних даних на-
лежать: семантично збагачені структури
знань, де витягнута інформація трансфо-
рмується у формат, сумісний з SMW
(тріади, властивості та класифікації), за-
безпечуючи високий рівень інтеропера-
бельності та можливість логічного виве-
дення. Зокрема, система продукує вери-
фіковані фрагменти або цілі документи
складної структури, правдивість яких
гарантується етапом валідації за участю
експертів (human-in-the-loop). Також до
вихідних даних належать ланцюги логі-
чного виведення та детальні пояснення
ухвалених рішень, включаючи ідентифі-
кацію підмножини знань, використаної
моделлю, що забезпечує прозорість та
можливість аудиту в умовах роботи з
конфіденційною інформацією. Таким
чином, відбувається процес трансфор-
мації неструктурованих вхідних даних у
структуровані, верифіковані та поясню-
вані вихідні знання, що є центральним
аспектом функціонування системи, за-
безпечуючи її високу цінність для авто-
матизації складних процесів обробки ін-
формації.
Не менш важливим є пошук ефек-
тивних технологічних рішень, зокрема,
застосування агентів та сервісів для цілі-
сного та безперервного перетворення
інформації між різними компонентами
системи та визначення надійних джерел
отримання знань щодо ПрО. У контексті
поточної роботи предметна область охо-
плює документи і стандарти, приклади
конкретних систем та їхній опис. Крити-
чно важливим аспектом є розуміння
специфіки задачі, зокрема питання щодо
допустимості розміщення опису предме-
тної області у відкритому доступі, оскі-
льки передача чутливих відомостей до
зовнішніх LLM є неприпустимою з
огляду на інформаційну безпеку та кон-
фіденційність. Це додатково доводить
доцільність локального розгортання та
інтеграції компонентів і застосування
концепції "human-in-the-loop" для конт-
ролю та валідації.
Метою роботи є аналіз доцільнос-
ті інтеграції семантичних технологій з
LLM для автоматизованого створення
комплексних природномовних докумен-
тів, що включають текстові, графічні та
табличні дані, відповідають формальним
вимогам до структури та враховують
специфічні запити замовника.
Семантик Веб та лінгвістичні системи
68
Аналіз конкретних прикладних
задач та шляхів їх розв’язання спрямо-
ваний на те, щоб дослідити вимоги до
такої автоматизованої системи. Запро-
понований підхід має дозволити розв'я-
зати проблему довіри та достовірності
результатів, притаманні сучасному гене-
ративному ШІ.
Дослідивши сучасний стан розро-
бок у сфері інтелектуальної обробки ін-
формації, ми виявили доцільність засто-
совувати у “Лінзі”:
● Агентні технології та сервіс-
орієнтоване програмування [5] – для пе-
рсоніфікованої динамічної обробки да-
них у веб-середовищі: інтелектуальні
агенти дозволяють відображати цілі та
задачі різних суб’єктів системи, щоб
знаходити та активувати найбільш при-
йнятні сервіси для перетворення та ана-
лізу інформації;
● Семантичні технології та
онтологічний аналіз [6] – для семантич-
ної інтерпретації контенту вхідних да-
них системи з використанням зовнішніх
джерел знань (онтологій, тезаурусів, та-
ксономій), їх структурування формалізо-
ваними мовами для інтероперабельності
та автоматичної обробки;
● Великі мовні моделі – як за-
сіб глибокого семантичного аналізу при-
родномовних документів для співстав-
лення їхнього контенту з онтологічними
моделями ПрО класифікації та структу-
рування (наприклад, LLM дозволяють
автоматизовано генерувати семантичну
розмітку сирих природномовних даних
тегами, що відповідають поняттям та ві-
дношенням з обраної онтології ).
● Семантичні вікі [7] – як пла-
тформи для зберігання та надання кори-
стувачам доступу до семантично струк-
турованого контенту.
Сучасний стан досліджень
у сфері інтеграції LLM
із семантичними технологіями
У більшості сучасних інтелектуа-
льних систем, що базуються на LLM, ко-
ристувач позбавлений доступу до проце-
сів структурування знань, джерел первин-
ного контенту та логіки формування ре-
комендацій. Алгоритми обробки залиша-
ються непрозорими, що обмежує довіру
до системи, ускладнює валідацію резуль-
татів та викликає труднощі у експертній -
перевірці.[4]
У цьому контексті особливий інте-
рес становить застосування вікі-
технологій, зокрема, таких, як Semantic
MediaWiki та WikiData, у поєднанні з
LLM. Саме вікі-підхід дозволяє зробити
структуру знань відкритою, зрозумілою та
доступною для редагування, що, своєю
чергою, пояснює причини формування
системних висновків і підвищує прозо-
рість ухвалення рішень.
У науковій літературі представлено
низку проєктів, у яких здійснюється інте-
грація LLM із WikiData або Wikipedia [8,
9]. Їхній аналіз виділяє ряд закономірнос-
тей, характерних для мультиагентних сис-
тем із залученням LLM.
Більшість описаних рішень реалі-
зують мультиагентну архітектуру, де ко-
жен агент виконує окрему спеціалізовану
функцію — від семантичного аналізу . до
генерації тексту [3] та перевірки правди-
вості даних [4] Такий підхід дозволяє фо-
рмалізувати робочий процес і значно
знижує ризики помилок, типових для ге-
неративних моделей. У всіх системах за-
стосовується Retrieval-Augmented
Generation (RAG) [10] — техніка, що до-
зволяє LLM поєднувати генеративні мож-
ливості з релевантною фактологічною ін-
формацією із семантичних структур або
зовнішніх джерел. У цих підходах актив-
но використовують техніки покрокового
уточнення запитів (workflow orchestration,
prompt chaining), що наближає модель до
логічного міркування й багатоетапної по-
будови контенту та забезпечує структуро-
вану генерацію документів на основі фо-
рмалізованих знань, зниженні частоти
«галюцинацій» моделей, високій гнучкос-
ті в розподілі обов’язків між агентами і
можливості адаптації під різні доменні
задачі. Зокрема, використання семантич-
них шаблонів дозволяє LLM автоматично
виводити інформаційні вимоги до доку-
Семантик Веб та лінгвістичні системи
69
мента, тоді як у CLAIR граф знань забез-
печує багатоетапне логічне виведення фа-
ктів для підготовки технічної документа-
ції. DocAgent використовує багатогранну
систему оцінювання згенерованого ре-
зультату, що дозволяє об’єктивно оціню-
вати повноту, корисність та фактичність
документації [9].
Водночас, існують і певні обме-
ження. Системи залишаються чутливими
до обмежень контексту моделей — навіть
при використанні довгих вікон (16К+ то-
кенів) генерація в межах великих кодових
баз або графів знань може втрачати реле-
вантність. Деякі системи, зокрема,
DocAgent, орієнтовані переважно на ста-
тичний аналіз, що обмежує обробку ди-
намічних аспектів програмних систем.
Ефективність генерації значною мірою
залежить від якості семантичного опису
— неповні або суперечливі шаблони мо-
жуть призводити до помилок або втрати
важливої інформації. Також слід зазначи-
ти, що інтеграція з платформами на
кшталт SMW потребує додаткових зусиль
у побудові запитів та формалізації знань у
придатному для LLM вигляді.
Крім того, у сучасних досліджен-
нях активно вивчаються підходи до поєд-
нання великих мовних моделей із семан-
тичними базами знань, зокрема, у форматі
Wikidata. Одним з таких прикладів є LLM
Store [11], що виступає як проміжне сере-
довище між LLM та структурованими да-
ними, дозволяючи трансформувати при-
родномовні запити у твердження у фор-
маті RDF-триад [12]. Архітектурно систе-
ма реалізована як плагін до KIF
(Knowledge Integration Framework), що
забезпечує трансляцію відповідей моделі
у формат, придатний до розміщення у
Wikidata. Зокрема, її ефективність була
продемонстрована в задачах LM-KBC
(Language Model-based Knowledge Base
Construction), де LLM Store показав високі
результати точності генерації. Найвищих
показників F1-score (до 91%) вдалося
human-in-the-loop досягти шляхом дода-
вання контексту до запитів, що підтвер-
джує ключову роль модуля генерації кон-
тексту. Попри це, автори підкреслюють
слабке місце системи — невисоку точ-
ність для “вузьких” специфічних відносин
та помилки в ідентифікації сутностей.
В іншій системі — Scholarly
Wikidata, LLM використовується для на-
півавтоматизованого вилучення метада-
них наукових конференцій із веб-сайтів та
текстів матеріалів. Результатом стало сут-
тєве збагачення бази Wikidata: додано ти-
сячі сутностей та нових властивостей, що
охоплюють організаційні ролі, прийняті
статті, доповіді, тощо. Перевагою цього
підходу є висока ефективність витягуван-
ня структурованої інформації, однак авто-
ри вказують на схильність LLM до поми-
лок під час роботи з датами, назвами тре-
ків або складними залежностями між сут-
ностями. Для таких випадків необхідне
втручання людини (human-in-the-loop), що
підвищує загальні витрати на підтримку
системи [8].
Дослідження Каверинського, Літ-
віна та Палагіна [13] пропонують іннова-
ційний підхід до керованої генерації при-
родної мови. Основна ідея роботи полягає
в концепції "зворотного синтезу", яка, на
відміну від традиційного аналізу природ-
ної мови, зосереджена на продукуванні
текстових висловлювань з наявних фор-
малізованих онтологічних представлень.
Ці онтологічні представлення, які є
центральною ланкою методології, автома-
тично будуються на основі аналізу речень
науково-технічних текстів за допомогою
раніше розроблених програмних засобів.
Вони інкорпорують сутності, ідентифіко-
вані в тексті, та типізовані семантичні
зв'язки між ними, формуючи таким чином
структуровану мережу знань. Для взаємо-
дії з великою мовною моделлю, зокрема
ChatGPT, автори розробили спеціально
структуровані інструкції-підказки
(prompts), які направляють модель для ге-
нерації тексту, що точно відповідає зада-
ній семантичній структурі. Проведена се-
рія експериментів із синтезу природномо-
вних висловлювань підтвердила ефектив-
ність запропонованого підходу. Ця мето-
дологія є розв'язанням проблем, пов'яза-
них із неконтрольованою генерацією та
низькою прозорістю LLM, забезпечуючи
значно вищий рівень правдивості та про-
зорості згенерованих висловлювань через
Семантик Веб та лінгвістичні системи
70
їхню опору на верифіковані онтологічні
структури та керовані підказки.
У контексті інтеграції великих мо-
вних моделей із семантичними технологі-
ями, значний інтерес становить досвід за-
стосування семантичних вікі-систем для
управління знаннями. Зокрема, [14] опи-
сує використання MediaWiki та Semantic
MediaWiki для створення онтологічно-
орієнтованих репозиторіїв знань, що підт-
верджує доцільність застосування таких
платформ для формалізації предметних
областей, забезпечення однозначної інте-
рпретації термінології та підтримки сема-
нтичного пошуку у складних, динамічних
інформаційних масивах. Запропонована
архітектура, що інтегрує різні джерела
знань та сервіси, слугує вагомим підґрун-
тям для розробки гібридних систем, які
прагнуть поєднати генеративні можливос-
ті LLM із верифікованими семантичними
структурами.
Отже, вище зазначені системи де-
монструють спільну тенденцію: викорис-
тання великих мовних моделей як джере-
ла знань, які потім зберігаються у форма-
лізованій структурі типу Wiki. Проте ці
моделі мають спільне обмеження — дані,
які були згенеровані великими мовними
моделями, стають частиною бази знань
без механізмів прозорої верифікації. Крім
того, наразі, запит у пошуковій системі не
дає жодного релевантного посилання, що
свідчить про новизну запропонованого
напряму (“LLM and SMW”). Тож можна
стверджувати, що поєднання нейронних
моделей із SMW утворює синергетичну
модель, де LLM виступає як інтерпрета-
тор природної мови та генератор контен-
ту, а SMW забезпечує структуроване се-
редовище для верифікації, представлення
та розширення знань. Такий підхід дозво-
ляє забезпечити покращення для тради-
ційних систем, підвищуючи точність і на-
дійність згенерованих даних завдяки фо-
рмалізованим семантичним шаблонам і
механізмам перевірки.
Таким чином, системи на основі
мовних моделей і семантичних структур
демонструють значний потенціал для ав-
томатизованої побудови та структуруван-
ня даних у різних галузях — від публіч-
ного адміністрування до програмної ін-
женерії. Подальший розвиток доцільно
спрямувати на вдосконалення механізмів
інтеграції з джерелами знань, покращення
інтерпретованості результатів і розши-
рення підтримки динамічних сценаріїв
використання.
Система «ЛІНЗА»: архітектура,
призначення та інтелектуальні
механізми
Інформаційна система лінгвістич-
ної обробки нормативних документів
«ЛІНЗА» призначена для автоматизації
створення та обробки складних природ-
номовних документів, що інтегрують роз-
різнені дані та відповідають жорстким
формальним вимогам.
Система є розробкою Інституту
програмних систем НАН України та має
значний потенціал застосування в тих
сферах, де критично важлива точність,
структура та правдивість інформації.
“ЛІНЗУ” доцільно застосовувати в
тих галузях, де необхідно забезпечити
семантичне структрування великих обся-
гів інформації з їх подальшим аналізом
та перетворенням на документи зі склад-
ною, наперед визначеною структурою, а
також генерації пояснюваної інформації
щодо створених документів та забезпе-
ченні високої правдивості даних. Водно-
час значна частина правил перетворення
та принципів сруктурування подається
неявно, тобто ці знання потрібно здобу-
вати з відповідних документів,
пов’язаних між собою. Сферами застосу-
вання системи можуть бути: державне
управління, де вона може значно спрос-
тити підготовку нормативно-правових
актів, звітів, протоколів та іншої офіцій-
ної документації; юриспруденція – для
аналізу величезних обсягів юридичних
документів, ефективного вилучення клю-
чової інформації та автоматичного фор-
мування декларацій; сертифікація та ста-
ндартизація – як іструмент автоматизо-
ваної підготовки звітної документації на
вимогу сертифікаційниих органів.
Семантик Веб та лінгвістичні системи
71
Агентний рівень
Сервісний рівень
Рівень оркестровки сервісів
Рівень інтерфейсу користувача
Рівень бази знань
Рис. 3. Багаторівнева архітектура технологічного середовища “Лінза”
Можливість аналізу та реалізації
досвіду для таких інтелектуальних систем,
як "ЛІНЗА", має ключове знання. Це є ос-
новою для вдосконалення функціоналу си-
стеми: регулярний аналіз результатів її ро-
боти, зворотний зв'язок від користувачів,
експертів, що дозволяє виявляти недоліки
та оптимізувати процеси. Такий підхід
сприяє ефективному накопиченню знань,
оскільки система дозволяє структурувати
та зберігати отриманий досвід, перетво-
рюючи його на структуровані онтології та
інші формати, доступні для подальшого
використання та аналізу. Крім того, у ди-
намічних сферах, таких як захист інфор-
мації, де постійно виникають нові виклики
та вимоги, постійні адаптації до змін є
життєво необхідними.
“Лінза” є складною системою, що
поєднує різні технології та методи обро-
бки інформації. Тому для її розробки за-
стосовується багаторівнева архітектура,
яка дозволяє перетворити задачу розроб-
ки системи на набір простіших підзадач
(Рис.3).
Взаємодія складових системи
"ЛІНЗА" координується через сервіс ор-
кестровки [15] (Orchestration Service),
який координує інтелектуальну обробку
документації за участі агентів і сервісів,
що виконують спеціалізовані функції
збору, аналізу, перетворення та перевірки
даних. Такий підхід забезпечує гнучкість,
масштабованість та адаптивність системи
до зміни вхідних даних і вимог.
На рівні взаємодії з користувачем
система реалізує веб-інтерфейс (UI - user
interface), який уможливлює завантажен-
ня документів, формулювання запитів
природною мовою та перегляд аналітич-
них результатів і згенерованих -
декларацій.
Сервісний рівень виконує наступні
функції: завантаження та попередню об-
робку документів, семантичне анотуван-
ня, онтологічне моделювання, генерацію
відповідей за допомогою LLM, та інтег-
рацію знань за підходом Retrieval-
Augmented Generation (RAG). Для збере-
ження, оновлення та валідації знань ви-
користовується Semantic MediaWiki, що
дає можливість семантичного доступу
через SPARQL-запити.
Такий архітектурний підхід дозво-
ляє ефективно інтегрувати експертні
знання з мовними моделями, що суттєво
покращує якість аналізу, обґрунтування
рішень та пояснення складних норматив-
них понять.
Семантик Веб та лінгвістичні системи
72
Функціональні можливості
“Лінзи”
Функціональна архітектура систе-
ми "ЛІНЗА" інтегрує низку спеціалізова-
них модулів, кожен з яких виконує кри-
тично важливі операції в процесі інтелек-
туальної обробки інформації, забезпечу-
ючи її перетворення від неструктурова-
них вхідних даних до формалізованих та
пояснюваних знань.
Обробка вхідних документів: Ві-
дповідає за ініціальний етап життєвого
циклу інформації в системі. Він здійснює
інжест неструктурованих документів,
представлених у типових офісних форма-
тах (наприклад, PDF, DOCX). Основною
функцією є не лише ідентифікація форма-
ту, а і їхня трансформація у стандартизо-
ваний текстовий формат, придатний для
подальшого автоматизованого аналізу.
Додатково цей модуль інтегрує засоби оп-
тичного розпізнавання символів (OCR)
для конвертації графічних представлень
тексту, а також алгоритми попереднього
очищення даних, спрямовані на усунення
аберацій та нормалізацію текстового кон-
тенту для забезпечення високої якості
вхідної інформації для подальших етапів
обробки.
Семантичне анотування
(Semantic Annotation): Центральний еле-
мент інтелектуальної обробки, що реалізує
парадигму семантичного збагачення да-
них. Шляхом інтеграції передових LLM та
семантичних технологій, цей модуль здій-
снює не лише ідентифікацію номенклату-
рних сутностей у тексті, а й виявляє скла-
дні когнітивні та функціональні зв'язки
між ними. Результатом є побудова деталі-
зованої семантичної моделі документа, що
включає контекстуалізовані відносини між
об'єктами знань. Ця структура зберігається
у структурованому сховищі знань, реалізо-
ваному на базі Semantic MediaWiki, фор-
муючи онтологічно збагачений репозито-
рій для подальшого аналізу та запитів.
Перетворення природномовних
запитів (Natural Language Query
Transformation): Виконує функцію інтер-
фейсу між природномовним запитом кори-
стувача та формалізованою базою знань.
Його призначення полягає у трансляції
неформальних запитів, висловлених при-
родною мовою, у структуровані запити
мовою SPARQL або ASK – мовою для за-
питів до SMW. Цей процес вимагає глибо-
кого семантичного розуміння запиту кори-
стувача та його відображення на онтологі-
чну структуру сховища, забезпечуючи ви-
соку релевантність та точність отриманих
результатів.
Генерації декларацій та аналіти-
чних звітів (Declaration and Analytical
Report Generation): Даний процес синте-
зує отримані знання у формі, зручній для
кінцевого користувача. Він використовує
не лише безпосередньо витягнуті факти, а
й складні механізми логічного виведення
(reasoning) для формування обґрунтованих
та когерентних відповідей. Застосування
підходу Retrieval-Augmented Generation
(RAG) дозволяє інтегрувати можливості
генерації тексту LLM з доступом до вери-
фікованих знань з внутрішньої бази даних.
Це забезпечує продукування не просто ві-
дповідей, а повноцінних аналітичних звітів
та декларацій, які є прозорими, посила-
ються на джерела та відповідають встано-
вленим стандартам звітності.
Управління знаннями (Knowledge
Management): Є фундаментом для забез-
печення життєвого циклу знань у системі.
Він надає функціональність для створення,
персистенції, модифікації та версифікації
знань, представлених у вигляді онтологій
та статей Semantic MediaWiki. Онтології
забезпечують формалізоване представлен-
ня предметної області, тоді як статті
Semantic MediaWiki слугують зручним ін-
терфейсом для взаємодії зі знаннями. Сис-
тема версифікації критично важлива для
відстеження еволюції знань у динамічних
доменах, гарантуючи їхню актуальність та
цілісність.
Експертна валідація (Expert
Validation Module): Ця функція впрова-
джує парадигму Human-in-the-Loop, забез-
печуючи високий рівень достовірності ре-
зультатів. На відміну від автоматизованої
обробки, система надає інтерфейс для руч-
ної верифікації та коригування витягнутих
сутностей та згенерованих декларацій.
Семантик Веб та лінгвістичні системи
73
Можливість гнучкої корекції та аналізу
експертами дозволяє мінімізувати потен-
ційні помилки, підвищити точність інфор-
мації та забезпечити відповідність високим
галузевим стандартам, особливо у сферах,
де помилки неприпустимі.
Експорт результатів (Results
Expor): Завершальний етап функціональ-
ного ланцюга, що забезпечує інтеграцію
системи із зовнішніми середовищами та
бізнес-процесами. Даний модуль відпові-
дає за форматування та експорт вихідної
звітної документації у стандартизованих,
загальноприйнятих форматах (наприклад,
PDF, DOCX). Це дозволяє безперешкодно
інтегрувати результати роботи "ЛІНЗИ" в
існуючий документообіг, що забезпечує
можливість передачі сформованих доку-
ментів до відповідних сертифікаційних або
регуляторних органів.
Основні модулі системи
Сервіс-орієнтована архітектура
системи "ЛІНЗА" забезпечує її модуль-
ність та гнучкість. Вона складається з чо-
тирьох основних функціональних груп
сервісів: модулі взаємодії з користува-
чем, сервіси обробки документів та уп-
равління LLM, сервіси управління знан-
нями, сервіси валідації та експорту, про-
цеси взаємодії яких узагальнено пред-
ставлено на рис. 4.
Рис. 4. Узагальнена схема функціонування системи "ЛІНЗА"
Модулі взаємодії з користувачем
● UI Service — це графічний
інтерфейс користувача, через який відбу-
вається завантаження документів, подання
запитів, перегляд результатів та деклара-
цій.
● API Gateway Service —
єдина точка входу до системи, що виконує
функції маршрутизації запитів, автентифі-
кації та авторизації.
Сервіси обробки документів та управ-
ління LLM
● Document Parsing Service —
відповідає за трансформацію вхідних фай-
лів у структурований текст із попереднім
очищенням і OCR.
● LLM Orchestration Service
— головний координаційний модуль, що
розподіляє завдання між агентами та LLM,
виконує reasoning і генерацію за ReAct-
підходом.
● NLQ-to-SPARQL — транс-
формує природномовні запити у формаль-
ні запити до бази знань.
Семантик Веб та лінгвістичні системи
74
● Response Generation — ви-
конує генерацію відповідей на основі ре-
зультатів SPARQL-запитів.
Сервіси управління знаннями
● Knowledge Base Service
(Semantic MediaWiki Core) — реалізує
сховище структурованих знань та підтри-
мує SPARQL-запити.
● Persistence Service — забез-
печує довготривале зберігання вхідних до-
кументів, онтологій, логів та інших служ-
бових даних.
● Vector Database Service —
векторне сховище embedding-представлень
знань для семантичного пошуку в задачах
типу RAG.
Сервіси валідації та експорту
● Validation Service — надає
інтерфейс для експертної перевірки витяг-
нутих сутностей та декларацій, дозволяє
ручну корекцію та затвердження.
● Export Service — відповідає
за експорт результатів у відповідні станда-
ртизовані формати (PDF, DOCX), з мож-
ливістю подальшої передачі сертифікацій-
ним органам.
Вхідні та вихідні дані системи
Вхідні дані:
● Неструктуровані текстові
документи: Завантажуються користува-
чами у форматах PDF, DOCX.
● Природномовні запити:
Формулюються користувачами для отри-
мання пояснень чи витягів з бази знань.
● Редагування експертів: Ва-
лідовані уточнення, зауваження, вручну
додані знання.
Вихідні дані:
● Аналітичні відповіді: Сфо-
рмовані системою результати запитів,
представлені у зрозумілій для користува-
ча формі.
● Семантичні сутності: Витя-
гнуті та семантично пов’язані поняття,
збережені у базі знань.
● Декларації та звіти: Авто-
матично згенеровані документи у форма-
тах PDF, DOCX, придатні для подальшо-
го використання.
● Embedding-представлення:
Векторні форми знань для швидкого по-
шуку релевантної інформації.
Висновки
У роботі досліджено потенціал
синергетичної інтеграції великих мовних
моделей та семантичних технологій для
автоматизованого створення й обробки
складних природномовних документів.
Розглядається концепція побудови гібри-
дної інформаційної системи лінгвістичної
обробки документів «ЛІНЗА», яка поєд-
нує великі мовні моделі (LLM), семанти-
чні технології та мультиагентні архітек-
турні рішення. Основна мета досліджен-
ня полягає в розробці автоматизованої
платформи для обробки складних приро-
дномовних документів, що потребують
високого ступеня точності, структурного
узгодження та пояснювання.
Запропонована система має бага-
торівневу архітектуру, яка містить модулі
попередньої обробки документів, семан-
тичного анотування, генерації документів
і аналітичних звітів, управління знаннями
та експертної валідації. Особливу увагу
приділено використанню Retrieval-
Augmented Generation як механізму інте-
грації генеративних можливостей LLM із
формалізованими базами знань на основі
Semantic MediaWiki.
На етапі архітектурного проєкту-
вання авторами запропоновано багаторів-
неву модель інформаційної системи «ЛІН-
ЗА», що поєднує агентні компоненти з ви-
користанням LLM для глибокого семанти-
чного аналізу, набір сервісів для динаміч-
ної обробки даних і платформу Semantic
MediaWiki для структурованого зберігання
та верифікації контенту.
Запропонована архітектура демонс-
трує високий потенціал ефективного за-
стосування в критичних доменах, де особ-
ливо важливими є достовірність, прозо-
рість і безпека інформаційної обробки. За-
лучення формалізованих семантичних ша-
блонів, механізмів перевірки та підходу
Семантик Веб та лінгвістичні системи
75
human-in-the-loop забезпечує підвищення
точності, надійності та контрольованості
результатів.
Застосування системи «ЛІНЗА»
охоплює сфери публічного управління,
юриспруденції, сертифікації, стандарти-
зації та спрямоване на забезпечення про-
зорої, контрольованої і формалізованої
обробки документів, що відкриває перс-
пективи масштабованої автоматизації
складних інформаційних процесів з яв-
ним використанням знань предметної -
області.
Подальший розвиток системи доці-
льно спрямувати на вдосконалення меха-
нізмів інтеграції з джерелами знань, пок-
ращення інтерпретованості результатів і
розширення підтримки динамічних сце-
наріїв використання, а також ширшу ін-
теграцію зі стандартами проєкту Semantic
Web [16], що стосуються подання серві-
сів, програмних агентів та онтологій.
Література
1. Naveed, H., Khan, A. U., Qiu, S., Saqib, M.,
Anwar, S., Usman, M., Mian, A. A
comprehensive overview of large language
models. ACM Transactions on Intelligent
Systems and Technology. 2023. URL:
https://dl.acm.org/doi/pdf/10.1145/3744746.
2. Liang, X., Zhou, B., Jiang, L., Meng, G., Xiu,
Y. Collaborative pursuit-evasion game of
multi-UAVs based on Apollonius circle in the
environment with obstacle. Connection
Science. 2023. Vol. 35, Iss. 1. P. 1–24. DOI:
https://doi.org/10.1080/09540091.2023.21682
53.
3. Musumeci, E., Brienza, M., Suriani, V.,
Nardi, D., Bloisi, D. D. LLM-based multi-
agent generation of semi-structured
documents from semantic templates in the
public administration domain. In: Proceedings
of the International Conference on Human-
Computer Interaction (HCII 2024). Cham:
Springer, 2024. P. 98–117.
4. Eichhorn, T. CLAIR: Generating on-demand
low-code application documentation through
knowledge graph and LLM-based multi-agent
system integration. Master's thesis. University
of Twente, 2025.
5. Плескач В. Л., Рогушина Ю. В. Агентні
технології: Монографія. Київ : Київ. нац.
торг.–екон. ун–т, 2005.
6. Рогушина Ю. В., Гладун А. Я., Осадчий В.
В., Прийма С. М. Онтологічний аналіз у
Web: Монографія. Мелітополь : МДПУ ім.
Богдана Хмельницького, 2015. 407 с. URL:
http://www.dut.edu.ua/uploads/l_2148_67675
988.pdf. ISBN 978-617-7346-27-1.
7. Vrandečić, D., Krötzsch, M. Semantic
MediaWiki. In: Semantic Knowledge
Management: Integrating Ontology
Management, Knowledge Discovery, and
Human Language Technologies. Berlin,
Heidelberg: Springer Berlin Heidelberg, 2009.
P. 171–179.
8. Chen, J., Lu, X., Du, Y., Rejtig, M., Bagley,
R., Horn, M., Wilensky, U. Learning agent-
based modeling with LLM companions:
Experiences of novices and experts using
ChatGPT & NetLogo chat. In: Proceedings of
the 2024 CHI Conference on Human Factors
in Computing Systems. 2024. P. 1–18.
9. Yang, D., Simoulin, A., Qian, X., Liu, X.,
Cao, Y., Teng, Z., Yang, G. DocAgent: A
multi-agent system for automated code
documentation generation. arXiv preprint
arXiv:2504.08725. 2025.
10. Lewis, P., Perez, E., Piktus, A., Petroni, F.,
Karpukhin, V., Goyal, N., Kiela, D. Retrieval-
augmented generation for knowledge-
intensive nlp tasks. Advances in Neural
Information Processing Systems. 2020. Vol.
33. P. 9459–9474.
11. Machado, M., Rodrigues, J. M., Lima, G.,
Fiorini, S. R., da Silva, V. T. LLM Store:
Leveraging large language models as sources
of Wikidata-structured knowledge. In:
Proceedings of the International Semantic
Web Conference (ISWC 2024). Cham:
Springer, 2024 (to appear).
12. Mihindukulasooriya, N., Tiwari, S., Dobriy,
D., Nielsen, F. Å., Chhetri, T. R., Polleres, A.
Scholarly Wikidata: Population and
exploration of conference data in Wikidata
using LLMs. In: Proceedings of the
International Conference on Knowledge
Engineering and Knowledge Management
(EKAW 2024). Cham: Springer, 2024. P. 243–
259.
Семантик Веб та лінгвістичні системи
76
13. Каверинський В. В., Літвін А. А., Палагін
О. В. Зворотний синтез природномовних
висловлювань на основі їх онтологічного
представлення з використанням великої
мовної моделі. Проблеми програмування.
2024. № 2-3. С. 359. DOI:
https://doi.org/10.15407/pp2024.02-03.359.
14. Рогушина Ю. В., Гладун А. Я., Аніщенко
О. В., Прийма С. М. Семантичні технології
як інструмент інформаційного забезпечен-
ня професіоналізації андрагогів. Проблеми
програмування. 2024. № 2-3. С. 441. DOI:
https://doi.org/10.15407/pp2024.02-03.441.
15. Rotsos, C., King, D., Farshad, A., Bird, J.,
Fawcett, L., Georgalas, N., Hutchison, D.
Network service orchestration
standardization: A technology survey.
Computer Standards & Interfaces. 2017. Vol.
54. P. 203–215.
16. Patel, A., Jain, S. Present and future of
semantic web technologies: a research
statement. International Journal of Computers
and Applications. 2021. Vol. 43, Iss. 5. P.
413–422.
Одержано: 19.07.2025
Внутрішня рецензія отримана:26.07.2025
Зовнішня рецензія отримана: 28.07.2025
Про авторів:
Сініцин Ігор Петрович,
доктор технічних наук, професор,
член-кореспондент НАН України,
https://orcid.org/0000-0002-4120-0784,
ips@nas.gov.ua
Рогушина Юлія Віталіївна,
кандидат фіз.-мат.наук, с.н.с., доцент,
http://orcid.org/0000-0001-7958-2557,
ladamandraka2010@gmail.com
Юрченко Костянтин Юрійович,
аспірант, м.н.с.
https://orcid.org/0000-0003-3150-0027,
urchikak8@gmail.com
Місце роботи авторів:
Інститут програмних систем
Національної академії наук України,
03187, м. Київ-187,
просп. Академіка Глушкова, 40,
корпус 5.
|