Integration of large language models with semantic processing tools as an instrument for knowledge digitization

The paper addresses the task of automating the analysis, generation, and management of complex natural language documents based on the integration of generative artificial intelligence with semantic technologies, in particular Semantic MediaWiki. It analyzes how the use of ontological models of subj...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Datum:	2025
Hauptverfasser:	Sinitsyn, I.P., Rogushina, J.V., Yurchenko, K.Yu.
Format:	Artikel
Sprache:	Ukrainisch
Veröffentlicht:	PROBLEMS IN PROGRAMMING 2025
Schlagworte:	agent technologies large language models LLM Semantic MediaWiki semantic technologies knowledge base formalized documents UDC 004.8:004.724
Online Zugang:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/838
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:	Problems in programming
Завантажити файл:

Institution

Problems in programming

_version_	1859490913269579776
author	Sinitsyn, I.P. Rogushina, J.V. Yurchenko, K.Yu.
author_facet	Sinitsyn, I.P. Rogushina, J.V. Yurchenko, K.Yu.
author_sort	Sinitsyn, I.P.
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection	OJS
datestamp_date	2025-11-03T11:01:51Z
description	The paper addresses the task of automating the analysis, generation, and management of complex natural language documents based on the integration of generative artificial intelligence with semantic technologies, in particular Semantic MediaWiki. It analyzes how the use of ontological models of subject domains and semantic markup makes it possible to prevent such critical shortcomings of large language models as the tendency to “hallucinations” (generation of false statements) and the lack of transparency in decision explanations. This integration is explored using the example of the instrumental system “LINZA,” which is being developed for automated intelligent processing of content from heterogeneous documents with complex and weakly formalized structure, with the aim of generating natural language reports according to specified requirements in various domains, such as public administration, jurisprudence, certification, and standardization. The system is based on the combination of the flexibility and adaptability of large language models with formalized ontological knowledge and support for semantic queries about pertinent facts in the Semantic MediaWiki environment or external sources (Retrieval-Augmented Generation). The proposed approach will significantly reduce the risks of typical errors in generative models and ensure factual accuracy and transparency in the decision-making process. Special attention is paid to mechanisms of transparency, reliability, and the possibility of human control to increase trust in the generated data, which is especially important in areas with high information security requirements, and ensures greater confidence in automatically created documents. The multi-level architecture of the system defines the tasks of agents and services that perform specialized functions of data collection, analysis, transformation, and verification, and ensures flexibility, scalability, and adaptability of the system to changes in input data and requirements.Problems in programming 2025; 2: 63-76
first_indexed	2025-09-17T09:25:08Z
format	Article
fulltext	Семантик Веб та лінгвістичні системи 63 © І.П. Сініцин, Ю.В. Рогушина, К.Ю. Юрченко, 2025 ISSN 1727-4907. Проблеми програмування. 2025. №2 УДК 004.8:004.724 https://doi.org/10.15407/pp2025.02.063 І.П. Сініцин, Ю.В. Рогушина, К.Ю. Юрченко ІНТЕГРАЦІЯ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ ІЗ ЗАСОБАМИ СЕМАНТИЧНОЇ ОБРОБКИ ЯК ІНСТРУМЕНТ ЦИФРОВІЗАЦІЇ ЗНАНЬ У роботі розглядається задача автоматизації аналізу, генерації та управління складними природномов- ними документами на основі інтеграції генеративного штучного інтелекту із семантичними технологі- ями, зокрема, Semantic MediaWiki. Аналізується, яким чином застосування онтологічних моделей пре- дметних областей та семантичної розмітки дозволяє запобігати таким критичним недолікам великих мовних моделей, як схильність до "галюцинацій" (генерації неправдивих тверджень) та відсутність прозорості у поясненні рішень. Така інтеграція досліджується на прикладі інструментальної системи “ЛІНЗА”, яка розробляється для автоматизованої інтелектуальної обробки контенту розрізнених документів зі складною слабоформалі- зованою структурою з метою генерації природномовних звітів за заданими вимогами у різних галузях, таких як публічне адміністрування, юриспруденція, цифровізації знань, сертифікація та стандартизація. Система базується на поєднанні гнучкості та адаптивності великих мовних моделей із формалізовани- ми онтологічними знаннями та підтримкою семантичних запитів щодо пертинентних фактів у середо- вищі Semantic MediaWiki, або зовнішніх джерел (Retrieval-Augmented Generation). Запропонований під- хід дозволить значно знизити ризики помилок, типових для генеративних моделей, та забезпечити фак- тичну правдивість і прозорість процесу ухвалення рішень. Особлива увага приділяється механізмам прозорості, достовірності та можливості контролю людиною для підвищення довіри до згенерованих даних, що особливо важливо у сферах із підвищеними вимогами до безпеки інформації. Такий підхід також забезпечує більшу довіру до автоматично створених документів. Багаторівнева архітектура системи характеризує задачі агентів і сервісів, що виконують спеціалізовані функції збору, аналізу, перетворення та перевірки даних, і забезпечує гнучкість, масштабованість та адаптивність системи до зміни вхідних даних і вимог. Ключові слова: агентні технології, великі мовні моделі, LLM, Semantic MediaWiki, семантичні техноло- гії, база знань, формалізовані документи. I.P. Sinitsyn, Yu.V. Rogushina, K.Yu. Yurchenko INTEGRATION OF LARGE LANGUAGE MODELS WITH SEMANTIC PROCESSING TOOLS AS AN INSTRUMENT FOR KNOWLEDGE DIGITIZATION The paper addresses the task of automating the analysis, generation, and management of complex natural language documents based on the integration of generative artificial intelligence with semantic technologies, in particular Semantic MediaWiki. It analyzes how the use of ontological models of subject domains and semantic markup makes it possible to prevent such critical shortcomings of large language models as the tendency to “hallucinations” (generation of false statements) and the lack of transparency in decision explanations. This integration is explored using the example of the instrumental system “LINZA,” which is being developed for automated intelligent processing of content from heterogeneous documents with complex and weakly formalized structure, with the aim of generating natural language reports according to specified requirements in various domains, such as public administration, jurisprudence, certification, and standardization. The system is based on the combination of the flexibility and adaptability of large language models with formalized ontological knowledge and support for semantic queries about pertinent facts in the Semantic MediaWiki environment or external sources (Retrieval-Augmented Generation). The proposed approach will significantly reduce the risks of typical errors in generative models and ensure factual accuracy and transparency in the decision-making process. Special attention is paid to mechanisms of transparency, reliability, and the possibility of human control to increase trust in the generated data, which is especially important in areas with high information security requirements, and ensures greater confidence in automatically created documents. The multi-level architecture of the system defines the tasks of agents and services that perform specialized functions of data collection, analysis, transformation, and verification, and ensures flexibility, scalability, and adaptability of the system to changes in input data and requirements. Семантик Веб та лінгвістичні системи 64 Keywords: agent technologies, large language models, LLM, Semantic MediaWiki, semantic technologies, knowledge base, formalized documents. Вступ Сучасні інформаційні системи де- далі частіше застосовують технології гене- ративного штучного інтелекту (ГШІ) для автоматизації рутинних завдань, зокрема, створення, підтримки та адаптації докуме- нтів. У цьому контексті особливої важли- вості набуває розробка гібридних плат- форм, що поєднують не лише швидке, а й семантично узгоджене та перевірене гене- рування документів на основі спеціального підкласу ГШІ – великих мовних моделей (Large Language Models, LLM) з перевіре- ними структурами збереження знань [1]. Більшість наявних рішень, які зараз використовують штучний інтелект для ав- томатизованого формування документації, обмежуються використанням шаблонів або спрощених структур для опису потрібних документів [2]. Але розвиток LLM- моделей дозволяє створювати потужніші системи зі значно ширшим функціоналом, здатні генерувати комплексні, формалізо- вані документи з поясненням логіки ухва- лених рішень. Значна частина чинних систем на базі LLM базуються на графах знань або векторних базах, що забезпечують лише часткову семантичну підтримку [3]. Однак такі підходи мають суттєві обмеження: во- ни не завжди здатні пояснити результати генерації, а використання LLM без конт- ролю призводить до ризику появи "галю- цинацій" — некоректних або вигаданих даних [4]. Попри значні досягнення у галузі обробки природної мови (ПМ), сучасні LLM все ще виявляють певні слабкі сторо- ни, особливо в роботі зі спеціалізованими предметними областями (ПрО), що вико- ристовують специфічну термінологію та правила побудови документів. Це пояснюється тим, що робота LLM базується на виявленні статистичних закономірностей у великих обсягах даних, а для таких специфічних ПрО обсяг даних для обробки може бути недостатнім (або ж інформація, релевантна до цієї ПрО, не ви- окремлена з усього масиву даних, що ана- лізуються). Використання статистичних моделей дозволяє LLM ефективно генеру- вати стилістично коректні тексти, проте не завжди забезпечує фактичну правдивість та прозорість процесу ухвалення рішень. Це може призвести до значних перешкод у застосуванні LLM в тих сферах, де потрі- бен високий ступінь довіри, аудит та мож- ливість експертної інтервенції, зокрема, у сфері підвищеної секретності. З огляду на зазначені обмеження, виникає об'єктивна необхідність у допов- ненні можливостей LLM інструментами менеджменту знань. Це передбачає ство- рення гібридної архітектури, яка поєднує різні технології обробки інформації для досягнення синергетичного ефекту. LLM можуть ефективно використовуватися для первинного аналізу великих обсягів не- структурованих текстових даних, іденти- фікації ключових сутностей та формування початкових версій документів. Системи управління знаннями, такі як SMW, забез- печать формалізоване представлення витя- гнутих даних, дозволяючи їх структурова- не зберігання, легке редагування, валіда- цію експертами та побудову чітких логіч- них висновків. Формулювання задачі У роботі аналізується доцільність інтеграції семантичних технологій із вели- кими мовними моделями LLM з метою ав- томатизованого створення документів складної структури на основі гетерогенних даних – природномовних документів, таб- лиць, баз даних та знань, онтологій та те- заурусів ПрО, мультимедійної інформації тощо. А також вимог щодо подання ре- зультатів аналізу та відомостей про корис- тувача. Результуючі документи мають від- повідати формалізованим вимогам щодо складу, логіки побудови та оформлення, що визначаються нормативними або внут- рішніми регламентами. Прикладами таких задач є побудова спеціального профілю захищеності інформаційної системи, уза- Семантик Веб та лінгвістичні системи 65 гальнення досвіду діяльності в певній сфе- рі та його впровадження, генерація персо- нальної траєкторії навчання для здобувача освіти. Складність кожної конкретної зада- чі залежить від ступеня формалізованості вхідних даних (особливо – вимог до ре- зультату); складності правил, за якими елементи вхідних даних перетворюються на елементи результуючих документів, та від обсягу бази знань ПрО, яка потрібна для побудови цих правил. Але, незалежно від цього, всі подібні задачі потребують однакового набору операцій над вхідними даними (складність задачі впливає лише на час аналізу), і тому для їх розв’язання до- цільно створити універсальне інструмен- тальне середовище, що підтримує весь по- трібний функціонал. З огляду на те, що на- бір задач може розширюватися, а інфор- маційні потреби користувачів – ускладню- ватись, доцільно передбачити можливості гнучкого розширення архітектури такої системи, яка дозволить поповнювати її но- вими модулями без змін вже існуючих. У найбільш узагальненому вигляді ця задача має наступний вигляд: вхідними даними для аналізу є: 1) набір документів, що містить знання щодо ПрО, – як семан- тично формалізовані (тезауруси, онтології, бази знань), так і слабо формалізовані (природномовні описи, стандарти, різно- манітні сирі дані, проаналізовані приклади тощо); 2) індивідуальні дані користувача, які конкретизують його інформаційні пот- реби, в тому числі – специфічні вимоги, правила оформлення контенту та терміно- логії; 3) засоби визначення вимог до ре- зультуючих документів – формалізовані вимоги, природномовні описи, приклади. В результаті обробки треба згенеру- вати документи, структура яких відповідає визначеним вимогам, а контент характери- зує вказані користувачем об’єкти із засто- суванням знань щодо ПрО. Відповідно до специфіки ПрО, результуючими докумен- тами можуть бути спеціалізовані профілі організацій або інформаційних систем; ре- комендації, що узагальнюють відомості з сирих даних; аналітичні огляди технічної та наукової інформації, структуровані за певними правилами; оцінки діяльності підрозділів організацій тощо. Для цього необхідно розв’язати низку підзадач: вио- кремлення структури результуючого до- кумента на основі наявних прикладів та описів, зв’язування на рівні семантики елементів контенту цього документа з ві- домостями ПрО, співставлення інформації від користувача з терміносистемою ПрО тощо. Найбільш складними елементами є коректне розпізнавання фрагментів доку- ментації, що відповідають слабо формалі- зованим вимогам до результату, та аналіз семантичної коректності отриманого ре- зультату. Важливо розуміти, що використан- ня лише логічного виведення та семантич- них запитів є недостатнім для здобуття знань з ПМ-документів, а передача задачі в цілому до LLM (навіть з великою кількіс- тю попередніх налаштувань та значною кількістю ітерацій) виявляється занадто складною для аналізу якості отриманого результату та виокремлення причин, що призвели до некоректних результатів. То- му доцільно інтегрувати в одній інформа- ційній системі обидві можливості, допов- нивши їх гнучкими засобами менеджменту інформації – як на рівні документів, так і на рівні знань. Але потрібно відзначити, що просте механічне поєднання одного технологічно- го середовища LLM та Semantic MediaWiki не вирішує поставлене завдання: потрібно чітко визначити етапи обробки інформації, формати збереження даних та моделі об- міну між окремими модулям, передбачити засоби керування та зворотного зв’язку. Така система має забезпечити фун- кціонально повний набір сервісів для пере- творення вхідної інформації на результую- чий набір документів, що відповідають вимогам користувача. Технологія викорис- тання системи повинна визначати порядок застосування сервісів, коректні перетво- рення інформації та можливість контролю людиною всіх етапів таких перетворень з метою вчасного виявлення та запобігання семантичним неоднозначностям (рис.1). Семантик Веб та лінгвістичні системи 66 семантизаціяLINZA LLM-1 LLM-2 SMW LLM-3 Protege Генерація звітів та рекомендацій • Природномовні рекомендації • Шаблони запитів для генерації спеціалізованих звітів • Аналітика та оцінка впровадження досвіду • Стуктуровані результуючі документи База семантично розмічених документів • Первинні документи з семантичною розміткою, що перевірені експертом • Cемантично розмічена інформація про користувача • Узгоджений тезаурус ПрО Репозиторій документів На платформі Semantic MediaWiki • Формалізований набір семантичних властивостей документів в форматі SMW • Типові пошукові запити • Категорії документів • Генерація онтологій за результатами запитів База первинних документів • Первинні документи • Інформація про користувача • Нормативні документи ПрО • Приклади результатів База знань • Аналіз найкращих практик • Спеціалізовані профілі об’єктів • Узгоджені та перевірені • рекомендації на основі аналізу • Узгоджений тезаурус ПрО • Візуалізована онтологія ПрО Рис. 1. Узагальнена схема технологічного середовища “Лінза” На попередньому етапі розробки цьо- го інтегрованого технологічного середо- вища потрібно чітко визначити його приз- начення та базовий функціонал, формалі- зувати основні види перетворень інформа- ції в процесі обробки. Саме це дозволяє визначити як склад цього середовища, так і призначення окремих модулів і засобів взаємодії між ними та користувачами, оха- рактеризувати необхідні операції у життє- вому циклі інформації (Рис.2). LLM-1 SMW LLM-3 Protege Інформація про користувача Первинні документи Нормативні документи ПрО Приклади результатів Генерація тезаурусу ПрО та семантичної розмітки документів Тезаурус ПрО Перевірка тезаурусу ПрО та семантичної розмітки експертами Збереження документів у сематичному репозиторії Генерація правил побудови результуючих документів Узгодження результатів з користувачем Розробка пошукових запитів та шаблонів звітів Генерація пояснень побудови результатів Аналіз найкращих практик Спеціалізовані профілі об’єктів Рекомендації Тезаурус та онтологія ПрО LLM-2 LLM-1 SMW LLM-3 Рис. 2. Життєвий цикл інформації у технологічному середовищі “Лінза” Семантик Веб та лінгвістичні системи 67 Для цього потрібно формалізувати вимоги до системи, яка має забезпечити автоматизацію процесу формування та- ких документів на основі поєднання ге- неративних можливостей LLM з контро- льованістю та прозорістю семантичних платформ, а саме: визначити базові принципи побудови такої системи, її компоненти, механізми інтеграції джерел знань і способи забезпечення відповідно- сті результату очікуваним формальним критеріям. Теоретичні засади системи аналізу документів “Лінза” Ключем до успішної реалізації гібридної системи є детермінація та структуризація вхідних і вихідних ін- формаційних потоків. Вхідні дані в та- ких задачах здебільшого представлені масивними колекціями неструктурова- них чи напівструктурованих документів із ПрО. До них належать нормативні документи та стандарти, зокрема, у сферах з обмеженим або контрольова- ним доступом до інформації, та емпіри- чні описи конкретних систем. Ці джере- ла, як правило, представлені у вільному форматі та містять складні внутрішні структури, термінологію та взаємозв'яз- ки, що вимагають глибокого семантич- ного аналізу. Обробка цих вхідних да- них здійснюється за допомогою інтег- рованих LLM та спеціалізованих серві- сів, які виконують функції парсингу, ідентифікації ключових сутностей, ви- явлення реляційних зв'язків та первин- ної семантичної розмітки. Вихідними даними системи є фо- рмалізовані та структуровані знання, що зберігаються у базі знань на платформі SMW, а також кінцеві згенеровані доку- менти. Зокрема, до вихідних даних на- лежать: семантично збагачені структури знань, де витягнута інформація трансфо- рмується у формат, сумісний з SMW (тріади, властивості та класифікації), за- безпечуючи високий рівень інтеропера- бельності та можливість логічного виве- дення. Зокрема, система продукує вери- фіковані фрагменти або цілі документи складної структури, правдивість яких гарантується етапом валідації за участю експертів (human-in-the-loop). Також до вихідних даних належать ланцюги логі- чного виведення та детальні пояснення ухвалених рішень, включаючи ідентифі- кацію підмножини знань, використаної моделлю, що забезпечує прозорість та можливість аудиту в умовах роботи з конфіденційною інформацією. Таким чином, відбувається процес трансфор- мації неструктурованих вхідних даних у структуровані, верифіковані та поясню- вані вихідні знання, що є центральним аспектом функціонування системи, за- безпечуючи її високу цінність для авто- матизації складних процесів обробки ін- формації. Не менш важливим є пошук ефек- тивних технологічних рішень, зокрема, застосування агентів та сервісів для цілі- сного та безперервного перетворення інформації між різними компонентами системи та визначення надійних джерел отримання знань щодо ПрО. У контексті поточної роботи предметна область охо- плює документи і стандарти, приклади конкретних систем та їхній опис. Крити- чно важливим аспектом є розуміння специфіки задачі, зокрема питання щодо допустимості розміщення опису предме- тної області у відкритому доступі, оскі- льки передача чутливих відомостей до зовнішніх LLM є неприпустимою з огляду на інформаційну безпеку та кон- фіденційність. Це додатково доводить доцільність локального розгортання та інтеграції компонентів і застосування концепції "human-in-the-loop" для конт- ролю та валідації. Метою роботи є аналіз доцільнос- ті інтеграції семантичних технологій з LLM для автоматизованого створення комплексних природномовних докумен- тів, що включають текстові, графічні та табличні дані, відповідають формальним вимогам до структури та враховують специфічні запити замовника. Семантик Веб та лінгвістичні системи 68 Аналіз конкретних прикладних задач та шляхів їх розв’язання спрямо- ваний на те, щоб дослідити вимоги до такої автоматизованої системи. Запро- понований підхід має дозволити розв'я- зати проблему довіри та достовірності результатів, притаманні сучасному гене- ративному ШІ. Дослідивши сучасний стан розро- бок у сфері інтелектуальної обробки ін- формації, ми виявили доцільність засто- совувати у “Лінзі”: ● Агентні технології та сервіс- орієнтоване програмування [5] – для пе- рсоніфікованої динамічної обробки да- них у веб-середовищі: інтелектуальні агенти дозволяють відображати цілі та задачі різних суб’єктів системи, щоб знаходити та активувати найбільш при- йнятні сервіси для перетворення та ана- лізу інформації; ● Семантичні технології та онтологічний аналіз [6] – для семантич- ної інтерпретації контенту вхідних да- них системи з використанням зовнішніх джерел знань (онтологій, тезаурусів, та- ксономій), їх структурування формалізо- ваними мовами для інтероперабельності та автоматичної обробки; ● Великі мовні моделі – як за- сіб глибокого семантичного аналізу при- родномовних документів для співстав- лення їхнього контенту з онтологічними моделями ПрО класифікації та структу- рування (наприклад, LLM дозволяють автоматизовано генерувати семантичну розмітку сирих природномовних даних тегами, що відповідають поняттям та ві- дношенням з обраної онтології ). ● Семантичні вікі [7] – як пла- тформи для зберігання та надання кори- стувачам доступу до семантично струк- турованого контенту. Сучасний стан досліджень у сфері інтеграції LLM із семантичними технологіями У більшості сучасних інтелектуа- льних систем, що базуються на LLM, ко- ристувач позбавлений доступу до проце- сів структурування знань, джерел первин- ного контенту та логіки формування ре- комендацій. Алгоритми обробки залиша- ються непрозорими, що обмежує довіру до системи, ускладнює валідацію резуль- татів та викликає труднощі у експертній - перевірці.[4] У цьому контексті особливий інте- рес становить застосування вікі- технологій, зокрема, таких, як Semantic MediaWiki та WikiData, у поєднанні з LLM. Саме вікі-підхід дозволяє зробити структуру знань відкритою, зрозумілою та доступною для редагування, що, своєю чергою, пояснює причини формування системних висновків і підвищує прозо- рість ухвалення рішень. У науковій літературі представлено низку проєктів, у яких здійснюється інте- грація LLM із WikiData або Wikipedia [8, 9]. Їхній аналіз виділяє ряд закономірнос- тей, характерних для мультиагентних сис- тем із залученням LLM. Більшість описаних рішень реалі- зують мультиагентну архітектуру, де ко- жен агент виконує окрему спеціалізовану функцію — від семантичного аналізу . до генерації тексту [3] та перевірки правди- вості даних [4] Такий підхід дозволяє фо- рмалізувати робочий процес і значно знижує ризики помилок, типових для ге- неративних моделей. У всіх системах за- стосовується Retrieval-Augmented Generation (RAG) [10] — техніка, що до- зволяє LLM поєднувати генеративні мож- ливості з релевантною фактологічною ін- формацією із семантичних структур або зовнішніх джерел. У цих підходах актив- но використовують техніки покрокового уточнення запитів (workflow orchestration, prompt chaining), що наближає модель до логічного міркування й багатоетапної по- будови контенту та забезпечує структуро- вану генерацію документів на основі фо- рмалізованих знань, зниженні частоти «галюцинацій» моделей, високій гнучкос- ті в розподілі обов’язків між агентами і можливості адаптації під різні доменні задачі. Зокрема, використання семантич- них шаблонів дозволяє LLM автоматично виводити інформаційні вимоги до доку- Семантик Веб та лінгвістичні системи 69 мента, тоді як у CLAIR граф знань забез- печує багатоетапне логічне виведення фа- ктів для підготовки технічної документа- ції. DocAgent використовує багатогранну систему оцінювання згенерованого ре- зультату, що дозволяє об’єктивно оціню- вати повноту, корисність та фактичність документації [9]. Водночас, існують і певні обме- ження. Системи залишаються чутливими до обмежень контексту моделей — навіть при використанні довгих вікон (16К+ то- кенів) генерація в межах великих кодових баз або графів знань може втрачати реле- вантність. Деякі системи, зокрема, DocAgent, орієнтовані переважно на ста- тичний аналіз, що обмежує обробку ди- намічних аспектів програмних систем. Ефективність генерації значною мірою залежить від якості семантичного опису — неповні або суперечливі шаблони мо- жуть призводити до помилок або втрати важливої інформації. Також слід зазначи- ти, що інтеграція з платформами на кшталт SMW потребує додаткових зусиль у побудові запитів та формалізації знань у придатному для LLM вигляді. Крім того, у сучасних досліджен- нях активно вивчаються підходи до поєд- нання великих мовних моделей із семан- тичними базами знань, зокрема, у форматі Wikidata. Одним з таких прикладів є LLM Store [11], що виступає як проміжне сере- довище між LLM та структурованими да- ними, дозволяючи трансформувати при- родномовні запити у твердження у фор- маті RDF-триад [12]. Архітектурно систе- ма реалізована як плагін до KIF (Knowledge Integration Framework), що забезпечує трансляцію відповідей моделі у формат, придатний до розміщення у Wikidata. Зокрема, її ефективність була продемонстрована в задачах LM-KBC (Language Model-based Knowledge Base Construction), де LLM Store показав високі результати точності генерації. Найвищих показників F1-score (до 91%) вдалося human-in-the-loop досягти шляхом дода- вання контексту до запитів, що підтвер- джує ключову роль модуля генерації кон- тексту. Попри це, автори підкреслюють слабке місце системи — невисоку точ- ність для “вузьких” специфічних відносин та помилки в ідентифікації сутностей. В іншій системі — Scholarly Wikidata, LLM використовується для на- півавтоматизованого вилучення метада- них наукових конференцій із веб-сайтів та текстів матеріалів. Результатом стало сут- тєве збагачення бази Wikidata: додано ти- сячі сутностей та нових властивостей, що охоплюють організаційні ролі, прийняті статті, доповіді, тощо. Перевагою цього підходу є висока ефективність витягуван- ня структурованої інформації, однак авто- ри вказують на схильність LLM до поми- лок під час роботи з датами, назвами тре- ків або складними залежностями між сут- ностями. Для таких випадків необхідне втручання людини (human-in-the-loop), що підвищує загальні витрати на підтримку системи [8]. Дослідження Каверинського, Літ- віна та Палагіна [13] пропонують іннова- ційний підхід до керованої генерації при- родної мови. Основна ідея роботи полягає в концепції "зворотного синтезу", яка, на відміну від традиційного аналізу природ- ної мови, зосереджена на продукуванні текстових висловлювань з наявних фор- малізованих онтологічних представлень. Ці онтологічні представлення, які є центральною ланкою методології, автома- тично будуються на основі аналізу речень науково-технічних текстів за допомогою раніше розроблених програмних засобів. Вони інкорпорують сутності, ідентифіко- вані в тексті, та типізовані семантичні зв'язки між ними, формуючи таким чином структуровану мережу знань. Для взаємо- дії з великою мовною моделлю, зокрема ChatGPT, автори розробили спеціально структуровані інструкції-підказки (prompts), які направляють модель для ге- нерації тексту, що точно відповідає зада- ній семантичній структурі. Проведена се- рія експериментів із синтезу природномо- вних висловлювань підтвердила ефектив- ність запропонованого підходу. Ця мето- дологія є розв'язанням проблем, пов'яза- них із неконтрольованою генерацією та низькою прозорістю LLM, забезпечуючи значно вищий рівень правдивості та про- зорості згенерованих висловлювань через Семантик Веб та лінгвістичні системи 70 їхню опору на верифіковані онтологічні структури та керовані підказки. У контексті інтеграції великих мо- вних моделей із семантичними технологі- ями, значний інтерес становить досвід за- стосування семантичних вікі-систем для управління знаннями. Зокрема, [14] опи- сує використання MediaWiki та Semantic MediaWiki для створення онтологічно- орієнтованих репозиторіїв знань, що підт- верджує доцільність застосування таких платформ для формалізації предметних областей, забезпечення однозначної інте- рпретації термінології та підтримки сема- нтичного пошуку у складних, динамічних інформаційних масивах. Запропонована архітектура, що інтегрує різні джерела знань та сервіси, слугує вагомим підґрун- тям для розробки гібридних систем, які прагнуть поєднати генеративні можливос- ті LLM із верифікованими семантичними структурами. Отже, вище зазначені системи де- монструють спільну тенденцію: викорис- тання великих мовних моделей як джере- ла знань, які потім зберігаються у форма- лізованій структурі типу Wiki. Проте ці моделі мають спільне обмеження — дані, які були згенеровані великими мовними моделями, стають частиною бази знань без механізмів прозорої верифікації. Крім того, наразі, запит у пошуковій системі не дає жодного релевантного посилання, що свідчить про новизну запропонованого напряму (“LLM and SMW”). Тож можна стверджувати, що поєднання нейронних моделей із SMW утворює синергетичну модель, де LLM виступає як інтерпрета- тор природної мови та генератор контен- ту, а SMW забезпечує структуроване се- редовище для верифікації, представлення та розширення знань. Такий підхід дозво- ляє забезпечити покращення для тради- ційних систем, підвищуючи точність і на- дійність згенерованих даних завдяки фо- рмалізованим семантичним шаблонам і механізмам перевірки. Таким чином, системи на основі мовних моделей і семантичних структур демонструють значний потенціал для ав- томатизованої побудови та структуруван- ня даних у різних галузях — від публіч- ного адміністрування до програмної ін- женерії. Подальший розвиток доцільно спрямувати на вдосконалення механізмів інтеграції з джерелами знань, покращення інтерпретованості результатів і розши- рення підтримки динамічних сценаріїв використання. Система «ЛІНЗА»: архітектура, призначення та інтелектуальні механізми Інформаційна система лінгвістич- ної обробки нормативних документів «ЛІНЗА» призначена для автоматизації створення та обробки складних природ- номовних документів, що інтегрують роз- різнені дані та відповідають жорстким формальним вимогам. Система є розробкою Інституту програмних систем НАН України та має значний потенціал застосування в тих сферах, де критично важлива точність, структура та правдивість інформації. “ЛІНЗУ” доцільно застосовувати в тих галузях, де необхідно забезпечити семантичне структрування великих обся- гів інформації з їх подальшим аналізом та перетворенням на документи зі склад- ною, наперед визначеною структурою, а також генерації пояснюваної інформації щодо створених документів та забезпе- ченні високої правдивості даних. Водно- час значна частина правил перетворення та принципів сруктурування подається неявно, тобто ці знання потрібно здобу- вати з відповідних документів, пов’язаних між собою. Сферами застосу- вання системи можуть бути: державне управління, де вона може значно спрос- тити підготовку нормативно-правових актів, звітів, протоколів та іншої офіцій- ної документації; юриспруденція – для аналізу величезних обсягів юридичних документів, ефективного вилучення клю- чової інформації та автоматичного фор- мування декларацій; сертифікація та ста- ндартизація – як іструмент автоматизо- ваної підготовки звітної документації на вимогу сертифікаційниих органів. Семантик Веб та лінгвістичні системи 71 Агентний рівень Сервісний рівень Рівень оркестровки сервісів Рівень інтерфейсу користувача Рівень бази знань Рис. 3. Багаторівнева архітектура технологічного середовища “Лінза” Можливість аналізу та реалізації досвіду для таких інтелектуальних систем, як "ЛІНЗА", має ключове знання. Це є ос- новою для вдосконалення функціоналу си- стеми: регулярний аналіз результатів її ро- боти, зворотний зв'язок від користувачів, експертів, що дозволяє виявляти недоліки та оптимізувати процеси. Такий підхід сприяє ефективному накопиченню знань, оскільки система дозволяє структурувати та зберігати отриманий досвід, перетво- рюючи його на структуровані онтології та інші формати, доступні для подальшого використання та аналізу. Крім того, у ди- намічних сферах, таких як захист інфор- мації, де постійно виникають нові виклики та вимоги, постійні адаптації до змін є життєво необхідними. “Лінза” є складною системою, що поєднує різні технології та методи обро- бки інформації. Тому для її розробки за- стосовується багаторівнева архітектура, яка дозволяє перетворити задачу розроб- ки системи на набір простіших підзадач (Рис.3). Взаємодія складових системи "ЛІНЗА" координується через сервіс ор- кестровки [15] (Orchestration Service), який координує інтелектуальну обробку документації за участі агентів і сервісів, що виконують спеціалізовані функції збору, аналізу, перетворення та перевірки даних. Такий підхід забезпечує гнучкість, масштабованість та адаптивність системи до зміни вхідних даних і вимог. На рівні взаємодії з користувачем система реалізує веб-інтерфейс (UI - user interface), який уможливлює завантажен- ня документів, формулювання запитів природною мовою та перегляд аналітич- них результатів і згенерованих - декларацій. Сервісний рівень виконує наступні функції: завантаження та попередню об- робку документів, семантичне анотуван- ня, онтологічне моделювання, генерацію відповідей за допомогою LLM, та інтег- рацію знань за підходом Retrieval- Augmented Generation (RAG). Для збере- ження, оновлення та валідації знань ви- користовується Semantic MediaWiki, що дає можливість семантичного доступу через SPARQL-запити. Такий архітектурний підхід дозво- ляє ефективно інтегрувати експертні знання з мовними моделями, що суттєво покращує якість аналізу, обґрунтування рішень та пояснення складних норматив- них понять. Семантик Веб та лінгвістичні системи 72 Функціональні можливості “Лінзи” Функціональна архітектура систе- ми "ЛІНЗА" інтегрує низку спеціалізова- них модулів, кожен з яких виконує кри- тично важливі операції в процесі інтелек- туальної обробки інформації, забезпечу- ючи її перетворення від неструктурова- них вхідних даних до формалізованих та пояснюваних знань. Обробка вхідних документів: Ві- дповідає за ініціальний етап життєвого циклу інформації в системі. Він здійснює інжест неструктурованих документів, представлених у типових офісних форма- тах (наприклад, PDF, DOCX). Основною функцією є не лише ідентифікація форма- ту, а і їхня трансформація у стандартизо- ваний текстовий формат, придатний для подальшого автоматизованого аналізу. Додатково цей модуль інтегрує засоби оп- тичного розпізнавання символів (OCR) для конвертації графічних представлень тексту, а також алгоритми попереднього очищення даних, спрямовані на усунення аберацій та нормалізацію текстового кон- тенту для забезпечення високої якості вхідної інформації для подальших етапів обробки. Семантичне анотування (Semantic Annotation): Центральний еле- мент інтелектуальної обробки, що реалізує парадигму семантичного збагачення да- них. Шляхом інтеграції передових LLM та семантичних технологій, цей модуль здій- снює не лише ідентифікацію номенклату- рних сутностей у тексті, а й виявляє скла- дні когнітивні та функціональні зв'язки між ними. Результатом є побудова деталі- зованої семантичної моделі документа, що включає контекстуалізовані відносини між об'єктами знань. Ця структура зберігається у структурованому сховищі знань, реалізо- ваному на базі Semantic MediaWiki, фор- муючи онтологічно збагачений репозито- рій для подальшого аналізу та запитів. Перетворення природномовних запитів (Natural Language Query Transformation): Виконує функцію інтер- фейсу між природномовним запитом кори- стувача та формалізованою базою знань. Його призначення полягає у трансляції неформальних запитів, висловлених при- родною мовою, у структуровані запити мовою SPARQL або ASK – мовою для за- питів до SMW. Цей процес вимагає глибо- кого семантичного розуміння запиту кори- стувача та його відображення на онтологі- чну структуру сховища, забезпечуючи ви- соку релевантність та точність отриманих результатів. Генерації декларацій та аналіти- чних звітів (Declaration and Analytical Report Generation): Даний процес синте- зує отримані знання у формі, зручній для кінцевого користувача. Він використовує не лише безпосередньо витягнуті факти, а й складні механізми логічного виведення (reasoning) для формування обґрунтованих та когерентних відповідей. Застосування підходу Retrieval-Augmented Generation (RAG) дозволяє інтегрувати можливості генерації тексту LLM з доступом до вери- фікованих знань з внутрішньої бази даних. Це забезпечує продукування не просто ві- дповідей, а повноцінних аналітичних звітів та декларацій, які є прозорими, посила- ються на джерела та відповідають встано- вленим стандартам звітності. Управління знаннями (Knowledge Management): Є фундаментом для забез- печення життєвого циклу знань у системі. Він надає функціональність для створення, персистенції, модифікації та версифікації знань, представлених у вигляді онтологій та статей Semantic MediaWiki. Онтології забезпечують формалізоване представлен- ня предметної області, тоді як статті Semantic MediaWiki слугують зручним ін- терфейсом для взаємодії зі знаннями. Сис- тема версифікації критично важлива для відстеження еволюції знань у динамічних доменах, гарантуючи їхню актуальність та цілісність. Експертна валідація (Expert Validation Module): Ця функція впрова- джує парадигму Human-in-the-Loop, забез- печуючи високий рівень достовірності ре- зультатів. На відміну від автоматизованої обробки, система надає інтерфейс для руч- ної верифікації та коригування витягнутих сутностей та згенерованих декларацій. Семантик Веб та лінгвістичні системи 73 Можливість гнучкої корекції та аналізу експертами дозволяє мінімізувати потен- ційні помилки, підвищити точність інфор- мації та забезпечити відповідність високим галузевим стандартам, особливо у сферах, де помилки неприпустимі. Експорт результатів (Results Expor): Завершальний етап функціональ- ного ланцюга, що забезпечує інтеграцію системи із зовнішніми середовищами та бізнес-процесами. Даний модуль відпові- дає за форматування та експорт вихідної звітної документації у стандартизованих, загальноприйнятих форматах (наприклад, PDF, DOCX). Це дозволяє безперешкодно інтегрувати результати роботи "ЛІНЗИ" в існуючий документообіг, що забезпечує можливість передачі сформованих доку- ментів до відповідних сертифікаційних або регуляторних органів. Основні модулі системи Сервіс-орієнтована архітектура системи "ЛІНЗА" забезпечує її модуль- ність та гнучкість. Вона складається з чо- тирьох основних функціональних груп сервісів: модулі взаємодії з користува- чем, сервіси обробки документів та уп- равління LLM, сервіси управління знан- нями, сервіси валідації та експорту, про- цеси взаємодії яких узагальнено пред- ставлено на рис. 4. Рис. 4. Узагальнена схема функціонування системи "ЛІНЗА" Модулі взаємодії з користувачем ● UI Service — це графічний інтерфейс користувача, через який відбу- вається завантаження документів, подання запитів, перегляд результатів та деклара- цій. ● API Gateway Service — єдина точка входу до системи, що виконує функції маршрутизації запитів, автентифі- кації та авторизації. Сервіси обробки документів та управ- ління LLM ● Document Parsing Service — відповідає за трансформацію вхідних фай- лів у структурований текст із попереднім очищенням і OCR. ● LLM Orchestration Service — головний координаційний модуль, що розподіляє завдання між агентами та LLM, виконує reasoning і генерацію за ReAct- підходом. ● NLQ-to-SPARQL — транс- формує природномовні запити у формаль- ні запити до бази знань. Семантик Веб та лінгвістичні системи 74 ● Response Generation — ви- конує генерацію відповідей на основі ре- зультатів SPARQL-запитів. Сервіси управління знаннями ● Knowledge Base Service (Semantic MediaWiki Core) — реалізує сховище структурованих знань та підтри- мує SPARQL-запити. ● Persistence Service — забез- печує довготривале зберігання вхідних до- кументів, онтологій, логів та інших служ- бових даних. ● Vector Database Service — векторне сховище embedding-представлень знань для семантичного пошуку в задачах типу RAG. Сервіси валідації та експорту ● Validation Service — надає інтерфейс для експертної перевірки витяг- нутих сутностей та декларацій, дозволяє ручну корекцію та затвердження. ● Export Service — відповідає за експорт результатів у відповідні станда- ртизовані формати (PDF, DOCX), з мож- ливістю подальшої передачі сертифікацій- ним органам. Вхідні та вихідні дані системи Вхідні дані: ● Неструктуровані текстові документи: Завантажуються користува- чами у форматах PDF, DOCX. ● Природномовні запити: Формулюються користувачами для отри- мання пояснень чи витягів з бази знань. ● Редагування експертів: Ва- лідовані уточнення, зауваження, вручну додані знання. Вихідні дані: ● Аналітичні відповіді: Сфо- рмовані системою результати запитів, представлені у зрозумілій для користува- ча формі. ● Семантичні сутності: Витя- гнуті та семантично пов’язані поняття, збережені у базі знань. ● Декларації та звіти: Авто- матично згенеровані документи у форма- тах PDF, DOCX, придатні для подальшо- го використання. ● Embedding-представлення: Векторні форми знань для швидкого по- шуку релевантної інформації. Висновки У роботі досліджено потенціал синергетичної інтеграції великих мовних моделей та семантичних технологій для автоматизованого створення й обробки складних природномовних документів. Розглядається концепція побудови гібри- дної інформаційної системи лінгвістичної обробки документів «ЛІНЗА», яка поєд- нує великі мовні моделі (LLM), семанти- чні технології та мультиагентні архітек- турні рішення. Основна мета досліджен- ня полягає в розробці автоматизованої платформи для обробки складних приро- дномовних документів, що потребують високого ступеня точності, структурного узгодження та пояснювання. Запропонована система має бага- торівневу архітектуру, яка містить модулі попередньої обробки документів, семан- тичного анотування, генерації документів і аналітичних звітів, управління знаннями та експертної валідації. Особливу увагу приділено використанню Retrieval- Augmented Generation як механізму інте- грації генеративних можливостей LLM із формалізованими базами знань на основі Semantic MediaWiki. На етапі архітектурного проєкту- вання авторами запропоновано багаторів- неву модель інформаційної системи «ЛІН- ЗА», що поєднує агентні компоненти з ви- користанням LLM для глибокого семанти- чного аналізу, набір сервісів для динаміч- ної обробки даних і платформу Semantic MediaWiki для структурованого зберігання та верифікації контенту. Запропонована архітектура демонс- трує високий потенціал ефективного за- стосування в критичних доменах, де особ- ливо важливими є достовірність, прозо- рість і безпека інформаційної обробки. За- лучення формалізованих семантичних ша- блонів, механізмів перевірки та підходу Семантик Веб та лінгвістичні системи 75 human-in-the-loop забезпечує підвищення точності, надійності та контрольованості результатів. Застосування системи «ЛІНЗА» охоплює сфери публічного управління, юриспруденції, сертифікації, стандарти- зації та спрямоване на забезпечення про- зорої, контрольованої і формалізованої обробки документів, що відкриває перс- пективи масштабованої автоматизації складних інформаційних процесів з яв- ним використанням знань предметної - області. Подальший розвиток системи доці- льно спрямувати на вдосконалення меха- нізмів інтеграції з джерелами знань, пок- ращення інтерпретованості результатів і розширення підтримки динамічних сце- наріїв використання, а також ширшу ін- теграцію зі стандартами проєкту Semantic Web [16], що стосуються подання серві- сів, програмних агентів та онтологій. Література 1. Naveed, H., Khan, A. U., Qiu, S., Saqib, M., Anwar, S., Usman, M., Mian, A. A comprehensive overview of large language models. ACM Transactions on Intelligent Systems and Technology. 2023. URL: https://dl.acm.org/doi/pdf/10.1145/3744746. 2. Liang, X., Zhou, B., Jiang, L., Meng, G., Xiu, Y. Collaborative pursuit-evasion game of multi-UAVs based on Apollonius circle in the environment with obstacle. Connection Science. 2023. Vol. 35, Iss. 1. P. 1–24. DOI: https://doi.org/10.1080/09540091.2023.21682 53. 3. Musumeci, E., Brienza, M., Suriani, V., Nardi, D., Bloisi, D. D. LLM-based multi- agent generation of semi-structured documents from semantic templates in the public administration domain. In: Proceedings of the International Conference on Human- Computer Interaction (HCII 2024). Cham: Springer, 2024. P. 98–117. 4. Eichhorn, T. CLAIR: Generating on-demand low-code application documentation through knowledge graph and LLM-based multi-agent system integration. Master's thesis. University of Twente, 2025. 5. Плескач В. Л., Рогушина Ю. В. Агентні технології: Монографія. Київ : Київ. нац. торг.–екон. ун–т, 2005. 6. Рогушина Ю. В., Гладун А. Я., Осадчий В. В., Прийма С. М. Онтологічний аналіз у Web: Монографія. Мелітополь : МДПУ ім. Богдана Хмельницького, 2015. 407 с. URL: http://www.dut.edu.ua/uploads/l_2148_67675 988.pdf. ISBN 978-617-7346-27-1. 7. Vrandečić, D., Krötzsch, M. Semantic MediaWiki. In: Semantic Knowledge Management: Integrating Ontology Management, Knowledge Discovery, and Human Language Technologies. Berlin, Heidelberg: Springer Berlin Heidelberg, 2009. P. 171–179. 8. Chen, J., Lu, X., Du, Y., Rejtig, M., Bagley, R., Horn, M., Wilensky, U. Learning agent- based modeling with LLM companions: Experiences of novices and experts using ChatGPT & NetLogo chat. In: Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems. 2024. P. 1–18. 9. Yang, D., Simoulin, A., Qian, X., Liu, X., Cao, Y., Teng, Z., Yang, G. DocAgent: A multi-agent system for automated code documentation generation. arXiv preprint arXiv:2504.08725. 2025. 10. Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Kiela, D. Retrieval- augmented generation for knowledge- intensive nlp tasks. Advances in Neural Information Processing Systems. 2020. Vol. 33. P. 9459–9474. 11. Machado, M., Rodrigues, J. M., Lima, G., Fiorini, S. R., da Silva, V. T. LLM Store: Leveraging large language models as sources of Wikidata-structured knowledge. In: Proceedings of the International Semantic Web Conference (ISWC 2024). Cham: Springer, 2024 (to appear). 12. Mihindukulasooriya, N., Tiwari, S., Dobriy, D., Nielsen, F. Å., Chhetri, T. R., Polleres, A. Scholarly Wikidata: Population and exploration of conference data in Wikidata using LLMs. In: Proceedings of the International Conference on Knowledge Engineering and Knowledge Management (EKAW 2024). Cham: Springer, 2024. P. 243– 259. Семантик Веб та лінгвістичні системи 76 13. Каверинський В. В., Літвін А. А., Палагін О. В. Зворотний синтез природномовних висловлювань на основі їх онтологічного представлення з використанням великої мовної моделі. Проблеми програмування. 2024. № 2-3. С. 359. DOI: https://doi.org/10.15407/pp2024.02-03.359. 14. Рогушина Ю. В., Гладун А. Я., Аніщенко О. В., Прийма С. М. Семантичні технології як інструмент інформаційного забезпечен- ня професіоналізації андрагогів. Проблеми програмування. 2024. № 2-3. С. 441. DOI: https://doi.org/10.15407/pp2024.02-03.441. 15. Rotsos, C., King, D., Farshad, A., Bird, J., Fawcett, L., Georgalas, N., Hutchison, D. Network service orchestration standardization: A technology survey. Computer Standards & Interfaces. 2017. Vol. 54. P. 203–215. 16. Patel, A., Jain, S. Present and future of semantic web technologies: a research statement. International Journal of Computers and Applications. 2021. Vol. 43, Iss. 5. P. 413–422. Одержано: 19.07.2025 Внутрішня рецензія отримана:26.07.2025 Зовнішня рецензія отримана: 28.07.2025 Про авторів: Сініцин Ігор Петрович, доктор технічних наук, професор, член-кореспондент НАН України, https://orcid.org/0000-0002-4120-0784, ips@nas.gov.ua Рогушина Юлія Віталіївна, кандидат фіз.-мат.наук, с.н.с., доцент, http://orcid.org/0000-0001-7958-2557, ladamandraka2010@gmail.com Юрченко Костянтин Юрійович, аспірант, м.н.с. https://orcid.org/0000-0003-3150-0027, urchikak8@gmail.com Місце роботи авторів: Інститут програмних систем Національної академії наук України, 03187, м. Київ-187, просп. Академіка Глушкова, 40, корпус 5.
id	pp_isofts_kiev_ua-article-838
institution	Problems in programming
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2025-11-04T02:10:23Z
publishDate	2025
publisher	PROBLEMS IN PROGRAMMING
record_format	ojs
resource_txt_mv	ppisoftskievua/b6/b11d6de0433668a2e73d561998f7fcb6.pdf
spelling	pp_isofts_kiev_ua-article-8382025-11-03T11:01:51Z Integration of large language models with semantic processing tools as an instrument for knowledge digitization Інтеграція великих мовних моделей із засобами семантичної обробки як інструмент цифровізації знань Sinitsyn, I.P. Rogushina, J.V. Yurchenko, K.Yu. agent technologies; large language models; LLM; Semantic MediaWiki; semantic technologies; knowledge base; formalized documents UDC 004.8:004.724 агентні технології; великі мовні моделі; LLM; Semantic MediaWiki; семантичні технології; база знань; формалізовані документи УДК 004.8:004.724 The paper addresses the task of automating the analysis, generation, and management of complex natural language documents based on the integration of generative artificial intelligence with semantic technologies, in particular Semantic MediaWiki. It analyzes how the use of ontological models of subject domains and semantic markup makes it possible to prevent such critical shortcomings of large language models as the tendency to “hallucinations” (generation of false statements) and the lack of transparency in decision explanations. This integration is explored using the example of the instrumental system “LINZA,” which is being developed for automated intelligent processing of content from heterogeneous documents with complex and weakly formalized structure, with the aim of generating natural language reports according to specified requirements in various domains, such as public administration, jurisprudence, certification, and standardization. The system is based on the combination of the flexibility and adaptability of large language models with formalized ontological knowledge and support for semantic queries about pertinent facts in the Semantic MediaWiki environment or external sources (Retrieval-Augmented Generation). The proposed approach will significantly reduce the risks of typical errors in generative models and ensure factual accuracy and transparency in the decision-making process. Special attention is paid to mechanisms of transparency, reliability, and the possibility of human control to increase trust in the generated data, which is especially important in areas with high information security requirements, and ensures greater confidence in automatically created documents. The multi-level architecture of the system defines the tasks of agents and services that perform specialized functions of data collection, analysis, transformation, and verification, and ensures flexibility, scalability, and adaptability of the system to changes in input data and requirements.Problems in programming 2025; 2: 63-76 У роботі розглядається задача автоматизації аналізу, генерації та управління складними природномов ними документами на основі інтеграції генеративного штучного інтелекту із семантичними технологі ями, зокрема, Semantic MediaWiki. Аналізується, яким чином застосування онтологічних моделей пре дметних областей та семантичної розмітки дозволяє запобігати таким критичним недолікам великих мовних моделей, як схильність до "галюцинацій" (генерації неправдивих тверджень) та відсутність прозорості у поясненні рішень. Така інтеграція досліджується на прикладі інструментальної системи “ЛІНЗА”, яка розробляється для автоматизованої інтелектуальної обробки контенту розрізнених документів зі складною слабоформалі зованою структурою з метою генерації природномовних звітів за заданими вимогами у різних галузях, таких як публічне адміністрування, юриспруденція, цифровізації знань, сертифікація та стандартизація. Система базується на поєднанні гнучкості та адаптивності великих мовних моделей із формалізовани ми онтологічними знаннями та підтримкою семантичних запитів щодо пертинентних фактів у середо вищі Semantic MediaWiki, або зовнішніх джерел (Retrieval-Augmented Generation). Запропонований під хід дозволить значно знизити ризики помилок, типових для генеративних моделей, та забезпечити фак тичну правдивість і прозорість процесу ухвалення рішень. Особлива увага приділяється механізмам прозорості, достовірності та можливості контролю людиною для підвищення довіри до згенерованих даних, що особливо важливо у сферах із підвищеними вимогами до безпеки інформації. Такий підхід також забезпечує більшу довіру до автоматично створених документів. Багаторівнева архітектура системи характеризує задачі агентів і сервісів, що виконують спеціалізовані функції збору, аналізу, перетворення та перевірки даних, і забезпечує гнучкість, масштабованість та адаптивність системи до зміни вхідних даних і вимог.Problems in programming 2025; 2: 63-76 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-09-07 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/838 10.15407/pp2025.02.063 PROBLEMS IN PROGRAMMING; No 2 (2025); 63-76 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2 (2025); 63-76 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2 (2025); 63-76 1727-4907 10.15407/pp2025.02 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/838/889 Copyright (c) 2025 PROBLEMS IN PROGRAMMING
spellingShingle	agent technologies large language models LLM Semantic MediaWiki semantic technologies knowledge base formalized documents UDC 004.8:004.724 Sinitsyn, I.P. Rogushina, J.V. Yurchenko, K.Yu. Integration of large language models with semantic processing tools as an instrument for knowledge digitization
title	Integration of large language models with semantic processing tools as an instrument for knowledge digitization
title_alt	Інтеграція великих мовних моделей із засобами семантичної обробки як інструмент цифровізації знань
title_full	Integration of large language models with semantic processing tools as an instrument for knowledge digitization
title_fullStr	Integration of large language models with semantic processing tools as an instrument for knowledge digitization
title_full_unstemmed	Integration of large language models with semantic processing tools as an instrument for knowledge digitization
title_short	Integration of large language models with semantic processing tools as an instrument for knowledge digitization
title_sort	integration of large language models with semantic processing tools as an instrument for knowledge digitization
topic	agent technologies large language models LLM Semantic MediaWiki semantic technologies knowledge base formalized documents UDC 004.8:004.724
topic_facet	agent technologies large language models LLM Semantic MediaWiki semantic technologies knowledge base formalized documents UDC 004.8:004.724 агентні технології великі мовні моделі LLM Semantic MediaWiki семантичні технології база знань формалізовані документи УДК 004.8:004.724
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/838
work_keys_str_mv	AT sinitsynip integrationoflargelanguagemodelswithsemanticprocessingtoolsasaninstrumentforknowledgedigitization AT rogushinajv integrationoflargelanguagemodelswithsemanticprocessingtoolsasaninstrumentforknowledgedigitization AT yurchenkokyu integrationoflargelanguagemodelswithsemanticprocessingtoolsasaninstrumentforknowledgedigitization AT sinitsynip íntegracíâvelikihmovnihmodelejízzasobamisemantičnoíobrobkiâkínstrumentcifrovízacííznanʹ AT rogushinajv íntegracíâvelikihmovnihmodelejízzasobamisemantičnoíobrobkiâkínstrumentcifrovízacííznanʹ AT yurchenkokyu íntegracíâvelikihmovnihmodelejízzasobamisemantičnoíobrobkiâkínstrumentcifrovízacííznanʹ

Integration of large language models with semantic processing tools as an instrument for knowledge digitization

Institution

Ähnliche Einträge