About one approach to automatic creation of formal queries to ontological knowledge bases
The article develops an approach that includes the analysis of short natural language messages in Ukrainian and the automatic generation of queries in SPARQL and Cypher based on them. The Apache Jena Fuseki server is used as a SPARQL query processing tool, and the Neo4J graph database is used as a d...
Збережено в:
| Дата: | 2024 |
|---|---|
| Автори: | , , , |
| Формат: | Стаття |
| Мова: | English |
| Опубліковано: |
PROBLEMS IN PROGRAMMING
2024
|
| Теми: | |
| Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/653 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Problems in programming |
| Завантажити файл: | |
Репозитарії
Problems in programming| id |
pp_isofts_kiev_ua-article-653 |
|---|---|
| record_format |
ojs |
| resource_txt_mv |
ppisoftskievua/e7/a20410c6b3c4ed5aeaa319d5d7c7fde7.pdf |
| spelling |
pp_isofts_kiev_ua-article-6532025-02-15T14:18:10Z About one approach to automatic creation of formal queries to ontological knowledge bases Про один підхід до автоматичного створення формальних запитів до онтологічних баз знань Palagin, O.V. Petrenko, M.G. Litvin, A.A. Boyko, M.O. Semantic Web technology; ontological knowledge base; OWL ontology; SPARQL and Cypher languages; Neo4J graph database UDC 004.318 технологія Semantic Web; онтологічна база знань; OWL онтологія; мови SPARQL і Cypher; графова база даних Neo4J УДК 004.318 The article develops an approach that includes the analysis of short natural language messages in Ukrainian and the automatic generation of queries in SPARQL and Cypher based on them. The Apache Jena Fuseki server is used as a SPARQL query processing tool, and the Neo4J graph database is used as a data warehouse or ontological knowledge base. The latter is the most common open source database, highperformance and well-scalable, i.e., capable of working with large amounts of data. In addition, approaches to building formal queries based on natural language queries for Cypher are little known and require further development. The approach is based on the fact that a user's natural language query is subjected to a series of sequential checks. Their results determine the set of semantic types expressed in the phrase (natural language query) and the corresponding concepts that define them. The result of these checks is a set of four values – the codes of the check results, as well as the subjects and predicates, if present. This information is enough to select a set of basic templates for formal queries. Based on the results of such basic checks, the main basic templates for generating the final request are created. The proposed approach has a basic query template aimed at obtaining information of a certain type in a given form, as well as additional modifier templates that optionally construct query strings in the corresponding blocks of the main query by introducing additional conditions. The article describes the process of automatic generation of SPARQL queries to a contextual ontology using the example of a knowledge base of medical articles from peer-reviewed open access journals. The peculiarity of the approach is that the formal query is automatically built from blocks of templates (main and auxiliary), which are customizable in accordance with certain semantic categories present in the analyzed text and the entities that specify them.Prombles in programming 2024; 2-3: 326-333 Пропонований у статті підхід передбачає аналіз коротких природномовних повідомлень, поданих українською мовою, та автоматичне формування на їхній основі запитів мовами SPARQL і Cypher. Як засіб оброблення SPARQL-запитів слугує сервер Apache Jena Fuseki, а сховища даних або онтологічної бази знань – графова база даних Neo4J. Остання є найпоширенішою базою даних із відкритим вихідним кодом, високопродуктивною і добре масштабованою, тобто здатною працювати з великими обсягами даних. Крім того підходи до побудови формальних запитів на базі природномовних запитів для мови Cypher маловідомі і потребують подальшої розробки. Підхід базується на тому, що природномовний запит користувача піддається низці послідовних перевірок. Їх результати визначають набір семантичних типів, виражених у фразі (природномовного запиту), та відповідні поняття, що їх визначають. Результатом вказаних перевірок є набір чотирьох значень – кодів результатів перевірок, а також підметів і присудків, якщо вони присутні. Цієї інформації достатньо для вибору набору базових шаблонів для формальних запитів. За результатами таких базових перевірок створюються основні базові шаблони для формування прикінцевого запиту. У запропонованому підході є базовий шаблон запиту, спрямований на отримання інформації певного типу у заданій формі, а також додаткові шаблони-модифікатори, які опціонально конструюють рядки запиту у відповідних блоках основного запиту, вводячи додаткові умови. Описано процес автоматичної генерації SPARQL-запитів до контекстної онтології на прикладі бази знань медичних статей з рецензованих журналів з відкритим доступом. Особливість підходу полягає у тому, що формальний запит автоматично будується із блоків шаблонів (основних і допоміжних), які налаштовуються, відповідно до визначених семантичних категорій, присутніх в аналізованому тексті, та сутностей, що їх конкретизують.Prombles in programming 2024; 2-3: 326-333 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2024-12-17 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/653 10.15407/pp2024.02-03.326 PROBLEMS IN PROGRAMMING; No 2-3 (2024); 326-333 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2024); 326-333 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2024); 326-333 1727-4907 10.15407/pp2024.02-03 en https://pp.isofts.kiev.ua/index.php/ojs1/article/view/653/705 Copyright (c) 2024 PROBLEMS IN PROGRAMMING |
| institution |
Problems in programming |
| baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| datestamp_date |
2025-02-15T14:18:10Z |
| collection |
OJS |
| language |
English |
| topic |
Semantic Web technology ontological knowledge base OWL ontology SPARQL and Cypher languages Neo4J graph database UDC 004.318 |
| spellingShingle |
Semantic Web technology ontological knowledge base OWL ontology SPARQL and Cypher languages Neo4J graph database UDC 004.318 Palagin, O.V. Petrenko, M.G. Litvin, A.A. Boyko, M.O. About one approach to automatic creation of formal queries to ontological knowledge bases |
| topic_facet |
Semantic Web technology ontological knowledge base OWL ontology SPARQL and Cypher languages Neo4J graph database UDC 004.318 технологія Semantic Web онтологічна база знань OWL онтологія мови SPARQL і Cypher графова база даних Neo4J УДК 004.318 |
| format |
Article |
| author |
Palagin, O.V. Petrenko, M.G. Litvin, A.A. Boyko, M.O. |
| author_facet |
Palagin, O.V. Petrenko, M.G. Litvin, A.A. Boyko, M.O. |
| author_sort |
Palagin, O.V. |
| title |
About one approach to automatic creation of formal queries to ontological knowledge bases |
| title_short |
About one approach to automatic creation of formal queries to ontological knowledge bases |
| title_full |
About one approach to automatic creation of formal queries to ontological knowledge bases |
| title_fullStr |
About one approach to automatic creation of formal queries to ontological knowledge bases |
| title_full_unstemmed |
About one approach to automatic creation of formal queries to ontological knowledge bases |
| title_sort |
about one approach to automatic creation of formal queries to ontological knowledge bases |
| title_alt |
Про один підхід до автоматичного створення формальних запитів до онтологічних баз знань |
| description |
The article develops an approach that includes the analysis of short natural language messages in Ukrainian and the automatic generation of queries in SPARQL and Cypher based on them. The Apache Jena Fuseki server is used as a SPARQL query processing tool, and the Neo4J graph database is used as a data warehouse or ontological knowledge base. The latter is the most common open source database, highperformance and well-scalable, i.e., capable of working with large amounts of data. In addition, approaches to building formal queries based on natural language queries for Cypher are little known and require further development. The approach is based on the fact that a user's natural language query is subjected to a series of sequential checks. Their results determine the set of semantic types expressed in the phrase (natural language query) and the corresponding concepts that define them. The result of these checks is a set of four values – the codes of the check results, as well as the subjects and predicates, if present. This information is enough to select a set of basic templates for formal queries. Based on the results of such basic checks, the main basic templates for generating the final request are created. The proposed approach has a basic query template aimed at obtaining information of a certain type in a given form, as well as additional modifier templates that optionally construct query strings in the corresponding blocks of the main query by introducing additional conditions. The article describes the process of automatic generation of SPARQL queries to a contextual ontology using the example of a knowledge base of medical articles from peer-reviewed open access journals. The peculiarity of the approach is that the formal query is automatically built from blocks of templates (main and auxiliary), which are customizable in accordance with certain semantic categories present in the analyzed text and the entities that specify them.Prombles in programming 2024; 2-3: 326-333 |
| publisher |
PROBLEMS IN PROGRAMMING |
| publishDate |
2024 |
| url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/653 |
| work_keys_str_mv |
AT palaginov aboutoneapproachtoautomaticcreationofformalqueriestoontologicalknowledgebases AT petrenkomg aboutoneapproachtoautomaticcreationofformalqueriestoontologicalknowledgebases AT litvinaa aboutoneapproachtoautomaticcreationofformalqueriestoontologicalknowledgebases AT boykomo aboutoneapproachtoautomaticcreationofformalqueriestoontologicalknowledgebases AT palaginov proodinpídhíddoavtomatičnogostvorennâformalʹnihzapitívdoontologíčnihbazznanʹ AT petrenkomg proodinpídhíddoavtomatičnogostvorennâformalʹnihzapitívdoontologíčnihbazznanʹ AT litvinaa proodinpídhíddoavtomatičnogostvorennâformalʹnihzapitívdoontologíčnihbazznanʹ AT boykomo proodinpídhíddoavtomatičnogostvorennâformalʹnihzapitívdoontologíčnihbazznanʹ |
| first_indexed |
2025-07-17T09:52:45Z |
| last_indexed |
2025-07-17T09:52:45Z |
| _version_ |
1850410103097786368 |
| fulltext |
326
Моделі та засоби систем баз даних і знань
УДК 004.318 http://doi.org/10.15407/pp2024.02-03.326
О.В. Палагін, М.Г. Петренко, А.А. Літвін, М.О. Бойко
ПРО ОДИН ПІДХІД ДО АВТОМАТИЧНОГО СТВОРЕННЯ
ФОРМАЛЬНИХ ЗАПИТІВ ДО ОНТОЛОГІЧНИХ БАЗ ЗНАНЬ
Пропонований у статті підхід передбачає аналіз коротких природномовних повідомлень, поданих
українською мовою, та автоматичне формування на їхній основі запитів мовами SPARQL і Cypher. Як
засіб оброблення SPARQL-запитів слугує сервер Apache Jena Fuseki, а сховища даних або онтологічної
бази знань – графова база даних Neo4J. Остання є найпоширенішою базою даних із відкритим вихід-
ним кодом, високопродуктивною і добре масштабованою, тобто здатною працювати з великими обся-
гами даних. Крім того підходи до побудови формальних запитів на базі природномовних запитів для
мови Cypher маловідомі і потребують подальшої розробки. Підхід базується на тому, що природномов-
ний запит користувача піддається низці послідовних перевірок. Їх результати визначають набір семан-
тичних типів, виражених у фразі (природномовного запиту), та відповідні поняття, що їх визначають.
Результатом вказаних перевірок є набір чотирьох значень – кодів результатів перевірок, а також підме-
тів і присудків, якщо вони присутні. Цієї інформації достатньо для вибору набору базових шаблонів
для формальних запитів. За результатами таких базових перевірок створюються основні базові шабло-
ни для формування прикінцевого запиту. У запропонованому підході є базовий шаблон запиту, спря-
мований на отримання інформації певного типу у заданій формі, а також додаткові шаблони-
модифікатори, які опціонально конструюють рядки запиту у відповідних блоках основного запиту,
вводячи додаткові умови. Описано процес автоматичної генерації SPARQL-запитів до контекстної он-
тології на прикладі бази знань медичних статей з рецензованих журналів з відкритим доступом. Особ-
ливість підходу полягає у тому, що формальний запит автоматично будується із блоків шаблонів (ос-
новних і допоміжних), які налаштовуються, відповідно до визначених семантичних категорій, присут-
ніх в аналізованому тексті, та сутностей, що їх конкретизують.
Ключові слова: технологія Semantic Web, онтологічна база знань, OWL онтологія, мови SPARQL і
Cypher, графова база даних Neo4J.
O.V. Palagin, M.G. Petrenko, A.A. Litvin, M.O. Boyko
ABOUT ONE APPROACH TO AUTOMATIC CREATION
OF FORMAL QUERIES TO ONTOLOGICAL
KNOWLEDGE BASES
The article develops an approach that includes the analysis of short natural language messages in Ukrainian
and the automatic generation of queries in SPARQL and Cypher based on them. The Apache Jena Fuseki
server is used as a SPARQL query processing tool, and the Neo4J graph database is used as a data ware-
house or ontological knowledge base. The latter is the most common open source database, high-
performance and well-scalable, i.e., capable of working with large amounts of data. In addition, approaches
to building formal queries based on natural language queries for Cypher are little known and require further
development. The approach is based on the fact that a user's natural language query is subjected to a series
of sequential checks. Their results determine the set of semantic types expressed in the phrase (natural lan-
guage query) and the corresponding concepts that define them. The result of these checks is a set of four
values – the codes of the check results, as well as the subjects and predicates, if present. This information is
enough to select a set of basic templates for formal queries. Based on the results of such basic checks, the
main basic templates for generating the final request are created. The proposed approach has a basic query
template aimed at obtaining information of a certain type in a given form, as well as additional modifier
templates that optionally construct query strings in the corresponding blocks of the main query by introduc-
ing additional conditions. The article describes the process of automatic generation of SPARQL queries to a
contextual ontology using the example of a knowledge base of medical articles from peer-reviewed open ac-
cess journals. The peculiarity of the approach is that the formal query is automatically built f rom blocks of
templates (main and auxiliary), which are customizable in accordance with certain semantic categories pre-
sent in the analyzed text and the entities that specify them.
Keywords: Semantic Web technology, ontological knowledge base, OWL ontology, SPARQL and Cypher
languages, Neo4J graph database.
© О.В. Палагін, М.Г. Петренко, А.А. Літвін, М.О. Бойко, 2024
ISSN 1727-4907. Проблеми програмування. 2024. №2-3
327
Моделі та засоби систем баз даних і знань
Вступ
Розроблення застосунків, заснова-
них на технологіях Semantic Web, Big Data,
Natural Language Processing у поєднанні з
нейромережевими технологіями де-факто
стало одним із найактуальніших напрямків
наукових досліджень і практичних розро-
бок. Зокрема, це стосується і побудови он-
тологічних систем і відповідних баз знань,
цікавих для користувачів.
Опрацювання інформації та предс-
тавлення знань на основі онтологій вини-
кло в результаті пошуку стандартного
протоколу для впорядкування знань у рі-
зноманітних сферах знань. Ця парадигма
має на меті запропонувати уніфіковану
схему та основні принципи для система-
тичного представлення, категоризації та
взаємо- зв’язку знань, незалежно від га-
лузі знань. Поява онтологічних стратегій
уможливила ефективну побудову знання-
орієнтованих систем і, що особливо важ-
ливо, заклала фундамент для трансдис-
циплінарної взаємодії та онтологічного
інжинірингу у сфері сучасного штучного
інтелекту [1–3].
Характерною рисою людського ін-
телекту є здатність асимілювати інформа-
цію з одного джерела і адаптувати її в різ-
них сферах, що лежить в основі творчості
та інновацій. Для того, щоб універсальний
машинний інтелект був практично ефекти-
вним, він повинен виходити за межі прос-
того розуміння тексту. Його справжня пе-
ревага полягає в здатності використовува-
ти свій запас знань для вирішення нових
завдань. Вміння системи штучного інтеле-
кту застосовувати знання в різноманітних і
нових сценаріях цілком може стати визна-
чальним критерієм для оцінки його інтеле-
ктуальної глибини [4].
Нами були виконані розробки зга-
даної вище онтологічної системи, описа-
ної в [5–7]. Вона значно пришвидшує
отримання наукової інформації користу-
вачу, але її слабкістю було ручне або ав-
томатизоване створення бази даних нау-
кових публікацій і SPARQL запитів. Спі-
лкування користувача з базою знань при-
родною мовою передбачає використання
формальних мов запитів. Отже, під час
створення діалогових систем з природно-
мовним інтерфейсом виникає потреба в
автоматичній генерації пакетів формаль-
них запитів на основі природномовних
запитів користувачів. У статті розглянуто
створення запитів мовою SPARQL та все
більш перспективною мовою запитів
Cypher, яка використовується в графовій
базі даних Neo4J. Важливо зазначити, що
наразі створення запитів мовою Cypher на
основі природномовних фраз є недостат-
ньо дослідженим, в тому числі для укра-
їнської мови. Тому цей напрямок дослі-
джень і досі актуальний, особливо для ук-
раїнської мови.
Створення
формальних запитів на основі
аналізу природномовних
повідомлень користувачів
Запропонований підхід базується на
тому, що природномовний запит користу-
вача піддається низці послідовних переві-
рок. Їх результати визначають набір сема-
нтичних типів, виражених у фразі (приро-
дномовного запиту), та відповідні поняття,
що їх визначають. Схема спрощеної й ефе-
ктивної версії цього підходу наведена на
рис. 1.
Вихідна фраза Токенізація вихідної фрази Список слів вихідної фрази
Список слів
запита
Перевірка
присутності
питальних слів
Перевірка
присутності
маркерних слів
Маркер
списку слів
Перевірка
присутності
підмета
Перевірка
присутності
предиката
Визначення базових
семантичних типів
Вибір групи
базових шаблонів
запита
Коди доступності
питальних слів або 0,
якщо вони відсутні
Коди доступності
маркерних слів або 0,
якщо вони відсутні
– підмет доступний,
термін, 0 – підмета
немає
– предикат доступний,
дієслово, 0 – предиката
немає
ви
ко
ри
ст
ов
ує
ре
зу
ль
та
ти
Рис. 1. Схема розбору фрази
користувача для вибору базового набору
формальних шаблонів запитів
Відзначимо особливості флектив-
них мов, зокрема, української мови. В ній
порядок слів у реченні є менш важливим,
328
Моделі та засоби систем баз даних і знань
ніж для нефлективних мов, а наявність
конкретних слів та їхніх словоформ є важ-
ливішою. На Рис. показано схему визна-
чення набору базових семантичних типів і
відповідних первинних шаблонів запитів.
Для цього оброблений природномовний
вираз, токенізований до рівня списків ре-
чень і відповідних слів, проходить чотири
послідовні перевірки:
Перевірка наявності питальних слів
(критичний момент для визначення типу
інформації, що запитується).
Перевірка на наявність слів-
маркерів, насамперед дієслів, таких як
“перебуває”, “працює”, “стоїть”, “надси-
лає” тощо. Ці слова об’єднуються в групи
синонімів зі схожим семантичним забарв-
ленням.
Перевірка наявності підмета, якщо
він присутній.
Наступним важливим аспектом піс-
ля підмета є перевірка наявності осмисле-
ного присудка, якщо він не підпадає під
категорії слів з перевірки на наявність
слів-маркерів.
Далі необхідно виконати додаткові
перевірки для визначення більш значущих
семантичних відтінків. Однак для цих пе-
ревірок не існує окремих базових шабло-
нів, інакше кількість шаблонів значно зро-
сла б, а власне шаблони мали б значне ду-
блювання коду. Натомість за результатами
цих додаткових перевірок до базових шаб-
лонів вносяться модифікації (зміни та до-
повнення) згідно з відповідними інструк-
ціями. Це дозволяє зробити підхід більш
гнучким і таким, що спрощує як сам про-
цес автоматичного аналізу, так і побудову
відповідного програмного комплексу.
Коротко опишемо графову систему
керування базою даних (СКБД) Neo4J і
мову запитів Cypher до неї. Окрім СКБД,
що працюють у зв’язці з OWL/SPARQL
механізмами, такими як Jena Fuseki, що де-
факто наразі є стандартом, існують і аль-
тернативні підходи до графових баз даних,
які також можуть бути використані для
зберігання й опрацювання з онтологією.
СКБД Neo4j [8] забезпечує досить високу
продуктивність і масштабованість, а також
придатний для роботи з великими обсяга-
ми даних. Мовою формальних запитів,
прийнятою в Neo4j, є Cypher. Вона досить
потужна, гнучка та відкрита для розши-
рення функціональності через плагіни, зо-
крема, для реалізації типових алгоритмів
на графах. Однак на даний момент, на від-
міну від SPARQL [9–11], існує не так бага-
то розробок для перетворення запитів при-
родною мовою у формальні запити на
Cypher. Розглянемо детальніше запити, що
описуються цією мовою.
XML-шаблони для запитів
мовою Cypher
Шаблони запитів мовою Cypher збе-
рігаються у вигляді XML-файлу з певною
структурою. Нижче наведено приклад ос-
новного шаблону для мови запитів Cypher.
Її застосування переважає через значний
розмір онтології [12–14], створеної шляхом
повністю автоматичного синтаксично-
семантичного аналізу тексту [15, 16].
Формування онтології відбувалося
згідно методу, описаному в [8]. На основі
визначених під час аналізу тексту синтак-
тико-семантичних зв’язків між поняттями
у реченнях будується онтологічна графова
структура. Контексти речень і їхні частини
також зберігаються у створюваній OWL-
онтології. Із цими реченнями поєднані на-
бори наявних у них семантичних зв’язків,
конкретизованих відповідними сутностя-
ми. Типізація семантичних категорій укла-
дена у встановлену ієрархічну структуру,
опис якої подається у [12]. В ній приклад
онтології використано як опис підходу по-
будови запитів мовою Cypher у певній
предметній галузі.
Як робочий приклад OWL-онтології
контекстів, створеної на основі набору до-
кументів із наперед визначеною структу-
рою, використовувалася онтологія
з медичної реабілітації на основі файлів
наукових статей.
Розглянемо приклад одного з таких
шаблонів:
<template>
<verbose_name>Common infor-
mation</verbose_name>
<id>1</id>
<type>base</type>
<variables>
<variable>
329
Моделі та засоби систем баз даних і знань
<name>INPUT_VALUE_1</name>
<destination>input</destination>
</variable>
<variable>
<name>CONTEXT</name>
<destination>output</destination>
</variable>
</variables>
<match>
(inp:Class)-[]-(n:Relationship),
(n:Relationship)-[]-(x:Class),
(n)-[:SPO]->(rel_group),
(rel_group)-[:SPO]->(rel_sent),
(rel_sent)-[:SPO]-(sent_super)
</match>
<where>
inp.label = "INPUT_VALUE" and
sent_super.name = "SentenceGroups"
</where>
<return>
DISTINCT rel_sent.label as CON-
TEXT;
</return>
</template>
Секції XML-шаблону, а саме
<match>, <where> і <return>, відповідають
певним секціям формального запиту мовою
Cypher [8]. Певні фрагменти вмісту (тексту)
в цих секціях слугують шаблонами змін-
них. Змінні описуються в розділі
<variables>, де кожна змінна визначається
своїм ім’ям – <name> і місцем призначення
– <destination>. Призначення може мати
значення або “вхідні” – вказуючи на зна-
чення, що підставляються в шаблон, або
“вихідні” – вказуючи на змінні, що не замі-
нюються при формуванні запита на конкре-
тні вихідні значення. Натомість вони слу-
гують посиланнями на назви та кількість
параметрів, значення яких отримуються під
час виконання запиту. Тег <id> для іденти-
фікатора шаблону слугує для зіставлення
його з результатом аналізу фрази користу-
вача, а також з відповідним шаблоном для
формування відповіді. Тег <verbose_name>
включено винятково для розпізнавання ша-
блонів запитів розробником під час розроб-
ки та супроводу системи.
Процес автоматичного
формування запитів за шаблонами
Розглянемо структуру формальних
запитів та спосіб їх формування. Структу-
ра онтології дозволяє здійснювати цілесп-
рямований пошук як контекстів, так і ок-
ремих понять, враховуючи наявність цих
понять у контексті та їхню пов’язаність за
певним критерієм семантичного типу. У
запропонованій схемі є базовий шаблон
запиту, спрямований на отримання інфор-
мації певного типу в заданій формі, а та-
кож додаткові шаблони-модифікатори, які
опціонально конструюють рядки запиту у
відповідних блоках основного запиту, вво-
дячи додаткові умови.
У мові Cypher запити поділяються
на три основні блоки: MATCH, WHERE і
RETURN. Блок MATCH задає схему
зв’язків між вершинами орієнтованого
графа. Блок WHERE накладає умови на
властивості (характеристики) вершин і/або
зв’язків, зазначених у блоці MATCH. Блок
RETURN вказує, що повинно бути виведе-
но в результаті і під яким ім’ям (псевдоні-
мом). В даному випадку це конкретний
клас, позначений змінною “inp”. У блоці
WHERE нами закладено умову, за якою
властивість label вузла “inp” має дорівню-
вати поняттю, що запитується, (тут і далі в
шаблонах запитів INPUT_VALUE пред-
ставляє текст вхідного поняття). У блоці
MATCH вказується, що “inp” – це вузол
(укладений у круглі дужки) типу Class.
Вона пов’язана з іншою вершиною ’n’, яка
має тип Relationship (властивість в OWL).
Тип зв’язку не визначено (квадратні дужки
порожні), а напрямок зв’язку не вказано.
Це означає, що він може бути прив’язаний
як до ДОМЕНУ, так і до ДІАПАЗОНУ.
Вказувати напрямок не потрібно, оскільки
відомо, що такі зв’язки створюються від
властивості до класу. Додатково вказано,
що ця властивість також повинна бути
пов’язана з певним класом “x”. Потім вка-
зано, що властивість, яка об’єднує ці кла-
си, має бути пов’язана з певним реченням
“rel_sent”. Умова “sent_super.name =
“SentenceGroups”' гарантує, що “rel_sent”
дійсно є реченням. У результаті запитуєть-
ся наступне: вивести “rel_sent.label”, який
містить контекст речення під псевдонімом
CONTEXT.
Детальніше модифікатори шаблонів
– фрагменти, які додаються до основних
шаблонів запитів, розглядаються в
[12–14]. Там же розглядається процес ав-
томатичної генерації SPARQL запитів до
330
Моделі та засоби систем баз даних і знань
контекстної онтології на прикладі бази
знань медичних статей із рецензованих
журналів з відкритим доступом.
Коротко опишемо реалізацію
створення OWL-онтології [13, 17, 18]. Для
реалізації створення бази знань у формі
OWL онтології у форматі RDF/XML були
розроблені спеціальні скрипти мовою
Python. Процес складається з двох етапів.
. Автоматизоване створення JSON
представлення вхідних файлів статей.
2. Формування OWL-онтології. На
цьому етапі з використанням отриманого
набору структур JSON формується OWL-
онтологія. Ієрархічна структура ключів
словника JSON формує основу майбутньої
системи OWL класів, тоді як відповідні кон-
текстні значення стають іменованими сут-
ностями у своїх відповідних класах. Кожне
ім’я файлу статті перетворюється на імено-
вану сутність у класі «Articles». OWL влас-
тивість «Зв’язати зі статтею» встановлює
зв’язки між контекстами та відповідними
статтями, в яких вони з’являються. Іменова-
ні сутності, визначені в контекстах, також
перетворюються на іменовані сутності в
класі «Word» і пов’язуються з відповідними
контекстами за допомогою OWL властивос-
ті «Зв’язати з контекстом». Ця структура до-
зволяє вибирати певні контексти в онтології
за допомогою SPARQL запитів.
Як вказувалося вище, запити корис-
тувача до великої за розмірами онтології
виконуються надто повільно. Щоб приш-
видшити процес отримання відповіді нами
розглядається можливість використання
апаратних засобів на базі програмовних
логікових інтегральних схем [19–21].
На завершення представимо
напрями розвитку знання-орієнтованих
систем та їх застосунків, які сьогодні є
актуальними і перспективними з точки зору
загального розгляду наукових знань та їх
ефективного практичного застосування – у
створенні інноваційних технологій.
По-перше, аналіз онтологічних кон-
текстів у будь-якій предметній галузі дає
можливість вибудовувати часову траєк-
торію процесу формування вторинних
знань на основі первинних, і таким чином
розробити ефективну технологію побудови
нових знань і на їхній базі нових іннова-
ційних технологій.
По-друге, виходячи з парадигми
трансдисциплінарного розвитку науки,
перспективним вбачається використання
викладених у роботі функціональностей
для формування перспективних кластерів
конвергенції наукових дисциплін та
відповідних технологій [22].
Найближчою задачею може стати
формування ефективного інструментарію
наукового дослідника, в тому числі для
орієнтації на теренах власних публікацій у
предметній галузі і порівняння з існуючими
в інформаційному просторі [6–7].
Безумовно, побудова інтелектуалі-
зованих довідкових систем у предметних
галузях (включно із згаданою медико-
реабілітаційною) є прямим продовженням
виконаних авторами досліджень. Одним з
актуальних застосувань таких систем є
створення комфортних умов для
управління базами знань з боку широкого
кола непрофесійних (з точки зору
інформаційних технологій) користувачів.
Насамкінець, не можна не згадати
задачу формування мовно-онтологічної
картини світу в рамках загальної еволю-
ційної програми і формування планетарної
свідомості сучасного покоління [22].
Крім того, важливо зазначити, що в
[23] мова йде про проблему публікацій
здобутків українських учених в умовах
воєнного стану збройної агресії РФ в
рейтингових журналах.
Висновки
У роботі розглянуто підхід до побу-
дови формальних запитів до онтології,
сформованої автоматично на основі при-
родномовного тексту українською мовою.
На основі визначених під час аналізу текс-
ту синтактико-семантичних зв’язків між
поняттями у реченнях будується онтологі-
чна графова структура. Контексти речень і
їхні частини також зберігаються у створю-
ваній OWL онтології. Із цими реченнями
поєднані набори наявних у них семантич-
них зв’язків, конкретизованих відповідни-
ми сутностями. Типізація семантичних ка-
тегорій укладена у встановлену ієрархічну
331
Моделі та засоби систем баз даних і знань
структуру. Вказаний приклад онтології ви-
користано в процесі опису підходу побу-
дови запитів мовою Cypher. Особливість
підходу полягає в тому, що формальний
запит автоматично будується із блоків ша-
блонів (основних і допоміжних), які нала-
штовуються відповідно до визначених се-
мантичних категорій, присутніх в аналізо-
ваному тексті, та сутностей, що їх конкре-
тизують.
Подяка
Дослідження виконано за підтримки
гранту Національного Фонду Досліджень
України за проєктом 202 .0 /0 36 (2022–
2024, проєкт у процесі реалізації) “Розроб-
ка хмарної платформи пацієнт-центричної
телереабілітації онкологічних хворих на
основі математичного моделювання” [24–
28], на базі Інституту кібернетики ім.
В.М. Глушкова Національної академії на-
ук України, м. Київ, Україна.
Література
1. Gomez-Perez A., Fernandez-Lopez M., Cor-
cho O. Ontological Engineering. Advanced
Information and Knowledge Processing.
Springer-Verlag, London, 1 edition, 2004.
ISBN 978-1-85233-551-9. DOI:
10.1007/b97353.
2. Studer R. Staab S., editor. Handbook on On-
tologies. Springer Berlin Heidelberg, Berlin,
Heidelberg, 2 editions, 2009. ISBN 978-3-
540-70999-2. DOI: 10.1007/978-3-540-
92673-3.
3. OntoChatGPT information system: Ontology-
driven structured prompts for ChatGPT meta-
learning / Palagin O., Kaverinskiy V., Litvin
A., Malakhov K. International Journal of
Computing, 22(2):170–183, July 2023. ISSN
2312-5381, 1727-6209.
DOI:10.47839/ijc.22.2.3086.
4. Ford M. Rule of the Robots: How Artificial
Intelligence Will Transform Everything. Basic
Books, New York, first edition, 2021.
ISBN 978-1-5416-7473-8.
5. Malakhov, K., Petrenko, M., Cohn, E.
(2023). Developing an ontology-based system
for semantic processing of scientific digital li-
braries. South African Computer Journal,
2023 35(1), 19–36.
https://doi.org/10.18489/sacj/v35i1.1219.
6. Proceedings of the 13th International Scien-
tific and Practical Programming Conference
UkrPROG 2022. Kyiv, Ukraine, October
11–12, 2022. URL:
https://ceur-ws.org/Vol-3501/s26.pdf.
7. M.G. Petrenko, O.V. Palagin, M.O. Boyko,
S.M. Matveyshyn. Knowledge-Oriented Tool
Complex for Developing Databases of Scien-
tific Publications and Taking into account
Semantic Web Technology. Control Systems
and Computers, 2022, Issue 3 (299), pp. 11–
28. DOI:
https://doi.org/10.15407/csc.2022.03.011.
8. Goel A. Neo4J Cookbook. Birmingham: Pact
Publishing Ltd. May 28, 2015., 1st Edition.
226 P. ISBN-13: 9781783287253.
DOI: https://www.packtpub.com/en-
sk/product/neo4j-cookbook-
9781783287253?type=print
9. Bob DuCharme. Learning SPARQL. Query-
ing and Updating with SPARQL 1.1 (Second
edition), O’Reilly Media, All rights reserved,
August 20 3. 367р.
10. Khan A. Knowledge graphs querying. ACM
SIGMOD Record. 2023. Vol. 52, N 2. P. 18–
29. https://doi.org/10.1145/3615952.3615956.
11. A Dictionary of Computer Science. Oxford
University Press. Seventh edition. Editors for
this edition Andrew Butterfield BA, BAI,
PhD, Gerard Ekembe Ngondi BEng, MSc.
1211 P.
https://doi.org/10.1093/acref/9780199688975.
001.0001.
12. A. Litvin, V. Velychko, and V. Kaverinsky. A
new approach to automatic ontology creation
from the untagged text on the natural lan-
guage of inflective type, Proceedings of the
International conference on software engi-
neering “Soft Engine 2022”, NAU, Kyiv
Ukraine, 2022, pp. 37 – 45.
13. A. Litvin, V. Velychko, and V. Kaverinsky. A
New Approach to Automatic Ontology Gen-
eration from the Natural Language Texts with
Complex Inflection Structures in the Dialogue
Systems Development, CEUR Workshop Pro-
ceedings, 2023, Vol. 3501. pp. 172–185.
https://ceur-ws.org/Vol-3501/s16.pdf.
14. Kaverinsky, V., Malakhov, K. Natural Lan-
guage-Driven Dialogue Systems for Support
in Physical Medicine and Rehabilitation,
South African Computer Journal, 2023,
Vol. 35, No. 2, pp. 119 – 126. DOI:
https://doi.org/10.18489/sacj.v35i2.17444.
15. A. Litvin, V. Velychko, and V. Kaverinsky.
Method of information obtaining from ontol-
ogy on the basis of a natural language phrase
analysis, in: CEUR Workshop Proceedings,
CEUR-WS, Kyiv, Ukraine, 2020: pp. 323–
332
Моделі та засоби систем баз даних і знань
330. URL: https://ceur-ws.org/Vol-
2866/ceur_322_330_ litvin_velichko.pdf.
16. O.V. Palagin, M.G. Petrenko, S. Yu. Svitla,
V.YU. Velychko. About one approach to ana-
lyzing and understanding natural language ob-
jects. Computer tools, networks and systems.
2008, №7. pp.128–137.
17. O. Palagin, V. Kaverinsky, A. Litvin, and K.
Malakhov. Ontology-driven development of
dialogue systems, South African Computer
Journal. – Vol. 35. No. 1. – 2023. – P. 37 –
62. DOI:
http://dx.doi.org/10.18489/sacj.v35i1.1233.
18. Petrenko, N.G. Computer ontologies and on-
tology-driven architecture of information sys-
tems. Book “Information Models of
Knowledge”, ITHEA, Kiev, Ukraine – Sofia,
Bulgaria, 2010, pp. 86–92.
19. Kurgaev, A. F., & Petrenko, M. G. (1995).
Processor structure design. Cybernetics and
Systems Analysis, 31(4), 618–625 DOI:
https://doi.org/10.1007/BF02366417.
20. Petrenko, M., & Sofiyuk, A. (2003). On one
approach to the transfer of an information
structures interpreter to PLD-implementation.
Upravlyayushchie Sistemy i Mashiny, 188(6),
pp. 48–57.
https://www.scopus.com/inward/record.uri?ei
d=2-s2.0-0442276898&partn
erID=40&md5=44974b40409363e5fe4378e2
40149c52
21. Petrenko, M., & Kurgaev, A. (2003). Distin-
guishing features of design of a modern cir-
cuitry type processor. Upravlyayushchie Sis-
temy i Mashiny, 187(5), 16–19.
https://www.scopus.com/inward/record.uri?ei
d=2-s2.0-
0347622333&partnerID=40&md5=7283307af
df891445ec9062c7b2ff80a
22. Alexander V. Palagin, Mykola N. Petrenko.
Methodological Foundations for Develop-
ment, Formation and IT-support of Transdis-
ciplinary Research // Journal of Automation
and Information Sciences, Volume 50, 2018,
Issue 10, PP. 1–17,
DOI:https://doi.org/10.1615/JAutomatInfScie
n.v50. i10.10.
23. Inefuku, H., Malakhov, K., Cohn, E. R., &
Collister, L. B. (2023). Service Diversifica-
tion, Connections, and Flexibility in Library
Publishing: Rapid Publication of Research
from Ukraine in Wartime. Case Studies in Li-
brary Publishing, 1(1).
https://cslp.pubpub.org/pub/084se42n/release/
1
24. Malakhov, K. S. (2023a). Insight into the Dig-
ital Health System of Ukraine (eHealth):
Trends, Definitions, Standards, and Legisla-
tive Revisions. International Journal of Tele-
rehabilitation, 15(2), 1–21. DOI:
https://doi.org/10.5195/ijt.2023.6599
25. Malakhov, K. S. (2023b). Letter to the Editor
– Update from Ukraine: Development of the
Cloud-based Platform for Patient-centered
Telerehabilitation of Oncology Patients with
Mathematical-related Modeling. International
Journal of Telerehabilitation, 15(1), 1–3. DOI:
https://doi.org/10.5195/ijt.2023.6562
26. Palagin, O. V., Malakhov, K. S., Velychko, V.
Yu., & Semykopna, T. V. (2022). Hybrid e-
rehabilitation services: SMART-system for
remote support of rehabilitation activities and
services. International Journal of Telerehabili-
tation, Special Issue: Research Status Report –
Ukraine, 1–16.
https://doi.org/10.5195/ijt.2022.6480
27. Malakhov, K. (2022). Letter to the Editor –
Update from Ukraine: Rehabilitation and Re-
search. International Journal of Telerehabilita-
tion, 14(2), 1–2.
https://doi.org/10.5195/ijt.2022.6535
28. O. Palagin, V. Kaverinsky, M. Petrenko, and
K. Malakhov, Digital Health Systems: Ontol-
ogy-based Universal Dialog Service for Hy-
brid E-rehabilitation Activities Support, The
12th IEEE International Conference on Intel-
ligent Data Acquisition and Advanced Com-
puting Systems: Technology and Applica-
tions. – Dortmund, Germany, 2023. – P. 84 –
89. DOI:
http://dx.doi.org/10.1109/IDAACS58523.202
3.10348639
Одержано: 0.04.2024
Внутрішня рецензія отримана: 17.04.2024
Зовнішня рецензія отримана: 24.04.2024
Про авторів:
Палагін Олександр Васильович,
доктор технічних наук,
академік НАНУ,
заступник директора ІК НАН України.
https://orcid.org/0000-0003-3223-1391.
Петренко Микола Григорович,
доктор технічних наук,
провідний науковий співробітник.
https://orcid.org/0000-0001-6440-0706.
333
Моделі та засоби систем баз даних і знань
Літвін Анна Андріївна
молодший науковий співробітник.
https://orcid.org/0000-0002-5648-9074
Бойко Микола Олександрович,
науковий співробітник.
http://orcid.org/0000-0003-1723-5765.
Місце роботи авторів:
Інститут кібернетики НАН України,
E-mail: incyb@incyb.kiev.ua,
www.incyb.kiev.ua
|