Visualization of the semantics of text descriptions presented in various formats

 This study is aimed at solving the problem of identifying semantics from arbitrary texts presented in various formats and further visualizing it using modern tools of generative artificial intelligence. The rapid development of artificial intelligence technologies provides fundamentally new opportu...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2025
1. Verfasser: Minenko, V.D.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: PROBLEMS IN PROGRAMMING 2025
Schlagworte:
Online Zugang:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/768
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Institution

Problems in programming
id pp_isofts_kiev_ua-article-768
record_format ojs
resource_txt_mv ppisoftskievua/9c/029705d21e1a3d70cb06931e9f0f289c.pdf
spelling pp_isofts_kiev_ua-article-7682025-09-02T15:46:41Z Visualization of the semantics of text descriptions presented in various formats Візуалізація семантик різноформатних текстових описів Minenko, V.D. visualization of semantics; semantically meaningful elements; generative artificial intelligence; natural language processing; text analysis methods; tokenization; lemming; segmentation; AI generation model; generative adversarial network; machine learnin UDC 004.94 візуалізація семантики; семантично значущі елементи; генеративний штучний інтелект; обробка тексту природної мови; методи аналізу тексту; токенізація; лемінг; сегментація, модель ШІ-ге нерації; генеративна змагальна мережа; машинне навчання УДК 004.94  This study is aimed at solving the problem of identifying semantics from arbitrary texts presented in various formats and further visualizing it using modern tools of generative artificial intelligence. The rapid development of artificial intelligence technologies provides fundamentally new opportunities for solving both text analysis tasks and content generation - visualizations (in the form of images or videos). As a result, we can talk about a different, modern level of solving applied problems using similar functionality. The field of generative artificial intelligence is still quite young and contains many unsolved problems. The generated visualization is characterized not only by the technical quality of the image or video, but also by the adequacy of the presentation of the semantics of the input text description, which usually directly depends not only on the possibility of the selected AI tool, but also on the structure and content of the input text prompt. This article describes the algorithm to form a chain of solving the given task, from the criteria for choosing tools of developments and identifying problems that need improvement or resolving, to determining the scheme of a composite solution. The method created within the framework of the proposed study has certain limitations, namely: it does not support multilingual content and does not cover the processing of dialects, slangs, automatic detection of the language of the text.Problems in programming 2025; 1: 94-109 Дане дослідження спрямоване на вирішення задачі виявлення семантичного змісту з довільних текстових описів, представлених у різних форматах, з метою подальшої його візуалізації за допомогою сучасних засобів генеративного штучного інтелекту. Стрімкий розвиток технологій штучного інтелекту надає принципово нові можливості для вирішення як задач аналізу тексту, так і генерації контентів – візуалізацій (у вигляді зображень чи відео). Унаслідок чого можна говорити про інший, сучасний рівень вирішення прикладних задач, що використовують по дібну функціональність. Галузь генеративного штучного інтелекту доволі молода і містить чимало не вирішених проблем. Згенерована візуалізація характеризується не лише технічною якістю зображення чи відео, а й адекватністю відображення семантики вхідного текстового опису, яка зазвичай напряму залежить не тільки від можливості обраного застосунку ШІ- генерації, а й від структури та змісту вхідної текстової підказки. Дана стаття описує алгоритм формування ланцюжка вирішення поставленої задачі від критеріїв вибору засобів реалізації та виокремлення проблем, що потребують вдосконалення та доробки, до визначення схеми композитного рішення. Метод, створенний в рамках запропонованого дослідження, має певні об меження, а саме: він не підтримує мультимовний контент та не охоплює обробку діалектів, жаргонів, автоматичне визначення мови тексту.Problems in programming 2025; 1: 94-109 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-08-27 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/768 10.15407/pp2025.01.094 PROBLEMS IN PROGRAMMING; No 1 (2025); 94-109 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2025); 94-109 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2025); 94-109 1727-4907 10.15407/pp2025.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/768/820 Copyright (c) 2025 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2025-09-02T15:46:41Z
collection OJS
language Ukrainian
topic visualization of semantics
semantically meaningful elements
generative artificial intelligence
natural language processing
text analysis methods
tokenization
lemming
segmentation
AI generation model
generative adversarial network
machine learnin
UDC 004.94
spellingShingle visualization of semantics
semantically meaningful elements
generative artificial intelligence
natural language processing
text analysis methods
tokenization
lemming
segmentation
AI generation model
generative adversarial network
machine learnin
UDC 004.94
Minenko, V.D.
Visualization of the semantics of text descriptions presented in various formats
topic_facet visualization of semantics
semantically meaningful elements
generative artificial intelligence
natural language processing
text analysis methods
tokenization
lemming
segmentation
AI generation model
generative adversarial network
machine learnin
UDC 004.94
візуалізація семантики; семантично значущі елементи; генеративний штучний інтелект; обробка тексту природної мови; методи аналізу тексту; токенізація; лемінг; сегментація
модель ШІ-ге нерації; генеративна змагальна мережа; машинне навчання
УДК 004.94
format Article
author Minenko, V.D.
author_facet Minenko, V.D.
author_sort Minenko, V.D.
title Visualization of the semantics of text descriptions presented in various formats
title_short Visualization of the semantics of text descriptions presented in various formats
title_full Visualization of the semantics of text descriptions presented in various formats
title_fullStr Visualization of the semantics of text descriptions presented in various formats
title_full_unstemmed Visualization of the semantics of text descriptions presented in various formats
title_sort visualization of the semantics of text descriptions presented in various formats
title_alt Візуалізація семантик різноформатних текстових описів
description  This study is aimed at solving the problem of identifying semantics from arbitrary texts presented in various formats and further visualizing it using modern tools of generative artificial intelligence. The rapid development of artificial intelligence technologies provides fundamentally new opportunities for solving both text analysis tasks and content generation - visualizations (in the form of images or videos). As a result, we can talk about a different, modern level of solving applied problems using similar functionality. The field of generative artificial intelligence is still quite young and contains many unsolved problems. The generated visualization is characterized not only by the technical quality of the image or video, but also by the adequacy of the presentation of the semantics of the input text description, which usually directly depends not only on the possibility of the selected AI tool, but also on the structure and content of the input text prompt. This article describes the algorithm to form a chain of solving the given task, from the criteria for choosing tools of developments and identifying problems that need improvement or resolving, to determining the scheme of a composite solution. The method created within the framework of the proposed study has certain limitations, namely: it does not support multilingual content and does not cover the processing of dialects, slangs, automatic detection of the language of the text.Problems in programming 2025; 1: 94-109
publisher PROBLEMS IN PROGRAMMING
publishDate 2025
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/768
work_keys_str_mv AT minenkovd visualizationofthesemanticsoftextdescriptionspresentedinvariousformats
AT minenkovd vízualízacíâsemantikríznoformatnihtekstovihopisív
first_indexed 2025-07-17T09:53:51Z
last_indexed 2025-09-17T09:21:06Z
_version_ 1850410142514806784
fulltext 94 Семантік Веб та лінгвістичні системи © В.Д. Міненко, 2025 ISSN 1727-4907. Проблеми програмування. 2025. №1 УДК 004.94 https://doi.org/10.15407/pp2025.01.094 В.Д. Міненко ВІЗУАЛІЗАЦІЯ СЕМАНТИК РІЗНОФОРМАТНИХ ТЕКСТОВИХ ОПИСІВ Дане дослідження спрямоване на вирішення задачі виявлення семантичного змісту з довільних текстових описів, представлених у різних форматах, з метою подальшої його візуалізації за допомогою сучасних засобів генеративного штучного інтелекту. Стрімкий розвиток технологій штучного інтелекту надає принципово нові можливості для вирішення як задач аналізу тексту, так і генерації контентів – візуалізацій (у вигляді зображень чи відео). Унаслідок чого можна говорити про інший, сучасний рівень вирішення прикладних задач, що використовують по- дібну функціональність. Галузь генеративного штучного інтелекту доволі молода і містить чимало не вирішених проблем. Згенерована візуалізація характеризується не лише технічною якістю зображення чи відео, а й адекватністю відображення семантики вхідного текстового опису, яка зазвичай напряму залежить не тільки від можливості обраного застосунку ШІ- генерації, а й від структури та змісту вхідної текстової підказки. Дана стаття описує алгоритм формування ланцюжка вирішення поставленої задачі від критеріїв вибору засобів реалізації та виокремлення проблем, що потребують вдосконалення та доробки, до визначення схеми композитного рішення. Метод, створенний в рамках запропонованого дослідження, має певні об- меження, а саме: він не підтримує мультимовний контент та не охоплює обробку діалектів, жаргонів, автоматичне визначення мови тексту. Ключові слова: візуалізація семантики, семантично значущі елементи, генеративний штучний інтелект, обробка тексту природної мови, методи аналізу тексту, токенізація, лемінг, сегментація, модель ШІ-ге- нерації, генеративна змагальна мережа, машинне навчання, моделі з відкритим кодом, метрики оціню- вання якості візуалізації, текстова підказка, задача кластерізації, кластерний аналіз. V. D. Minenko VISUALIZATION OF THE SEMANTICS OF TEXT DESCRIPTIONS PRESENTED IN VARIOUS FORMATS This study is aimed at solving the problem of identifying semantics from arbitrary texts presented in various formats and further visualizing it using modern tools of generative artificial intelligence. The rapid development of artificial intelligence technologies provides fundamentally new opportunities for solving both text analysis tasks and content generation - visualizations (in the form of images or videos). As a result, we can talk about a different, modern level of solving applied problems using similar functionality. The field of generative artificial intelligence is still quite young and contains many unsolved problems. The generated visualization is characterized not only by the technical quality of the image or video, but also by the adequacy of the presentation of the semantics of the input text description, which usually directly depends not only on the possibility of the selected AI tool, but also on the structure and content of the input text prompt. This article describes the algorithm to form a chain of solving the given task, from the criteria for choosing tools of developments and identifying problems that need improvement or resolving, to determining the scheme of a composite solution. The method created within the framework of the proposed study has certain limitations, namely: it does not support multilingual content and does not cover the processing of dialects, slangs, automatic detection of the language of the text. Key words: visualization of semantics, semantically meaningful elements, generative artificial intelligence, natural language processing, text analysis methods, tokenization, lemming, segmentation, AI generation model, generative adversarial network, machine learning, open source models, visualization quality evaluation metrics, text prompt, clustering problem, cluster analysis. 95 Семантік Веб та лінгвістичні системи Вступ Стрімке зростання обсягів та різно- манітності великих даних і розвиток техно- логій штучного інтелекту з одного боку ви- суває нові вимоги до обробки інформації, а з іншого - відкриває принципово інші мож- ливості вирішення задач, що оперують цією інформацією. Метою даного дослідження є визначення методів виявлення семантики неструктурованої текстової інформації та формування алгоритму її візуалізуалізації з максимальним ступенем достовірності. На сьогодні не існує готового сер- вісу чи системи, що реалізує поставлену за- дачу в цілому, охоплюючи весь ланцюжок від аналізу різноформатного (та такого, що походить з різних джерел) тексту природ- ної мови до автоматичної візуалізації вияв- лених семантичних об’єктів візуалізації. Але існує чимала кількість розробок (мето- дів, бібліотек, моделей), що реалізують ок- ремі функції, а також ті, які можуть і мають бути використані як складові в побудові композитного рішення з певним удоскона- ленням, розширенням, розвитком і вирі- шенням інтеграційних питань. Слід зазначити, що критерії вибору та вага семантичних елементів визнача- ються, перш за все, предметною областю та цілями класу прикладних задач, на які оріє- нтований алгоритм. Якщо результат візуалізації є не лише швидким та яскравим, а передусім ін- формативним та достовірним, тобто таким, що адекватно відображає саме семантич- ний вміст вхідного тексту, то реалізація по- дібного алгоритму та створення методоло- гії його побудови уможливлює вирішення цілої низки суттєвих задач на принципово новому інтелектуальному рівні, як-от на- приклад: - візуальний аналіз інформації з ме- тою виявлення суперечливої чи недостовір- ної інформації; - візуальний моніторинг змінення в часі об’єктів візуалізації та візуальної сцени в цілому; - інтелектуалізація систем ухвалення оперативних рішень; - динамічне формування/коригу- вання стратегії в реальному часі. Методи аналізу текстів природною мовою Всю сукупність наявних наразі ме- тодів аналізу текстових даних можна поді- лити на дві великі групи: - статистичний аналіз, - лінгвістичний аналіз. Статистичний аналіз орієнтований на виявлення сенсу тексту за частотним розпо- діленням слів у ньому. Лінгвістичний аналіз – на виявлення сенсу тексту за його семантичною структурою. Однак казати про належність будь-якого з існуючих під- ходів до конкретної групи можна лише умовно. Як правило, у реальних задачах обробки тексту доводиться використо- вувати сучасні похідні з поєднанням мето- дик обох груп з тим чи іншим акцентом. Більш детальна загальна кла- сифікація наведена на Рис.1. Далі детальніше розглядаються най- більш значущі методи та методології обробки тексту природної мови. Морфологічний аналіз. Основні підходи до морфологічного аналізу можна розділити на дві групи [2]: морфологічний аналіз на базі словників та без словників. Застосування словників забезпечує можливість отримання максимальної ін- формації за формою відомого слова. Але тут одразу виникає питання повноти слов- ників, що використовуються, та ризик ви- никнення збоїв на реальних текстах через імовірну наявність помилок. 96 Семантік Веб та лінгвістичні системи Рис.1. Загальна (умовна) класифікація методів аналізу тексту Методи без словників для нормалі- зації слів використовують алгоритми, при- значені для перетворення слів у різні грама- тичні форми. Їх можна поділити на: ймовір- но статичні методи та методи лексикону ос- нов і суфіксів. Слід зазначити, що методи першої групи потребують великої вибірки, а для другої – потрібні великий обсяг лексиконів і методи їх отримання. Ефективність мор- фологічного аналізу зазвичай намагаються підвищити комбінацією різних підходів. Морфологічний аналіз може вико- ристовувати наступні етапи обробки тек- стових контентів: - розбиття тексту на окремі значущі одиниці (абзаци, речення), словоформи, ві- докремлюючи від тексту знаки, цифри тощо; - нормалізація словоформ, що має вигляд лематизації або стемінгу; - морфологічний розбір слова через пошук у лемі суфіксів та закінчень різних частин мов. 97 Семантік Веб та лінгвістичні системи Рис.1. Загальна (умовна) класифікація методів аналізу тексту Методи без словників для нормалі- зації слів використовують алгоритми, при- значені для перетворення слів у різні грама- тичні форми. Їх можна поділити на: ймовір- но статичні методи та методи лексикону ос- нов і суфіксів. Слід зазначити, що методи першої групи потребують великої вибірки, а для другої – потрібні великий обсяг лексиконів і методи їх отримання. Ефективність мор- фологічного аналізу зазвичай намагаються підвищити комбінацією різних підходів. Морфологічний аналіз може вико- ристовувати наступні етапи обробки тек- стових контентів: - розбиття тексту на окремі значущі одиниці (абзаци, речення), словоформи, ві- докремлюючи від тексту знаки, цифри тощо; - нормалізація словоформ, що має вигляд лематизації або стемінгу; - морфологічний розбір слова через пошук у лемі суфіксів та закінчень різних частин мов. Кожний із цих етапів містить цілу низку непростих задач, вирішення яких є не тривіальною задачею. У [3] пропонується формальний під- хід, де для позначення частин мови вво- диться множина частин мови: 𝑍𝑍 = {𝑧𝑧1, 𝑧𝑧2, … , 𝑧𝑧𝑘𝑘}, де 𝑧𝑧𝑖𝑖 - 𝑖𝑖 – та частина мови, 𝑘𝑘 - кіль- кість частин мови в обраній природній мові, а множина слів тексту представ- ляється у вигляді об'єднання k-підмножин різних частин мови, водночас кожне слово тексту може бути віднесене до однієї з цих підмножин: 𝑇𝑇 = ⋃𝑗𝑗=1 𝑘𝑘 𝑊𝑊𝑗𝑗, 𝑡𝑡𝑖𝑖 ∈ 𝑊𝑊𝑗𝑗, 𝑖𝑖 = 1, 𝑚𝑚, 𝑗𝑗 = 1, 𝑘𝑘, ⃑ 𝑊𝑊𝑗𝑗 – під- множина слів 𝑗𝑗-ої частини мови. Для відображення множини слів 𝑇𝑇 до множини частин речі 𝑍𝑍 вводиться функція 𝐹𝐹(𝑇𝑇), результатом роботи якої є вектор з показниками приналежності до 𝑖𝑖-ї частини речі. 𝐹𝐹: 𝑇𝑇 → 𝑋𝑋, 𝐹𝐹(𝑇𝑇) = {𝑓𝑓1(𝑇𝑇), … , 𝑓𝑓𝑘𝑘(𝑇𝑇)} = {𝑥𝑥1, … , 𝑥𝑥𝑘𝑘}, 𝑖𝑖 = 1, 𝑘𝑘⃑, де 𝑓𝑓𝑖𝑖 - функція визначення показника приналежності слова до 𝑖𝑖-ї частини мови, 𝑥𝑥𝑖𝑖 – показник приналежності слова до 𝑖𝑖-ї ча- стини мови 𝑧𝑧𝑖𝑖. Даний алгоритм є словниковим та для проведення аналізу потребує викори- стання таблиць службових слів і таблиць лем та словоформ, з елементами яких здійснює ітераційне співставлення вио- кремлених із тексту словоформ. Слід зазначити, що більшість ме- тодів даного класу стикаються з проблемою зниження якості аналізу, що обумовлене та- кими чинниками, як наявність у синтаксич- них конструкціях декількох значень, за- стосування літературного стилю, наявність скорочень у тексті. У [4] автори пропону- ють вирішення даної проблеми через за- стосування словника скорочень та вико- нання попередньої фільтрації слів із низь- кою частотою появи у тексті. Йомовірно, було б доцільним залучення словників жар- гонних, сленгових слів, діалектів, а також здійснювати попередню фільтрацію не лише слів із низькою частотою присутності в текстовому контенті, а й з найвищою, що забезпечить позбавлення «шумових» сло- воформ (займенників, прийменників тощо). Також дуже поширеними зараз є ме- тоди морфологічного аналізу, засновані на системі машинного навчання [5]. Система машинного навчання здійснює аналіз кон- кретного тексту (або сукупності текстових контентів) та тренується на ньому, розпіз- наючи певні закономірності, і на їхній ос- нові робить деякі узагальнення. Згідно з набутою інформацію про властивості сло- воформ, що є закономірними у всіх кон- текстах, які пройшли аналіз, вона може ро- бити прогнози щодо найбільш вірогідної граматичної інтерпретації словоформи у нових текстах. Методи контрольованого машинного навчання роблять прогноз, що є ймовірнісним, після тренування на корпусі текстів, розмічених інформацією про сло- воформи повністю або частково, а методи машинного самонавчання дозволяють пра- цювати з корпусом, який ще не розмічений. Системи морфологічного аналізу на основі цього методу - це аналізатори, що викори- стовують методику трансформаційних пра- вил, виведених в результаті машинного навчання. Слід зазначити, що крім загаль- нолінгвістичних задач, які підлягають вирішенню для досягнення якості аналізу тексту, існують специфічні проблеми кож- ної конкретної мови, пов’язані із розвитком її морфології, можливим вживанням вели- кої кількості діалектів тощо. Статистичний аналіз текстового контенту. Найбільш поширеними класами методів даної групи є латентно-семантич- ний та кластерний аналіз. Мета даних ме- тодів полягає у виявленні прихованих зако- номірностей або очевидних залежностей. Цим і обумовлюється їхнє особливе місце серед величезної кількості алгоритмів по- шуку та обробки текстових даних. Метод латентно-семантичного аналізу. Спершу трохи зупинимось на прак- 98 Семантік Веб та лінгвістичні системи тичній значущості методів цього класу. Присутність у текстових контентах полісемії (одне слово має кілька різних зна- чень) та синонімії (кілька слів з однаковим значенням) є стандартною ситуацією для будь-якої природної мови. Одним із можли- вих шляхів вирішення цієї проблеми – згрупувати слова з однаковими значеннями чи слова із сильною кореляцією. Їх можна представити у вигляді певної прихованої, або «латентної» змінної, яка представля- тиме всі ці слова. Звідси й сам термін - «ла- тентно-семантичний аналіз». Формальніше метод латентно-се- мантичного аналізу (LSA) [6] — це повніс- тю автоматичний метод витягування та ви- ведення взаємозв’язків очікуваного кон- текстного використання слів в уривках дис- курсу. Це нетрадиційний метод обробки природної мови або штучного інтелекту; він не використовує створені людиною словники, бази знань (БЗ), семантичні ме- режі, граматики, синтаксичні аналізатори, морфології тощо, а за вхідні дані приймає тільки необроблений текст, розібраний на слова, які визначаються як унікальні рядки символів, розділені на значущі фрагменти, як, наприклад, речення або параграфи. LSA є гібридним методом, який використовує комбінацію статистичних та стохастичних технік. Метод LSA працює на колекції тек- стових документів. Результатом є матриця «терми-на-текстові документи», її еле- менти містять частоти використання термів у кожному з документів. Один із найроз- повсюдженіших варіантів – LSA, заснова- ний на використанні розкладення вихідної матриці за сингулярними значеннями (SVD). Використовуючи SVD, велика вихідна матриця розкладається на множину з k ортогональних матриць, лінійна комбінація яких є вдалим наближенням вихідної матриці. Згідно з теоремою про сингулярне розкладення, будь-яка дійсна прямокутна матриця X може бути розкла- дена у добуток трьох матриць: 𝑋𝑋 = 𝑈𝑈𝑈𝑈𝑉𝑉𝑇𝑇, де матриці U та V – ортогональні, а 𝚺𝚺 -діагональна матриця, значення на діаго- налі якої називаються сингулярними зна- ченнями матриці X. Особливість такого розкладення [7] полягає в тому, що у разі залишення лише k найбільших сингуляр- них значень, а в матрицях U та V лише відповідні цим значенням стовпці, то добу- ток отриманих матриць буде найкращим наближенням вихідної матриці X матрицею рангу k (�̇�𝑋): 𝑋𝑋 ≅ 𝑋𝑋 ̇ = 𝑈𝑈𝑙𝑙𝑙𝑙𝑙𝑙𝑈𝑈𝑙𝑙𝑙𝑙𝑙𝑙𝑉𝑉𝑙𝑙𝑙𝑙𝑙𝑙 Якщо X - матриця «терми-на-доку- мент», то �̇�𝑋, з одного боку, відображатиме основну структуру асоціативних залежно- стей, що є в X, а з іншого - не містить зайвої незначущої інформації (шуму). Таким чином кожний терм та доку- мент представляються за допомогою векто- рів у загальному просторі розмірності k (так званому просторі гіпотез). Тоді близькість між будь-якою комбінацією термів або документів може бути легко об- числена за допомогою різних метрик відстані (наприклад, скалярний добуток векторів, косинусна, евклідова або манхе- тенська відстань тощо). Окреме питання – вибір оптималь- ного значення розмірності k. В ідеалі, k має бути достатньо великим для відображення всієї реально існуючої структури даних. Але в той самий час достатньо малим, щоб не охопити випадкові та маловажливі за- лежності. Якщо обране k є занадто вели- ким, то метод втрачає свою ефективність та наближається за характеристиками до стан- дартних векторних методів. Занадто ма- леньке k не дозволяє впіймати відмінності між схожими словами або документами. Дослідження показують, що зі збільшенням k якість спочатку зростає, а потім починає йти на спад. На сьогодні відомі щонайменше ймовірнісний, інкрементальний та ієрархіч- ний варіанти методу LSA, що активно зас- тосовуються, зокрема, для автоматичного прогнозування інтересів користувачів у веб, виходячи з накопиченої інформації про їхні уподобання. 99 Семантік Веб та лінгвістичні системи Головною перевагою LSA методу є саме його здатність виявляти залежності між словами, коли звичайні статистичні ме- тоди безсилі. Також LSA може бути вико- ристаний з навчанням (тобто з попе- редньою тематичною класифікацією тек- стових контентів) або без навчання (довільне розбиття довільного тексту), що залежить від задачі, яка вирішується. Одним із головних недоліків ла- тентно-семантичного аналізу є те, що, він розрахований на обробку документів ко- лекції, тож ці документи мають бути до- ступними. Це обмежує його застосування. До цього можна ще додати значне зни- ження швидкості обчислень зі збільшенням оьсягу вхідних даних. Як продемонстро- вано у [8], швидкість обчислень відповідає порядку 𝑁𝑁2𝑘𝑘, де 𝑁𝑁 = 𝑁𝑁𝑑𝑑𝑑𝑑𝑑𝑑 + 𝑁𝑁𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 – сума числа документів та числа термів, 𝑘𝑘 – роз- мірність простору факторів. Методи Кластерного аналізу [9] яв- ляють собою статистичну процедуру, за- дача якої полягає в розбитті вибірки інфор- маційних об'єктів на підмножини, що не пе- ретинаються (жорстка кластеризація) і на- зиваються кластерами. (У випадку м’якої кластеризації один об’єкт може належати кільком кластерам.) Кожен кластер має складатися зі схожих об'єктів, а об'єкти різ- них кластерів мають істотно відрізнятися один від одного. Формально, є певна вибірка інфор- маційних об’єктів 𝑋𝑋𝑙𝑙 = {𝑥𝑥1, … , 𝑥𝑥𝑙𝑙} ⊂ 𝑋𝑋 і функція відстані між об'єктами - 𝜌𝜌(𝑥𝑥, 𝑥𝑥′). Треба розбити задану вибірку на кластери, що містять об'єкти, близькі за метрицею 𝜌𝜌. Кожному об'єкту 𝑥𝑥𝑖𝑖 ∈ 𝑋𝑋𝑙𝑙 призначається мітка (номер) кластера 𝑦𝑦𝑖𝑖. Алгоритм кла- стеризації фактично є функцією 𝑎𝑎: 𝑋𝑋 → 𝑌𝑌, яка будь-якому об'єкту 𝑥𝑥 ∈ 𝑋𝑋 ставить у відповідність мітку кластера 𝑦𝑦 ∈ 𝑌𝑌. Мно- жина міток 𝑌𝑌 в деяких випадках відома заз- далегідь, однак частіше завдання полягає у визначенні оптимального числа кластерів з точки зору того чи іншого критерію якості кластеризації. Методи кластеризації різняться пра- вилами побудови кластерів [10], що є кри- теріями, за якими визначається «схожість» об’єктів. Кластери можна утворювати, ґрунтуючись на відстані між ними, щіль- ності ділянок у просторі даних, інтервалах або на конкретних статистичних розподілах. Усе залежить від конкретного набору даних та мети використання резуль- татів аналізу. Методи кластерного аналізу можуть бути застосовані для вирішення цілої низки задач обробки текстових даних, які умовно можна об’єднати в 4 групи: 1) розробка системи класифікації інформаційних об’єктів; 2) дослідження корисних концеп- туальних схем їх групування; 3) представлення гіпотез на основі дослідження текстових даних; 4) перевірка гіпотез або досліджень для визначення, чи дійсно типи (групи), ви- ділені тим або іншим способом, присутні в наявних текстових даних. Нескладно помітити, що перелічені групи задач фактично є задачами машинно- го навчання. Тобто простежується тісний зв’язок між алгоритмами і методами ма- шинного навчання та методами кластер- ного аналізу. Одиницею кластерного аналізу є ін- формаційний об’єкт, заданий вектором оз- нак. Робота кластерного аналізу спирається на два припущення. Перше – розглянуті оз- наки об’єкта в принципі допускають бажа- не розбиття сукупності об’єктів на кла- стери. Друге – правильність вибору мас- штабу або одиниці вимірювання ознак. Усю сукупність методів кластерного аналізу можна поділити на дві групи: ієрар- хічні та неієрархічні, кожна з яких включає безліч методів та підходів. Суть ієрархічної кластеризації полягає в послідовному об’єднанні менших кластерів у більші (аг- ломеративні методи) або поділі більших кластерів на менші (дивізимні). Тобто в першому випадку спочатку всі об’єкти є окремими кластерами і послідовно, крок за кроком, схожі об’єкти поєднуються в кла- стер, кластери збільшуються, а їх кількість зменшується. Друга група – логічна проти- лежність першій. Спочатку - всі об’єкти 100 Семантік Веб та лінгвістичні системи належать одному кластеру, який на наступ- них кроках алгоритму ділиться на менші кластери, у результаті утворюється послідовність груп, що розщеплюються. Задача кластеризації є досить суб'єк- тивною. Для її розв'язання може існувати більше одного правильного алгоритму. Ко- жен алгоритм дотримується свого набору правил для визначення «подібності» між об'єктами даних. Найбільш відповідний ал- горитм кластеризації для конкретної про- блеми часто потрібно вибирати експери- ментально, якщо немає математичної при- чини віддати перевагу одному алгоритму кластеризації над іншим. Алгоритм може добре працювати на певному наборі даних, але не працюватиме для іншого. Програмна реалізація алгоритмів кластерного аналізу широко представлена в різних інструментах Data Mining, які дозво- ляють вирішувати завдання досить великої розмірності. Взагалі обробка природної мови (Na- tural language processing - NLP) є загальним напрямком штучного інтелекту і матема- тичної лінгвістики. NLP вивчає проблеми комп'ютерного аналізу і синтезу природних мов. Що ж до штучного інтелекту, аналіз означає розуміння мови, а синтез - гене- рацію грамотного тексту. Більшість NLP- методів є методами машинного навчання. Методи машинного навчання в за- гальному процесі семантичного аналізу тексту. Машинне навчання (ML) є одним із визнаних успішних методів обробки даних для отримання з них корисної інформації. Їхньою особливістю є не прямий розв’язок задачі, а навчання на множині подібних прикладів, що дозволяє використовувати ці методи для обробки великих обсягів даних та виявляти в них нові, нетривіальні, ко- рисні та доступні для інтерпретації знання. Існує твердження, що алгоритми ML вчаться витягувати інформацію із даних тим краще, чим більше даних для них до- ступно [11]. Окрім методів штучного інте- лекту, під час розробки моделей машин- ного навчання як допоміжні використову- ються засоби математичної статистики, чи- сельних методів, методів оптимізації, теорії ймовірностей, теорії графів тощо [11]. Найбільш використовуваними ва- ріантами застосування моделей ML для обробки текстових даних – вирішення задач їх класифікації та кластеризації. Класифікація [12] – встановлення функціональної залежності між вхідними і дискретними вихідними змінними. За допо- могою класифікації вирішується завдання приналежності об’єктів до одного з відомих класів. Кластеризація [12] – групування об’єктів на основі їхніх властивостей. Об’єкти в кластері мають бути схожими і відрізнятися від об’єктів інших кластерів. Чим більша схожість об’єктів усередині кластера і чим більше відмінностей між кластерами, тим точніша кластеризація. Методи машинного навчання поді- ляють на дві основні категорії [13]: нав- чання з учителем (supervised) та навчання без учителя (unsupervised). Методи нав- чання з учителем поділяють вхідні дані на набір наперед заданих класів. Для навчання такого класифікатора потрібна навчальна вибірка, яка містить марковані зразки різ- них класів. Навчальна вибірка має бути ре- презентативною, тобто містити варіатив- ний контент із різними характеристиками (класифікаторами), щоб моделі могли відповідно навчитися їх розрізняти. З вико- ристанням цього набору даних можна нав- чити модель розпізнавати ознаки того чи ін- шого класу контенту. Методи навчання без учителя не по- требують навчальних даних, проте вони не ставлять у відповідність вхідним даним певний клас, а лише вивчають закономір- ності у вхідних даних та поділяють вхідні дані на кластери. У [13] автори систематизували існу- ючі типи класифікаторів за різними крите- ріями, результат наведений у таблиці 1 нижче. 101 Семантік Веб та лінгвістичні системи Таблиця 1. Різновидності підходів до класифікації залежно від критеріїв Критерій Тип Короткий опис Використання/ не ви- користання навчаль- них даних Класифікація з учителем Вхідні дані поділяють, використовуючи набір зразків як навчальні дані Класифікація без учителя Підходи відомі як кластеризація. Не беруть до уваги мітки навчальних даних для класифікації вхідних даних Напівавтоматичне навчання Навчання відбувається з використанням даних як з мітками, так і без Врахування/ не вра- хування будь-якого припущення про роз- поділ вхідних даних Параметричні класифікатори Припускається, що функція щільності ймовір- ності для кожного класу відома Непараметричні класифікатори Класифікатори не обмежуються жодними при- пущеннями про розподіл вхідних даних Розгляд одного кла- сифікатора або ан- самблю Один Використовується єдиний класифікатор для призначення мітки для об’єкта Ансамбль Під час визначення мітки для об’єкта врахову- ються результати кількох класифікаторів Використання/не ви- користання техноло- гії жорсткого поділу, де кожен об’єкт нале- жить лише одному кластеру Жорсткий класифікатор Технології жорсткої класифікації не врахову- ють подальші зміни різних класів М’який (нечіткий) класифікатор Нечіткі класифікатори моделюють поступові граничні зміни, забезпечуючи оцінку ступеня подібності всіх класів Видача класифікато- ром розподілу ймо- вірності належності до всіх класів Імовірнісний класифікатор Класифікатор здатен для заданого зразка оцінити розподіл ймовірностей на множині класів Неймовірнісний класифікатор Підхід визначає лише найбільш придатний клас для вхідного образу Найбільш поширеними методами ML для задач класифікації [14] є штучні нейронні мережі [15], логістична регресія [15], метод опорних векторів [15] та випад- ковий ліс [16]. Порівняльна характеристика перелічених та інших методів класифікації наведена в [17]. З огляду на тематику даного дослід- ження, вирішення задачі класифікації для вхідної інформації може дозволити, напри- клад, вибрати з множини вхідних повідом- лень лише ті, що будуть значущими для ві- зуалізації (стосуватися конкретної пред- метної області чи події), обрізати фейковий контент [17] чи просто зайвий, класифіку- вати повідомлення на такі, що відобража- ють статичну та динамічну інформацію, або за призначенням (кому інформація має бути делегована), за темою, відправником, датою, типом повідомлення тощо [1]. 102 Семантік Веб та лінгвістичні системи Генеративний штучний інтелект Основною відмінністю технологій генеративного штучного інтелекту (ШІ) є їхня здатність створювати нові дані будь- якого типу. Технології ШІ-генерації вико- ристовують штучний інтелект для ство- рення на основі вхідних текстових описів нового контенту, який досить точно (тек- стово або візуально) відображає зміст і кон- текст вхідного тексту. Умовно їх можна розділити на три групи за формою резуль- туючого контенту: text-to-text (генерується текст), text-to-image (генерується зобра- ження) та text-to-video (генерується відео). Технології генерації тексту (або «ге- нерування природної мови») часто базу- ються на процесах Маркова та на глибоких генеративних моделях. Штучний інтелект або моделі машинного навчання генерують мову згідно правил граматики, синтаксису чи лексики. Модель генерації починається на концептуальному рівні (вибір з контенту даних для перетворення), зменшується до досконалих правил мови (правопис, грама- тика, вибір слів), та, врешті-решт, створює речення як ланцюжок слів. Більшість сучасних сервісів text-to- image є поєднанням моделі, що обробляє природну мову (NLP), та генеративної зма- гальної мережі (GAN). Технології text-to-image вміють «прочитати» фрагмент тексту та згене- рувати зображення відповідно до його змісту. Як правило, це реалізується трьома кроками. Спочатку виконується аналіз вхідного опису та виявляється значуща ін- формація (зазвичай для цього використову- ються методи аналізу природної мови): ключові слова, сутності, контекст опису. Далі на основі отриманої інформації ство- рюється зображення, використовуючи здебільшого генеративні змагальні мережі (GAN) [31]. Й нарешті вдосконалення ре- зультуючого зображення – багатоітерацій- ний процес аналізу та оптимізації версій зображення до досягнення бажаної якості та ступеня відображеня семантичного вмісту. Технології text-to-video уможливлю- ють створення відеороліків на основі вхід- ної текстової підказки, та зазвичай охоплю- ють кілька підгалузей штучного інтелекту: обробку природної мови, комп’ютерний зір та машинне навчання. Стрімкий розвиток технологій генерації відеоконтенту здебіль- шого пов’язаний із розвитком дифузійних моделей (Stable Diffusion - SD). Вхідні опи- си можуть мати чималий обсяг. Будь-яке його змінення, навіть додавання/видалення одного слова в/з опис(у), може кардинально впливати на результат генерації. Кожне слово текстової підказки відіграє ключову роль у створенні відео. Приблизний алго- ритм генерації можна розглянути на при- кладі відомої технології T2V. Алгоритм T2V полягає в наступній послідовності ос- новних кроків: 1) аналіз та інтерпретація вхідного тексту за допомогою методів токенізації з метою визначення його семантики – конте- ксту, значення; 2) вибір відповідних візуальних ефектів та анімації, планування відеоконте- нту на основі вхідної текстової підказки; 3) створення візуальних елементів на кшталт 3D-моделей або анімації. Для цього можуть бути використані GAN мо- делі або ці елементи можуть бути витягнуті просто з наявної бібліотеки відеоматеріа- лів; 4) побудова з отриманих візуаль- них об’єктів послідовності, що відповідає вхідному опису, додаючи в цю послідов- ність переходи та, можливо, синхронізуючі її зі звуком. Слід зазначити, що розвиток ШІ те- хнологій відеогенерації припадає лише на останні кілька років, тому існує ще багато невирішених проблем та обмежень. Так, на- приклад, досі залишається серйозною про- блемою генерація руху між відеокадрами. Аналіз існуючих рішень Задачі обробки природної мови є до- сить складними, але більшість із них уже реалізовано в існуючих готових застосун- ках та бібліотеках аналізу тексту. Генера- тивні моделі хоча і є досить молодою га- луззю, однак вже існує чимала кількість го- 103 Семантік Веб та лінгвістичні системи тових рішень. Тому першочергова задача полягає у виборі засобів реалізації з урахуванням вимог до функціональності та можливості подальшої інтеграції в систему, розвитку та вдосконалення. Серед існуючих інструментів об- робки тексту слід виділити: - Морфологічний аналізатор pymorphy2 [18] реалізований мовою програ- мування Python з додатковими розширен- нями C ++. Він уміє надавати слову потріб- ної форми. Наприклад ставити у множину, або змінювати відмінок; повертати грама- тичну інформацію про слово (число, рід, відмінок, частина мови тощо). Використо- вує великі ефективно закодовані словники, створені на основі даних OpenCorpora та LanguageTool. Для забезпечення морфоло- гічного аналізу розроблено набір лінгвісти- чно мотивованих правил. Для російської мови pymorphy2 забезпечує ультрасучас- ний морфологічний аналіз. Але для україн- ської мови - вимагає більше специфічних правил для обробки слів позасловникового запасу, а також потребує анотованого кор- пусу української мови, бо підтримка укра- їнської мови в цьому аналізаторі поки є екс- периментальною. - Text Analyzer [19] – безкоштов- ний інструмент для пошуку та оптимізації ключових слів у тексті. Часто використову- ються у вебсередовищі для аналізу сайтів, пошукових запитів, аналізу описів застосу- нків для Google Play та App Store тощо. Ви- конує частотний аналіз тексту, дозволяє ви- діляти ключові слова та спам. - SenseClusters [20] – пакет про- грам (переважно мовою Perl), що дають мо- жливість користувачу віднести до одного кластеру схожі контенти, використовуючи методи некерованого машинного навчання. Є досвід використання інструментів SenseClusters для розділення слів за їхнім сенсом, категоризації електронної пошти, дискримінації імен. Підтримує кілька різ- них методів кластеризації тексту. Включа- ють власні методи SenseClusters techniques та LSA метод. SenseClusters базується тільки на ле- ксичних характеристиках та не використо- вує ніяких навчальних даних або зовнішніх джерел знань. Це обумовлює його мовну незалежність. Єдиною умовою є можли- вість токенізації мови за допомогою регу- лярних виразів Perl, що задаються користу- вачем. Загалом SenseClusters можна вико- ристовувати для вирішення будь-якої за- дачі, що потребує розпізнавання контексту- ально схожих одиниць тексту або слів, які зустрічаються в подібних контекстах. - Бібліотека для роботи з матри- цями JAMA [21]. Базовий пакет лінійної ал- гебри для Java. Надає класи рівня користу- вача для побудови реальних щільних мат- риць і керування ними. Підтримує п’ять фу- ндаментальних матричних розкладів, в тому числі сингулярне розкладання прямо- кутних матриць, що обумовлює широке ви- користання бібліотеки для реалізації LSA методів. - Електронний словник українсь- кої мови ВЕСУМ [22] - це великий словник словозміни української мови, основними компонентами якого є реєстр лем, коди кла- сів словозміни й правила генерації слово- форм на основі цих кодів, а також застосу- вання елементів програмованої логіки. Ви- конує завдання морфологічного аналізу й синтезу. Перше полягає в лематизації (зве- денні окремої словоформи до леми) й прис- воєнні цій словоформі відповідних грама- тичних тегів, а друге передбачає генеру- вання всіх словоформ із певної леми з від- повідними граматичними ознаками-тегами. Підтримує «динамічне тегування», а саме обробку утворюваних слів (складних імен- ників, прикметників, прислівників) шляхом розбиття їх на складові й присвоєння цим складовим відповідних граматичних ознак- тегів [23]. - NLP UK [24] - інструмент для аналізу та обробки української мови на ос- нові словника ВЕСУМ (що використову- ється для тегування лексем) та двигуна LanguageTool (для аналізу текстів). Має підтримку токенізації, лематизації, части- номовного аналізу та базового зняття омо- німії. Застосовувався на python3 та java. - Браунський корпус української мови БрУК [25] відкритий, збалансований за жанрами та в майбутньому проанотова- ний корпус сучасної української мови обся- 104 Семантік Веб та лінгвістичні системи гом 1 млн слововживань. Корпус побудова- ний на засадах, покладених в основу відо- мого корпусу англійської мови Brown. Його частина, проанотована за сутностями та го- това для автоматичного анотування сутнос- тей (люди, організації, локації та різне); мі- стить векторні представлення слів, простий у використанні токенизатор (на абзаци, ре- чення та слова) тощо. - UD Ukrainian [26] - корпус дерев залежностей для української мови. Містить 122 тисячі токенів у 7000 реченнях худож- ньої літератури, новин, статей, думок, Вікі- педії, юридичних документів, листів, допи- сів і коментарів за останні 15 років та першу половину 20 століття. - Java CoreNLP [28] – пакет для обробки природної мови на Java. Дозволяє отримувати лінгвістичні анотації для вхід- ного текстового контенту, включаючи то- кени, речення, частини мови, іменовані сут- ності, числові та часові значення, прово- дити аналіз залежностей, зв’язків, виокрем- лювати почуття, настрої (тобто емоційні ас- пекти) та посилання на джерела цитування. Наразі, CoreNLP підтримує 6 мов (араб- ську, китайську, англійську, французьку, німецьку та іспанську, і, на жаль, не підтри- мує українську мову). - NLTK (Natural Language Toolkit) [29] — це платформа для розробки програм обробки природної мови мовою програму- вання Python. Надає зручні інтерфейси для багатьох мовних корпусів, а також бібліо- теки для обробки текстових даних, а саме: класифікації, токенізації, стемінгу, розмі- тки частин мови (POS-тегування), синтак- сичного та семантичного аналізу. - Stanza [27] – це пакет засобів на Python для аналізу природної мови (для по- над 70 мов). Містить інструменти для деко- мпозиції тексту у списки речень і слів, для створення базових форм цих слів, визна- чення частин мови та морфологічних особ- ливостей. Stanza побудовано з високоточ- ними компонентами нейронної мережі, які забезпечують ефективне навчання та оці- нку за допомогою власних анотованих да- них. Забезпечує надійну текстову аналі- тику, включаючи токенізацію, розширення багатослівних маркерів (MWT), лематиза- цію, визначення тегів частин мови (POS) і морфологічних ознак, синтаксичний аналіз залежностей і розпізнавання іменованих об’єктів. Модулі побудовано на основі біб- ліотеки PyTorch. Крім того, Stanza включає інтерфейс Python до пакета Java CoreNLP і успадковує звідти додаткову функціональ- ність, таку як синтаксичний аналіз, корефе- рентна роздільна здатність та зіставлення лінгвістичного шаблону. Проведений аналіз дозволив визна- чити основні критерії вибору засобів обро- бки тексту для подальшого використання у вирішенні задачі, а саме - підтримуванні функціональності, відкритості коду та му- льтимовності. Інша група – генеративні моделі. Де- тальний опис проаналізованих генератив- них моделей наведений в [30]. Здійснений аналіз дозволив сформувати наступну мно- жину критеріїв вибору такої моделі для ре- алізації задачі: - достатня смислова якість візуалі- зації (тобто можливість отримання адеква- тного результату); - відкритість коду, що дає можли- вість удосконалення, доробки та кастоміза- ції моделі; - доступна вартість (в ідеалі безко- штовний варіант); - простота та зручність викорис- тання; - технічна якість візуалізації. Задача візуалізації семантики текстового контенту Задача полягає у створенні автома- тизованого алгоритму, що реалізує візуалі- зацію саме семантичного вмісту вхідних те- кстових даних, отриманих з різних джерел: повідомлення чатів, месенджерів, контент електронних листів, текстові файли тощо. Загальний технологічний ланцюжок вирішення задачі на верхньому рівні наве- дений на рисунку 2. 105 Семантік Веб та лінгвістичні системи Рис. 2. Алгоритм вирішення задачі візуалізації семантики тексту Алгоритм має забезпечувати побу- дову файлу інструкцій (підказок) для візуа- лізації на базі вибраних в ході аналізу пер- винних текстових даних ключових семан- тичних елементів. Файл інструкцій є вхідним для моделі text-to-image та має містити підказку у вигляді структурованих текстових даних, структура та зміст яких забезпечує якісну, достовірну за семанти- кою візуалізацію. Фактично це є перетво- ренням тексту в текст визначеної структури зі збереженням ключових семантичних еле- ментів, виявлених під час обробки тексту. Результат візуалізації є графічним підґрунтям для визначення певних показ- ників, що дозволяють математично оцінити результат вирішення прикладної задачі. Це може бути, приміром, ступінь зміни си- стеми в часі (від попередньої візуалізації) або достовірність вхідної інформації. Такі метрики якості даватимуть можливість оцінити та удосконалити не лише результат візуалізації, а й алгоритм в цілому. Визначення ключових семантик у вхідному текстовому описі. Ця підзадача в дечому подібна до задач автоматичного ре- ферування, де кінцевою метою є фор- мування стислого та змістовного кон- спекту, але він формується саме з ключових семантик, виявлених під час аналізу й обробки. Це є однією з найскладніших за- дач обробки природної мови. Задача даного рівня полягає у виділенні з первинних тек- стових даних семантичних елементів - клю- чових фраз (фрагментів, речень), що відоб- ражатимуть семантику вхідного тексту. Обробка тексту природної мови включає наступні основні задачі (див. рис. 3): поділ тексту на токени, переве- дення всіх літер у нижній регістр, виокрем- лення основи слова, отримання базової словникової форми слова, видалення стоп- слів, нормалізацію тексту, розмічування тексту на частини мови, виявлення іменова- них сутностей і, нарешті, витягнення з не- структурованого або мало структурованого тексту структурованої інформації, такої, як сутності, зв’язки між ними, їхні атрибути. 106 Семантік Веб та лінгвістичні системи Рис. 3. Задачі обробки текстових даних Формування файлу підказки. Зро- зуміло, що такий алгоритм не може бути повністю універсальним. Досягти високого рівня ефективності (семантичної достовір- ності зображення відповідно до вхідних да- них) можна тільки враховуючи особливості класу прикладних задач, де він буде засто- совуватися, та відповідної предметної об- ласті. Це дозволяє сформувати адекватну систему характеристик, що уможливлюють певну якість отримання візуалізації. Це мо- жуть бути класи значущих семантик, ос- новні види дій та станів, географічні ло- кації, часові характеристики, використання версійності та номер попередньої версії. Алгоритм формування файлу під- казки наведений на Рис. 4. Рис. 4. Формування файлу підказки Висновки В роботі проведено аналіз методів обробки тексту природною мовою з метою виявлення його семантичного змісту та тех- нологій генеративного штучного інтелекту, а також найбільш вживаних на сьогодні зас- тосунків, як для аналізу текстових даних, так і ШІ-генерації. Це дозволило виокремити спільні характеристики існуючих систем, їхні недоліки та сформувати основні кри- терії вибору застосунку ШІ-генерації для його подальшої інтеграції до загальної си- стеми для реалізації функцій створення візу- ального контенту. На основі проведеного аналізу вироблено основний ланцюжок вирішення задачі, специфіковано складові підзадачі та визначені головні етапи прове- дення досліджень. Наукова новизна запро- понованого алгоритма полягає у: 1) вдосконаленні процесу обробки тексту шляхом зведення та інтеграції текс- тових даних з різних джерел; 107 Семантік Веб та лінгвістичні системи 2) створенні технології інтеграції сервісів обробки тексту та візуалізації шляхом алгоритмізації та автоматизації етапу переходу від сформованого списку значущих візуальних елементів тексту до візуалізації цих семантик засобами ШІ ге- нерації; 3) визначенні метрик якості резуль- татів візуалізації. Подальший розвиток досліджень пе- редбачає, перш за все, вдосконалення ана- лізу текстових даних з метою отримання більш якісної семантики відповідно до особливостей та цілей вирішення приклад- ної задачі, а саме охоплює вирішення наступних задач: 1) створення системи критеріїв зна- чущої інформації в аспекті прикладної за- дачі, що вирішується. Наприклад, як сис- теми з двох онтологій: онтології предмет- ної області, де однією з характеристик сут- ності чи зв’язку між сутностями є вага (тобто, це саме семантична вага, що врахо- вує інтереси прикладної задачі, а не вага те- рміну, що визначається частотою його вжи- вання) та онтології задачі з визначенням ро- лей користувачів, джерел надходження те- кстової інформації, сутностей, що визнача- ються практичними цілями реалізації. 2) вирішення задачі класифікації вхідних текстових даних за заданою систе- мою критеріїв. Як класифікатори можуть використовуватись тематика, джерела ін- формації, ролі кінцевих користувачів, лока- ції, показники часу, яким датується вхідний контент тощо (залежно від практичної зада- чі, що вирішується); 3) створення технології “очи- щення” нелітературної мови (обробка сур- жика, сленгу, діалектів) та нормалізації те- ксту із залученням словників синонімів; 4) удосконалення процесу аналізу тексту з урахуванням критеріїв значимості у виявленні ключових семантичних фраг- ментів. Ще одна задача, яка може бути реа- лізована на основі класифікації вхідних те- кстових даних/вихідних візуалізацій за ро- лями користувачів за попередньо визначе- ними критеріями/правилами, - це створення системи “маршрутизації завдань”, яка пов’язує вхідні дані й, відповідно, отрима- ний відеоконтент із адресатом (роль корис- тувача). Література 1. Yakymenko, D. O., Kataieva, Ye. Ye. Methods and Means of Intelligent Analysis of Text Do- cuments. Вісник Черкаського державного технологічного університету, 2022. №2, C. 43-52. https://er.chdtu.edu.ua/han- dle/ChSTU/4165 2. Bisikalo, О., Vysotska, V., Burov, Y. Concep- tual Model of Process Formation for the Se- mantics of Sentence in Natural Language. Pro- ceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference Lviv, Ukraine, April 23-24, 2020, 27p. CEUR Workshop Proceedings, available at: http://ceur-ws.org/Vol-2604/paper12.pdf 3. Іващенко О. О., П’ятикоп О. Є. Моделю- вання методу морфологічного аналізу ук- раїномовного тексту. Наукові праці Дон- НТУ, Серія “Інформатика, кібернетика та обчислювальна техніка”, 2020. № 2(31). C. 65 -72. https://iktv.donntu.edu.ua/wp-con- tent/uploads/2021/04/08_Yvashchenko-Piaty- kop-1.pdf 4. Singh, J., Singh, G., Singh, R. Morphological evaluation and sentiment analysis of Punjabi text using deep learning classification. Journal of King Saud University: Computer and Infor- mation Sciences. 2021, Vol.33, № 5. P. 508 - 517. https://www.sciencedirect.com/sci- ence/arti- cle/pii/S1319157818300612?via%3Dihub 5. Яровий А., Кудрявцев Д., Крилик Л. Удос- коналення методу семантичного аналізу тексту. Інтелектуальні Інформаційні Техно- логії. 2020, C. 34-36. https://ir.lib.vntu.edu.ua/bitstream/han- dle/123456789/30887/WORK-IES-2020-34- 36.pdf?sequence=1 6. Landauer T., Foltz P., Laham D. Introduction to Latent Semantic Analysis. Discourse Pro- cesses, 1998. № 25. P. 259–284. 7. Press, W., Teukolsky, S., Vetterling, W. Sin- gular Value Decomposition. Numerical Reci- pes in C., 2nd edition. Cambridge: Cambridge University Press, 1992. P. 59 -71. 108 Семантік Веб та лінгвістичні системи 8. Deerwester, S., Dumais, S., Furnas,G. Index- ing by Latent Semantic Analysis. Journal of the American Society for Information Science, 1990. Vol. 41 № 6. P. 391–407. URL: http://wordvec.colorado.edu/pa- pers/Deerwester_1990.pdf 9. Основні поняття кластеризації та поста- новка задачі. https://csc.knu.ua/me- dia/study/asp/mod_probl_inf_tech_sys_analy- sis_ivohin/lecture/lec11.pdf 10. Методи кластерного аналізу. Ієрархічні ме- тоди. https://moodle.znu.edu.ua/plugin- file.php/486140/mod_resource/con- tent/1/Лекція%2010.pdf 11. Grolinger, K., Hayes, M., Higashino, W.A. Challenges for MapReduce in big data in Proc. IEEE World Congr. Services (SERVICES), 2014, pp. 182-189. https://ir.lib.uwo.ca/cgi/viewcontent.cgi?arti- cle=1095&context=electricalpub 12. Коновалова К. Машинне навчання: методи та моделі: підручник для бакалаврів, магіст- рів та докторів філософії спеціальності 051 «Економіка»// Харків: ХНУ імені В. Н. Ка- разіна, 2020. 280 с. https://www.researchgate.net/publica- tion/345765254_MASINNE_NAVCANNA_ METODI_TA_MODELI 13. Новіков О.М., Лавренюк М.С. Огляд ме- тодів машинного навчання для класифікації великих обсягів супутникових даних. Системні дослідження та інформаційні технології. 2018. № 1. С. 52-71. http://jnas.nbuv.gov.ua/article/UJRN- 0001075162 (дата звернення: 01.06.2024) 14. Maulik, U., Chakraborty, D. Remote Sensing Image Classification: A survey of support-vec- tormachine-based advanced techniques. IEEE Geoscience and Remote Sensing Magazine. 2017. Vol. 5, № 1. P. 33–52. 15. Bishop C.M. Pattern Recognition and Ma- chine Learning. NY: Springer. 2006. 738 p. 16. Gislason, P.O., Benediktsson, J.A., Sveinsson, J.R. Random forests for land cover classifica- tion. Pattern Recognition Letters. 2006. Vol. 27 N 4. P. 294–300. 17. Праздніков В.О., Сугоняк І.І. Моделі та ме- тоди машинного навчання для розпізнаван- ня фейкового контенту. Технічна інженерія, 2023. Том 2 №92. С.131-136. https://www.re- searchgate.net/publica- tion/376878645_Modeli_ta_metodi_masin- nogo_navcanna_dla_rozpizna- vanna_fejkovogo_kontentu 18. Морфологічний аналізатор Pymorphy2. https://pymorphy2.readthedocs.io/en/stable/ 19. Text Analyzer. https://asomobile.net/en/blog/text-analyzer/ 20. Sense Clusters. https://metacpan.org/pod/Text::SenseClusters 21. JAMA: A Java Matrix Package. https://math.nist.gov/javanumerics/jama/ 22. Рисін, А., Старко, В. Великий електронний словник української мови (ВЕСУМ). Веб- версія 6.1.0. 2005-2023. https://ve- sum.nlp.net.ua/ 23. Старко, В., Рисін., А. Великий електронний словник української мови (ВЕСУМ) як засіб NLP для української мови. Галактика слова. 2020. C.134-141. https://www.researchgate.net/publica- tion/344842033_Velikij_elektronnij_slov- nik_ukrainskoi_movi_VESUM_ak_za- sib_NLP_dla_ukrainskoi_movi_Ga- laktika_Slova_Galini_Makarivni_Gnatuk 24. LanguageTool API NLP UK. URL: https://github.com/brown-uk/nlp_uk 25. Браунський корпус української мови. https://github.com/brown-uk/corpus 26. Universal Dependencies corpus for Ukrainian. https://github.com/UniversalDependen- cies/UD_Ukrainian-IU/tree/master 27. Stanza – A Python NLP Package for Many Hu- man Languages. https://stanfordnlp.github.io/stanza/ 28. Manning, C., Surdeanu, M., Bauer, J. The Stanford CoreNLP Natural Language Pro- cessing Toolkit. In Proceedings of the 52nd Annual Meeting of the Association for Com- putational Linguistics: System Demonstra- tions, 2014. P. 55-60 29. Natural Language Toolkit: Documentation. 2024. https://www.nltk.org/ 30. Міненко В., Аналіз застосування ШІ-гене- раторів для розв’язання складних бізнес-за- дач. Системи керування та комп’ютери, 2024, № 4. C. 10 – 18. 31. Іванов А., Онищенко В. Методи генерації зображень з використанням мереж GAN. Адаптивні системи автоматичного управ- ління. 2023. Том 1 №42, C.153-159 https://asac.kpi.ua/article/view/279109 109 Семантік Веб та лінгвістичні системи Одержано: 10.01.2025 Внутрішня рецензія отримана: 17.01.2025 Зовнішня рецензія отримана: 19.01.2025 Про автора: Міненко Валерій Дмитрович, аспірант https://orcid.org/0009-0003-5299-6786 Місце роботи автора: Інститут програмних систем НАН України. Засновник, Twigames Inc. 3422 Old Capitol Trail, Suite# 241, Wilmington, DE 19808, US Моб. тел.: +380(68) 807 49 48 E-mail: valerii@twigames.net