Modified method of searching keywords and keyterms in text data

This article discusses the issue of automated search for keywords and key terms in text data. To improve the efficiency of the tools of automated search for keywords in the text according to the criteria of absolute accuracy and Jaccard index, a modification of one of the most modern methods for sea...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2024
Автори: Bukhalenkov, D.O., Zabolotnia, T.M.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут програмних систем НАН України 2024
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/602
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-602
record_format ojs
resource_txt_mv ppisoftskievua/d5/77994ce014c3d9ca026e585943530dd5.pdf
spelling pp_isofts_kiev_ua-article-6022024-04-27T16:05:58Z Modified method of searching keywords and keyterms in text data Модифікований метод пошуку ключових слів та термінів у текстових даних Bukhalenkov, D.O. Zabolotnia, T.M. keywords; key terms; text data processing; Python; Stanford classification UDC 004.4 ключові слова; ключові терміни; оброблення текстових даних; Python; стенфордська класифікація УДК 004.4 This article discusses the issue of automated search for keywords and key terms in text data. To improve the efficiency of the tools of automated search for keywords in the text according to the criteria of absolute accuracy and Jaccard index, a modification of one of the most modern methods for searching for keywords has been developed. A modification of the existing hybrid keyword search method is proposed. It takes into account complex dependencies between pairs of words in the text to determine multi-word expressions, which, unlike the original method, allows finding key terms consisting of several words. Tests of the created modification of the hybrid method of searching for key terms showed the effectiveness of its use for searching for key terms in texts in comparison with existing analogues.Prombles in programming 2024; 1: 12-22 У даній статті розглядається питання автоматизованого пошуку ключових слів та термінів у текстових даних. Для підвищення ефективності засобів автоматизованого пошуку ключових слів у тексті за критеріями абсолютної точності та повноти за Жаккаром розроблено модифікацію одного з найсучасніших методів для пошуку ключових слів. Запропоновано модифікацію існуючого гібридного методу пошуку ключових слів, що враховує складні залежності між парами слів у тексті для визначення багатослівних виразів, що, на відміну від оригінального методу, дозволяє знаходити ключові терміни, які складаються з кількох слів. Здійснені випробування створеної модифікації гібридного методу пошуку ключових термінів показали ефективність її використання для пошуку ключових термінів у текстах у порівнянні з існуючими аналогами.Prombles in programming 2024; 1: 12-22 Інститут програмних систем НАН України 2024-04-01 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/602 10.15407/pp2024.01.012 PROBLEMS IN PROGRAMMING; No 1 (2024); 12-22 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2024); 12-22 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2024); 12-22 1727-4907 10.15407/pp2024.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/602/653 Copyright (c) 2024 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2024-04-27T16:05:58Z
collection OJS
language Ukrainian
topic keywords
key terms
text data processing
Python
Stanford classification
UDC 004.4
spellingShingle keywords
key terms
text data processing
Python
Stanford classification
UDC 004.4
Bukhalenkov, D.O.
Zabolotnia, T.M.
Modified method of searching keywords and keyterms in text data
topic_facet keywords
key terms
text data processing
Python
Stanford classification
UDC 004.4
ключові слова
ключові терміни
оброблення текстових даних
Python
стенфордська класифікація
УДК 004.4
format Article
author Bukhalenkov, D.O.
Zabolotnia, T.M.
author_facet Bukhalenkov, D.O.
Zabolotnia, T.M.
author_sort Bukhalenkov, D.O.
title Modified method of searching keywords and keyterms in text data
title_short Modified method of searching keywords and keyterms in text data
title_full Modified method of searching keywords and keyterms in text data
title_fullStr Modified method of searching keywords and keyterms in text data
title_full_unstemmed Modified method of searching keywords and keyterms in text data
title_sort modified method of searching keywords and keyterms in text data
title_alt Модифікований метод пошуку ключових слів та термінів у текстових даних
description This article discusses the issue of automated search for keywords and key terms in text data. To improve the efficiency of the tools of automated search for keywords in the text according to the criteria of absolute accuracy and Jaccard index, a modification of one of the most modern methods for searching for keywords has been developed. A modification of the existing hybrid keyword search method is proposed. It takes into account complex dependencies between pairs of words in the text to determine multi-word expressions, which, unlike the original method, allows finding key terms consisting of several words. Tests of the created modification of the hybrid method of searching for key terms showed the effectiveness of its use for searching for key terms in texts in comparison with existing analogues.Prombles in programming 2024; 1: 12-22
publisher Інститут програмних систем НАН України
publishDate 2024
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/602
work_keys_str_mv AT bukhalenkovdo modifiedmethodofsearchingkeywordsandkeytermsintextdata
AT zabolotniatm modifiedmethodofsearchingkeywordsandkeytermsintextdata
AT bukhalenkovdo modifíkovanijmetodpošukuklûčovihslívtatermínívutekstovihdanih
AT zabolotniatm modifíkovanijmetodpošukuklûčovihslívtatermínívutekstovihdanih
first_indexed 2024-09-16T04:08:51Z
last_indexed 2024-09-16T04:08:51Z
_version_ 1818568370916687872
fulltext Експертні та інтелектуальні інформаційні системи 12 УДК 004.4 http://doi.org/10.15407/pp2024.01.12 Д.О. Бухаленков, Т.М. Заболотня МОДИФІКОВАНИЙ МЕТОД ПОШУКУ КЛЮЧОВИХ СЛІВ ТА ТЕРМІНІВ У ТЕКСТОВИХ ДАНИХ У даній статті розглядається питання автоматизованого пошуку ключових слів та термінів у текстових даних. Для підвищення ефективності засобів автоматизованого пошуку ключових слів у тексті за крите- ріями абсолютної точності та повноти за Жаккаром розроблено модифікацію одного з найсучасніших методів для пошуку ключових слів. Запропоновано модифікацію існуючого гібридного методу пошуку ключових слів, що враховує складні залежності між парами слів у тексті для визначення багатослівних виразів, що, на відміну від оригінального методу, дозволяє знаходити ключові терміни, які складаються з кількох слів. Здійснені випробування створеної модифікації гібридного методу пошуку ключових тер- мінів показали ефективність її використання для пошуку ключових термінів у текстах у порівнянні з існуючими аналогами. Ключові слова: ключові слова, ключові терміни, оброблення текстових даних, Python, стенфордська кла- сифікація. Вступ Основний зміст будь-якого тексту можна описати одним або кількома сло- вами з цього тексту, що відображають його суть. Такі слова називають ключо- вими словами. В більшості випадків кіль- кість таких слів становить близько десяти [1]. Іноді ключовими можуть вважати не тільки слова, а й цілі словосполучення і речення. Незважаючи на просте визначення поняття ключового слова, процес пошуку ключових слів є складним аналітичним завданням. Не існує ідеального способу визначення переліку ключових термінів для довільного тексту будь-якої тематики. Кожен текст має свою структуру, стиль викладення, стилістичні особливості на- писання [2]. Слід зазначити, що задача пошуку ключових слів виникає у багатьох сферах, пов’язаних з обробленням текстових да- них. Так інформація про ключові слова використовується у інформаційному тек- стовому пошуку, класифікації, кластери- зації даних. Водночас важливою вимогою до методів визначення ключових слів є можливість їх автоматизації, адже обсяги даних, які проходять через сучасні елект- ронні пристрої та системи, неможливо ефективно обробляти вручну. Упродовж багатьох років дослі- джень спеціалістами було запропоновано методи, різні за ефективністю та умовами застосування. Одні методи – добре нала- штовані на оброблення текстів вузької те- матики, зокрема, технічної літератури, інші – можуть бути методами ширшого застосування. Однак досі триває пошук шляхів покращення точності методів для пошуку ключових слів та підвищення сту- пеня їхньої універсальності щодо застосу- вання до різних типів текстів. Метою даної статті є підвищення ефективності засобів для автоматизова- ного пошуку ключових слів у тексті за кри- теріями абсолютної точності та повноти за Жаккаром шляхом модифікації одного з сучасних методів пошуку ключових слів та за допомогою використання сучасних лінгвістичних програмних пакетів. Існуючі методи Не існує ідеального “золотого пра- вила”, за яким можна було б визначити набір ключових слів для будь-якого тек- сту. Відомі методи можна умовно поді- лити на кілька основних груп: – Статистичні методи – найстарі- шими можна назвати методи, що ґрунту- ються на використанні статистичних да- них, отриманих під час аналізу тексту [3]. Одними із перших статистичних закономі- рностей, виявлених для природномовних текстових даних, можна вважати здобутки ©Д.О.Бухаленков, Т.М.Заболотня, 2024 ISSN 1727-4907. Проблеми програмування. 2024. №1 Експертні та інтелектуальні інформаційні системи 13 американського лінгвіста та економіста Джорджа Ципфа. Виведені ним закони про розподіл слів у текстах є основами бага- тьох відомих статистичних методів. Статистичні методи в основному аналізують частоту входжень слів у тек- сті, їхню довжину, відстань у тексті між ними. Приклади відомих статистичних метрик та методів – метрика TF-IDF, ме- тоди виявлення семантичного поля, ме- тод системного зважування слів за час- тотою та довжиною, метод k-factor, ме- тод C-value, ТЕРМС та інші. Основними перевагами статистич- них методів можна вважати їхню швид- кість та мовонезалежність, адже статис- тичні закономірності майже однаково про- слідковуються у більшості природних мов. Характерні недоліки таких мето- дів полягають у великому обсязі вербаль- ного шуму в отриманих результатах та не- достатній точності у застосуванні на тек- стах невеликих розмірів. – Словникові методи – методи, що використовують заздалегідь зібрані словникові дані, або тезауруси з деяких тематик [4]. На відміну від статистичних, такі методи здатні надавати більш точні результати з меншою кількістю вербаль- ного шуму. Однак для отримання точних резульатів треба мати дуже докладні теза- уруси з відповідної до тексту тематики. З цього випливає, що методи, побудовані на основі використання словників, складно застосовувати до текстів вузької або но- вої тематики. – Гібридні методи – сучасні роз- робки використовують поєднання особ- ливостей статистичних та словникових методів для найбільш ефективного по- шуку ключових слів [5]. Статистичні за- кономірності допомагають швидко знайти основний масив потенційних клю- чових слів, а моделі машинного навчання, натреновані на словникових даних, збіль- шують точність і відсіюють вербаль- ний шум, в результаті чого на виході отримується набір ключових слів. Серед популярних сучасних програмних інстру- ментів для оброблення природномовних текстових даних: Python NLTK, Stanford NLP, Keras, spaCy тощо. Обраний метод для модифікації Гібридний метод пошуку ключо- вих слів в англомовних текстах, що був запропонований українським фахівцем О.В. Яхимовичем [6], належить до остан- ньої з трьох вищезазначених груп мето- дів. Метод використовує інструменти су- часних програмних синтаксичних аналі- заторів для оброблення текстів і отри- мання необхідних даних для подальшого зважування слів-кандидатів у ключові слова. Наведемо основні етапи методу: 1. Синтаксичний аналіз тексту і отри- мання даних про зв’язки між па- рами слів і частини мови, до яких належать слова тексту. 2. Фільтрування пар слів, зв’язки між якими належать до переліку неін- формативних. 3. Заміна займенників у парах слів відповідними іменниками. 4. Відсіювання слів, які при синтак- сичному аналізі було зараховано до неінформативних частин мови. 5. Фільтрування стоп-слів. 6. Визначення кількості зв’язків для кожного слова з пари. 7. Прийняття перших n слів з найбі- льшою кількістю зв’язків як клю- чових (де n - бажана кількість шу- каних ключових слів). Для отримання пар слів використо- вується стенфордська класифікація [7] зв'язків між лексичними одиницями ре- чень тексту. Розробниками методу шля- хом численних випробувань було визна- чено 7 типів зв’язків, що не несуть суттє- вого змістовного навантаження і не відіг- рають важливої ролі в контексті пошуку ключових слів. Це зв’язки: CC, DET, EXPL, FIXED, PUNCT, REF, ROOT. Для фільтрації слів, що належать до неінформативних частин мови, автори гіб- ридного методу використовують класифі- кацію Пенна [8] і виділяють 21 тег з цієї класифікації: CC, CD, DT, EX, IN, LS, MD, PDT, POS, PRP, PRP$, RP, SYM, TO, UH, WDT, WP, WP$, WRB, -LRB-, -RRB-. Заміна займенників на відповідні іменники відбувається за допомогою ана- Експертні та інтелектуальні інформаційні системи 14 лізу кореференційних зв’язків між сло- вами в тексті. Розробники методу запевняють, що запропонований гібридний метод має приріст повноти у межах від 8,1% до 12,7% за метрикою Жаккара, та від 9,1% до 14,3% абсолютної точності пошуку ключових слів у порівнянні з існуючими аналогами. Отже, метод можна вважати одним із найбільш точних серед сучасних розробок, і його модифікація для отри- мання ще більш точних результатів вбача- ється перспективною. Гіпотеза №1 про підвищення точності “Гібридного методу” Головною особливістю оригіналь- ного методу можна вважати визначення кількості синтаксичних зв’язків між сло- вами і відсіювання пар слів із неінформа- тивними типами зв’язків та слів, що нале- жать до неінформативних частин мови. Таким чином, на якість результатів по- шуку ключових слів насамперед впливає вміст списків неінформативних типів зв’язків та частин мови, що були визна- чені авторами заздалегідь. Отже, модифі- кація цих списків потенційно може пок- ращити кількісні характеристики якості отримуваних результатів. Авторами даної статті було вирі- шено зробити наступні модифікації списків: – виключити зі списку неінформати- вних частин мови тег CD, або cardinal number (кардинальне число). Було вису- нуте припущення, що важливі для змісту ключові слова або фрази можуть містити конкретні числа, як-от у виразі “Order 767”. Якщо є якийсь загальновідомий історичний наказ під номером 767, внесення такого чи- сла до списку ключових слів покращить ре- зультати пошуку і ймовірність знахо- дження даного ресурсу, де описано цей на- каз. За оригінальним методом числівник 767 було б повністю вилучено зі списку по- тенційних ключових слів, що, можливо б, погіршило якість інформаційного пошуку; – вилучити зі списку неінформати- вних частин мови тег RP, або particle (ча- стка). В деяких специфічних поняттях чи термінах може міститися слово-частка. Наприклад, у реченні “Located right on the airfield, guests can watch other planes take off and land.” “off” є частиною “take off”, тобто злітати. Якщо відфільтрувати цю частку зі списку ключових слів, то пошу- ковий запит, що містить “take off”, не буде чітко відповідати набору ключових слів; – включити до списку неінформа- тивних типів зв’язків тип ccomp, або clausal complement (комплементна клау- зальна конструкція). Найчастіше такий зв’язок трапляється між дієсловом або прикметником і додатком. Зв’язок є досить специфічним і часто не несе достатнього інформаційного змісту, щоб додавати ваги словам-кандидатам у ключові слова. Були проведені випробування із запропонованими модифікаціями спис- ків. Результати тестування на чисельних текстах тез статей з наукових журналів показали, що списки неінформативних частин мов та типів зв’язків, виділені ав- торами оригінального методу, є ефектив- ними. Майже в усіх випадках результати не змінювалися, спостерігалися лише не- великі відхилення в той чи інший бік на одне слово. Середні значення абсолютної точності та повноти за Жаккаром вияви- лися майже однаковими (рис.1). Рис.1. Результати тестування методу з модифікованими “неінформативними” списками Експертні та інтелектуальні інформаційні системи 15 Отож, кількісні показники якості результатів роботи методу зі зміненими списками за абсолютною точністю знай- дених ключових слів та повнотою Жа- ккара були практично однакові з резуль- татами оригінального методу. Отже, пе- рша гіпотеза була спростована. Гіпотеза №2 про використання інформації про багатослівні вирази для пошуку ключових термінів У оригінального методу є суттєвий недолік – він дозволяє шукати лише од- нослівні ключові терміни. Під час вико- нання алгоритму, що реалізує метод, пари слів роз’єднуються в окремі слова, після чого для кожного слова окремо визнача- ється кількість зв’язків, отже, на виході можна отримати лише окремі ключові слова. Використання однослівних ключо- вих термінів сприяє більш загальному по- шуку, але недостатньо добре покриває специфічні і конкретні запити. Авторами цієї статті було вирішено модифікувати метод таким чином, щоб до- дати можливість пошуку ключових термі- нів, що складаються з кількох слів. Проаналізуємо, які типи зв’язків зустрічаються між словами багатослівних ключових термінів. Для отримання “ета- лонного” переліку ключових термінів у рамках даного дослідження було вирі- шено використовувати статті наукових журналів, де до кожної з них є наданий ав- торами набір ключових слів та виразів, який можна вважати довідковим для про- ведення порівнянь [9]. Для тексту анотації до статті [10] дослідимо зв’язки між словами ключо- вого терміна “ammonium perchlorate” (рис.2). Рис.2. Зв’язки між словами ключового терміна “ammonium perchlorate” для тек- сту анотації до статті [10] Аналізатор визначив, що такий ключовий термін можна відшукати в тек- сті за зв’язками типу compound. Згідно таблиці типів синтаксичних зв’язків Universal Dependencies (стенфордська класифікація) [11] тип зв’язку compound належить до категорії MWE (Multiword Expressions), тобто багатослівних вира- зів. Розглянемо, які типи синтаксичних зв’язків містить у собі категорія MWE. Fixed. Використовується для поз- начення спеціальних службових констру- кцій, фіксованих виразів, зворотів. Слова, що мають зв’язок fixed, не мають зв’язків інших типів з іншими словами. Приклади таких конструкцій в англійській мові: as well as, because of, rather than. На рис.3 на- ведено приклади речень, де визначено зв’язки типу fixed [12]. Рис. 3. Приклади речень зі зв’язком типу fixed Flat. Цей тип зв’язку використову- ється для екзоцентричних виразів, тобто таких, де немає головного слова. До таких належать імена і дати. На рис.4 наведено приклади визначення зв’язків для імен. Рис. 4. Приклади визначення зв’язку flat для імен Зв’язок flat також застосовується до виразів, де згадується титул або звання персони разом з ім’ям (рис.5). Рис. 5. Зв’язки flat для виразів з титулами або званнями Експертні та інтелектуальні інформаційні системи 16 Для складених числових виразів також застосовується зв’язок flat [13]. На рис.6 наведено приклад виразів з датами або складними числівниками, де визна- чено цей тип зв’язку. Рис. 6. Вирази з датами та складними чи- слівниками, де визначено тип зв’язку flat Compound. Цей тип зв’язку визна- чено у виразах ендоцентричного типу, де, на відміну від екзоцентричних, є головне слово. Такі вирази є сполученнями з кіль- кох частин мови: іменникові сполучення, дієслівні, прикметникові, їхні комбінації та іноді серійні дієслівні конструкції. Бі- льшою мірою виражені [14]: – складними іменниками. Це мо- жуть бути Іменник + Іменник (bus stop, fire-flies, football), Прикментик + Імен- ник (full moon, blackboard, software), Діє- слово + Іменник (breakfast, washing machine, swimming pool), Іменник + Діє- слово (sunrise, haircut) та інші сполучення (USB cell phone chargers); – серійними дієслівними конструк- ціями. Синтаксична конструкція, де пред- ставлена послідовність двох або більше дієслів, які функціонують як один преди- кат та описують одну подію. В сучасній англійській мові майже не зустрічаються, але збереглися деякі вирази: let's go eat, come live with me. – фразовими дієсловами. Комбіна- ція дієслова і прийменника, або дієслова і прислівника, або одночасно дієслова і прийменника з прислівником, яка є окре- мим членом речення і утворює окрему се- мантичну одиницю. Найчастіше склада- ються із власне смислового дієслова та одного або декількох прийменників (рі- дше прислівників): keep on, pass out, look up, give up, put off, come across. Декілька прикладів, наведених в довіднику Universal Dependencies, зобра- жено на рис.7. Рис. 7. Приклади виразів, де присутній зв’язок типу compound Із перелічених трьох типів зв’язків fixed становить найменший інтерес з то- чки зору вирішення задачі пошуку ключо- вих термінів. Fixed позначає спеціальні звороти і усталені сполучення слів, що утворилися історично або іншим шляхом, такі як instead of, rather than та інші. Вони слугують радше пов’язуючими функціо- нальними частинами речень, але смисло- вого навантаження самі собою не несуть. Таким чином, з огляду на вищеза- значене, для подальшого дослідження було обрано можливості використання знайдених зв’язків типу flat та compound для отримання списку ключових словос- получень із текстів. Було знайдено наступні вирази: ['Honolulu', 'Hawaii'], ['Harvard', 'Law', 'Review'], ['Columbia', 'University'], ['Harvard', 'Law', 'School'], ['community', 'organizer'], ['law', 'degree']. Знайдені сло- восполучення дійсно певною мірою відо- бражають зміст тексту, і теоретично під- ходять як ключові сліва. Очевидно, що вибір з тексту всіх виразів з типами зв’язків flat та compound без якої-небудь фільтрації не є повноцін- ним рішенням задачі пошуку ключових виразів. Як запевняють автори оригіналь- ного методу, його використання дозволяє досить точно знаходити окремі ключові слова [6]. Звідси можна використати ви- значений список окремих ключових слів для фільтрування отриманих багатослів- них виразів. Адже логічно припустити, що якщо текст містить деякі ключові сло- восполучення або терміни з кількох слів, Експертні та інтелектуальні інформаційні системи 17 окремі слова з них ймовірно будуть знай- дені алгоритмом оригінального методу. Таким чином, можна “відфільтру- вати” всі знайдені багатослівні вирази, отримані з пошуку в тексті зв’язків flat та compound, використовуючи отримані ра- ніше поодинокі ключові слова. Тобто, якщо в деякому знайденому з тексту ви- разі, що мав між словами зв’язки flat чи compound, міститься хоча б одне слово з набору ключових слів, такий вираз з вели- кою ймовірністю буде ключовим для да- ного тексту. Проведені випробування на текстах тез статей наукових журналів під- тверджують ефективність даного припу- щення за критеріями абсолютної точності та повноти пошуку ключових слів, про що йтиметься далі в цій статті. Модифікований метод пошуку ключових слів та виразів Із урахуванням вищенаведеного, пропонується модифікація оригінального методу з додатковими кроками для отри- мання списку ключових виразів та термі- нів до тексту. А саме: – на етапі номер 1) оригінального методу збирається інформація про всі зв’язки типу flat і compound, з чого отри- мується набір усіх багатослівних виразів з такими зв’язками в тексті; – після етапу номер 7) оригіналь- ного методу, враховуючи отримані ре- зультати, відбувається фільтрація отрима- них на етапі 1) багатослівних виразів на- ступним чином: якщо ключове слово міс- титься у виразі, він потрапляє до списку ключових, інакше – відсіюється; – в результаті отримується список ключових слів і список ключових виразів із двох або більше слів. Список ключових виразів можна буде використовувати у процесі індекса- ції ресурсів у пошукових системах, нада- ючи їм більший пріоритет збігу із пошу- ковим запитом користувача, адже клю- чові терміни точніше відображають зміст тексту, аніж поодинокі ключові слова. Отже, в загальному вигляді запро- понований авторами модифікований ме- тод є таким: 1. Синтаксичний аналіз тексту і отри- мання даних про зв’язки між па- рами слів і частини мови, до яких належать слова тексту. 2. Отримання з тексту набору всіх виразів з типами зв’язків flat та compound. 3. Фільтрування пар слів, зв’язки між якими належать до переліку неін- формативних. 4. Заміна займенників у парах слів відповідними іменниками. 5. Відсіювання слів, які під час син- таксичного аналізу було віднесено до неінформативних частин мови. 6. Фільтрування стоп-слів. 7. Визначення кількості зв’язків для кожного слова з пари. 8. Прийняття перших n слів з найбі- льшою кількістю зв’язків як клю- чові (де n - бажана кількість шука- них ключових слів). 9. Фільтрація отриманих багатос- лівних виразів за допомогою по- передньо отриманих ключових слів. На рис.8 наведено загальну схему запропонованого модифікованого ме- тоду. Вибір метрик для визначення кількісних характеристик ефективності модифікованого методу Враховуючи постановку задачі, а саме модифікацію методу з метою умож- ливлення отримання в результаті аналізу не тільки ключових слів, а й багатослів- них ключових термінів та виразів, що може давати точніші за існуючі аналоги результати, ніж, час виконання нового мо- дифікованого методу має не таке виріша- льне значення, як точність і якість отри- маних результатів. Отже, потрібно обрати метрики, що покажуть переваги викорис- тання модифікованого методу замість іс- нуючих аналогів саме за знайденими клю- човими словами та виразами. Складно правильно оцінити точ- ність знайдених ключових слів чи виразів для певного довільно взятого тексту, адже Експертні та інтелектуальні інформаційні системи 18 хоча у ключових слів є деякі визначені ха- рактеристики, це доволі суб’єктивна оці- нка. Тож різні спеціалісти можуть спере- чатися щодо правильності визначення того чи іншого слова як ключового. Тому для досягнення максимально можливої об’єктивності було вирішено використо- вувати для випробування тексти із напе- ред визначеним набором ключових слів. Серед таких текстів є наукові статті, до яких при публікації в журналі автор сам підбирає набір ключових слів чи понять. Для обґрунтування доцільності ви- користання гібридного методу для по- шуку ключових слів автори обрали дві ме- трики: абсолютну точність та повноту за Жаккаром. Коротко опишемо суть цих метрик. Абсолютна точність визначається як відношення кількості правильно знай- дених ключових слів за допомогою вико- ристання програмної реалізації методу до кількості ключових слів, визначених ав- тором тексту. Наприклад, якщо взяти множину еталонних ключових слів до тексту як A, а множину ключових слів, що було знай- дено програмою як B, тоді абсолютну то- чність 𝑎𝑎 пошуку ключових слів можна об- числити за формулою: 𝑎𝑎 = 𝑛𝑛(𝐴𝐴 ∩ 𝐵𝐵) 𝑛𝑛(𝐴𝐴) (1) де 𝑛𝑛(𝐴𝐴 ∩ 𝐵𝐵) – кількість правильно знайде- них ключових слів; 𝑛𝑛(𝐴𝐴) – кількість ета- лонних ключових слів. У свою чергу, повнота за Жакка- ром визначається як відношення кілько- сті правильно знайдених ключових слів до загальної кількості еталонних ключо- вих слів і знайдених ключових слів мінус кількість правильно знайдених ключових слів. Повнота за Жаккаром 𝐽𝐽 обчислю- ється за формулою: 𝐽𝐽 = 𝑛𝑛(𝐴𝐴 ∩ 𝐵𝐵) 𝑛𝑛(𝐴𝐴) + 𝑛𝑛(𝐵𝐵) − 𝑛𝑛(𝐴𝐴 ∩ 𝐵𝐵) = 𝑛𝑛(𝐴𝐴 ∩ 𝐵𝐵) 𝑛𝑛(𝐴𝐴 ∪ 𝐵𝐵) (2) де 𝑛𝑛(𝐵𝐵) – кількість програмно знайдених ключових слів; 𝑛𝑛(𝐴𝐴 ∪ 𝐵𝐵) – кількість еле- ментів об'єднання обох множин [16]. Ці дві метрики достатньо легко ви- користати для порівняння двох множин окремих слів, адже тоді можна точно ви- значити, чи входить слово до переліку ви- значених автором, чи ні. Але з виразами і Рис.8. Схема етапів модифікованого методу для пошуку ключових виразів та термінів Експертні та інтелектуальні інформаційні системи 19 ключовими термінами з кількох слів це складніше застосувати. Буде не зовсім справедливо порівнювати вирази один з одним, адже так втратиться велика кіль- кість правильно знайдених ключових ви- разів, які лише трохи відрізняються. На- приклад, авторами статті [17] було визна- чено ключовий термін “reynolds number test”, а автоматизований метод знайшов вираз “reynolds number”. Порівнюючи ви- рази за логікою “один до одного” резуль- тат буде визначено помилковим, незважа- ючи на збіг 2 з 3 слів, і однаковий сенс двох виразів. Звідси постає питання, як порівняти два вирази із деяким порогом допустимої різниці складу виразів. Є сфери, де науковці стикаються з подібною задачею оцінки точності збігу словесних виразів. До них можна віднести розроблення і тестування систем автома- тичного розпізнавання мовлення або сис- тем машинного перекладу. В обох випад- ках в результаті роботи систем на виході отримується текст або ж набір словесних виразів чи фраз, які треба порівняти з “еталонним” набором для оцінки якості роботи системи чи методу. Однією із найвідоміших метрик для оцінювання роботи систем розпізна- вання мовлення та машинного перекладу є Word Error Rate (WER), або ж Частота Помилкових Слів [18]. Метрика базується на понятті відстані Левенштейна, але пра- цює на рівні слів, а не символів. Визнача- ється як відношення кількості замін слів, видалення слів, або додавання слів до до- відкового варіанту для приведення його до вигляду отриманого автоматичною си- стемою, до кількості слів у довідковому значенні. Значення метрики WER може бути обчислене за наступною формулою: 𝑊𝑊𝑊𝑊𝑊𝑊 = 𝑆𝑆 + 𝐷𝐷 + 𝐼𝐼 𝑁𝑁 (3) де 𝑆𝑆 – кількість замін; 𝐷𝐷 – кількість вида- лень; 𝐼𝐼 – кількість вставлень; 𝑁𝑁 – кількість слів в “еталонному”, або довідковому ва- ріанті. Існує також і обернена до WER ме- трика – WAcc, або ж Word Accuracy, яка обчислюється як різниця одиниці і зна- чення WER. 𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊 = 1 −𝑊𝑊𝑊𝑊𝑊𝑊 (4) Фактично це та сама метрика, що і WER, але кількісно відображається не по- милка, а точність. Експериментальним шляхом було вирішено встановити поріг значення WAcc, за якого вирази будуть вважатися рівними, у 66,66%. Із зниженням цього порогу спостерігалося збільшення верба- льного шуму в результатах пошуку, а із збільшенням – втрачалося більше ключо- вих виразів, визначених авторами. Це означає, що за умови існування еталон- ного ключового виразу reynolds number test, знаходження алгоритмом виразу reynolds number буде вважатися успіш- ним. Таким чином, ми можемо використо- вувати модифіковані метрики абсолют- ної точності та повноти за Жаккаром для оцінювання результатів роботи моди- фікованого методу. Особливості програмної реалізації методу Запропонований модифікований метод було реалізовано у вигляді консо- льного додатку на Python з можливістю взаємодії за CLI. Для виконання основних операцій оброблення природномовних те- кстів було використано платформу Python NLTK, а також допоміжний лінгвістич- ний пакет AllenNLP [19]. Для обчислення метрики WER використано пакет JiWER [20]. Використовуючи Python NLTK для пошуку зв’язків між парами лем в тексті рекомендується розглядати кожне ре- чення окремо. Для цього необхідно роз- бити текст на речення, для чого викорис- товується функція sent_tokenize з модуля nltk.tokenize. Після того, як текст було розбито на речення, необхідно проаналізувати ко- жне і отримати список усіх зв’язків, або залежностей (dependency) між парами слів. Для цього застосовується модуль StanfordDependencyParser, а саме його метод raw_parse, який приймає на вхід ре- чення в строковому вигляді, і на вихід від- дає складну структуру-дерево з усіма зв’язками між парами слів. Експертні та інтелектуальні інформаційні системи 20 Для отримання більш точних ре- зультатів за алгоритмом необхідно приво- дити слова до основної форми перед ви- значенням кількості зв’язків. Це прибере похибку результатів. У випадку, якщо одна й та сама сутність або поняття ма- лися на увазі в різних частинах тексту, і вживалися в різних формах, вони будуть розцінені як різні слова при визначенні кі- лькості зв’язків і зважуванні. Це може значно знизити вагу поняття в кінцевому випадку. Для приведення слів до основної форми використовується модуль WordNetLemmatizer, що імпортується з nltk.stem, а саме його метод lemmatize, який, однак, потребує дані про частину мови. Для цього використовується метод pos_tag, що дозволяє при надаванні тек- сту отримати для кожного слова інформа- цію, який тег частини мови має кожне слово з цього тексту. Для фільтрації стоп-слів викорис- товується словник стоп-слів, що нада- ється модулем stopwords із набору nltk.corpus. Для запуску додатку необхідно за- дати такі параметри за допомогою рядка CLI: 1. Шлях до файлу з вхідним текстом. 2. Шлях до файлу з результатами, що буде створено. 3. Кількість бажаних окремих ключо- вих слів в результаті n. Необов’яз- ковий параметр. У разі відсутності параметру за ключові будуть узяті слова-кандидати, що лишилися пі- сля кроків фільтрування. 4. Файл із переліком еталонних клю- чових слів, якщо такі є. Необов’яз- ковий параметр. Використовується для перевірки точності роботи ме- тоду для тексту з наперед визначе- ними ключовими словами. Випробування розробленого модифікованого методу Програмну реалізацію розробле- ного модифікованого методу було проте- стовано на 50 довільних текстах тез до статей з наукових журналів [9]. Для порі- вняння було обрано існуючий сервіс для пошуку ключових слів MonkeyLearn [21], що є одним із найбільш популярних і ефективних. Розробники сервісу не роз- кривають, який саме метод пошуку клю- чових слів використовують, адже сервіс має багато платних функцій для аналізу контенту. Але згідно з інформацією про сервіс [22], використовується гібридний метод, що поєднує статистичні підходи та можливості машинного навчання. Результати випробування у ви- гляді діаграм порівнянь середніх значень для метрик абсолютної точності пошуку ключових слів та повноти за Жаккаром зображено на рис.9. Рис.9. Результати випробування власної модифікації та сервіса MonkeyLearn Середнє значення абсолютної точ- ності для власної розробки – 0,402, для сервісу MonkeyLearn – 0,266, отже, власна розробка збільшує абсолютну точність по- шуку ключових слів на 13,6%. Середнє значення повноти за Жаккаром для власної розробки – 0,088, для сервісу MonkeyLearn – 0,089, отже маємо зменшення повноти пошуку ключових слів за Жаккаром на 0,1%. Аналізуючи результати, можна стверджувати, що за невеликого змен- шення повноти пошуку, модифікований метод має суттєве підвищення абсолютної точності порівняно з аналогом. Експертні та інтелектуальні інформаційні системи 21 Висновки У даній статті обґрунтовано актуа- льність проблеми пошуку ключових слів в тексті. Коротко описано та проаналізо- вано існуючі типи методів пошуку ключо- вих слів, їхні переваги та недоліки. Проаналізовано та обґрунтовано вибір для подальшого дослідження гібри- дного методу пошуку ключових слів за авторством О.В. Яхимовича. Висвітлено недоліки цього методу, та важливість їх уникнення. Висунуто гіпотези щодо під- вищення ефективності методу та усу- нення недоліків. На основі гіпотези про викорис- тання даних щодо багатослівних виразів у тексті для пошуку ключових термінів із кількох слів побудовано модифікацію оригінального методу. Це дозволяє шу- кати не лише окремі ключові слова, а й ключові терміни, що складаються з кіль- кох слів. Для випробування розробленого методу реалізовано програмне забезпе- чення у вигляді додатку мовою Python із використанням сучасних лінгвістичних програминих пакетів. Протестовано про- грамну реалізацію модифікованого гібри- дного методу на текстах тез статей із нау- кових журналів, отримані результати по- рівняно з результатами існуючого попу- лярного сервісу MonkeyLearn. Запропонована модифікація ме- тоду пошуку ключових слів збільшує аб- солютну точність пошуку ключових слів у англомовних текстах із невеликим зме- ншенням повноти за Жаккаром. Автори статті вважають за доці- льне проведення подальших досліджень за такими напрямками: –збільшення кількості випробу- вань на текстах різних розмірів та тема- тик; – зменшення вербального шуму се- ред багатослівних ключових термінів, отриманих у результаті роботи методу; – оформлення розробленого про- грамного забезпечення у вигляді простої для використання бібліотеки. Література 1. Shibamouli Lahiri, Sagnik Ray Choudhury, Cornelia Caragea. Keyword and Keyphrase Extraction Using Centrality Measures on Collocation Networks, 2014. 2. H. M. Mahedi Hasan, Falguni Sanyal, Dipankar Chaki, Md. Haider Ali. An empir- ical study of important keyword extraction techniques from documents. 2017. In Pro- ceedings of the 2017 1st International Con- ference on Intelligent Systems and Infor- mation Management, 91–94. 3. Rafael Geraldeli Rossi, Ricardo Marcondes Marcacini, Solange Oliveira Rezende. Anal- ysis of Statistical Key-word Extraction Methods for Incremental Clustering. Pro- ceedings of the 10th of the Encontro Nacional de Inteligˆencia Artificial e Com- putacional (ENIAC), Fortaleza, Brazil, 2013, 1–12. 4. Takashi Yamauchi, Dongshik Kang, Hayao Miyagi. The Keyword Search Using The- saurus Concept, 2002 [Online] – Available from: https://koreascience.kr/arti- cle/CFKO200211921321260.pdf, last ac- cessed 2024/01/08. 5. K. S. Sampada, N Kavya. Machine Learning Methods for Keyword extraction and Index- ing, 2019. 6. Яхимович О.В., "Інформаційна техно- логія пошуку ключових слів на основі парсингу англомовних текстів", Вінниця, 2021. 7. Marie-Catherine de Marneffe, Christopher D. Manning (2008). Stanford typed depend- encies manual [Online] – Available from: https://downloads.cs.stanford.edu/nlp/soft- ware/dependencies_manual.pdf, last ac- cessed 2024/01/08. 8. Beatrice Santorini (1990). Part-of-Speech Tagging Guidelines for the Penn Treebank Project [Online] – Available from: https://www.cis.upenn.edu/~bies/manu- als/tagguide.pdf, last accessed 2024/01/08. 9. Journal of Aerospace Technology and Man- agement [Online] – Available from: https://jatm.com.br/jatm/issue/archive, last accessed 2024/01/08. 10. Rene Gonçalves, Koshun Iha, Francisco Machado, José Rocco. (2012). Ammonium Perchlorate and Ammonium Perchlorate- Hydroxyl Terminated Polybutadiene Simu- lated Combustion. Journal of Aerospace Technology and Management. 4. Експертні та інтелектуальні інформаційні системи 22 11. Universal Dependency Relations [Online] – Available from: https://universaldependen- cies.org/u/dep/, last accessed 2024/01/08. 12. Fixed dependency [Online] – Available from: https://universaldependen- cies.org/u/dep/fixed.html, last accessed 2024/01/08. 13. Flat dependency [Online] – Available from: https://universaldependen- cies.org/u/dep/flat.html, last accessed 2024/01/08. 14. Compound dependency [Online] – Availa- ble from: https://universaldependen- cies.org/u/dep/compound, last accessed 2024/01/08. 15. Steven Bird, Ewan Klein, Edward Loper. (2009). Natural Language Processing with Python. 16. NC Chung, B. Miasojedow, M. Startek, A. Gambin (2019). "Jaccard/Tanimoto similar- ity test and estimation methods for biologi- cal presence-absence data". BMC Bioinfor- matics. 17. Maurício Silva, Victor Gamarra, Koldaev Vitor. (2009). Control of Reynolds number in a high speed wind tunnel. Journal of Aer- ospace Technology and Management. 1. 18. Dietrich Klakow, Peters Jochen (2002). "Testing the correlation of word error rate and perplexity". Speech Communication. 38 (1–2), 19–28. 19. AllenNLP Library [Online] – Available from: https://allenai.org/allennlp/soft- ware/allennlp-library, last accessed 2024/01/08. 20. JiWER [Online] – Available from: https://jitsi.github.io/jiwer/, last accessed 2024/01/08. 21. Keyword Extractor – MonkeyLearn [Online] – Available from: https://mon- keylearn.com/keyword-extractor-online/, last accessed 2024/01/08. 22. Keyword Extraction: A Guide to Finding Keywords in Text – MonkeyLearn [Online] – Available from: https://mon- keylearn.com/keyword-extraction/, last ac- cessed 2024/01/08. Одержано: 23.02.2024 Про авторів: Бухаленков Дмитро Олександрович, магістрант НТУУ "КПІ імені Ігоря Сікорського", https://orcid.org/0009-0001-0224-8873 E-mail: 3a43mka@gmail.com Заболотня Тетяна Миколаївна Кандидат технічних наук Кафедра програмного забезпечення комп’ютерних систем Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» Кількість статей в загальнодержавних базах даних: 27 Кількість статей в міжнародних базах даних: 2 H-index за Scopus: 2 ResearchGate: - ID Scopus: 6507406568 ResearcherID: J-2245-2017 Місце роботи авторів: Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Берестейський проспект, 37, м. Київ, Україна, індекс 03056 E-mail: zabolotnia@pzks.fpm.kpi.ua ORCID: 0000-0001-8570-7571 Контактний тел.: +38-066-369-93-63