Метод виявлення іменних груп в україномовних текстах

Здійснено порівняльний аналіз основних автоматизованих методів пошуку іменних груп та іменованих сутностей в англомовних та україномовних текстах; обґрунтовано доцільність використання моделі Universal Dependencies. Запропоновано комплексний метод на основі аналізу деревовидної синтаксичної структур...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Control systems & computers
Дата:2019
Автори: Погорілий, С.Д., Крамов, А.А.
Формат: Стаття
Мова:Українська
Опубліковано: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2019
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/181049
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Метод виявлення іменних груп в україномовних текстах / С.Д. Погорілий, А.А. Крамов // Control systems & computers. — 2019. — № 5. — С. 48-61. — Бібліогр.: 13 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859739048054095872
author Погорілий, С.Д.
Крамов, А.А.
author_facet Погорілий, С.Д.
Крамов, А.А.
citation_txt Метод виявлення іменних груп в україномовних текстах / С.Д. Погорілий, А.А. Крамов // Control systems & computers. — 2019. — № 5. — С. 48-61. — Бібліогр.: 13 назв. — укр.
collection DSpace DC
container_title Control systems & computers
description Здійснено порівняльний аналіз основних автоматизованих методів пошуку іменних груп та іменованих сутностей в англомовних та україномовних текстах; обґрунтовано доцільність використання моделі Universal Dependencies. Запропоновано комплексний метод на основі аналізу деревовидної синтаксичної структури речення та моделі виявлення іменованих сутностей. Здійснено експериментальну перевірку ефективності пропонованого методу та показано доцільність його використання для пошуку іменних груп в україномовних текстах. Цель статьи. Сравнительный анализ основных методов поиска именных групп в англоязычных и украиноязычных текстах. Создание комплексного метода определения именных групп в текстах соответственно с особенностями украинского языка. Осуществление экспериментальной проверки предложенного метода на корпусе украиноязычных статей. Результаты. Проанализированы методы поиска именных групп в тексте и обоснована целесообразность использования древовидной синтаксической структуры предложения. Недостатком многих методов поиска именных групп в тексте является зависимость эффективности их определения от свойств конкретного языка. Решено использовать модель Universal Dependencies в связи с унифицированным форматом обработки предложения для разных языков и наличием обученной модели построение древовидной структуры предложений украиноязычных текстов. Предложен комплексный метод определения именных групп в украиноязычных текстах с использованием средств Universal Dependencies и модели распознавания именованных сущностей. Осуществлена экспериментальная проверка эффективности предложенного метода на корпусе украиноязычных новостей и рассчитаны метрики точности метода. Purpose. Comparative analysis of the main methods of noun phrases detection in English and Ukrainian texts. The creation of a complex method for the detection of noun phrases in texts according to the features of the Ukrainian language. The performing of experimental examination of the suggested method on the corpus of Ukrainian articles. Results. The different methods of noun phrases detection have been analyzed. The expediency of the representation of sentences as a tree structure has been justified. The key disadvantage of many methods of noun phrase detection is the severe dependence of the effectiveness of their detection from the features of a certain language. Taking into account the unified format of sentence processing and the availability of the trained model for the building of sentence trees for Ukrainian texts, the Universal Dependency model has been chosen. The complex method of noun phrases detection in Ukrainian texts utilizing Universal Dependencies means and named-entity recognition model has been suggested. Experimental verification of the effectiveness of the suggested method on the corpus of Ukrainian news has been performed. Different metrics of method accuracy have been calculated.
first_indexed 2025-12-01T17:06:46Z
format Article
fulltext 48  iSSN 2706-8145, control systems and computers, 2019, № 3 doi https://doi.org/10.15407/usim.2019.05.048 удк 004.83 с.Д. поГорІЛий, д-р. техн. наук, професор, київський національний університет імені тараса шевченка, 03022, київ, просп. академіка глушкова, 4г, sdp@univ.net.ua а.а. Крамов, аспірант, київський національний університет імені тараса шевченка, 03022, київ, просп. академіка глушкова, 4г, artemkramovphd@knu.ua метоД виявЛення   ІменниХ Груп в уКраЇномовниХ теКстаХ Здійснено порівняльний аналіз основних автоматизованих методів пошуку іменних груп та іменованих сутностей в англомовних та україномовних текстах; обґрунтовано доцільність використання моделі Universal Dependencies. Запро- поновано комплексний метод на основі аналізу деревовидної синтаксичної структури речення та моделі виявлення іме- нованих сутностей. Здійснено експериментальну перевірку ефективності пропонованого методу та показано доціль- ність його використання для пошуку іменних груп в україномовних текстах. Ключові слова: обробка природної мови, іменна група, модель Universal Dependencies, модель NER, деревовидна струк- тура речення. вступ Постійна динаміка росту потужностей об- числювальних систем зумовлює використання методів машинного навчання для формалізації та розв’язання задач, подібних до дій людини . Задачі такого типу, що не можуть бути розв’язані за допомогою алгоритмічних дій, називають AI-повними . Зважаючи на постійне зростання обсягу текстової інформації, актуальною про- блемою є автоматизований аналіз природної мови для отримання структурованих даних: розпізнавання мовлення, машинний переклад, подолання лексичних неоднозначностей тощо . Зазначені задачі варто зараховувати до завдань комп’ютерної лінгвістики та методології ма- шинного навчання, а саме, до галузі обробки природної мови (Natural language processing — NLP) . Попри відмінність поставлених цілей, задачі NLP містять спільний початковий етап, а саме, попередню обробку вхідних даних (текстової інформації) . Попередня обробка тексту необ- хідна для формального представлення тексто- вої інформації у вигляді структурованих даних . Засоби формалізації тексту можуть відрізняти- ся відповідно до поставленої задачі, однак вар- то виокремити такі кроки попередньої оброб- ки тексту, які використовуються в більшості задач обробки природної мови:  токенізація (tokenization) — процес розбит- тя тексту на речення, а речення на окре- мі слова;  розмічання слів — зіставлення кожній ато- марній одиниці тексту (слову) частини мови, роду, відмінку;  лематизація — приведення слова до нор- мальної форми; наприклад, для української iSSN 2706-8145, control systems and computers, 2019, № 5 49 Метод виявлення іменних груп в україномовних текстах мови нормальною формою іменників є його представлення в називному відмінку, а дієслово трансформується до інфінітивної форми;  пошук сутностей (іменних груп) у тексті . На відміну від попередніх кроків, які здій- снюються через використання заздалегідь ви- значених правил і різнотипних словників, останній крок потребує детальнішого аналізу . Зважаючи на постійну зміну лексичного скла- ду мови, виявлення сутностей потребує спіль- ного використання методології машинного навчання та засобів комп’ютерної лінгвістики . Таким чином, пошук іменних груп у тексті варто зараховувати до класу AI-повних задач, що не можуть бути формалізовані визначе- ним алгоритмом . Отже, завдання пошуку іменних груп є важливим етапом у процесі розв’язання інших задач обробки природної мови . Підвищення точності детектування іменних груп у тексті уможливить покращення ефективності засто- сування методів розв’язання задач, залежних від цього пошуку . Наявність актуальних праць щодо визначення іменних груп у різних мо- вах свідчить про важливість дослідження ме- тодів розв’язання цієї задачі . Попри активний розвиток досліджень у напрямку обробки при- родних мов, дослідження пошуку іменних груп для україномовних текстів перебуває на початковому етапі . Мета роботи  аналіз наявних методів автоматизовано- го пошуку іменних груп в англомовних та ук- раїномовних текстах;  створення комплексного методу детектуван- ня іменних груп на основі дерева залежнос- тей речення та моделі розпізнавання іменова- них сутностей;  здійснення експериментальної перевірки зазначеного методу для корпусу текстів укра- їнської мови . Концепт іменної групи Термін «іменна група» запозичено з англо- мовного варіанту no un phrase . В українській мові цей термін трактується як іменникове (субстантивне) словосполучення — словоспо- лучення з іменником у ролі головного слова [1] . Однак особовий займенник (я, ти, він), який вказує на конкретний об’єкт, також може використовуватися як окрема сутність у реченні, тому надалі будемо розглядати термін «іменна група» як іменникове чи займенни- кове словосполучення . Розгляньмо детальніше варіанти форму- вання іменної групи в українській мові . Іменник у ролі головного слова може сполучатися:  з прикметником (червоний колір, смачний обід);  з іменником у непрямих відмінках з прий- менником або без нього (брат Петра, думки про майбутнє);  з займенником (ця думка, моя мрія);  з дієприкметником (зів’ялі квіти, пожовк- ла трава);  з прислівником (читання вголос);  з числівником (два кольори);  з інфінітивом (бажання вчитися) . Займенник у ролі головного слова може сполучатися:  з іменником (хтось зі звірів, когось із тварин);  з прикметником (щось цікаве);  з займенником (кожного з нас) . Попри наявність зазначених правил, про- цес пошуку іменних груп не є тривіальним для української мови . Для мов, у яких існує клас артиклів (наприклад, англійська), індикатором іменної групи є детермінатив — словофор- ма чи морфема, яка супроводжує іменну групу та узагальнює інформацію про групу (рід, число тощо) . Наприклад, у синтаксичних теоріях англійської мови вважається, що будь- яка іменна група містить детермінатив [2] . Українська мова належить до класу мов без артиклів . Наразі немає однозначної відповіді щодо наявності в цьому класі детермінативу в іменних групах . Питання пошуку іменної групи в ієрархічній структурі для мов без артиклів розглянуто в праці [3] на прикладі російської мови . У зазначеній праці розглядаються за- гальні принципи узгодження головного слова 50  iSSN 2706-8145, системи керування та комп'ютери, 2019, № 5 С.Д. Погорілий, А.А. Крамов іменної групи із залежними словами . Зокрема, доводиться ієрархічна побудова іменної групи в російській мові та аналізується узгодження слів іменної групи за числом і родом . Алгоритм детектування головного слова та дочірніх слів має враховувати принаймні наступні особливості текстової інформації:  відсутність артиклів в українській мові, які певною мірою ідентифікують іменні групи в романо-германських та деяких інших мовах;  неструктурована будова речення (можли- вий зворотній порядок слів);  наявність фразеологізмів, власних назв та слів іншомовного походження . порівняльний аналіз наявних  методів пошуку іменних груп Проблема пошуку іменних груп у тексті ак- тивно розв’язується для англомовних текстів, про що свідчить наявність праць [4–6] . Метод n-грам [4] полягає в пошуку всіх послідовнос- тей слів, які зустрічаються в тексті, довжи- ною k (1 ≤ k ≤ n); послідовність має перебува- ти в межах одного речення . Такий підхід ефек- тивно використовується для отримання ознак у задачі класифікації текстів, але з погляду семантичного значення групи метод n-грам має значний недолік: фіксований розмір по- слідовностей . Фіксований розмір групи приз- водить до втрати смислового навантаження набору слів, які входять до послідовності . Наприклад, іменна група «Міністерство осві- ти і науки України» може інтерпретуватися як послідовність «Міністерство освіти і», яка не відображає її семантичний зміст для ко- ристувача . Принцип роботи методу NPFST [5] полягає у використанні заздалегідь опи- саних шаблонів іменних груп . Шаблони пред- ставлено у вигляді рядків — регулярних ви- разів, у яких змінні елементи відобража- ють різні частини мови . Далі наведено при- клад такого регулярного виразу: (A|N) * N(PD * (A|N) * N)* (1) Після здійснення операцій токенізації та роз- мічення слів, кожному слову ставиться у від- повідність текстова мітка частини мови ( A, N, P тощо) . Кожне слово замінюється на потрібну мітку, тобто речення тексту трансформуються в рядки, що містять не слова, а мітки . Далі до отриманого тексту застосовується набір шаблонів . У разі детектування відповідності шаблону частині тексту виконується екстракція знайденої частини з подальшим зворотнім перетворенням від мітки до слова . Недоліком такого підходу є залежність набору шаблонів від особливостей мови та стилістики тексту . Крім того, цей метод не є масштабованим, адже постійне збільшення кількості шаблонів підвищує ймовірність колізії регулярних виразів, що призведе до некоректної роботи методу . У 2016 р . було запропоновано універсальний підхід (Universal Dependencies — UD) до пере- творення текстової інформації на деревовид- ну структуру [6] . Універсальність підходу пе- редбачає узагальнення різнотипних зв’язків між словами речення незалежно від мови. У праці запропоновано загальну схему впо- рядкування слів речення залежно від части- ни мови, якою вони є: іменник і прикметник, іменник і займенник тощо . Внаслідок такої уніфікації формату для різних мов та за до- помогою зусиль відкритої спільноти з різних країн вдалося створити набір моделей пере- творення вхідного тексту на деревовидну струк- туру . Поточна версія UD 2 .3 містить підтримку 76 мов . Для україномовних текстів також було підготовлено вхідні дані (розмічені тексти) і згодом було навчено відповідну модель [7] . Приклад такої структури наведено на рис . 1 . Іменник чи займенник, що є вершиною де- рева та містить дочірні вузли, можна тракту- вати як потенційне головне слово своєї гру- пи . Обхід дерева дає змогу поставити у від- повідність до кожного потенційно головного слова іменної групи набір залежних слів, при- чому таке зіставлення може відбуватися і для глибших рівнів у рекурсивний спосіб . Враховуючи належність української та ро- сійської мов до спільного класу мов без артик- лів та ієрархічну структуру іменних груп у ро- сійськомовних текстах, доцільним є здійснення пошуку іменних груп в україномовних текстах за допомогою аналізу моделі UD . iSSN 2706-8145, control systems and computers, 2019, № 5 51 Метод виявлення іменних груп в україномовних текстах методи розпізнавання   іменованих сутностей у тексті Окремо варто розглянути питання виокрем- лення іменованих сутностей у тексті . Принцип встановлення порядку та узгодження слів в іменованій сутності може трохи відрізня- тися від результату аналізу деревовидної структури речення . Така відмінність може виникнути через унікальну структуру імено- ваної сутності, що не підпорядковується за- гальним правилам побудови іменної групи, та некоректного перетворення вхідного тексту на деревовидну структуру . Розгляньмо для при- кладу наступне речення: «Група акціонерів ком- панії Facebook (1) наполягає на тому, що зас- новник соціальної мережі Марк Цукерберг (2) повинен втратити посаду голови правління (3)» . Напівжирним шрифтом виділено іменні групи речення, а в дужках вказано порядковий номер групи . Результат перетворення речення на де- ревовидну структуру зображено на рис . 2 . Групи (1) і (3) можуть бути ідентифіковані коректно, адже їхні елементи розташовано в рекурсивний спосіб відповідно до очікуваної структури цих груп . Розгляньмо групу (2) . Батьківським словом відповідної групи в дереві є слово «засновник», яке помічено як іменник, тобто воно може бути головним словом групи . Виконавши обхід дочірніх елементів у рекурсивний спосіб, отримуємо наступну послідовність: «засновник соціальної мережі Марк» . Порівнюючи з очікуваним ре- зультатом, відсутнє слово «Цукерберг» . Розглянувши детальніше відповідну область дерева, можна побачити, що слово «Цукер- берг» не потрапляє до списку дочірніх елемен- тів слова «засновник»; крім того, частина мо- ви цього слова ідентифікована як дієслово . Некоректне розмічення слів частинами мо- ви може траплятися через відсутність слова в морфологічному словнику; найчастіше така си- туація може виникати для власних назв . Фраг- менти тексту з власними назвами можливо знайти за допомогою додаткового використан- ня моделі виокремлення іменованих сутнос- тей (named-entity recognition — NER) . У на- веденому прикладі модель виокремлення іме- нованих сутностей може ідентифікувати пару слів «Марк Цукерберг» як особу . Подальше об’єднання множин «засновник соціальної мережі Марк» і «Марк Цукерберг», які мають спільні елементи (слово «Марк»), приводить до отримання очікуваного результату: «засновник соціальної мережі Марк Цукер- берг» . Отже, використання моделі виокремлен- Рис. 1. Приклад представлення тексту в деревовидній структурі 52  iSSN 2706-8145, системи керування та комп'ютери, 2019, № 5 С.Д. Погорілий, А.А. Крамов ня іменованих сутностей може використову- ватися як додатковий інструмент під час по- шуку іменних груп у тексті . Ефективність за- стосування цієї моделі залежить від типу об’єк- тів, які вона здатна розпізнавати, та предметної області аналізованого тексту . Розгляньмо наявні розв’язки та пропозиції щодо виокремлення іменованих сутностей в україномовних текстах . Відкритою спільно- тою фахівців lang-uk було здійснено навчан- ня моделі NER на проанотованому корпусі української мови [8] . Для пошуку іменова- них сутностей використовувалася відкрита бі- бліотека MITIE, яка має інтерфейси для ба- гатьох мов програмування: C/C++, Python, Ja- va . Тренування моделі здійснювалося на ви- бірці з 229 текстів для розпізнавання сутнос- тей, які належать до таких категорій: персона; локація; організація; різне . Також варто виокремити працю [9], в якій пропонується використовувати підхід пошуку сутностей за шаблонами . Для кожного типу сутності створюється окремий набір правил, який дає змогу однозначно ідентифікувати цей тип . Алгоритм виокремлення сутностей використовує GLR-парсер . У цій праці виок- ремлення іменованих сутностей здійснювало- ся для таких категорій: персона; організація; географічний об’єкт . Для порівняння ефективності розглянутих методів доцільно розглянути їхні значення F-міри [10] . F-міра (F) — це середнє гармо- Рис. 2. Деревовидна структура речення з некоректним упорядкуванням елементів . Чорною лінією обмежено область дерева з помилковим розташуванням вершин дерева iSSN 2706-8145, control systems and computers, 2019, № 5 53 Метод виявлення іменних груп в україномовних текстах нійне значення точності (Precision) і повно- ти (Recall): , (2) TPRecall TP FN = + , (3) 2 Precision× RecallF Precision+ Recall = , (4) де TP — кількість коректно розпізнаних сутностей; FP — кількість сутностей, які не було розпізнано; FN — кількість сутностей, які було ідентифіковано моделлю, але їх не- має в експертній розмітці тексту . Значення F-міри досягає значення 0,8 для моделі, створеної спільнотою lang-uk; 0,54 — для моделі на основні пошуку шаблонів . Попри зазначений показник F-міри, модель на основі пошуку шаблонів може використовуватися як додатковий інструмент пошуку іменованих сутностей у текстах певної предметної області . метод пошуку іменних   груп в україномовних текстах Пошук іменних груп в україномовних тек- стах пропонується здійснювати через аналіз деревовидної структури речення, отриманої за допомогою підходу Universal Dependencies (UD) [11] .Враховуючи, що головним словом імен- ної групи може бути іменник чи займенник, спочатку розгляньмо вершини з відповідни- ми частинами мови . Відповідно до категорій розмітки тексту частинами мови, до потен- ційних головних слів іменної групи варто за- рахувати слова з наступними категоріями:  NOUN (іменник);  PRON (займенник);  PROPN (власна назва);  X (інша частина мови) . З наведеного списку варто виокремити два пункти: PROPN і X . Власну назву (ім’я, прізви- ще, місто тощо) може бути розмічено як категорію PROPN, яка теж здатна формувати іменну групу або входити до складу наявної . Категорія X встановлюється для слова тоді, ко- ли модель не може передбачити частину мови . Однак слова з такою категорією можуть мати додатковий параметр Foreign = Yes, який вка- зує, що це слово має іншомовне походження . Проаналізувавши 2500 різних текстів, напи- саних українською мовою, було виявлено, що 99 відсотків слів іншомовного походження є сутностями, які вказують на певний об’єкт . Таким чином, доцільно додатково розглядати слова з тегом X і додатковим параметром Foreign =Yes як потенційне головне слово групи чи складову частину іншої групи . Визначивши тип вершин, які можуть розглядатися як головне слово іменної групи, визначмо правила приєднання дочірніх слів до іменної групи батьківського слова . Відповідно до деревовидної структури речення можна зробити припущення, що всі дочірні вершини головного слова логічно пов’язані з ним та входять до його іменної групи . Однак таке припущення є хибним, враховуючи наступні фактори:  похибка попередньої обробки тексту, а саме процесу токенізації та розмічення слів частинами мови;  похибка власне моделі побудови дерево- видної структури;  граматичні та пунктуаційні помилки у вхідному тексті . Отже, потрібно сформувати набір правил приєднання дочірніх вершин до батьківської іменної групи . Розгляньмо окремо принципи входження потенційних головних слів, діє- слів та інших дочірніх елементів до поточ- ної батьківської групи . Загальний підхід   приєднання дочірнього   елемента до іменної групи Враховуючи правила формування іменних груп (субстантивних словосполучень) в ук- раїнській мови, до складу іменної групи мо- жуть входити слова з наступними частинами мови (в дужках вказуються відповідні теги моделі UD): прикметник (ADJ), прислівник (ADV), прийменник (ADP, DET, AUX), чис- лівник (NUM), іменник (NOUN, PROPN, X), займенник (PRON), дієслово (VERB), знаки TPPrecision TP FP = + 54  iSSN 2706-8145, системи керування та комп'ютери, 2019, № 5 С.Д. Погорілий, А.А. Крамов пунктуації (PUNCT) . Слова, розмічені як інші частини мови, чи додаткові символи (знаки арифметичних операцій, сполучники тощо) не включаються до іменної групи . Крім того, всі елементи групи мають розташовуватися в тексті послідовно . Якщо між дочірнім еле- ментом, який може входити до групи, містить- ся заборонений елемент, входження зазначе- ного дочірнього елементу до групи відхиляється . Додатковою перевіркою умови приєднання дочірнього елемента до групи може бути уточнення його узгодженості з головним сло- вом за числом і родом . Наприклад, у такий спосіб узгоджено іменні групи «дві медалі» (за числом) і «кваліфікований фахівець» (за родом) . В українській мові є різнотипні варі- анти такого узгодження, пов’язані з грама- тичною складовою мови . Для прикладу розгляньмо словосполучення: «п’ятдесят один кілометр» . Головне слово «кі- лометр» має число однини, хоча в цьому кон- тексті складений числівник «п’ятдесят один» вказує на число множини . Використовується таке правило: після числівника «один», навіть якщо він входить до складених числівників, іменник вживається у формі однини . Застосу- вання набору правил узгодження головного сло- ва з підрядними дає змогу перевірити можли- вість їх приєднання до групи . Однак необхідною умовою використання згаданого набору правил є врахування всіх аспектів формування словосполучення, що для веб-ресурсів більшості сучасних ЗМІ є малоймовірним . Помилкові вирази «два з по- ловиною місяця», «заступниця Міністра куль- тури» можуть зустрічатися в новинних текстах чи розмовній мові . Таким чином, було виріше- но не здійснювати перевірку узгодження слів іменної групи за числом і родом для коректної обробки текстів з різною стилістикою . приєднання дієслова до іменної  групи Іменна група з іменником у ролі головного слова може містити дієслово у формі інфі- нітиву (наприклад, «бажання вчитися» чи «необхідність працювати») . Отже, необхідно уточнити, чи дочірнє слово (дієслово) має фор- му інфінітиву . Для цього можна скористатися додатковим параметром моделі UD Verb Form. Параметр Verb Form наявний лише для дієслів; у разі представлення дієслова у формі інфіні- тиву, атрибут набуває значення Inf. приєднання потенційного  головного слова до іменної групи Найскладнішим є рішення щодо входження дочірнього потенційного головного слова (ДПГС) до батьківської іменної групи, адже дочірній елемент може формувати окрему групу . Проаналізувавши деревовидні структури україномовних текстів та відповідні синтаксичні зв’язки моделі UD [12], було вирішено сформувати наступні критерії входження ДПГС до іменної групи:  наявність відповідного типу синтаксич- ного зв’язку;  відсутність заборонених елементів серед дочірніх вершин ДПГС . Розгляньмо типи синтаксичного зв’язку між ДПГС та батьківською вершиною, необхідні для входження ДПГС до іменної групи . До таких типів належать:  flat — встановлюється між словами, які входять до складу власних назв чи дат, тобто в тому разі, коли невідома внутрішня синтак- сична структура виразу;  nmod — зв’язок між елементами, один із яких модифікує інший; зазвичай, такий зв’язок передбачає представлення дочірнього елемента в родовому відмінку . Наведені типи зв’язку можна відслідкува- ти у реченні: «Під час позачергових парламент- ських виборів 2014 р . майбутній міністр Лі- лія Гриневич потрапила до парламенту» . На рис . 3 зображено деревовидну структуру цьо- го речення . У наведеному прикладі зв’язок flat дає змогу з’єднати власні іменники «Лілія» і «Гриневич» зі словом «міністр», у такий спосіб утворюючи іменну групу «майбутній міністр Лілія Гриневич» . Зв’язок nmod простежується iSSN 2706-8145, control systems and computers, 2019, № 5 55 Метод виявлення іменних груп в україномовних текстах в першій частині реченням між словами «час» і «виборів»,«виборів» і «року» . Поєднуючи всі відповідні слова у рекурсивний спосіб відповідно до їхнього порядку розташування в тексті, отримуємо іменну групу «під час позачергових парламентських виборів 2016 р .» . Варто згадати ще два типи зв’язків, які разом зі flat належать до типу MWE (multiword expres- sions — багатослівні вирази): fixed і compound . Зв’язок fixed вказує на стійке словосполучен- ня: «до того ж», «мало не сто років» тощо . Щодо compound, то цей тип зв’язку зазвичай використовується для композицій із числами . Вказані зв’язки можуть використовуватися для формування різних структурних одиниць в тексті, але застосування їх не є доцільним для відстеження зв’язків в іменних групах . обхід деревовидної структури  речення Розглянувши критерії відбору потенційного головного слова групи та правила приєднання дочірніх елементів до батьківської групи, варто звернути увагу на порядок обходу деревовидної структури . Зрозуміло, що обхід структури та- кого типу здійснюється у рекурсивний спосіб (використовується центрований порядок) . Необхідно зазначити, що елементи іменної групи розташовуються в тексті послідовно, тобто між цими елементами немає сторонніх слів, які не належать до групи . Таким чином, у разі перевірки входження дочірнього елемен- та до батьківської групи потрібно здійснювати додатковий аналіз того, чи входять до групи елементи, які розташовані в реченні між поточ- ним дочірнім елементом та батьківською вер- шиною . Для уникнення зазначених перевірок пропонується здійснювати обхід дочірніх вер- шин у наступний спосіб:  від найближчого дочірнього елемента, розташованого ліворуч від головного слова в тексті, до крайнього лівого дочірнього елемента;  від найближчого дочірнього елемента, роз- ташованого праворуч від головного слова в текс- ті, до крайнього правого дочірнього елемента . Рис. 3. Деревовидна структура речення, що містить іменні групи, утворені зв’язками flatі nmod 56  iSSN 2706-8145, системи керування та комп'ютери, 2019, № 5 С.Д. Погорілий, А.А. Крамов Такий порядок обходу дочірніх вершин уможливлює уникнення зазначеної додаткової перевірки, адже у разі виявлення несумісності дочірнього елемента з батьківською вершиною всі наступні вершини можуть розглядатися як об’єкти, незалежні від головного слова . Приклад порядку обходу деревовидної струк- тури речення зображено на рис . 4 . пошук іменованих сутностей у  тексті Додатково до пропонованого пошуку імен- них груп e тексті варто застосовувати ви- окремлення іменованих сутностей . Як було зазначено раніше, виокремлення іменованих сутностей дає змогу виявити сполучення слів, які неможливо ідентифікувати за допомогою аналізу отриманої деревовидної структури (через некоректне розмічення слів чи похибки роботи моделі синтаксичного розбору речення) . Пошук іменованих сутностей варто розпочинати із застосування газетирів — словників, які містять перелік географічних назв із додатковою інформацією про них . Із погляду автоматизованої обробки тексту під терміном «газетир» зазвичай розглядається список власних назв відповідно до предметної області дослідження . Результатом застосуван- ня газетирів до вхідного тексту є набір груп — іменованих сутностей, кожна з яких містить індекси-вказівники на певні слова тексту . Для формування газетиру було використано такі бази даних:  перелік найпопулярніших прізвищ та імен жінок і чоловіків (форма «прізвище, ім’я»);  перелік країн;  перелік міст . Після отримання результату застосування газетиру до тексту наступним кроком є запуск навченої моделі виокремлення іменованих сутностей . Як модель виокремлення імено- ваних сутностей було обрано NER-модель спільноти lang-uk; для застосування моделі було використано відкриту бібліотеку MITIE . Вихідним результатом роботи моделі є набір об’єктів, кожен із яких відповідає розпізнаній іменованій сутності та має наступні атрибути:  діапазон індексів слів, які входять до іменованої сутності;  категорія іменованої сутності;  оцінка «впевненості» моделі в тому, що по- точну іменовану сутність розпізнано коректно . Варто звернути увагу на останній атрибут . Відповідно до документації бібліотеки чим більшим є значення оцінки «впевненості», тим вищою є ймовірність коректного пе- редбачення . Зважаючи на відсутність ета- лонного порогового значення зазначеної оцінки, було вирішено встановити це зна- чення експериментальним шляхом за до- помогою розрахунку F-міри моделі на мно- жині україномовних текстів . Відповідно до розміченої тестової вибірки текстів отри- мане оптимальне порогове значення оцінки «впевненості» моделі дорівнює 0,8 . Вказане значення оцінки моделі було використано в подальших експериментальних перевірках цієї праці . експериментальна  перевірка методу Для здійснення експериментальної перевірки ефективності пропонованого методу було створено відповідне застосування; серверна мова програмування — Python 3 .6 . Відповідно до послідовних етапів здійснення перевірки роботи методу, застосування складається з трьох компонентів:  веб-сторінка розмітки іменних груп у тексті;  модуль пошуку іменних груп в україно- мовних текстах;  утиліта розрахунку оцінки ефективності роботи методу . Рис. 4. Приклад порядку обходу деревовидної структури речення iSSN 2706-8145, control systems and computers, 2019, № 5 57 Метод виявлення іменних груп в україномовних текстах веб-сторінка   розмітки іменних груп Оцінка F-міри методу можлива за наявності попередньо розміченого тексту — комбінацій слів і символів, які експерт позначив як іменні групи . Перевірочну вибірку текстів було сфор- мовано зі статей новинних порталів різної те- матики . Протягом дослідження було оброблено 100 різних документів; загальна кількість знайдених іменних груп — 1488 . Для фор- мування перевірочної вибірки було створено веб-сторінку, яка здійснює графічне відобра- ження результату токенізації вхідного україно- мовного тексту та дає змогу виконувати групу- вання слів та символів в іменні групи . Приклад обробки вхідного тексту за допомогою зазначе- ної веб-сторінки зображено на рис . 5 . Розпізнані об’єкти підкреслено лінією, імен- ні групи, позначені користувачем, додатково ви- ділено суцільної рамкою; індекс у правому верх- ньому куті об’єкта вказує на номер іменної гру- пи, до якої він входить . Принцип роботи веб- сторінки є таким: користувач копіює україно- мовний текст із зовнішнього джерела та встав- ляє його в текстове поле сторінки . Далі він натискає на кнопку «Recognize», після чого ви- конується токенізація вхідного тексту . Користу- вач вибирає об’єкти, які належать до спільної іменної групи, та формує відповідний кластер . Після закінчення процесу розмітки тексту ко- ристувач натискає кнопку «Saveclusters», збе- рігаючи створені кластери в базі даних . Для створення інтерактивного режиму формування іменних груп використано фреймворк Mari- onette.js . Збереження сформованих кластерів для подальшої оцінки ефективності роботи методу здійснено за допомогою реляційної бази даних MySQL . модуль пошуку іменних груп Модуль пошуку іменних груп в україномовних текстах реалізовано мовою програмування Python . Створений модуль розміщено на платформі The Python Package Index (PyPI), що Рис. 5. Веб-інтерфейс розмітки іменних груп у тексті 58  iSSN 2706-8145, системи керування та комп'ютери, 2019, № 5 С.Д. Погорілий, А.А. Крамов дає змогу виконувати імпорт модуля у сторон- ні проекти . Інструкції щодо встановлення та використання модуля доступні за посилан- ням [13] . Модуль містить сторонні пакети, які необхідно попередньо встановити для ко- ректної роботи модуля . Передбачено додатко- ве підключення моделі пошуку іменованих сутностей в україномовному тексті, а також використання сторонніх газетирів . результати оцінки ефективності  роботи методу Метрикою оцінки ефективності роботи ме- тоду було обрано три параметри: точність, повнота та F-міра . Здійснення розрахунку параметрів виконано для двох режимів: повної та часткової відповідностей . Для детектування повної відповідності необхідно, щоб прогнозована та розмічена іменні групи вповні збігалися (порівняння за символами та позиціями в тексті); іменні групи вважаються частково відповідними одна одній, якщо хоча б одна межа груп збігається (початкове чи кінцеве слово) . Крім того, було вирішено розрахувати метрику для трьох різних варіантів використання моделей:  з моделями аналізу деревовидної структури речення і пошуку іменованих сутностей (UD+NER);  з моделлю аналізу деревовидної структу- ри речення, але без використання моделі по- шуку іменованих сутностей (UD);  без використання моделей, зазначених в попередніх пунктах; у цьому разі окремими іменними групами вважаються іменники та особові займенники (–) . У табл . 1 наведено оцінки ефективності роботи різних варіантів використання моделей відповідно до розрахованої метрики для режиму повної відповідності . Значення всіх метрик варіантів UD і UD+NER відрізняються в межах 0,01, що вказує на низьку ефективність додаткового застосування поточної моделі по- шуку іменованих сутностей . Значення F1-міри для варіанту без використання моделей UD і NER є меншим від 0,1, тобто представлення іменних груп як окремих іменників і особових займенників є малоефективним та недоціль- ним у задачах, що потребують попереднього виявлення іменних груп у тексті . У табл . 2 наведено оцінки ефективності ро- боти розглянутих варіантів застосування мо- делей для режиму часткової відповідності . Аналогічно до режиму повної відповідності значення метрик варіантів моделей UD і UD+NER є рівними в межах похибки 0,001, що підкреслює низьку ефективність застосування моделі пошуку іменованих сутностей . Зна- чення F1-міри для обох варіантів дорівнює 0,902, що вказує на доцільність використання варіанта моделі UD для знаходження іменних груп в україномовних текстах . висновки Проаналізовано головні методи пошуку імен- них груп та іменованих сутностей для ан- гломовних та україномовних текстів . Ме- тоди аналізу англомовного тексту не можуть Метрика Варіанти моделей точність повнота F-міра UD+NER 0,552 0,573 0,559 UD 0,555 0,572 0,560 – 0,175 0,039 0,062 Табл. 1. Оцінка ефективності роботи методу з різними варіантами моделей для режиму повної відповідності Табл. 2. Оцінка ефективності роботи методу з різними варіантами моделей для режиму часткової відповідності Метрика Варіанти моделей точність повнота F-міра UD+NER 0,973 0,844 0,902 UD 0,974 0,843 0 .902 – 0,948 0,201 0,320 iSSN 2706-8145, control systems and computers, 2019, № 5 59 Метод виявлення іменних груп в україномовних текстах бути використані для україномовних доку- ментів, адже їх створено з урахуванням особ- ливостей структури побудови речень лише в англомовних текстах . Для виявлення імено- ваних сутностей в україномовних текстах доцільно використовувати попередньо навче- ну модель відповідно до предметної області вхідних текстів; можливим є використання додаткових регулярних виразів для екстракції іменованих сутностей із фіксованою струк- турою . Проаналізовано результати застосу- вання технології Universal Dependencies для україномовних текстів з метою здійснення перетворення вхідної текстової інформації на деревовидну структуру . На основі аналізу деревовидної структури запропоновано метод пошуку іменованих груп в україномовних документах . Отримано експериментальні ре- зультати застосування пропонованого методу з різними варіаціями його використанням: окремо та разом із моделлю пошуку іменова- них сутностей у тексті . Розраховані метри- ки ефективності роботи методу вказують на доцільність його використання для пошуку іменованих груп в україномовних текстах . Для підвищення точності роботи методу можуть бути застосовані наступні підходи:  використання навченої моделі пошуку іменованих сутностей та набору газетирів відповідно до предметної області;  застосування набору регулярних виразів для виявлення іменних груп із фіксованою структурою;  використання сторонніх моделей токе- нізації тексту для зменшення похибки ви- явлення частин мови слів тексту . ЛІТЕРАТУРА 1 . Шкуратяна Н. Г. Сучасна українська літературна мова: Модульний курс / Н . Г . Шкуратяна, С . В . Шевчук . Київ: Арій, 2010 . 824 с . 2 . Boτkoviτ ∈ . Whatwillyouhave, DP or NP . Proceedingsof NELS .P . 101–114 . 3 . Лютикова Е.А. Согласование, признаки и структура именной группы в русском языке . Русскийязык в на- в на-в на- на-на- учном освещении . 2015 . № 2 (30) . С . 44–74 . 4 . Su Nam K., Baldwin T., Kan M. Evaluating N-gram based evaluation metrics for automatic keyphrase extraction . Proceedings of the 2017 ACM on Conference on Information and Knowledge Management . 2010 . P . 572–580 . 5 . Handler A., Denny M., Wallach H., O’Connor B. Bag of what? Simple noun phrase extraction for text analysis . Proceedings of the First Workshop on NLP and Computational Social Science . 2016 . P . 114–124 . 6 . Nivre J., de Marneffe M., Ginter F., Goldberg Y., Hajiτ J., Manning C., McDonald R., Petrov S., Pyysalo S., Silveira N., Tsarfaty R., Zeman D. Universal Dependencies v1: A Multilingual Treebank Collection . Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16) . P . 1659–1666 . 7 . UniversalDependencies/UD_Ukrainian-IU . URL: https://github .com/UniversalDependencies/UD_Ukrainian-IU (дата звернення: 18 .10 .2019) . 8 . Models: lang-uk . URL: http://lang .org .ua/en/models (дата звернення: 18 .10 .2019) . 9 . Глибовець А.М. Автоматизований пошук іменованих сутностей у нерозмічених текстах українською мовою . Штучний інтелект . №2 . С . 45–52 . 10 . Powers D. M. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation . Journal of Machine Learning Technologies . 2011 . Vol . 2, No 1 . P . 37–63 . 11 . Universal Dependencies . URL: https://universaldependencies .org/guidelines .html (дата звернення: 18 .10 .2019) . 12 . Лабораторія української . URL: https://mova .institute/%D0%B7%D0%BE%D0%BB%D0%BE%D1%82% D0%B8%D0%B9_%D1%81%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82 (дата звернення: 18 .10 .2019) . 13 . Pythonpackagetoextract NP fromtheUkrainianlanguage . URL: https://github .com/artemkramov/np-extractor-ua (дата звернення: 18 .10 .2019) . Надійшла 29 .10 .2019 60  iSSN 2706-8145, системи керування та комп'ютери, 2019, № 5 С.Д. Погорілий, А.А. Крамов REFERENCES 1 . Shkuratjana, N. and Shevchuk, S. (2010) .Modern Ukrainian literary language . Modular course . [Suchasnaukrayins`ka literaturnamova . Modul`ny`jkurs] .Kyiv: Arij,p .824 . 2 . Boτkoviτ, ∈ . (2008) . Whatwillyouhave, DP or NP . In: Proceedingsof NELS . pp .101–114 . 3 . Lyutikova, E. (2015) . Coordination, features and structure of the nounphrasein Russian [Soglasovanie, priznaki I struktura imennoy gruppyi v russkom yazyike] . Russkiyyazyik v nauchnomosveschenii, 2(30), pp .44–74 . 4 . Su Nam, K., Baldwin, T. and Kan, M. (2010) . Evaluating N-gram based evaluation metrics for automatic keyphrase ex- traction . In: Proceedings of the 23rd international conference on computational linguistics . Association for Computational Linguistics, pp .572–580 . 5 . Handler, A., Denny, M., Wallach, H. and O’Connor, B. (2016) . Bag of what? Simple noun phrase extraction for text analysis . In: Proceedings of the First Workshop on NLP and Computational Social Science . pp .114–124 . 6 . Nivre, J., de Marneffe, M., Ginter, F., Goldberg, Y., Hajiτ, J., Manning, C., McDonald, R., Petrov, S., Pyysalo, S., Silveira, N., Tsarfaty, R. and Zeman, D . (2016) . Universal Dependencies v1: A Multilingual Treebank Collection . In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16) . [online] European Language Resources Association (ELRA), pp .1659–1666 . Available at: https://www .aclweb .org/anthology/L16-1262 .pdf [Accessed 18 Oct . 2019] . 7 . GitHub. (2019) . UniversalDependencies/UD_Ukrainian-IU . [online] Available at: https://github .com/ UniversalDependencies/UD_Ukrainian-IU [Accessed 18 Oct . 2019] . 8 . Lang .org .ua . (2019) . Models: lang-uk . [online] Availableat: http://lang .org .ua/en/models [Accessed 18 Oct . 2019] . 9 . Glybovets, A. (2017) . AutomatedsearchofnamedentitiesinunmarkedUkrainiantexts . [Avtomaty`zovany`jposhukimenov any`xsutnostej u nerozmicheny`xtekstaxukrayins`koyumovoyu] .Shtuchny`jintelekt, 2(76), pp .45–52 . 10 . Powers, D. (2011) . Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correla- tion . Journal of Machine Learning Technologies, 2(1), pp .37–63 . 11 . Universaldependencies .org . (2019) . UniversalDependencies . [online] Availableat: https://universaldependencies . org/guidelines .html [Accessed 18 Oct . 2019] . 12 . Laboratoriyaukrayins`koyi . (2019) . Zoloty`jstandart . [online] Availableat: https://mova .institute/%D0%B7%D0%B E%D0%BB%D0%BE%D1%82%D0%B8%D0%B9_%D1%81%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%8 0%D1%82 [Accessed 18 Oct . 2019] . 13 . GitHub . (2019) . Pythonpackagetoextract NP fromtheUkrainianlanguage . [online] Availableat: https://github .com/ artemkramov/np-extractor-ua [Accessed 18 Oct . 2019] . Received 29 .10 .2019 . S.D. Pogorilyy, Doctor of technical sciences, professor, Taras Shevchenko National University of Kyiv, 03022, Kyiv, Glushkov ave ., 4G, Ukraine, sdp@univ .net .ua A.A. Kramov, Postgraduate student, Taras Shevchenko National University of Kyiv, 03022, Kyiv, Glushkov ave ., 4G, Ukraine, artemkramovphd@knu .ua METHOD OF NOUN PHRASE DETECTION IN UKRAINIAN TEXTS Introduction. The area of natural language processing considers AI-complete tasks that cannot be solved using traditional algorithmic actions . Such tasks are commonly implemented with the usage of machine learning methodology and means of computer linguistics . One of the preprocessing tasks of a text is the search of noun phrases . The accuracy of this task has implications for the effectiveness of many other tasks in the area of natural language processing . In spite of the active development of research in the area of natural language processing, the investigation of the search for noun phrases within Ukrainian texts are still at an early stage . Purpose . Comparative analysis of the main methods of noun phrases detection in English and Ukrainian texts . The cre- ation of a complex method for the detection of noun phrases in texts according to the features of the Ukrainian language . The performing of experimental examination of the suggested method on the corpus of Ukrainian articles . Results . The different methods of noun phrases detection have been analyzed . The expediency of the representation of sentences as a tree structure has been justified . The key disadvantage of many methods of noun phrase detection is the severe iSSN 2706-8145, control systems and computers, 2019, № 5 61 Метод виявлення іменних груп в україномовних текстах dependence of the effectiveness of their detection from the features of a certain language . Taking into account the unified format of sentence processing and the availability of the trained model for the building of sentence trees for Ukrainian texts, the Universal Dependency model has been chosen . The complex method of noun phrases detection in Ukrainian texts uti- lizing Universal Dependencies means and named-entity recognition model has been suggested . Experimental verification of the effectiveness of the suggested method on the corpus of Ukrainian news has been performed . Different metrics of method accuracy have been calculated . Conclusions . The results obtained can indicate that the suggested method can be used to find noun phrases in Ukrainian texts . An accuracy increase of the method can be made with the usage of appropriate named-entity recognition models ac- cording to a subject area . Keywords: natural language processing, noun phrase, Universal Dependencies model, NER model, tree structure of a sentence. С.Д. Погорелый, д-р . техн . наук, профессор, Киевский национальный университет имени Тараса Шевченко, 03022, Киев, просп . Академика Глушкова, 4Г, sdp@univ .net .ua А.А. Крамов, аспирант, Киевский национальный университет имени Тараса Шевченко, 03022, Киев, просп . Академика Глушкова, 4Г, artemkramovphd@knu .ua МЕТОД ОПРЕДЕЛЕНИЯ ИМЕННЫХ ГРУПП В УКРАИНОЯЗЫЧНЫХ ТЕКСТАХ Введение . Отрасль обработки естественного языка рассматривает AI-полные задачи, которые не могут быть реше- ны с помощью алгоритмических действий . Задачи такого типа решаются с использованием методологии машин- ного обучения и методов компьютерной лингвистики . Одной из задач предварительной обработки текста является поиск именных групп; точность их определения существенно влияет на эффективность решения многих задач об- работки естественного языка . Несмотря на активное развитие исследований в направлении обработки естествен- ного языка, исследование поиска именных групп в украиноязычных текстах находится на начальном этапе . Цель статьи . Сравнительный анализ основных методов поиска именных групп в англоязычных и украино- язычных текстах . Создание комплексного метода определения именных групп в текстах соответственно с осо- бенностями украинского языка . Осуществление экспериментальной проверки предложенного метода на корпусе украиноязычных статей . Результаты. Проанализированы методы поиска именных групп в тексте и обоснована целесообразность ис- пользования древовидной синтаксической структуры предложения . Недостатком многих методов поиска имен- ных групп в тексте является зависимость эффективности их определения от свойств конкретного языка . Решено использовать модель Universal Dependencies в связи с унифицированным форматом обработки предложения для разных языков и наличием обученной модели построение древовидной структуры предложений украиноязычных текстов . Предложен комплексный метод определения именных групп в украиноязычных текстах с использова- нием средств Universal Dependencies и модели распознавания именованных сущностей . Осуществлена экспери- ментальная проверка эффективности предложенного метода на корпусе украиноязычных новостей и рассчитаны метрики точности метода . Выводы . Полученные результаты рассчитанных метрик точности предложенного метода могут свидетельство- вать о целесообразности применения метода для поиска именных групп в украиноязычных текстах . Улучшение точности метода возможно с помощью применения моделей и шаблонов распознавания именованных сущностей в соответствии с рассматриваемой предметной областью . Ключевые слова: обработка естественного языка, именная группа, модель Universal Dependencies, модель NER, древо- видная структура предложения.
id nasplib_isofts_kiev_ua-123456789-181049
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 2706-8145
language Ukrainian
last_indexed 2025-12-01T17:06:46Z
publishDate 2019
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
record_format dspace
spelling Погорілий, С.Д.
Крамов, А.А.
2021-10-30T18:04:10Z
2021-10-30T18:04:10Z
2019
Метод виявлення іменних груп в україномовних текстах / С.Д. Погорілий, А.А. Крамов // Control systems & computers. — 2019. — № 5. — С. 48-61. — Бібліогр.: 13 назв. — укр.
2706-8145
DOI: https://doi.org/10.15407/usim.2019.05.048
https://nasplib.isofts.kiev.ua/handle/123456789/181049
004.83
Здійснено порівняльний аналіз основних автоматизованих методів пошуку іменних груп та іменованих сутностей в англомовних та україномовних текстах; обґрунтовано доцільність використання моделі Universal Dependencies. Запропоновано комплексний метод на основі аналізу деревовидної синтаксичної структури речення та моделі виявлення іменованих сутностей. Здійснено експериментальну перевірку ефективності пропонованого методу та показано доцільність його використання для пошуку іменних груп в україномовних текстах.
Цель статьи. Сравнительный анализ основных методов поиска именных групп в англоязычных и украиноязычных текстах. Создание комплексного метода определения именных групп в текстах соответственно с особенностями украинского языка. Осуществление экспериментальной проверки предложенного метода на корпусе украиноязычных статей. Результаты. Проанализированы методы поиска именных групп в тексте и обоснована целесообразность использования древовидной синтаксической структуры предложения. Недостатком многих методов поиска именных групп в тексте является зависимость эффективности их определения от свойств конкретного языка. Решено использовать модель Universal Dependencies в связи с унифицированным форматом обработки предложения для разных языков и наличием обученной модели построение древовидной структуры предложений украиноязычных текстов. Предложен комплексный метод определения именных групп в украиноязычных текстах с использованием средств Universal Dependencies и модели распознавания именованных сущностей. Осуществлена экспериментальная проверка эффективности предложенного метода на корпусе украиноязычных новостей и рассчитаны метрики точности метода.
Purpose. Comparative analysis of the main methods of noun phrases detection in English and Ukrainian texts. The creation of a complex method for the detection of noun phrases in texts according to the features of the Ukrainian language. The performing of experimental examination of the suggested method on the corpus of Ukrainian articles. Results. The different methods of noun phrases detection have been analyzed. The expediency of the representation of sentences as a tree structure has been justified. The key disadvantage of many methods of noun phrase detection is the severe dependence of the effectiveness of their detection from the features of a certain language. Taking into account the unified format of sentence processing and the availability of the trained model for the building of sentence trees for Ukrainian texts, the Universal Dependency model has been chosen. The complex method of noun phrases detection in Ukrainian texts utilizing Universal Dependencies means and named-entity recognition model has been suggested. Experimental verification of the effectiveness of the suggested method on the corpus of Ukrainian news has been performed. Different metrics of method accuracy have been calculated.
uk
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
Control systems & computers
Intellectual Informational Technologies and Systems
Метод виявлення іменних груп в україномовних текстах
Метод определения именных групп в украиноязычных текстах
Method of Noun Phrase Detection in Ukrainian Texts
Article
published earlier
spellingShingle Метод виявлення іменних груп в україномовних текстах
Погорілий, С.Д.
Крамов, А.А.
Intellectual Informational Technologies and Systems
title Метод виявлення іменних груп в україномовних текстах
title_alt Метод определения именных групп в украиноязычных текстах
Method of Noun Phrase Detection in Ukrainian Texts
title_full Метод виявлення іменних груп в україномовних текстах
title_fullStr Метод виявлення іменних груп в україномовних текстах
title_full_unstemmed Метод виявлення іменних груп в україномовних текстах
title_short Метод виявлення іменних груп в україномовних текстах
title_sort метод виявлення іменних груп в україномовних текстах
topic Intellectual Informational Technologies and Systems
topic_facet Intellectual Informational Technologies and Systems
url https://nasplib.isofts.kiev.ua/handle/123456789/181049
work_keys_str_mv AT pogoríliisd metodviâvlennâímennihgrupvukraínomovnihtekstah
AT kramovaa metodviâvlennâímennihgrupvukraínomovnihtekstah
AT pogoríliisd metodopredeleniâimennyhgruppvukrainoâzyčnyhtekstah
AT kramovaa metodopredeleniâimennyhgruppvukrainoâzyčnyhtekstah
AT pogoríliisd methodofnounphrasedetectioninukrainiantexts
AT kramovaa methodofnounphrasedetectioninukrainiantexts