Quasi-inflection-based part-of-speech tagging method

The quality of the recommendations provided as a result of the application of decision support systems largely depends on the quality and reliability of the knowledge provided by experts. Solving the problem of automatic detection of ambiguity in the textual formulations of experts is a significant...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2020
Автори: Dubok, M. Y., Tsyganok, V. V.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут проблем реєстрації інформації НАН України 2020
Теми:
Онлайн доступ:http://drsp.ipri.kiev.ua/article/view/219002
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Data Recording, Storage & Processing

Репозитарії

Data Recording, Storage & Processing
id drspiprikievua-article-219002
record_format ojs
spelling drspiprikievua-article-2190022020-12-23T10:30:25Z Quasi-inflection-based part-of-speech tagging method Метод частиномовної розмітки на основі квазіфлексій Dubok, M. Y. Tsyganok, V. V. підтримка прийняття рішень частиномовна розмітка квазіфлексія неоднозначність decision-making support part-of-speech tagging quasi-inflection ambiguity The quality of the recommendations provided as a result of the application of decision support systems largely depends on the quality and reliability of the knowledge provided by experts. Solving the problem of automatic detection of ambiguity in the textual formulations of experts is a significant step towards increasing the reliability of knowledge and the adequacy of the models on the basis of which decision support is provided. Most approaches to automatic ambiguity detection rely on the use of part-of-speech tagging as the first step in detecting ambiguity. The article proposes a method of automatic part-of-speech tagging based on quasi-inflections (variable word components), the accuracy of which is commensurate with the existing implementations of the rule-based approach. The advantages of the rule-based approach include a significant reduction in the required amount of information, simple implementation of analyzer improvements and a high degree of portability of components (rules, dictionaries, quasi-inflections, exceptions).Comparing the reported accuracy of part-of-speech analyzers, Markov models and the transformation approach achieve an accuracy of up to 97 %. At the same time, the accuracy of the rule-based approach varies from 97 % to 100 %.The novelty of the proposed method is the use of quasi-inflections as the main and only method for determining the part of speech and grammatical characteristics of the word. To check the effectiveness of the proposed method, testing was conducted on the basis of textual formulations in 7 files with the goal hierarchy structures, a total of 4378 words. The proposed method showed an accuracy of 98,70 % in the part-of-speech tagging of textual formulations in the test corpus. Demonstrated high accuracy of the method can be achieved with strict following of the described method of compiling dictionaries of rules and quasi-inflections. Refs: 23 titles. Якість рекомендацій, що надаються як результат застосування систем підтримки прийняття рішень, значною мірою залежить від якос-ті та достовірності знань, наданих експертами. Вирішення задачі автоматичного визначення неоднозначності у текстових формулюваннях експертів є беззаперечним кроком до підвищення достовірності знань і адекватності моделей, на основі яких здійснюється під-тримка прийняття рішень. Більшість підходів до автоматичного визначення неоднозначності спираються на використання частиномовної розмітки, як першого етапу аналізу при визначенні неоднозначності. Запропоновано метод автоматичної частиномовної розмітки на основі квазіфлексій (змінюваних складових слова), точність якого є співмірною із наявними реалізаціями підходу на основі правил. До переваг підходу на основі правил відносяться: значне зменшення необхідного обсягу інформації, нескладне впровадження вдосконалень аналізатора та висока ступінь портативності компонентів (правил, лексики, квазіфлексій, винятків). Інститут проблем реєстрації інформації НАН України 2020-10-27 Article Article application/pdf http://drsp.ipri.kiev.ua/article/view/219002 10.35681/1560-9189.2020.22.3.219002 Data Recording, Storage & Processing; Vol. 22 No. 3 (2020); 96-106 Регистрация, хранение и обработка данных; Том 22 № 3 (2020); 96-106 Реєстрація, зберігання і обробка даних; Том 22 № 3 (2020); 96-106 1560-9189 uk http://drsp.ipri.kiev.ua/article/view/219002/220138 Авторське право (c) 2021 Реєстрація, зберігання і обробка даних
institution Data Recording, Storage & Processing
collection OJS
language Ukrainian
topic підтримка прийняття рішень
частиномовна розмітка
квазіфлексія
неоднозначність
decision-making support
part-of-speech tagging
quasi-inflection
ambiguity
spellingShingle підтримка прийняття рішень
частиномовна розмітка
квазіфлексія
неоднозначність
decision-making support
part-of-speech tagging
quasi-inflection
ambiguity
Dubok, M. Y.
Tsyganok, V. V.
Quasi-inflection-based part-of-speech tagging method
topic_facet підтримка прийняття рішень
частиномовна розмітка
квазіфлексія
неоднозначність
decision-making support
part-of-speech tagging
quasi-inflection
ambiguity
format Article
author Dubok, M. Y.
Tsyganok, V. V.
author_facet Dubok, M. Y.
Tsyganok, V. V.
author_sort Dubok, M. Y.
title Quasi-inflection-based part-of-speech tagging method
title_short Quasi-inflection-based part-of-speech tagging method
title_full Quasi-inflection-based part-of-speech tagging method
title_fullStr Quasi-inflection-based part-of-speech tagging method
title_full_unstemmed Quasi-inflection-based part-of-speech tagging method
title_sort quasi-inflection-based part-of-speech tagging method
title_alt Метод частиномовної розмітки на основі квазіфлексій
description The quality of the recommendations provided as a result of the application of decision support systems largely depends on the quality and reliability of the knowledge provided by experts. Solving the problem of automatic detection of ambiguity in the textual formulations of experts is a significant step towards increasing the reliability of knowledge and the adequacy of the models on the basis of which decision support is provided. Most approaches to automatic ambiguity detection rely on the use of part-of-speech tagging as the first step in detecting ambiguity. The article proposes a method of automatic part-of-speech tagging based on quasi-inflections (variable word components), the accuracy of which is commensurate with the existing implementations of the rule-based approach. The advantages of the rule-based approach include a significant reduction in the required amount of information, simple implementation of analyzer improvements and a high degree of portability of components (rules, dictionaries, quasi-inflections, exceptions).Comparing the reported accuracy of part-of-speech analyzers, Markov models and the transformation approach achieve an accuracy of up to 97 %. At the same time, the accuracy of the rule-based approach varies from 97 % to 100 %.The novelty of the proposed method is the use of quasi-inflections as the main and only method for determining the part of speech and grammatical characteristics of the word. To check the effectiveness of the proposed method, testing was conducted on the basis of textual formulations in 7 files with the goal hierarchy structures, a total of 4378 words. The proposed method showed an accuracy of 98,70 % in the part-of-speech tagging of textual formulations in the test corpus. Demonstrated high accuracy of the method can be achieved with strict following of the described method of compiling dictionaries of rules and quasi-inflections. Refs: 23 titles.
publisher Інститут проблем реєстрації інформації НАН України
publishDate 2020
url http://drsp.ipri.kiev.ua/article/view/219002
work_keys_str_mv AT dubokmy quasiinflectionbasedpartofspeechtaggingmethod
AT tsyganokvv quasiinflectionbasedpartofspeechtaggingmethod
AT dubokmy metodčastinomovnoírozmítkinaosnovíkvazífleksíj
AT tsyganokvv metodčastinomovnoírozmítkinaosnovíkvazífleksíj
first_indexed 2024-04-21T19:34:17Z
last_indexed 2024-04-21T19:34:17Z
_version_ 1796974111799377920