Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень

Запропоновано метод оцінювання когерентності текстів за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень. Виконано експериментальну перевірку ефективності методу на англомовному корпусі. Отримані результати розрахованих метрик пропонованого методу переви...

Full description

Saved in:
Bibliographic Details
Published in:Кибернетика и системный анализ
Date:2020
Main Authors: Погорілий, С.Д., Крамов, А.А.
Format: Article
Language:English
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2020
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/190513
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень / С.Д. Погорілий, А.А. Крамов // Кибернетика и системный анализ. — 2020. — Т. 56, № 6. — С. 38–45. — Бібліогр.: 18 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-190513
record_format dspace
spelling Погорілий, С.Д.
Крамов, А.А.
2023-06-11T17:31:07Z
2023-06-11T17:31:07Z
2020
Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень / С.Д. Погорілий, А.А. Крамов // Кибернетика и системный анализ. — 2020. — Т. 56, № 6. — С. 38–45. — Бібліогр.: 18 назв. — укр.
1019-5262
https://nasplib.isofts.kiev.ua/handle/123456789/190513
004.83
Запропоновано метод оцінювання когерентності текстів за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень. Виконано експериментальну перевірку ефективності методу на англомовному корпусі. Отримані результати розрахованих метрик пропонованого методу перевищують відповідні значення інших сучасних підходів. Метод може бути застосований до іншомовних текстів шляхом заміни лінгвістичних моделей відповідно до особливостей певної мови.
Предложен метод оценки когерентности текстов с помощью построения графа семантической и лексико-грамматической согласованности словосочетаний предложений. Осуществлена экспериментальная проверка эффективности метода на англоязычном корпусе. Полученные результаты рассчитанных метрик предложенного метода превышают соответствующие значения других современных подходов. Метод может быть применен к текстам других языков путем замены лингвистической модели в соответствии с особенностями конкретного языка.
The graph-based method of coherence evaluation of texts based on the analysis of semantic, grammatical, and lexical consistency of sentence phrases has been suggested. The experimental verification of the efficiency of the method has been performed on the English-language corpus. The metrics obtained can indicate that the suggested method outperforms other state-of-the-art approaches. The method can be applied to other languages by replacing the linguistic models according to the features of a certain language.
en
Інститут кібернетики ім. В.М. Глушкова НАН України
Кибернетика и системный анализ
Кібернетика
Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень
Оценка когерентности текста с помощью построения графа семантической и лексико-грамматической согласованности словосочетаний предложений
Assessment of text coherence by constructing the graph of semantic, lexical and grammatical consistency of phrases of sentences
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень
spellingShingle Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень
Погорілий, С.Д.
Крамов, А.А.
Кібернетика
title_short Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень
title_full Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень
title_fullStr Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень
title_full_unstemmed Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень
title_sort оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень
author Погорілий, С.Д.
Крамов, А.А.
author_facet Погорілий, С.Д.
Крамов, А.А.
topic Кібернетика
topic_facet Кібернетика
publishDate 2020
language English
container_title Кибернетика и системный анализ
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
format Article
title_alt Оценка когерентности текста с помощью построения графа семантической и лексико-грамматической согласованности словосочетаний предложений
Assessment of text coherence by constructing the graph of semantic, lexical and grammatical consistency of phrases of sentences
description Запропоновано метод оцінювання когерентності текстів за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень. Виконано експериментальну перевірку ефективності методу на англомовному корпусі. Отримані результати розрахованих метрик пропонованого методу перевищують відповідні значення інших сучасних підходів. Метод може бути застосований до іншомовних текстів шляхом заміни лінгвістичних моделей відповідно до особливостей певної мови. Предложен метод оценки когерентности текстов с помощью построения графа семантической и лексико-грамматической согласованности словосочетаний предложений. Осуществлена экспериментальная проверка эффективности метода на англоязычном корпусе. Полученные результаты рассчитанных метрик предложенного метода превышают соответствующие значения других современных подходов. Метод может быть применен к текстам других языков путем замены лингвистической модели в соответствии с особенностями конкретного языка. The graph-based method of coherence evaluation of texts based on the analysis of semantic, grammatical, and lexical consistency of sentence phrases has been suggested. The experimental verification of the efficiency of the method has been performed on the English-language corpus. The metrics obtained can indicate that the suggested method outperforms other state-of-the-art approaches. The method can be applied to other languages by replacing the linguistic models according to the features of a certain language.
issn 1019-5262
url https://nasplib.isofts.kiev.ua/handle/123456789/190513
citation_txt Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень / С.Д. Погорілий, А.А. Крамов // Кибернетика и системный анализ. — 2020. — Т. 56, № 6. — С. 38–45. — Бібліогр.: 18 назв. — укр.
work_keys_str_mv AT pogoríliisd ocínûvannâkogerentnostítekstuzadopomogoûpobudovigrafusemantičnoítaleksikogramatičnoíuzgodženostíslovospolučenʹrečenʹ
AT kramovaa ocínûvannâkogerentnostítekstuzadopomogoûpobudovigrafusemantičnoítaleksikogramatičnoíuzgodženostíslovospolučenʹrečenʹ
AT pogoríliisd ocenkakogerentnostitekstaspomoŝʹûpostroeniâgrafasemantičeskoiileksikogrammatičeskoisoglasovannostislovosočetaniipredloženii
AT kramovaa ocenkakogerentnostitekstaspomoŝʹûpostroeniâgrafasemantičeskoiileksikogrammatičeskoisoglasovannostislovosočetaniipredloženii
AT pogoríliisd assessmentoftextcoherencebyconstructingthegraphofsemanticlexicalandgrammaticalconsistencyofphrasesofsentences
AT kramovaa assessmentoftextcoherencebyconstructingthegraphofsemanticlexicalandgrammaticalconsistencyofphrasesofsentences
first_indexed 2025-11-25T22:15:31Z
last_indexed 2025-11-25T22:15:31Z
_version_ 1850561418456203264
fulltext ÓÄÊ 004.83 Ñ.Ä. ÏÎÃÎвËÈÉ, À.À. ÊÐÀÌΠÎÖ²ÍÞÂÀÍÍß ÊÎÃÅÐÅÍÒÍÎÑÒ² ÒÅÊÑÒÓ ÇÀ ÄÎÏÎÌÎÃÎÞ ÏÎÁÓÄÎÂÈ ÃÐÀÔÓ ÑÅÌÀÍÒÈ×Íί ÒÀ ËÅÊÑÈÊÎ-ÃÐÀÌÀÒÈ×Íί ÓÇÃÎÄÆÅÍÎÑÒ² ÑËÎÂÎÑÏÎËÓ×ÅÍÜ ÐÅ×ÅÍÜ Àíîòàö³ÿ. Çàïðîïîíîâàíî ìåòîä îö³íþâàííÿ êîãåðåíòíîñò³ òåêñò³â çà äîïî- ìîãîþ ïîáóäîâè ãðàôó ñåìàíòè÷íî¿ òà ëåêñèêî-ãðàìàòè÷íî¿ óçãîäæåíîñò³ ñëîâîñïîëó÷åíü ðå÷åíü. Âèêîíàíî åêñïåðèìåíòàëüíó ïåðåâ³ðêó åôåêòèâíîñò³ ìåòîäó íà àíãëîìîâíîìó êîðïóñ³. Îòðèìàí³ ðåçóëüòàòè ðîçðàõîâàíèõ ìåò- ðèê ïðîïîíîâàíîãî ìåòîäó ïåðåâèùóþòü â³äïîâ³äí³ çíà÷åííÿ ³íøèõ ñó÷àñ- íèõ ï³äõîä³â. Ìåòîä ìîæå áóòè çàñòîñîâàíèé äî ³íøîìîâíèõ òåêñò³â øëÿ- õîì çàì³íè ë³íãâ³ñòè÷íèõ ìîäåëåé â³äïîâ³äíî äî îñîáëèâîñòåé ïåâíî¿ ìîâè. Êëþ÷îâ³ ñëîâà: îáðîáêà ïðèðîäíî¿ ìîâè, îö³íþâàííÿ êîãåðåíòíîñò³ òåêñòó, äâî÷àñòêîâèé ãðàô ñëîâîñïîëó÷åíü, ìåòîä ðîçðàõóíêó êîãåðåíòíîñò³ òåêñò³â íà îñíîâ³ ãðàôó, ëåêñèêî-ãðàìàòè÷íà óçãîäæåí³ñòü ðå÷åíü. ÂÑÒÓÏ Îáðîáêà ïðèðîäíî¿ ìîâè (natural language processing, NLP) º îäíèì ³ç íàïðÿìê³â äîñë³äæåíü ó ãàëóç³ øòó÷íîãî ³íòåëåêòó. Ðîçâ’ÿçàííÿ á³ëüøîñò³ çàäà÷ ç îáðîáêè ïðèðîäíî¿ ìîâè ïîòðåáóº âèêîðèñòàííÿ ëþäñüêèõ ðåñóðñ³â (åêñïåðòíèõ çíàíü), òîáòî çàäà÷³ öüîãî òèïó íå ìîæíà ðîçâ’ÿçàòè çà äîïîìîãîþ âèçíà÷åíîãî àëãî- ðèòìó. Äî êëàñó òàêèõ çàäà÷ âàðòî â³äíåñòè ðîçï³çíàâàííÿ òà ñèíòåç ìîâëåííÿ, ñèíòàêñè÷íèé àíàë³ç òåêñòó, âèÿâëåííÿ ïëàã³àòó, îö³íþâàííÿ òîíàëüíîñò³ òåêñòó òîùî. Ïðè öüîìó ïîñòຠçàäà÷à ôîðìàë³çàö³¿ òåêñò³â ïðèðîäíî¿ ìîâè òà âèÿâ- ëåííÿ çàêîíîì³ðíîñòåé ì³æ ¿õí³ìè êîìïîíåíòàìè â³äïîâ³äíî äî î÷³êóâàíîãî âèõ³äíîãî ðåçóëüòàòó. Çâàæàþ÷è íà ïîñò³éíèé ïðèð³ñò ïîòóæíîñò³ îá÷èñëþâàëü- íèõ ðåñóðñ³â, äëÿ ðîçâ’ÿçàííÿ â³äïîâ³äíèõ çàäà÷ çàñòîñîâóþòü ð³çíîìàí³òí³ êîìá³íîâàí³ ìåòîäè ìàøèííîãî íàâ÷àííÿ òà êîìï’þòåðíî¿ ë³íãâ³ñòèêè [1]. Îòæå, ç’ÿâëÿºòüñÿ ìîæëèâ³ñòü âèêîíàòè íàâ÷àííÿ ìîäåë³ íà ïîïåðåäíüî ñôîðìî- âàíîìó êîðïóñ³ (ñóêóïíîñò³ òåêñòîâî¿ ³íôîðìàö³¿) äëÿ ïîäàëüøîãî ¿¿ âèêîðèñ- òàííÿ íà òåñòîâ³é âèá³ðö³. Îäíàê íåîäíîð³äí³ñòü òåêñòîâî¿ ³íôîðìàö³¿ (ð³çíà ñòðóêòóðà, äîâæèíà ðå÷åíü, ñìèñëîâà çàëåæí³ñòü íàñòóïíèõ ðå÷åíü â³ä ïîïå- ðåäí³õ) òà ð³çíîìàí³òí³ñòü ¿¿ âì³ñòó óñêëàäíþþòü ïðîöåñ ïðîºêòóâàííÿ òà ðîçðà- õóíîê ïàðàìåòð³â ìîäåëåé ìàøèííîãî íàâ÷àííÿ. Ó çâ’ÿçêó ç öèì ðîçâ’ÿçàííÿ çàäà÷ îáðîáêè ïðèðîäíî¿ ìîâè, ùî çä³éñíþþòü àíàë³ç ñåìàíòè÷íèõ òà ãðàìàòè÷- íèõ âëàñòèâîñòåé òåêñòó, ÿê ³ ðàí³øå, º àêòóàëüíèì. Äî çàäà÷ òàêîãî òèïó â³äíîñÿòü îö³íþâàííÿ êîãåðåíòíîñò³ òåêñòó. ³äïîâ³äíî äî îçíà÷åííÿ [2] ï³ä êîãåðåíòí³ñòþ òåêñòó ðîçóì³þòü âçàºìîçâ’ÿ- çîê éîãî êîìïîíåíò ó ãðàìàòè÷íèé òà ëåêñè÷íèé ñïîñîáè. Êîãåðåíòí³ñòü òåêñòó ïåðåäáà÷ຠïîñë³äîâíó ïåðåäà÷ó îñíîâíî¿ ³äå¿ ÷èòà÷ó â ìåæàõ öüîãî òåêñòó, ùî ðîáèòü éîãî çðîçóì³ë³øèì òà ïðîñò³øèì äëÿ ñïðèéíÿòòÿ. Öåé êîìóí³êàòèâíèé çâ’ÿçîê ì³æ àâòîðîì òà ÷èòà÷åì äîñÿãàºòüñÿ çà äîïîìîãîþ ñåìàíòè÷íî¿ ö³ë³ñíîñò³ òåêñòó. ²íøèì êðèòåð³ºì êîãåðåíòíîãî òåêñòó º íàÿâí³ñòü ñòðóêòóðíî¿ óçãîäæå- íîñò³ éîãî ñêëàäîâèõ (ðå÷åíü òà ñëîâîñïîëó÷åíü). Ïåðåâ³ðêó ñòóïåíÿ äîòðèìàííÿ çàçíà÷åíèõ êðèòåð³¿â ìîæíà çä³éñíèòè øëÿõîì îö³íþâàííÿ êîãåðåíòíîñò³ òåêñòó. Ìåòîäè îö³íþâàííÿ êîãåðåíòíîñò³ òåêñòó çàñòîñîâóþòüñÿ â ð³çíèõ ñôåðàõ, ïîâ’ÿ- çàíèõ ç îáðîáêîþ òåêñòîâî¿ ³íôîðìàö³¿: ãåíåðàö³ÿ òåêñòó [3], íàïèñàííÿ ³íñòðóê- ö³é, àíàë³ç ìåäè÷íèõ çàïèñ³â, àâòîìàòèçîâàíèé ïîøóê äàíèõ [4] òîùî. 38 ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 © Ñ.Ä. Ïîãîð³ëèé, À.À. Êðàìîâ, 2020 Ó ñòàòò³ çàïðîïîíîâàíî ìåòîä îö³íþâàííÿ êîãåðåíòíîñò³ òåêñò³â íà îñíîâ³ ãðàôó (graph-based method) çà äîïîìîãîþ àíàë³çó ñåìàíòè÷íîãî òà ëåêñèêî-ãðà- ìàòè÷íîãî çâ’ÿçêó ñëîâîñïîëó÷åíü òåêñòó; çä³éñíåíî åêñïåðèìåíòàëüíó ïå- ðåâ³ðêó åôåêòèâíîñò³ ïðîïîíîâàíîãî ìåòîäó íà êîðïóñ³ àíãëîìîâíèõ òåêñò³â ïîð³âíÿíî ç ³íøèìè ìåòîäàìè. ÑÓ×ÀÑͲ ÌÅÒÎÄÈ ÎÖ²ÍÞÂÀÍÍß ÊÎÃÅÐÅÍÒÍÎÑÒ² ÒÅÊÑҲ Íàÿâí³ ìåòîäè îö³íþâàííÿ êîãåðåíòíîñò³ òåêñò³â ´ðóíòóþòüñÿ íà ìåòîäîëî㳿 ìàøèííîãî íàâ÷àííÿ. Ó 2008 ðîö³ â ðîáîò³ [5] áóâ çàïðîïîíîâàíèé ìåòîä Entity Grid, çà ÿêèì áóëî çä³éñíåíî àíàë³ç çì³íè ðîë³ ñóòíîñò³ â ðå÷åíí³. Âèÿâ- ëåííÿ çàêîíîì³ðíîñòåé âèêîíóâàëîñÿ øëÿõîì ïîïåðåäíüîãî ôîðìóâàííÿ âåê- òîð³â îçíàê òà çàñòîñóâàííÿ ìåòîäó îïîðíèõ âåêòîð³â. ²äåÿ â³äñòåæåííÿ ðîë³ ñóòíîñò³ â ìåæàõ òåêñòó áóëà òàêîæ âèêîðèñòàíà â ðîáîò³ [6] ùîäî ìåòîäó Entity Graph. Ñóòü öüîãî ìåòîäó ïîëÿãຠó ôîðìóâàíí³ äâî÷àñòêîâîãî ãðàôó çâ’ÿçêó ðîëåé ñóòíîñòåé ³ ðå÷åíü òà ïîäàëüø³é ïîáóäîâ³ ïðîºêö³éíîãî ãðàôó òåêñòó. Ç ïîÿâîþ ìîäåëåé ñåìàíòè÷íîãî âåêòîðíîãî ïðåäñòàâëåííÿ ñë³â ç’ÿâè- ëèñÿ ìåòîäè íà îñíîâ³ àíàë³çó ñåìàíòè÷íî¿ ñõîæîñò³ åëåìåíò³â òåêñòó. Ó ðîáî- òàõ [7, 8] çàïðîïîíîâàíî ï³äõ³ä äî ïðîºêòóâàííÿ íåéðîííèõ ìåðåæ ç ðåêóðåíò- íèìè òà çãîðòêîâèìè øàðàìè â³äïîâ³äíî. Ïðè öüîìó âõ³äíèìè äàíèìè ìåðåæ³ º âåêòîðíå ïðåäñòàâëåííÿ ðå÷åíü òåêñòó ó ñåìàíòè÷íîìó ïðîñòîð³. Ñóòü ìåòî- äó Semantic Similarity Graph [9] ïîëÿãຠó ïîáóäîâ³ ãðàôó òåêñòó çà äîïîìî- ãîþ ðîçðàõóíêó ñåìàíòè÷íî¿ áëèçüêîñò³ ðå÷åíü. Ó ðîáîò³ [10] çä³éñíåíî ïîáó- äîâó îíòîëîã³÷íî¿ ñèñòåìè òà àíîòàö³¿ òåêñòó, à âèõ³äíèì ðåçóëüòàòîì º îö³íêà êîãåðåíòíîñò³ àíîòàö³¿, ðîçðàõîâàíà íà îñíîâ³ ðåçóëüòàò³â àíàë³çó åêñòðàãîâà- íèõ êîíöåïò³â. Ìåòîä, ùî ´ðóíòóºòüñÿ íà ïðîãíîçóâàíí³ ïîçèö³¿ ðå÷åííÿ â òåêñò³, áóâ çàïðîïîíîâàíèé ó ðîáîò³ [11]. Ïðîãíîçóâàííÿ âèêîíóºòüñÿ çà äî- ïîìîãîþ ïîïåðåäíüîãî âåêòîðíîãî ïðåäñòàâëåííÿ ðå÷åíü ç âèêîðèñòàííÿì ðå- êóðåíòíîãî øàðó íåéðîííî¿ ìåðåæ³ òà ç ïîäàëüøîþ êëàñèô³êàö³ºþ ¿õíüî¿ ïî- çèö³¿ (÷àñòèíè òåêñòó ç ì³ñöåçíàõîäæåííÿì ðå÷åííÿ). Êîðèñòóâà÷ó ïîòð³áíî ðîçóì³òè ïðè÷èíó ôîðìóâàííÿ âèõ³äíîãî ðåçóëüòàòó, ùîá îòðèìàòè ìîæëèâ³ñòü äëÿ àíàë³çó òà ïîäàëüøîãî âäîñêîíàëåííÿ òåêñòó. ³äïîâ³äíèìè ìåòîäàìè º Entity Graph, Semantic Similarity Graph òà ìåòîä, îïèñà- íèé ó ðîáîò³ [11], îñê³ëüêè âîíè íàäàþòü çìîãó âèêîíàòè â³çóàëüíå â³äîáðàæåííÿ çâ’ÿçêó ì³æ êîìïîíåíòàìè òåêñòó. Ç îãëÿäó íà ïåðåâàãè òà íåäîë³êè ðîçãëÿíóòèõ ìåòîä³â, ïðîïîíîâàíèé ìåòîä ïîâèíåí â³äïîâ³äàòè òàêèì êðèòåð³ÿì: � ïåðåäáà÷àòè ìîæëèâ³ñòü â³çóàë³çàö³¿ çâ’ÿçêó ì³æ êîìïîíåíòàìè òåêñòó; � çàáåçïå÷óâàòè îäíî÷àñíèé àíàë³ç ñåìàíòè÷íèõ òà ëåêñè÷íèõ âëàñòèâîñòåé òåêñòó; � áóòè àäàïòîâàíèì äëÿ çàñòîñóâàííÿ äî ³íøîìîâíèõ òåêñò³â. ÏÐÎÏÎÍÎÂÀÍÈÉ ÌÅÒÎÄ Äëÿ â³äñòåæåííÿ ïðîöåñó ôîðìóâàííÿ âèõ³äíî¿ îö³íêè ïîòð³áíî âèçíà÷èòè êîì- ïîíåíòè òåêñòó, íàä ÿêèìè âëàñíå âèêîíóþòüñÿ îïåðàö³¿ äëÿ ðîçðàõóíêó ì³ðè êîãåðåíòíîñò³. ³äïîâ³äíî äî ³íøèõ ìåòîä³â îö³íþâàííÿ êîãåðåíòíîñò³ òåêñòó ïðîïîíóºòüñÿ ðîçãëÿäàòè ö³ë³ñí³ñòü òåêñòó íà ð³âí³ ðå÷åíü. Ðîçðàõóíîê ì³ðè ñõîæîñò³ ðå÷åíü çä³éñíþºòüñÿ ç âèêîðèñòàííÿì ñó÷àñíèõ ìåòîä³â çà äîïîìîãîþ àíàë³çó ñåìàíòè÷íî¿ óçãîäæåíîñò³ ñë³â ÷è ³ìåííèõ ôðàç (ñóòíîñòåé). Ó ö³é ðî- áîò³ çàïðîïîíîâàíî ðîçãëÿäàòè âçàºìîçâ’ÿçîê ðå÷åíü íà ð³âí³ ñëîâîñïîëó÷åíü. Ïðåäñòàâëåííÿ ðå÷åííÿ çà äîïîìîãîþ íàáîðó åêñòðàãîâàíèõ ñëîâîñïîëó÷åíü ìຠòàê³ ïåðåâàãè: ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 39 � çä³éñíþºòüñÿ àâòîìàòèçîâàíà ô³ëüòðàö³ÿ ñòîï-ñë³â òà äîïîì³æíèõ åëå- ìåíò³â ðå÷åííÿ; � âèêîíóºòüñÿ ïåðåâ³ðêà ñòðóêòóðíî¿ (ãðàìàòè÷íî¿) óçãîäæåíîñò³ ñë³â ðå÷åí- íÿ, àäæå ó âèïàäêó íåêîðåêòíî ñôîðìîâàíîãî ðå÷åííÿ çìåíøóºòüñÿ éìîâ³ðí³ñòü óñï³øíî¿ åêñòðàêö³¿ ñëîâîñïîëó÷åíü. ÅÊÑÒÐÀÊÖ²ß ÑËÎÂÎÑÏÎËÓ×ÅÍÜ ÐÅ×ÅÍÍß Óí³âåðñàëüíèé ïîøóê ñëîâîñïîëó÷åíü ó òåêñò³ íå ìîæíà âèêîíàòè çà äîïîìî- ãîþ çàçäàëåã³äü âèçíà÷åíîãî àëãîðèòìó. Øàáëîíàìè, ðåàë³çîâàíèìè ó âèãëÿä³ ðåãóëÿðíèõ âèðàç³â, ìîæíà ñêîðèñòàòèñÿ ëèøå ÿê äîïîì³æíèì çàñîáîì ÷åðåç íåîäíîð³äí³ñòü ñòðóêòóðè òåêñòîâî¿ ³íôîðìàö³¿. Ïðèíöèï ïîáóäîâè ðå÷åííÿ ìîæå áóòè ð³çíèì çàëåæíî â³ä îñîáëèâîñòåé ìîâè ÷è ñòèë³ñòèêè òåêñòó. Äîö³ëüíèì º âèêîðèñòàííÿ çàñîá³â ñèíòàêñè÷íîãî àíàë³çó òåêñòó äëÿ âèÿâëåí- íÿ çâ’ÿçêó ì³æ ñëîâàìè ðå÷åííÿ ç ïîäàëüøèì àíàë³çîì îòðèìàíî¿ çàëåæíîñò³. Ó ðîáîò³ [12] çàïðîïîíîâàíî ìåòîä åêñòðàêö³¿ ³íôîðìàö³¿ (open information extraction — open IE) ç àíãëîìîâíèõ òåêñò³â çà äîïîìîãîþ àíàë³çó ñèíòàêñè÷- íîãî ðîçáîðó ðå÷åííÿ. Ïåðåâàãîþ öüîãî ìåòîäó º â³äñóòí³ñòü ïîòðåáè ó ôîð- ìóâàíí³ øàáëîí³â. Ïðèíöèï éîãî ðîáîòè ïîëÿãຠó ïîä³ë³ ðå÷åííÿ íà íåçà- ëåæí³ ôðàãìåíòè (ïîòåíö³éí³ ñëîâîñïîëó÷åííÿ) ç ïîäàëüøèì ñòèñêàííÿì äëÿ âèëó÷åííÿ çàéâèõ ñë³â. Ðîçãëÿíåìî ïðîöåñ ôîðìàë³çàö³¿ îòðèìàíèõ ñëîâîñïî- ëó÷åíü. Ïðåäñòàâèìî ðå÷åííÿ S ÿê ìíîæèíó ñë³â (òîêåí³â) S t t t N� { }1 2, , ,� , (1) äå N — ê³ëüê³ñòü ñë³â ðå÷åííÿ. Ðåçóëüòàòîì çàñòîñóâàííÿ ìåòîäó open IE äî ðå÷åííÿ S º ìíîæèíà êîðòåæ³â C C C CK� { }1 2, , ,� , (2) äå K — ê³ëüê³ñòü åêñòðàãîâàíèõ êîðòåæ³â. Êîæåí êîðòåæ ì³ñòèòü òàê³ åëåìåíòè: C Obj Sub Rel i I Ki � � �( , , ), , , ,{ }1 2 � , (3) äå Obj — «îá’ºêò» (ãîëîâíèé åëåìåíò), Rel — «â³äíîøåííÿ» (çàëåæí³ñòü ì³æ ãî- ëîâíèì òà ï³äðÿäíèì åëåìåíòàìè), Sub — «ñóá’ºêò» (ï³äðÿäíèé åëåìåíò). Êîæåí åëåìåíò êîðòåæó ïðåäñòàâëåíèé ìíîæèíîþ ñë³â ðå÷åííÿ { }t t S| � . «Îá’ºêò» ì³ñòèòü ñëîâà áàòüê³âñüêî¿ ñóòíîñò³, à «ñóá’ºêò» — ï³äðÿäíî¿. Ñëîâà åëåìåíòà «â³äíîøåííÿ» âêàçóþòü íà òèï çâ’ÿçêó ì³æ «îá’ºêòîì» òà «ñóá’ºêòîì». Îá’ºäíàâ- øè åëåìåíòè êîðòåæó Ci , îòðèìóºìî ñëîâîñïîëó÷åííÿ X Obj Rel Subi � � � . Îòæå, ðå÷åííÿ S ìîæíà ïðåäñòàâèòè ÿê ìíîæèíó ñëîâîñïîëó÷åíü X X X X K� { }1 2, , ..., . (4) Íà ðèñ. 1 çîáðàæåíî ïðèêëàä åêñòðàêö³¿ ñëîâîñïîëó÷åíü ç ðå÷åííÿ «Presley was born in Tupelo and relocated to Memphis». 40 ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 Presley was born in Tupelo relocated to Memphis object Entity Entity Entity EntityRelation Relation Relation object subject and subject object subject Ðèñ. 1. Ïðèêëàä åêñòðàêö³¿ ñëîâîñïîëó÷åííÿ ç ðå÷åííÿ çà ìåòîäîì open IE Ç íàâåäåíîãî âèùå ïðèêëàäó ìîæíà åêñòðàãóâàòè òàêó ìíîæèíó ñëîâîñïîëó÷åíü: X X X X X � � � { } {Presley, was, born, in, Tupelo} {Pres 1 2 1 2 , , , ley, relocated, to, Memphis}. (5) ÐÎÇÐÀÕÓÍÎÊ Ì²ÐÈ ÑÕÎÆÎÑÒ² ÐÅ×ÅÍÜ Äëÿ îö³íþâàííÿ âçàºìîçâ’ÿçêó ðå÷åíü ñë³ä àíàë³çóâàòè íå ò³ëüêè ¿õíþ ñåìàíòè÷- íó ñõîæ³ñòü, àëå é ëîã³÷íó ïîñë³äîâí³ñòü ðîçòàøóâàííÿ â òåêñò³. Îäíèì ç ³íäè- êàòîð³â ëîã³÷íîãî çâ’ÿçêó ì³æ ðå÷åííÿìè º íàÿâí³ñòü ñï³ëüíèõ êîðåôåðåíòíèõ îá’ºêò³â — ñóòíîñòåé, ùî ïîñèëàþòüñÿ íà îäèí åëåìåíò. Âèÿâëåííÿ êîðåôå- ðåíòíèõ îá’ºêò³â [13] íàäຠçìîãó âðàõîâóâàòè çâ’ÿçîê ì³æ ðå÷åííÿìè íåçàëåæ- íî â³ä ¿õíüîãî ðîçòàøóâàííÿ â òåêñò³. Òîìó ïðîïîíóºòüñÿ çàñòîñóâàòè ìåòîä ïî- øóêó êîðåôåðåíòíèõ ïàð äî âñüîãî òåêñòó. Îòðèìàí³ ãðóïè îá’ºêò³â çàïèñóþòü- ñÿ â òèì÷àñîâó ïàì’ÿòü äëÿ ïîäàëüøîãî âèêîðèñòàííÿ. Ðîçãëÿíåìî ðå÷åííÿ S i òà S j , ïðåäñòàâëåí³ ìíîæèíàìè ñëîâîñïîëó÷åíü X X X Xi i i X i i � { } 1 2 , , , | | � ³ X X X Xj j j X j j � { } 1 2 , , , | | � â³äïîâ³äíî. Ç ìíîæèí ñëî- âîñïîëó÷åíü X i òà X j ïîáóäóºìî ïîâíîçâ’ÿçíèé îð³ºíòîâàíèé äâî÷àñòêîâèé ãðàô Kij — ãðàô ñåìàíòè÷íî¿ òà ëåêñèêî-ãðàìàòè÷íî¿ óçãîäæåíîñò³ ñëîâîñïîëó- ÷åíü ðå÷åíü S i òà S j . Ïðèêëàä ãðàôó Kij çîáðàæåíî íà ðèñ. 2. Ðîçãëÿíåìî äåòàëüí³øå ïðîöåñ ôîðìóâàííÿ âàã ðåáåð ãðàôó Kij . Âàãó ðåáðà ðîçðàõîâóþòü ÿê â³äíîøåííÿ ê³ëüêîñò³ ñï³ëüíèõ åëåìåíò³â â³äïîâ³äíèõ ñëîâîñïî- ëó÷åíü äî çàãàëüíî¿ ê³ëüêîñò³ óí³êàëüíèõ åëåìåíò³â lex common unique ( , ) ( , ) ( , ) X X X X X X l i m j l i m j l i m j � . (6) Ó ðàç³ âèÿâëåííÿ êîðåôåðåíòíèõ îá’ºêò³â (ó ïðèêëàä³, íàâåäåíîìó âèùå, ñëîâî «there» º âçàºìîçàì³ííèì ç³ ñëîâîì «Memphis») çíà÷åííÿ lex( , )X X l i m j âñòàíîâëþþòü ð³âíèì îäèíèö³. Ó òàêèé ñïîñ³á ï³äâèùóþòü çíà÷èì³ñòü êîðåôå- ðåíòíîãî çâ’ÿçêó ïîð³âíÿíî ç íàÿâí³ñòþ ñï³ëüíèõ òåðì³í³â. ϳñëÿ âñòàíîâëåííÿ çíà÷åíü âàã óñ³õ ðåáåð ãðàôó Kij ëåêñèêî-ãðàìàòè÷íó óçãîäæåí³ñòü ðå÷åíü S i òà S j îáðàõîâóþòü ó òàêèé ñïîñ³á: lex lex { }{ ( , ) ( , ) , , , | |, , , | S S X X i j m X l i m j l X ji � �� � 1 21 2 �� | | | | | } � X Xi j . (7) Ðîçãëÿíåìî ïðîöåñ îö³íþâàííÿ ñåìàíòè÷íî¿ ñõîæîñò³ ðå÷åíü S i òà S j . Çä³éñíèìî âåêòîðíå ïðåäñòàâëåííÿ ðå÷åíü â ñåìàíòè÷íîìó ïðîñòîð³ òà âèêîðèñ- òàºìî êîñèíóñíó â³äñòàíü ì³æ â³äïîâ³äíèìè âåêòîðàìè s i ³ s j ÿê ì³ðó ñõîæîñò³ ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 41 His music career began there in 1954 His music career began there recording at Sun Records His music career began there with producer Sam Phillips Presley was born in Tupelo Presley relocated to Memphis Ðèñ. 2. Ïðèêëàä äâî÷àñòêîâîãî ãðàôó ñåìàíòè÷íî¿ òà ëåêñèêî-ãðàìàòè÷íî¿ óçãîäæåíîñò³ ðå÷åíü S i òà S j ðå÷åíü. Ïåðåòâîðåííÿ âèãëÿäó ðå÷åíü íà âåêòîðíèé ìîæíà âèêîíàòè çà äîïîìî- ãîþ ïîïåðåäíüî íàâ÷åíî¿ ìîäåë³ ñåìàíòè÷íîãî ïðåäñòàâëåííÿ ñë³â ÷è ðå÷åíü (Word2Vec [14], Doc2Vec [15], fastText [16] òîùî). Îòæå, ñåìàíòè÷íó ñõîæ³ñòü ðå÷åíü S i òà S j ìîæíà ðîçðàõóâàòè ó òàêèé ñïîñ³á: sem ( , ) | | | | | | | | S Si j i j i j � �s s s s . (8) Çàãàëüíà ì³ðà ñõîæîñò³ ðå÷åíü ïîâèííà îäíî÷àñíî âðàõîâóâàòè ñåìàíòè÷íó òà ëåêñèêî-ãðàìàòè÷íó óçãîäæåí³ñòü ðå÷åíü. Óâåäåìî ðåãóëÿòèâíèé ïàðàìåòð � �[ , ]0 1 äëÿ àíàë³çó âïëèâó öèõ êîìïîíåíò íà âèõ³äíó îö³íêó êîãåðåíòíîñò³ òåê- ñòó. Äî òîãî æ, ñë³ä âçÿòè äî óâàãè â³äñòàíü ì³æ ðå÷åííÿìè. Çàãàëüíó ì³ðó ñõî- æîñò³ ðå÷åíü S i òà S j îáðàõîâóþòü ÿê sem sem lex ( , ) ( ) ( , ) ( , ) | | S S S S S S i j i j i j i j � � � 1 � � , (9) äå | |i j� — ôàêòîð âðàõóâàííÿ â³äñòàí³ ì³æ ðå÷åííÿìè â òåêñò³. ÏÐÅÄÑÒÀÂËÅÍÍß ÒÅÊÑÒÓ ÇÀ ÄÎÏÎÌÎÃÎÞ ÃÐÀÔÓ Ðîçãëÿíåìî òåêñò T ÿê ìíîæèíó ðå÷åíü T S S S M� { }1 2, , ,� , äå M — ê³ëü- ê³ñòü ðå÷åíü òåêñòó. Ïîáóäóºìî îð³ºíòîâàíèé ãðàô G V E� ( , ), äå V — ìíîæè- íà âåðøèí, ùî ³íòåðïðåòóþòü ðå÷åííÿ òåêñòó T (ïîòóæí³ñòü ìíîæèíè V äîð³âíþº ê³ëüêîñò³ ðå÷åíü òåêñòó M ); E — ìíîæèíà ðåáåð. Ðåáðà âñòàíîâëþ- þòü ì³æ óñ³ìà âåðøèíàì ãðàôó. Âàãà ðåáðà e E i jij � , , äîð³âíþº çàãàëüí³é ì³ð³ ñõîæîñò³ â³äïîâ³äíèõ ðå÷åíü sem ( , )S Si j . Êîãåðåíòí³ñòü òåêñòó T ðîçðàõî- âóþòü ÿê ñåðåäíº àðèôìåòè÷íå çíà÷åííÿ âàã óñ³õ ðåáåð ãðàôó G Coherence weight { } ( ) ( , ) , , , , , T S S M i j M i j i j � � � 1 2 � . (10) ÅÊÑÏÅÐÈÌÅÍÒÀËÜÍÀ ÏÅÐŲÐÊÀ ÌÅÒÎÄÓ Ïåðåâ³ðêó åôåêòèâíîñò³ ïðîïîíîâàíîãî ìåòîäó âèêîíàíî çà äîïîìîãîþ ðîçðà- õóíêó òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ ðîçð³çíåííÿ äîêóìåíò³â (document discrimi- nation task) òà âñòàâêè (insertion task) [17]. Ïåðåâ³ðî÷íó âèá³ðêó àíãëîìîâíèõ òåêñò³â ñôîðìîâàíî ç êîðïóñó OntoNotes Release 5.0 (LDC2013T19) [18]. Åêñòðàêö³þ ñëîâîñïîëó÷åíü ç ðå÷åíü òåêñòó (ìåòîä open IE) òà ïîøóê êîðåôå- ðåíòíèõ ïàð âèêîíàíî çà äîïîìîãîþ ïðèêëàäíîãî ïðîãðàìíîãî ³íòåðôåéñó Stanford CoreNLP. ßê ñåìàíòè÷íó ìîäåëü ïðåäñòàâëåííÿ åëåìåíò³â òåêñòó îá- ðàíî ìîäåëü Word2Vec, íàòðåíîâàíó íà ìíîæèí³ òåêñò³â GoogleNews. Äëÿ ïîð³âíÿííÿ ìåòðèê ïðîïîíîâàíîãî ìåòîäó ç ³íøèìè ìåòîäàìè âèð³øåíî âèêî- íóâàòè àíàë³ç òåêñò³â, ùî âèêîðèñòîâóâàëèñÿ â ðîáîò³ [9]. Íàñàìïåðåä, öå ñòî- ñóºòüñÿ çàäà÷³ âñòàâêè, àäæå ó âèïàäêó çá³ëüøåííÿ ê³ëüêîñò³ ðå÷åíü çìåí- øóºòüñÿ éìîâ³ðí³ñòü êîðåêòíîãî ðîçï³çíàâàííÿ òåêñòó. Îòæå, äëÿ ðîçâ’ÿçàííÿ çàäà÷³ ðîçð³çíåííÿ äîêóìåíò³â âèêîðèñòàíî âñ³ òåêñòè êîðïóñó OntoNotes Release 5.0; äëÿ ðîçâ’ÿçàííÿ çàäà÷³ âñòàâêè â³ä³áðàíî òåêñòè ³ç ñåðåäíüîþ ê³ëüê³ñòþ ðå÷åíü, ùî äîð³âíþº ñåìè. ÏÅÐŲÐÊÀ ÅÔÅÊÒÈÂÍÎÑÒ² ÇÀÑÒÎÑÓÂÀÍÍß ÏÐÎÏÎÍÎÂÀÍÎÃÎ ÌÅÒÎÄÓ ÄÎ ÀÍÃËÎÌÎÂÍÈÕ ÒÅÊÑҲ Äëÿ äîñë³äæåííÿ âïëèâó ñåìàíòè÷íî¿ òà ëåêñè÷íî¿ êîìïîíåíò íà çàãàëüíó îö³íêó êîãåðåíòíîñò³ òåêñòó, òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ ðîçð³çíåííÿ äîêóìåíò³â òà âñòàâêè ðîçðàõîâàíî äëÿ ð³çíèõ çíà÷åíü ðåãóëÿòèâíîãî ïàðàìåòðà � ç êðîêîì 0.1 (� �[ , ]0 1 ). Ìàêñèìàëüíå çíà÷åííÿ òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ ðîçð³çíåííÿ 42 ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 äîêóìåíò³â (0.900) ³ çàäà÷³ âñòàâêè (0.370) îòðèìàíî äëÿ çíà÷åííÿ ðåãóëÿòèâ- íîãî ïàðàìåòðà � � 0.4. Îòæå, äëÿ îö³íþâàííÿ êîãåðåíòíîñò³ àíãëîìîâíèõ òåêñò³â äîö³ëüíî îäíî÷àñíî âðàõîâóâàòè ñåìàíòè÷í³ òà ëåêñè÷í³ âëàñòèâîñò³ òåêñòó: ñåìàíòè÷íà òà ëåêñè÷íà ñêëàäîâ³ âàã ðåáåð ãðàôó º ð³âíîçíà÷íèìè êîìïîíåíòàìè äëÿ ðîçðàõóíêó ì³ðè ñõîæîñò³ ðå÷åíü. Âðàõóâàííÿ ëåêñè÷íî¿ ñêëàäîâî¿ íàäຠçìîãó ï³äâèùèòè òî÷í³ñòü ìåòîäó, ùî ï³äòâåðäæóº íå- îáõ³äí³ñòü âèêîðèñòàííÿ ïîøóêó êîðåôåðåíòíèõ îá’ºêò³â äëÿ îö³íþâàííÿ êîãå- ðåíòíîñò³ àíãëîìîâíèõ òåêñò³â. Ó òàáë. 1 íàâåäåíî ðåçóëüòàòè òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ ðîçð³çíåííÿ äîêó- ìåíò³â òà âñòàâêè ç âèêîðèñòàííÿì ð³çíèõ ìåòîä³â äëÿ àíãëîìîâíèõ òåêñò³â [9]. Âèêîíàíî ïîð³âíÿííÿ ïðîïîíîâàíîãî ìåòîäó ç ìåòîäàìè PAV, SSV, MSV, Entity Graph òà Entity Grid. Ìàêñèìàëüí³ çíà÷åííÿ òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ îòðèìàíî äëÿ ïðîïîíîâàíîãî ìåòîäó ç³ çíà÷åííÿìè ðåãóëÿòèâíîãî ïàðàìåòðà � � 0.4. Ðå- çóëüòàòè ñâ³ä÷àòü ïðî äîö³ëüí³ñòü çàñòîñóâàííÿ ïðîïîíîâàíîãî ìåòîäó íà îñíîâ³ ãðàôó äëÿ îö³íþâàííÿ êîãåðåíòíîñò³ àíãëîìîâíèõ òåêñò³â. ÂÈÑÍÎÂÊÈ Ó ðîáîò³ çàïðîïîíîâàíî ìåòîä îö³íþâàííÿ êîãåðåíòíîñò³ òåêñò³â íà îñíîâ³ ãðàôó çà äîïîìîãîþ àíàë³çó ñåìàíòè÷íèõ òà ëåêñè÷íèõ âëàñòèâîñòåé òåêñòó íà ð³âí³ ñëîâîñïîëó÷åíü. Íà îñíîâ³ àíàë³çó îòðèìàíèõ ðåçóëüòàò³â åêñïåðèìåí- òàëüíî¿ ïåðåâ³ðêè åôåêòèâíîñò³ ìåòîäó ìîæíà çðîáèòè òàê³ âèñíîâêè: � âèÿâëåííÿ êîðåôåðåíòíèõ îá’ºêò³â íàäຠçìîãó ï³äâèùèòè òî÷í³ñòü ìåòî- äó çà ðàõóíîê â³äñòåæåííÿ çâ’ÿçêó ì³æ â³ääàëåíèìè êîìïîíåíòàìè òåêñòó ï³ä ÷àñ éîãî ïîñë³äîâíîãî îáðîáëåííÿ (³ì³òàö³¿ ïðîöåñó ÷èòàííÿ òåêñòó); � íàéâèùó òî÷í³ñòü ïðîïîíîâàíîãî ìåòîäó îòðèìàíî äëÿ çíà÷åííÿ ðåãóëÿ- òèâíîãî ïàðàìåòðó � � 0.4. Îòæå, îäíî÷àñíå âðàõóâàííÿ ñåìàíòè÷íèõ òà ëåêñè÷- íèõ âëàñòèâîñòåé òåêñòó º äîö³ëüíèì. ϳäâèùèòè òî÷íîñò³ àíàë³çó ñåìàíòè÷íî¿ ñêëàäîâî¿ ìîæíà çà ðàõóíîê âèêîðèñòàííÿ ³íøèõ ìîäåëåé ñåìàíòè÷íîãî ïðåä- ñòàâëåííÿ åëåìåíò³â òåêñòó; � àíàë³ç ðå÷åíü çà äîïîìîãîþ åêñòðàãîâàíèõ ñëîâîñïîëó÷åíü äຠìîæ- ëèâ³ñòü âèêîíàòè ïåðåâ³ðêó ñòðóêòóðíî¿ óçãîäæåíîñò³ ðå÷åííÿ òà çä³éñíèòè îö³íþâàííÿ ñåìàíòè÷íî¿ ñõîæîñò³ ðå÷åíü íà ð³âí³ îòðèìàíèõ êëàñ³â îá’ºêò³â ³ çâ’ÿçê³â ì³æ íèìè; � îòðèìàí³ ðåçóëüòàòè ïîð³âíÿëüíîãî àíàë³çó òî÷íîñò³ ïðîïîíîâàíîãî ìåòî- äó òà ³íøèõ ìåòîä³â ñâ³ä÷àòü ïðî ìîæëèâ³ñòü éîãî âèêîðèñòàííÿ äëÿ îö³íþâàííÿ êîãåðåíòíîñò³ àíãëîìîâíèõ òåêñò³â. Ïðîïîíîâàíèé ìåòîä ìîæíà çàñòîñîâóâàòè äëÿ ³íøîìîâíîãî êîðïóñó çà óìîâè ïîïåðåäíüîãî íàâ÷àííÿ òà çàì³íè â³äïîâ³äíèõ ë³íãâ³ñòè÷íèõ ìîäåëåé (ñåìàíòè÷íå ïðåäñòàâëåííÿ òåêñòó, åêñòðàêö³ÿ ñëîâîñïî- ëó÷åíü, âèÿâëåííÿ êîðåôåðåíòíèõ îá’ºêò³â). ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 43 Ò à á ë è ö ÿ 1. Ïîð³âíÿííÿ ðåçóëüòàò³â òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ ðîçð³çíåííÿ äîêóìåíò³â òà âñòàâêè äëÿ àíãëîìîâíèõ òåêñò³â Ìåòîä ³ çíà÷åííÿ ðåãóëÿòèâíèõ ïàðàìåòð³â Çàäà÷à ðîçð³çíåííÿ äîêóìåíò³â Çàäà÷à âñòàâêè PAV 0.774 0.356 SSV 0.676 0.346 MSV 0.741 0.327 Entity Grid 0.845 0.346 Entity Graph 0.725 0.260 Ïðîïîíîâàíèé ìåòîä, � � 0.4 0.900 0.370 ÑÏÈÑÎÊ Ë²ÒÅÐÀÒÓÐÈ 1. Kurdi M. Natural language processing and computational linguistics 2: Semantics, discourse and applications. John Wiley & Sons, 2018. 316 p. 2. Poulimenou S., Stamou S., Papavlasopoulos S., Poulos M. Short text coherence hypothesis. Journal of Quantitative Linguistics. 2016. Vol. 23, Iss. 2. P. 191–210. https://doi.org/10.1080/09296174. 2016.1142328. 3. Marchenko O., Radyvonenko O., Ignatova T., Titarchuk P., Zhelezniakov D. Improving text generation through introducing coherence metrics. Cybernetics and Systems Analysis. 2020.Vol. 56, N 1, P. 13–21. https://doi.org/10.1007/s10559-020-00216-x. 4. Pogorilyy S., Kramov A. Automated extraction of structured information from a variety of web pages. Proc. 11th International Conference of Programming UkrPROG 2018 (22–24 May 2018, Kyiv, Ukraine). Kyiv, Ukraine, 2018. P. 149–158. 5. Barzilay R., Lapata M. Modeling local coherence: an entity-based approach. Computational Linguistics. 2008. Vol. 34, N 1, P. 1–34. https://doi.org/10.1162/coli.2008.34.1.1. 6. Mesgar M., Strube M. Normalized entity graph for computing local coherence. Proc. TextGraphs-9: the workshop on Graph-based Methods for Natural Language Processing (29 October 2014, Doha, Quatar). Doha, Quatar, 2014. P. 1–5. https://doi.org/10.3115/v1/w14-3701. 7. Li J., Hovy E. A model of coherence based on distributed sentence representation. Proc. 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (25–29 October 2014, Doha, Quatar). Doha, Quatar, 2014. P. 2039–2048, 2014. https://doi.org/10.3115/v1/d14-1218. 8. Cui B., Li Y., Zhang Y., Zhang Z. Text coherence analysis based on deep neural network. Proc. 2017 ACM on Conference on Information and Knowledge Management (CIKM’17) (6–10 November 2017, Singapore, Singapore). Singapore, Singapore, 2017. P. 2027–2030. https://doi.org/10.1145/ 3132847.3133047. 9. Putra J., Tokunaga T. Evaluating text coherence based on semantic similarity graph. Proc. TextGraphs-11: the Workshop on Graph-based Methods for Natural Language Processing (3 November 2017, Vancouver, Canada). Vancouver, Canada, 2017. P. 76–85. 2017. https://doi.org/ 10.18653/v1/w17-2410. 10. Giray G., ��Unal�r M. Assessment of text coherence using an ontology-based relatedness measurement method. Expert Systems. 2019. Vol. 37, N. 3. P. 1–24. https://doi.org/10.1111/exsy.12505. 11. Bohn T., Hu Y., Zhang J., Ling C.X. Learning sentence embeddings for coherence modelling and beyond. Proc. Recent Advances in Natural Language Processing (2–4 September 2019, Varna, Bulgaria). Varna, Bulgaria, 2019. P. 151–160. https://doi.org/10.26615/978-954-452-056-4_018. 12. Angeli G., Premkumar M.J.J., Manning C. Leveraging linguistic structure for open domain information extraction. Proc. 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Vol. 1: Long Papers) (26–31 July 2015, Beijing, China). Beijing, China, 2015. P. 344–354. https://doi.org/10.3115/ v1/p15-1034. 13. Pogorilyy S., Kramov A. Coreference resolution method using a convolutional neural network. Proc. 2019 IEEE International Conference on Advanced Trends in Information Theory (ATIT) (18–20 December 2019, Kyiv, Ukraine). Kyiv, Ukraine, 2019. P. 397–401. https://doi.org/10.1109/ ATIT49449.2019.9030596. 14. Le Q., Mikolov T. Distributed representations of sentences and documents. Proc. 31st International Conference on Machine Learning (21–26 June 2014, Beijing, China). Beijing, China, 2014. P. 1188–1196. 15. Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed representations of words and phrases and their compositionality. Proc. 26th International Conference on Neural Information Processing Systems (5–8 December 2013, Lake Tahoe, Nevada, USA). Lake Tahoe, Nevada, USA, 2013. P. 3111–3119. 44 ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 16. Mikolov T., Grave E., Bojanowski P., Puhrsch C., Joulin A. Advances in pre-training distributed word representations. Proc. Eleventh International Conference on Language Resources and Evaluation (LREC 2018) (7–12 May 2018, Miyazaki, Japan). Miyazaki, Japan, 2018. P. 52–55. 17. Pogorilyy S., Kramov A. Method of the coherence evaluation of Ukrainian text. Data Recording, Storage & Processing. 2018. Vol. 20, N 4. P. 64–75. https://doi.org/10.35681/1560-9189.2018. 20.4.178945. 18. OntoNotes Release 5.0. Linguistic Data Consortium, Catalog.ldc.upenn.edu, 2020. URL: https:// catalog.ldc.upenn.edu/LDC2013T19. Íàä³éøëà äî ðåäàêö³¿ 13.03.2020 Ñ.Ä. Ïîãîðåëûé, À.À. Êðàìîâ ÎÖÅÍÊÀ ÊÎÃÅÐÅÍÒÍÎÑÒÈ ÒÅÊÑÒÀ Ñ ÏÎÌÎÙÜÞ ÏÎÑÒÐÎÅÍÈß ÃÐÀÔÀ ÑÅÌÀÍÒÈ×ÅÑÊÎÉ È ËÅÊÑÈÊÎ-ÃÐÀÌÌÀÒÈ×ÅÑÊÎÉ ÑÎÃËÀÑÎÂÀÍÍÎÑÒÈ ÑËÎÂÎÑÎ×ÅÒÀÍÈÉ ÏÐÅÄËÎÆÅÍÈÉ Àííîòàöèÿ. Ïðåäëîæåí ìåòîä îöåíêè êîãåðåíòíîñòè òåêñòîâ ñ ïîìîùüþ ïîñòðîåíèÿ ãðàôà ñåìàíòè÷åñêîé è ëåêñèêî-ãðàììàòè÷åñêîé ñîãëàñîâàííîñ- òè ñëîâîñî÷åòàíèé ïðåäëîæåíèé. Îñóùåñòâëåíà ýêñïåðèìåíòàëüíàÿ ïðîâåð- êà ýôôåêòèâíîñòè ìåòîäà íà àíãëîÿçû÷íîì êîðïóñå. Ïîëó÷åííûå ðåçóëüòà- òû ðàññ÷èòàííûõ ìåòðèê ïðåäëîæåííîãî ìåòîäà ïðåâûøàþò ñîîòâåòñòâóþ- ùèå çíà÷åíèÿ äðóãèõ ñîâðåìåííûõ ïîäõîäîâ. Ìåòîä ìîæåò áûòü ïðèìåíåí ê òåêñòàì äðóãèõ ÿçûêîâ ïóòåì çàìåíû ëèíãâèñòè÷åñêîé ìîäåëè â ñîîò- âåòñòâèè ñ îñîáåííîñòÿìè êîíêðåòíîãî ÿçûêà. Êëþ÷åâûå ñëîâà: îáðàáîòêà åñòåñòâåííîãî ÿçûêà, îöåíêà êîãåðåíòíîñòè òåê- ñòà, äâóäîëüíûé ãðàô ñëîâîñî÷åòàíèé, ìåòîä ðàñ÷åòà êîãåðåíòíîñòè òåêñòîâ íà îñíîâå ãðàôà, ëåêñèêî-ãðàììàòè÷åñêàÿ ñîãëàñîâàííîñòü ïðåäëîæåíèé. S.D. Pogorilyy, A.A. Kramov ASSESSMENT OF TEXT COHERENCE BY CONSTRUCTING THE GRAPH OF SEMANTIC, LEXICAL AND GRAMMATICAL CONSISTENCY OF PHRASES OF SENTENCES Abstract. The graph-based method of coherence evaluation of texts based on the analysis of semantic, grammatical, and lexical consistency of sentence phrases has been suggested. The experimental verification of the efficiency of the method has been performed on the English-language corpus. The metrics obtained can indicate that the suggested method outperforms other state-of-the-art approaches. The method can be applied to other languages by replacing the linguistic models according to the features of a certain language. Keywords: natural language processing, evaluation of text coherence, bipartite graph of phrases, graph-based method of coherence assessment of texts, lexical and grammatical consistency of sentences. Ïîãîð³ëèé Ñåðã³é Äåì’ÿíîâè÷, äîêòîð òåõí. íàóê, ïðîôåñîð, çàâ³äóâà÷ êàôåäðè Êè¿âñüêîãî íàö³îíàëüíîãî óí³âåðñèòåòó ³ìåí³ Òàðàñà Øåâ÷åíêà, e-mail: sdp77@i.ua. Êðàìîâ Àðòåì Àíäð³éîâè÷, àñï³ðàíò Êè¿âñüêîãî íàö³îíàëüíîãî óí³âåðñèòåòó ³ìåí³ Òàðàñà Øåâ÷åíêà, e-mail: artemkramovphd@knu.ua. ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 45