Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень
Запропоновано метод оцінювання когерентності текстів за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень. Виконано експериментальну перевірку ефективності методу на англомовному корпусі. Отримані результати розрахованих метрик пропонованого методу переви...
Saved in:
| Published in: | Кибернетика и системный анализ |
|---|---|
| Date: | 2020 |
| Main Authors: | , |
| Format: | Article |
| Language: | English |
| Published: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2020
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/190513 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень / С.Д. Погорілий, А.А. Крамов // Кибернетика и системный анализ. — 2020. — Т. 56, № 6. — С. 38–45. — Бібліогр.: 18 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-190513 |
|---|---|
| record_format |
dspace |
| spelling |
Погорілий, С.Д. Крамов, А.А. 2023-06-11T17:31:07Z 2023-06-11T17:31:07Z 2020 Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень / С.Д. Погорілий, А.А. Крамов // Кибернетика и системный анализ. — 2020. — Т. 56, № 6. — С. 38–45. — Бібліогр.: 18 назв. — укр. 1019-5262 https://nasplib.isofts.kiev.ua/handle/123456789/190513 004.83 Запропоновано метод оцінювання когерентності текстів за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень. Виконано експериментальну перевірку ефективності методу на англомовному корпусі. Отримані результати розрахованих метрик пропонованого методу перевищують відповідні значення інших сучасних підходів. Метод може бути застосований до іншомовних текстів шляхом заміни лінгвістичних моделей відповідно до особливостей певної мови. Предложен метод оценки когерентности текстов с помощью построения графа семантической и лексико-грамматической согласованности словосочетаний предложений. Осуществлена экспериментальная проверка эффективности метода на англоязычном корпусе. Полученные результаты рассчитанных метрик предложенного метода превышают соответствующие значения других современных подходов. Метод может быть применен к текстам других языков путем замены лингвистической модели в соответствии с особенностями конкретного языка. The graph-based method of coherence evaluation of texts based on the analysis of semantic, grammatical, and lexical consistency of sentence phrases has been suggested. The experimental verification of the efficiency of the method has been performed on the English-language corpus. The metrics obtained can indicate that the suggested method outperforms other state-of-the-art approaches. The method can be applied to other languages by replacing the linguistic models according to the features of a certain language. en Інститут кібернетики ім. В.М. Глушкова НАН України Кибернетика и системный анализ Кібернетика Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень Оценка когерентности текста с помощью построения графа семантической и лексико-грамматической согласованности словосочетаний предложений Assessment of text coherence by constructing the graph of semantic, lexical and grammatical consistency of phrases of sentences Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень |
| spellingShingle |
Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень Погорілий, С.Д. Крамов, А.А. Кібернетика |
| title_short |
Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень |
| title_full |
Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень |
| title_fullStr |
Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень |
| title_full_unstemmed |
Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень |
| title_sort |
оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень |
| author |
Погорілий, С.Д. Крамов, А.А. |
| author_facet |
Погорілий, С.Д. Крамов, А.А. |
| topic |
Кібернетика |
| topic_facet |
Кібернетика |
| publishDate |
2020 |
| language |
English |
| container_title |
Кибернетика и системный анализ |
| publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
| format |
Article |
| title_alt |
Оценка когерентности текста с помощью построения графа семантической и лексико-грамматической согласованности словосочетаний предложений Assessment of text coherence by constructing the graph of semantic, lexical and grammatical consistency of phrases of sentences |
| description |
Запропоновано метод оцінювання когерентності текстів за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень. Виконано експериментальну перевірку ефективності методу на англомовному корпусі. Отримані результати розрахованих метрик пропонованого методу перевищують відповідні значення інших сучасних підходів. Метод може бути застосований до іншомовних текстів шляхом заміни лінгвістичних моделей відповідно до особливостей певної мови.
Предложен метод оценки когерентности текстов с помощью построения графа семантической и лексико-грамматической согласованности словосочетаний предложений. Осуществлена экспериментальная проверка эффективности метода на англоязычном корпусе. Полученные результаты рассчитанных метрик предложенного метода превышают соответствующие значения других современных подходов. Метод может быть применен к текстам других языков путем замены лингвистической модели в соответствии с особенностями конкретного языка.
The graph-based method of coherence evaluation of texts based on the analysis of semantic, grammatical, and lexical consistency of sentence phrases has been suggested. The experimental verification of the efficiency of the method has been performed on the English-language corpus. The metrics obtained can indicate that the suggested method outperforms other state-of-the-art approaches. The method can be applied to other languages by replacing the linguistic models according to the features of a certain language.
|
| issn |
1019-5262 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/190513 |
| citation_txt |
Оцінювання когерентності тексту за допомогою побудови графу семантичної та лексико-граматичної узгодженості словосполучень речень / С.Д. Погорілий, А.А. Крамов // Кибернетика и системный анализ. — 2020. — Т. 56, № 6. — С. 38–45. — Бібліогр.: 18 назв. — укр. |
| work_keys_str_mv |
AT pogoríliisd ocínûvannâkogerentnostítekstuzadopomogoûpobudovigrafusemantičnoítaleksikogramatičnoíuzgodženostíslovospolučenʹrečenʹ AT kramovaa ocínûvannâkogerentnostítekstuzadopomogoûpobudovigrafusemantičnoítaleksikogramatičnoíuzgodženostíslovospolučenʹrečenʹ AT pogoríliisd ocenkakogerentnostitekstaspomoŝʹûpostroeniâgrafasemantičeskoiileksikogrammatičeskoisoglasovannostislovosočetaniipredloženii AT kramovaa ocenkakogerentnostitekstaspomoŝʹûpostroeniâgrafasemantičeskoiileksikogrammatičeskoisoglasovannostislovosočetaniipredloženii AT pogoríliisd assessmentoftextcoherencebyconstructingthegraphofsemanticlexicalandgrammaticalconsistencyofphrasesofsentences AT kramovaa assessmentoftextcoherencebyconstructingthegraphofsemanticlexicalandgrammaticalconsistencyofphrasesofsentences |
| first_indexed |
2025-11-25T22:15:31Z |
| last_indexed |
2025-11-25T22:15:31Z |
| _version_ |
1850561418456203264 |
| fulltext |
ÓÄÊ 004.83
Ñ.Ä. ÏÎÃÎвËÈÉ, À.À. ÊÐÀÌÎÂ
ÎÖ²ÍÞÂÀÍÍß ÊÎÃÅÐÅÍÒÍÎÑÒ² ÒÅÊÑÒÓ ÇÀ ÄÎÏÎÌÎÃÎÞ
ÏÎÁÓÄÎÂÈ ÃÐÀÔÓ ÑÅÌÀÍÒÈ×Íί ÒÀ ËÅÊÑÈÊÎ-ÃÐÀÌÀÒÈ×Íί
ÓÇÃÎÄÆÅÍÎÑÒ² ÑËÎÂÎÑÏÎËÓ×ÅÍÜ ÐÅ×ÅÍÜ
Àíîòàö³ÿ. Çàïðîïîíîâàíî ìåòîä îö³íþâàííÿ êîãåðåíòíîñò³ òåêñò³â çà äîïî-
ìîãîþ ïîáóäîâè ãðàôó ñåìàíòè÷íî¿ òà ëåêñèêî-ãðàìàòè÷íî¿ óçãîäæåíîñò³
ñëîâîñïîëó÷åíü ðå÷åíü. Âèêîíàíî åêñïåðèìåíòàëüíó ïåðåâ³ðêó åôåêòèâíîñò³
ìåòîäó íà àíãëîìîâíîìó êîðïóñ³. Îòðèìàí³ ðåçóëüòàòè ðîçðàõîâàíèõ ìåò-
ðèê ïðîïîíîâàíîãî ìåòîäó ïåðåâèùóþòü â³äïîâ³äí³ çíà÷åííÿ ³íøèõ ñó÷àñ-
íèõ ï³äõîä³â. Ìåòîä ìîæå áóòè çàñòîñîâàíèé äî ³íøîìîâíèõ òåêñò³â øëÿ-
õîì çàì³íè ë³íãâ³ñòè÷íèõ ìîäåëåé â³äïîâ³äíî äî îñîáëèâîñòåé ïåâíî¿ ìîâè.
Êëþ÷îâ³ ñëîâà: îáðîáêà ïðèðîäíî¿ ìîâè, îö³íþâàííÿ êîãåðåíòíîñò³ òåêñòó,
äâî÷àñòêîâèé ãðàô ñëîâîñïîëó÷åíü, ìåòîä ðîçðàõóíêó êîãåðåíòíîñò³ òåêñò³â
íà îñíîâ³ ãðàôó, ëåêñèêî-ãðàìàòè÷íà óçãîäæåí³ñòü ðå÷åíü.
ÂÑÒÓÏ
Îáðîáêà ïðèðîäíî¿ ìîâè (natural language processing, NLP) º îäíèì ³ç íàïðÿìê³â
äîñë³äæåíü ó ãàëóç³ øòó÷íîãî ³íòåëåêòó. Ðîçâ’ÿçàííÿ á³ëüøîñò³ çàäà÷ ç îáðîáêè
ïðèðîäíî¿ ìîâè ïîòðåáóº âèêîðèñòàííÿ ëþäñüêèõ ðåñóðñ³â (åêñïåðòíèõ çíàíü),
òîáòî çàäà÷³ öüîãî òèïó íå ìîæíà ðîçâ’ÿçàòè çà äîïîìîãîþ âèçíà÷åíîãî àëãî-
ðèòìó. Äî êëàñó òàêèõ çàäà÷ âàðòî â³äíåñòè ðîçï³çíàâàííÿ òà ñèíòåç ìîâëåííÿ,
ñèíòàêñè÷íèé àíàë³ç òåêñòó, âèÿâëåííÿ ïëàã³àòó, îö³íþâàííÿ òîíàëüíîñò³ òåêñòó
òîùî. Ïðè öüîìó ïîñòຠçàäà÷à ôîðìàë³çàö³¿ òåêñò³â ïðèðîäíî¿ ìîâè òà âèÿâ-
ëåííÿ çàêîíîì³ðíîñòåé ì³æ ¿õí³ìè êîìïîíåíòàìè â³äïîâ³äíî äî î÷³êóâàíîãî
âèõ³äíîãî ðåçóëüòàòó. Çâàæàþ÷è íà ïîñò³éíèé ïðèð³ñò ïîòóæíîñò³ îá÷èñëþâàëü-
íèõ ðåñóðñ³â, äëÿ ðîçâ’ÿçàííÿ â³äïîâ³äíèõ çàäà÷ çàñòîñîâóþòü ð³çíîìàí³òí³
êîìá³íîâàí³ ìåòîäè ìàøèííîãî íàâ÷àííÿ òà êîìï’þòåðíî¿ ë³íãâ³ñòèêè [1].
Îòæå, ç’ÿâëÿºòüñÿ ìîæëèâ³ñòü âèêîíàòè íàâ÷àííÿ ìîäåë³ íà ïîïåðåäíüî ñôîðìî-
âàíîìó êîðïóñ³ (ñóêóïíîñò³ òåêñòîâî¿ ³íôîðìàö³¿) äëÿ ïîäàëüøîãî ¿¿ âèêîðèñ-
òàííÿ íà òåñòîâ³é âèá³ðö³. Îäíàê íåîäíîð³äí³ñòü òåêñòîâî¿ ³íôîðìàö³¿ (ð³çíà
ñòðóêòóðà, äîâæèíà ðå÷åíü, ñìèñëîâà çàëåæí³ñòü íàñòóïíèõ ðå÷åíü â³ä ïîïå-
ðåäí³õ) òà ð³çíîìàí³òí³ñòü ¿¿ âì³ñòó óñêëàäíþþòü ïðîöåñ ïðîºêòóâàííÿ òà ðîçðà-
õóíîê ïàðàìåòð³â ìîäåëåé ìàøèííîãî íàâ÷àííÿ. Ó çâ’ÿçêó ç öèì ðîçâ’ÿçàííÿ
çàäà÷ îáðîáêè ïðèðîäíî¿ ìîâè, ùî çä³éñíþþòü àíàë³ç ñåìàíòè÷íèõ òà ãðàìàòè÷-
íèõ âëàñòèâîñòåé òåêñòó, ÿê ³ ðàí³øå, º àêòóàëüíèì. Äî çàäà÷ òàêîãî òèïó
â³äíîñÿòü îö³íþâàííÿ êîãåðåíòíîñò³ òåêñòó.
³äïîâ³äíî äî îçíà÷åííÿ [2] ï³ä êîãåðåíòí³ñòþ òåêñòó ðîçóì³þòü âçàºìîçâ’ÿ-
çîê éîãî êîìïîíåíò ó ãðàìàòè÷íèé òà ëåêñè÷íèé ñïîñîáè. Êîãåðåíòí³ñòü òåêñòó
ïåðåäáà÷ຠïîñë³äîâíó ïåðåäà÷ó îñíîâíî¿ ³äå¿ ÷èòà÷ó â ìåæàõ öüîãî òåêñòó, ùî
ðîáèòü éîãî çðîçóì³ë³øèì òà ïðîñò³øèì äëÿ ñïðèéíÿòòÿ. Öåé êîìóí³êàòèâíèé
çâ’ÿçîê ì³æ àâòîðîì òà ÷èòà÷åì äîñÿãàºòüñÿ çà äîïîìîãîþ ñåìàíòè÷íî¿ ö³ë³ñíîñò³
òåêñòó. ²íøèì êðèòåð³ºì êîãåðåíòíîãî òåêñòó º íàÿâí³ñòü ñòðóêòóðíî¿ óçãîäæå-
íîñò³ éîãî ñêëàäîâèõ (ðå÷åíü òà ñëîâîñïîëó÷åíü). Ïåðåâ³ðêó ñòóïåíÿ äîòðèìàííÿ
çàçíà÷åíèõ êðèòåð³¿â ìîæíà çä³éñíèòè øëÿõîì îö³íþâàííÿ êîãåðåíòíîñò³ òåêñòó.
Ìåòîäè îö³íþâàííÿ êîãåðåíòíîñò³ òåêñòó çàñòîñîâóþòüñÿ â ð³çíèõ ñôåðàõ, ïîâ’ÿ-
çàíèõ ç îáðîáêîþ òåêñòîâî¿ ³íôîðìàö³¿: ãåíåðàö³ÿ òåêñòó [3], íàïèñàííÿ ³íñòðóê-
ö³é, àíàë³ç ìåäè÷íèõ çàïèñ³â, àâòîìàòèçîâàíèé ïîøóê äàíèõ [4] òîùî.
38 ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6
© Ñ.Ä. Ïîãîð³ëèé, À.À. Êðàìîâ, 2020
Ó ñòàòò³ çàïðîïîíîâàíî ìåòîä îö³íþâàííÿ êîãåðåíòíîñò³ òåêñò³â íà îñíîâ³
ãðàôó (graph-based method) çà äîïîìîãîþ àíàë³çó ñåìàíòè÷íîãî òà ëåêñèêî-ãðà-
ìàòè÷íîãî çâ’ÿçêó ñëîâîñïîëó÷åíü òåêñòó; çä³éñíåíî åêñïåðèìåíòàëüíó ïå-
ðåâ³ðêó åôåêòèâíîñò³ ïðîïîíîâàíîãî ìåòîäó íà êîðïóñ³ àíãëîìîâíèõ òåêñò³â
ïîð³âíÿíî ç ³íøèìè ìåòîäàìè.
ÑÓ×ÀÑͲ ÌÅÒÎÄÈ ÎÖ²ÍÞÂÀÍÍß ÊÎÃÅÐÅÍÒÍÎÑÒ² ÒÅÊÑÒ²Â
Íàÿâí³ ìåòîäè îö³íþâàííÿ êîãåðåíòíîñò³ òåêñò³â ´ðóíòóþòüñÿ íà ìåòîäîëî㳿
ìàøèííîãî íàâ÷àííÿ. Ó 2008 ðîö³ â ðîáîò³ [5] áóâ çàïðîïîíîâàíèé ìåòîä
Entity Grid, çà ÿêèì áóëî çä³éñíåíî àíàë³ç çì³íè ðîë³ ñóòíîñò³ â ðå÷åíí³. Âèÿâ-
ëåííÿ çàêîíîì³ðíîñòåé âèêîíóâàëîñÿ øëÿõîì ïîïåðåäíüîãî ôîðìóâàííÿ âåê-
òîð³â îçíàê òà çàñòîñóâàííÿ ìåòîäó îïîðíèõ âåêòîð³â. ²äåÿ â³äñòåæåííÿ ðîë³
ñóòíîñò³ â ìåæàõ òåêñòó áóëà òàêîæ âèêîðèñòàíà â ðîáîò³ [6] ùîäî ìåòîäó
Entity Graph. Ñóòü öüîãî ìåòîäó ïîëÿãຠó ôîðìóâàíí³ äâî÷àñòêîâîãî ãðàôó
çâ’ÿçêó ðîëåé ñóòíîñòåé ³ ðå÷åíü òà ïîäàëüø³é ïîáóäîâ³ ïðîºêö³éíîãî ãðàôó
òåêñòó. Ç ïîÿâîþ ìîäåëåé ñåìàíòè÷íîãî âåêòîðíîãî ïðåäñòàâëåííÿ ñë³â ç’ÿâè-
ëèñÿ ìåòîäè íà îñíîâ³ àíàë³çó ñåìàíòè÷íî¿ ñõîæîñò³ åëåìåíò³â òåêñòó. Ó ðîáî-
òàõ [7, 8] çàïðîïîíîâàíî ï³äõ³ä äî ïðîºêòóâàííÿ íåéðîííèõ ìåðåæ ç ðåêóðåíò-
íèìè òà çãîðòêîâèìè øàðàìè â³äïîâ³äíî. Ïðè öüîìó âõ³äíèìè äàíèìè ìåðåæ³
º âåêòîðíå ïðåäñòàâëåííÿ ðå÷åíü òåêñòó ó ñåìàíòè÷íîìó ïðîñòîð³. Ñóòü ìåòî-
äó Semantic Similarity Graph [9] ïîëÿãຠó ïîáóäîâ³ ãðàôó òåêñòó çà äîïîìî-
ãîþ ðîçðàõóíêó ñåìàíòè÷íî¿ áëèçüêîñò³ ðå÷åíü. Ó ðîáîò³ [10] çä³éñíåíî ïîáó-
äîâó îíòîëîã³÷íî¿ ñèñòåìè òà àíîòàö³¿ òåêñòó, à âèõ³äíèì ðåçóëüòàòîì º îö³íêà
êîãåðåíòíîñò³ àíîòàö³¿, ðîçðàõîâàíà íà îñíîâ³ ðåçóëüòàò³â àíàë³çó åêñòðàãîâà-
íèõ êîíöåïò³â. Ìåòîä, ùî ´ðóíòóºòüñÿ íà ïðîãíîçóâàíí³ ïîçèö³¿ ðå÷åííÿ
â òåêñò³, áóâ çàïðîïîíîâàíèé ó ðîáîò³ [11]. Ïðîãíîçóâàííÿ âèêîíóºòüñÿ çà äî-
ïîìîãîþ ïîïåðåäíüîãî âåêòîðíîãî ïðåäñòàâëåííÿ ðå÷åíü ç âèêîðèñòàííÿì ðå-
êóðåíòíîãî øàðó íåéðîííî¿ ìåðåæ³ òà ç ïîäàëüøîþ êëàñèô³êàö³ºþ ¿õíüî¿ ïî-
çèö³¿ (÷àñòèíè òåêñòó ç ì³ñöåçíàõîäæåííÿì ðå÷åííÿ).
Êîðèñòóâà÷ó ïîòð³áíî ðîçóì³òè ïðè÷èíó ôîðìóâàííÿ âèõ³äíîãî ðåçóëüòàòó,
ùîá îòðèìàòè ìîæëèâ³ñòü äëÿ àíàë³çó òà ïîäàëüøîãî âäîñêîíàëåííÿ òåêñòó.
³äïîâ³äíèìè ìåòîäàìè º Entity Graph, Semantic Similarity Graph òà ìåòîä, îïèñà-
íèé ó ðîáîò³ [11], îñê³ëüêè âîíè íàäàþòü çìîãó âèêîíàòè â³çóàëüíå â³äîáðàæåííÿ
çâ’ÿçêó ì³æ êîìïîíåíòàìè òåêñòó. Ç îãëÿäó íà ïåðåâàãè òà íåäîë³êè ðîçãëÿíóòèõ
ìåòîä³â, ïðîïîíîâàíèé ìåòîä ïîâèíåí â³äïîâ³äàòè òàêèì êðèòåð³ÿì:
� ïåðåäáà÷àòè ìîæëèâ³ñòü â³çóàë³çàö³¿ çâ’ÿçêó ì³æ êîìïîíåíòàìè òåêñòó;
� çàáåçïå÷óâàòè îäíî÷àñíèé àíàë³ç ñåìàíòè÷íèõ òà ëåêñè÷íèõ âëàñòèâîñòåé
òåêñòó;
� áóòè àäàïòîâàíèì äëÿ çàñòîñóâàííÿ äî ³íøîìîâíèõ òåêñò³â.
ÏÐÎÏÎÍÎÂÀÍÈÉ ÌÅÒÎÄ
Äëÿ â³äñòåæåííÿ ïðîöåñó ôîðìóâàííÿ âèõ³äíî¿ îö³íêè ïîòð³áíî âèçíà÷èòè êîì-
ïîíåíòè òåêñòó, íàä ÿêèìè âëàñíå âèêîíóþòüñÿ îïåðàö³¿ äëÿ ðîçðàõóíêó ì³ðè
êîãåðåíòíîñò³. ³äïîâ³äíî äî ³íøèõ ìåòîä³â îö³íþâàííÿ êîãåðåíòíîñò³ òåêñòó
ïðîïîíóºòüñÿ ðîçãëÿäàòè ö³ë³ñí³ñòü òåêñòó íà ð³âí³ ðå÷åíü. Ðîçðàõóíîê ì³ðè
ñõîæîñò³ ðå÷åíü çä³éñíþºòüñÿ ç âèêîðèñòàííÿì ñó÷àñíèõ ìåòîä³â çà äîïîìîãîþ
àíàë³çó ñåìàíòè÷íî¿ óçãîäæåíîñò³ ñë³â ÷è ³ìåííèõ ôðàç (ñóòíîñòåé). Ó ö³é ðî-
áîò³ çàïðîïîíîâàíî ðîçãëÿäàòè âçàºìîçâ’ÿçîê ðå÷åíü íà ð³âí³ ñëîâîñïîëó÷åíü.
Ïðåäñòàâëåííÿ ðå÷åííÿ çà äîïîìîãîþ íàáîðó åêñòðàãîâàíèõ ñëîâîñïîëó÷åíü
ìຠòàê³ ïåðåâàãè:
ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 39
� çä³éñíþºòüñÿ àâòîìàòèçîâàíà ô³ëüòðàö³ÿ ñòîï-ñë³â òà äîïîì³æíèõ åëå-
ìåíò³â ðå÷åííÿ;
� âèêîíóºòüñÿ ïåðåâ³ðêà ñòðóêòóðíî¿ (ãðàìàòè÷íî¿) óçãîäæåíîñò³ ñë³â ðå÷åí-
íÿ, àäæå ó âèïàäêó íåêîðåêòíî ñôîðìîâàíîãî ðå÷åííÿ çìåíøóºòüñÿ éìîâ³ðí³ñòü
óñï³øíî¿ åêñòðàêö³¿ ñëîâîñïîëó÷åíü.
ÅÊÑÒÐÀÊÖ²ß ÑËÎÂÎÑÏÎËÓ×ÅÍÜ ÐÅ×ÅÍÍß
Óí³âåðñàëüíèé ïîøóê ñëîâîñïîëó÷åíü ó òåêñò³ íå ìîæíà âèêîíàòè çà äîïîìî-
ãîþ çàçäàëåã³äü âèçíà÷åíîãî àëãîðèòìó. Øàáëîíàìè, ðåàë³çîâàíèìè ó âèãëÿä³
ðåãóëÿðíèõ âèðàç³â, ìîæíà ñêîðèñòàòèñÿ ëèøå ÿê äîïîì³æíèì çàñîáîì ÷åðåç
íåîäíîð³äí³ñòü ñòðóêòóðè òåêñòîâî¿ ³íôîðìàö³¿. Ïðèíöèï ïîáóäîâè ðå÷åííÿ
ìîæå áóòè ð³çíèì çàëåæíî â³ä îñîáëèâîñòåé ìîâè ÷è ñòèë³ñòèêè òåêñòó.
Äîö³ëüíèì º âèêîðèñòàííÿ çàñîá³â ñèíòàêñè÷íîãî àíàë³çó òåêñòó äëÿ âèÿâëåí-
íÿ çâ’ÿçêó ì³æ ñëîâàìè ðå÷åííÿ ç ïîäàëüøèì àíàë³çîì îòðèìàíî¿ çàëåæíîñò³.
Ó ðîáîò³ [12] çàïðîïîíîâàíî ìåòîä åêñòðàêö³¿ ³íôîðìàö³¿ (open information
extraction — open IE) ç àíãëîìîâíèõ òåêñò³â çà äîïîìîãîþ àíàë³çó ñèíòàêñè÷-
íîãî ðîçáîðó ðå÷åííÿ. Ïåðåâàãîþ öüîãî ìåòîäó º â³äñóòí³ñòü ïîòðåáè ó ôîð-
ìóâàíí³ øàáëîí³â. Ïðèíöèï éîãî ðîáîòè ïîëÿãຠó ïîä³ë³ ðå÷åííÿ íà íåçà-
ëåæí³ ôðàãìåíòè (ïîòåíö³éí³ ñëîâîñïîëó÷åííÿ) ç ïîäàëüøèì ñòèñêàííÿì äëÿ
âèëó÷åííÿ çàéâèõ ñë³â. Ðîçãëÿíåìî ïðîöåñ ôîðìàë³çàö³¿ îòðèìàíèõ ñëîâîñïî-
ëó÷åíü. Ïðåäñòàâèìî ðå÷åííÿ S ÿê ìíîæèíó ñë³â (òîêåí³â)
S t t t N� { }1 2, , ,� , (1)
äå N — ê³ëüê³ñòü ñë³â ðå÷åííÿ. Ðåçóëüòàòîì çàñòîñóâàííÿ ìåòîäó open IE äî
ðå÷åííÿ S º ìíîæèíà êîðòåæ³â
C C C CK� { }1 2, , ,� , (2)
äå K — ê³ëüê³ñòü åêñòðàãîâàíèõ êîðòåæ³â. Êîæåí êîðòåæ ì³ñòèòü òàê³ åëåìåíòè:
C Obj Sub Rel i I Ki � � �( , , ), , , ,{ }1 2 � , (3)
äå Obj — «îá’ºêò» (ãîëîâíèé åëåìåíò), Rel — «â³äíîøåííÿ» (çàëåæí³ñòü ì³æ ãî-
ëîâíèì òà ï³äðÿäíèì åëåìåíòàìè), Sub — «ñóá’ºêò» (ï³äðÿäíèé åëåìåíò). Êîæåí
åëåìåíò êîðòåæó ïðåäñòàâëåíèé ìíîæèíîþ ñë³â ðå÷åííÿ { }t t S| � . «Îá’ºêò»
ì³ñòèòü ñëîâà áàòüê³âñüêî¿ ñóòíîñò³, à «ñóá’ºêò» — ï³äðÿäíî¿. Ñëîâà åëåìåíòà
«â³äíîøåííÿ» âêàçóþòü íà òèï çâ’ÿçêó ì³æ «îá’ºêòîì» òà «ñóá’ºêòîì». Îá’ºäíàâ-
øè åëåìåíòè êîðòåæó Ci , îòðèìóºìî ñëîâîñïîëó÷åííÿ X Obj Rel Subi � � � .
Îòæå, ðå÷åííÿ S ìîæíà ïðåäñòàâèòè ÿê ìíîæèíó ñëîâîñïîëó÷åíü
X X X X K� { }1 2, , ..., . (4)
Íà ðèñ. 1 çîáðàæåíî ïðèêëàä åêñòðàêö³¿ ñëîâîñïîëó÷åíü ç ðå÷åííÿ «Presley
was born in Tupelo and relocated to Memphis».
40 ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6
Presley was born in Tupelo relocated to Memphis
object
Entity Entity Entity EntityRelation
Relation
Relation
object
subject
and
subject
object
subject
Ðèñ. 1. Ïðèêëàä åêñòðàêö³¿ ñëîâîñïîëó÷åííÿ ç ðå÷åííÿ çà ìåòîäîì open IE
Ç íàâåäåíîãî âèùå ïðèêëàäó ìîæíà åêñòðàãóâàòè òàêó ìíîæèíó ñëîâîñïîëó÷åíü:
X X X
X
X
�
�
�
{ }
{Presley, was, born, in, Tupelo}
{Pres
1 2
1
2
, ,
,
ley, relocated, to, Memphis}.
(5)
ÐÎÇÐÀÕÓÍÎÊ Ì²ÐÈ ÑÕÎÆÎÑÒ² ÐÅ×ÅÍÜ
Äëÿ îö³íþâàííÿ âçàºìîçâ’ÿçêó ðå÷åíü ñë³ä àíàë³çóâàòè íå ò³ëüêè ¿õíþ ñåìàíòè÷-
íó ñõîæ³ñòü, àëå é ëîã³÷íó ïîñë³äîâí³ñòü ðîçòàøóâàííÿ â òåêñò³. Îäíèì ç ³íäè-
êàòîð³â ëîã³÷íîãî çâ’ÿçêó ì³æ ðå÷åííÿìè º íàÿâí³ñòü ñï³ëüíèõ êîðåôåðåíòíèõ
îá’ºêò³â — ñóòíîñòåé, ùî ïîñèëàþòüñÿ íà îäèí åëåìåíò. Âèÿâëåííÿ êîðåôå-
ðåíòíèõ îá’ºêò³â [13] íàäຠçìîãó âðàõîâóâàòè çâ’ÿçîê ì³æ ðå÷åííÿìè íåçàëåæ-
íî â³ä ¿õíüîãî ðîçòàøóâàííÿ â òåêñò³. Òîìó ïðîïîíóºòüñÿ çàñòîñóâàòè ìåòîä ïî-
øóêó êîðåôåðåíòíèõ ïàð äî âñüîãî òåêñòó. Îòðèìàí³ ãðóïè îá’ºêò³â çàïèñóþòü-
ñÿ â òèì÷àñîâó ïàì’ÿòü äëÿ ïîäàëüøîãî âèêîðèñòàííÿ.
Ðîçãëÿíåìî ðå÷åííÿ S i òà S j , ïðåäñòàâëåí³ ìíîæèíàìè ñëîâîñïîëó÷åíü
X X X Xi i i
X
i
i
� { }
1 2
, , ,
| |
� ³ X X X Xj j j
X
j
j
� { }
1 2
, , ,
| |
� â³äïîâ³äíî. Ç ìíîæèí ñëî-
âîñïîëó÷åíü X i òà X j ïîáóäóºìî ïîâíîçâ’ÿçíèé îð³ºíòîâàíèé äâî÷àñòêîâèé
ãðàô Kij — ãðàô ñåìàíòè÷íî¿ òà ëåêñèêî-ãðàìàòè÷íî¿ óçãîäæåíîñò³ ñëîâîñïîëó-
÷åíü ðå÷åíü S i òà S j . Ïðèêëàä ãðàôó Kij çîáðàæåíî íà ðèñ. 2.
Ðîçãëÿíåìî äåòàëüí³øå ïðîöåñ ôîðìóâàííÿ âàã ðåáåð ãðàôó Kij . Âàãó ðåáðà
ðîçðàõîâóþòü ÿê â³äíîøåííÿ ê³ëüêîñò³ ñï³ëüíèõ åëåìåíò³â â³äïîâ³äíèõ ñëîâîñïî-
ëó÷åíü äî çàãàëüíî¿ ê³ëüêîñò³ óí³êàëüíèõ åëåìåíò³â
lex
common
unique
( , )
( , )
( , )
X X
X X
X X
l
i
m
j l
i
m
j
l
i
m
j
� . (6)
Ó ðàç³ âèÿâëåííÿ êîðåôåðåíòíèõ îá’ºêò³â (ó ïðèêëàä³, íàâåäåíîìó âèùå,
ñëîâî «there» º âçàºìîçàì³ííèì ç³ ñëîâîì «Memphis») çíà÷åííÿ lex( , )X X
l
i
m
j
âñòàíîâëþþòü ð³âíèì îäèíèö³. Ó òàêèé ñïîñ³á ï³äâèùóþòü çíà÷èì³ñòü êîðåôå-
ðåíòíîãî çâ’ÿçêó ïîð³âíÿíî ç íàÿâí³ñòþ ñï³ëüíèõ òåðì³í³â. ϳñëÿ âñòàíîâëåííÿ
çíà÷åíü âàã óñ³õ ðåáåð ãðàôó Kij ëåêñèêî-ãðàìàòè÷íó óçãîäæåí³ñòü ðå÷åíü S i òà
S j îáðàõîâóþòü ó òàêèé ñïîñ³á:
lex
lex
{ }{
( , )
( , )
, , , | |, , , |
S S
X X
i j
m X
l
i
m
j
l X ji
�
��
�
1 21 2 �� |
| | | |
}
�
X Xi j
. (7)
Ðîçãëÿíåìî ïðîöåñ îö³íþâàííÿ ñåìàíòè÷íî¿ ñõîæîñò³ ðå÷åíü S i òà S j .
Çä³éñíèìî âåêòîðíå ïðåäñòàâëåííÿ ðå÷åíü â ñåìàíòè÷íîìó ïðîñòîð³ òà âèêîðèñ-
òàºìî êîñèíóñíó â³äñòàíü ì³æ â³äïîâ³äíèìè âåêòîðàìè s i ³ s j ÿê ì³ðó ñõîæîñò³
ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 41
His music career began there
in 1954
His music career began there
recording at Sun Records
His music career began there
with producer Sam Phillips
Presley was born in Tupelo Presley relocated to Memphis
Ðèñ. 2. Ïðèêëàä äâî÷àñòêîâîãî ãðàôó ñåìàíòè÷íî¿ òà ëåêñèêî-ãðàìàòè÷íî¿ óçãîäæåíîñò³ ðå÷åíü S i
òà S j
ðå÷åíü. Ïåðåòâîðåííÿ âèãëÿäó ðå÷åíü íà âåêòîðíèé ìîæíà âèêîíàòè çà äîïîìî-
ãîþ ïîïåðåäíüî íàâ÷åíî¿ ìîäåë³ ñåìàíòè÷íîãî ïðåäñòàâëåííÿ ñë³â ÷è ðå÷åíü
(Word2Vec [14], Doc2Vec [15], fastText [16] òîùî). Îòæå, ñåìàíòè÷íó ñõîæ³ñòü
ðå÷åíü S i òà S j ìîæíà ðîçðàõóâàòè ó òàêèé ñïîñ³á:
sem ( , )
| | | | | | | |
S Si j
i j
i j
�
�s s
s s
. (8)
Çàãàëüíà ì³ðà ñõîæîñò³ ðå÷åíü ïîâèííà îäíî÷àñíî âðàõîâóâàòè ñåìàíòè÷íó
òà ëåêñèêî-ãðàìàòè÷íó óçãîäæåí³ñòü ðå÷åíü. Óâåäåìî ðåãóëÿòèâíèé ïàðàìåòð
� �[ , ]0 1 äëÿ àíàë³çó âïëèâó öèõ êîìïîíåíò íà âèõ³äíó îö³íêó êîãåðåíòíîñò³ òåê-
ñòó. Äî òîãî æ, ñë³ä âçÿòè äî óâàãè â³äñòàíü ì³æ ðå÷åííÿìè. Çàãàëüíó ì³ðó ñõî-
æîñò³ ðå÷åíü S i òà S j îáðàõîâóþòü ÿê
sem
sem lex
( , )
( ) ( , ) ( , )
| |
S S
S S S S
i j
i j
i j i j
�
�
�
1 � �
, (9)
äå | |i j� — ôàêòîð âðàõóâàííÿ â³äñòàí³ ì³æ ðå÷åííÿìè â òåêñò³.
ÏÐÅÄÑÒÀÂËÅÍÍß ÒÅÊÑÒÓ ÇÀ ÄÎÏÎÌÎÃÎÞ ÃÐÀÔÓ
Ðîçãëÿíåìî òåêñò T ÿê ìíîæèíó ðå÷åíü T S S S M� { }1 2, , ,� , äå M — ê³ëü-
ê³ñòü ðå÷åíü òåêñòó. Ïîáóäóºìî îð³ºíòîâàíèé ãðàô G V E� ( , ), äå V — ìíîæè-
íà âåðøèí, ùî ³íòåðïðåòóþòü ðå÷åííÿ òåêñòó T (ïîòóæí³ñòü ìíîæèíè V
äîð³âíþº ê³ëüêîñò³ ðå÷åíü òåêñòó M ); E — ìíîæèíà ðåáåð. Ðåáðà âñòàíîâëþ-
þòü ì³æ óñ³ìà âåðøèíàì ãðàôó. Âàãà ðåáðà e E i jij �
, , äîð³âíþº çàãàëüí³é
ì³ð³ ñõîæîñò³ â³äïîâ³äíèõ ðå÷åíü sem ( , )S Si j . Êîãåðåíòí³ñòü òåêñòó T ðîçðàõî-
âóþòü ÿê ñåðåäíº àðèôìåòè÷íå çíà÷åííÿ âàã óñ³õ ðåáåð ãðàôó G
Coherence
weight
{ }
( )
( , )
, , , , ,
T
S S
M
i j M i j
i j
�
�
�
1 2 �
. (10)
ÅÊÑÏÅÐÈÌÅÍÒÀËÜÍÀ ÏÅÐŲÐÊÀ ÌÅÒÎÄÓ
Ïåðåâ³ðêó åôåêòèâíîñò³ ïðîïîíîâàíîãî ìåòîäó âèêîíàíî çà äîïîìîãîþ ðîçðà-
õóíêó òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ ðîçð³çíåííÿ äîêóìåíò³â (document discrimi-
nation task) òà âñòàâêè (insertion task) [17]. Ïåðåâ³ðî÷íó âèá³ðêó àíãëîìîâíèõ
òåêñò³â ñôîðìîâàíî ç êîðïóñó OntoNotes Release 5.0 (LDC2013T19) [18].
Åêñòðàêö³þ ñëîâîñïîëó÷åíü ç ðå÷åíü òåêñòó (ìåòîä open IE) òà ïîøóê êîðåôå-
ðåíòíèõ ïàð âèêîíàíî çà äîïîìîãîþ ïðèêëàäíîãî ïðîãðàìíîãî ³íòåðôåéñó
Stanford CoreNLP. ßê ñåìàíòè÷íó ìîäåëü ïðåäñòàâëåííÿ åëåìåíò³â òåêñòó îá-
ðàíî ìîäåëü Word2Vec, íàòðåíîâàíó íà ìíîæèí³ òåêñò³â GoogleNews. Äëÿ
ïîð³âíÿííÿ ìåòðèê ïðîïîíîâàíîãî ìåòîäó ç ³íøèìè ìåòîäàìè âèð³øåíî âèêî-
íóâàòè àíàë³ç òåêñò³â, ùî âèêîðèñòîâóâàëèñÿ â ðîáîò³ [9]. Íàñàìïåðåä, öå ñòî-
ñóºòüñÿ çàäà÷³ âñòàâêè, àäæå ó âèïàäêó çá³ëüøåííÿ ê³ëüêîñò³ ðå÷åíü çìåí-
øóºòüñÿ éìîâ³ðí³ñòü êîðåêòíîãî ðîçï³çíàâàííÿ òåêñòó. Îòæå, äëÿ ðîçâ’ÿçàííÿ
çàäà÷³ ðîçð³çíåííÿ äîêóìåíò³â âèêîðèñòàíî âñ³ òåêñòè êîðïóñó OntoNotes
Release 5.0; äëÿ ðîçâ’ÿçàííÿ çàäà÷³ âñòàâêè â³ä³áðàíî òåêñòè ³ç ñåðåäíüîþ
ê³ëüê³ñòþ ðå÷åíü, ùî äîð³âíþº ñåìè.
ÏÅÐŲÐÊÀ ÅÔÅÊÒÈÂÍÎÑÒ² ÇÀÑÒÎÑÓÂÀÍÍß ÏÐÎÏÎÍÎÂÀÍÎÃÎ ÌÅÒÎÄÓ
ÄÎ ÀÍÃËÎÌÎÂÍÈÕ ÒÅÊÑÒ²Â
Äëÿ äîñë³äæåííÿ âïëèâó ñåìàíòè÷íî¿ òà ëåêñè÷íî¿ êîìïîíåíò íà çàãàëüíó îö³íêó
êîãåðåíòíîñò³ òåêñòó, òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ ðîçð³çíåííÿ äîêóìåíò³â òà
âñòàâêè ðîçðàõîâàíî äëÿ ð³çíèõ çíà÷åíü ðåãóëÿòèâíîãî ïàðàìåòðà � ç êðîêîì
0.1 (� �[ , ]0 1 ). Ìàêñèìàëüíå çíà÷åííÿ òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ ðîçð³çíåííÿ
42 ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6
äîêóìåíò³â (0.900) ³ çàäà÷³ âñòàâêè (0.370) îòðèìàíî äëÿ çíà÷åííÿ ðåãóëÿòèâ-
íîãî ïàðàìåòðà � � 0.4. Îòæå, äëÿ îö³íþâàííÿ êîãåðåíòíîñò³ àíãëîìîâíèõ
òåêñò³â äîö³ëüíî îäíî÷àñíî âðàõîâóâàòè ñåìàíòè÷í³ òà ëåêñè÷í³ âëàñòèâîñò³
òåêñòó: ñåìàíòè÷íà òà ëåêñè÷íà ñêëàäîâ³ âàã ðåáåð ãðàôó º ð³âíîçíà÷íèìè
êîìïîíåíòàìè äëÿ ðîçðàõóíêó ì³ðè ñõîæîñò³ ðå÷åíü. Âðàõóâàííÿ ëåêñè÷íî¿
ñêëàäîâî¿ íàäຠçìîãó ï³äâèùèòè òî÷í³ñòü ìåòîäó, ùî ï³äòâåðäæóº íå-
îáõ³äí³ñòü âèêîðèñòàííÿ ïîøóêó êîðåôåðåíòíèõ îá’ºêò³â äëÿ îö³íþâàííÿ êîãå-
ðåíòíîñò³ àíãëîìîâíèõ òåêñò³â.
Ó òàáë. 1 íàâåäåíî ðåçóëüòàòè òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ ðîçð³çíåííÿ äîêó-
ìåíò³â òà âñòàâêè ç âèêîðèñòàííÿì ð³çíèõ ìåòîä³â äëÿ àíãëîìîâíèõ òåêñò³â [9].
Âèêîíàíî ïîð³âíÿííÿ ïðîïîíîâàíîãî ìåòîäó ç ìåòîäàìè PAV, SSV, MSV, Entity
Graph òà Entity Grid. Ìàêñèìàëüí³ çíà÷åííÿ òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ îòðèìàíî
äëÿ ïðîïîíîâàíîãî ìåòîäó ç³ çíà÷åííÿìè ðåãóëÿòèâíîãî ïàðàìåòðà � � 0.4. Ðå-
çóëüòàòè ñâ³ä÷àòü ïðî äîö³ëüí³ñòü çàñòîñóâàííÿ ïðîïîíîâàíîãî ìåòîäó íà îñíîâ³
ãðàôó äëÿ îö³íþâàííÿ êîãåðåíòíîñò³ àíãëîìîâíèõ òåêñò³â.
ÂÈÑÍÎÂÊÈ
Ó ðîáîò³ çàïðîïîíîâàíî ìåòîä îö³íþâàííÿ êîãåðåíòíîñò³ òåêñò³â íà îñíîâ³
ãðàôó çà äîïîìîãîþ àíàë³çó ñåìàíòè÷íèõ òà ëåêñè÷íèõ âëàñòèâîñòåé òåêñòó íà
ð³âí³ ñëîâîñïîëó÷åíü. Íà îñíîâ³ àíàë³çó îòðèìàíèõ ðåçóëüòàò³â åêñïåðèìåí-
òàëüíî¿ ïåðåâ³ðêè åôåêòèâíîñò³ ìåòîäó ìîæíà çðîáèòè òàê³ âèñíîâêè:
� âèÿâëåííÿ êîðåôåðåíòíèõ îá’ºêò³â íàäຠçìîãó ï³äâèùèòè òî÷í³ñòü ìåòî-
äó çà ðàõóíîê â³äñòåæåííÿ çâ’ÿçêó ì³æ â³ääàëåíèìè êîìïîíåíòàìè òåêñòó ï³ä ÷àñ
éîãî ïîñë³äîâíîãî îáðîáëåííÿ (³ì³òàö³¿ ïðîöåñó ÷èòàííÿ òåêñòó);
� íàéâèùó òî÷í³ñòü ïðîïîíîâàíîãî ìåòîäó îòðèìàíî äëÿ çíà÷åííÿ ðåãóëÿ-
òèâíîãî ïàðàìåòðó � � 0.4. Îòæå, îäíî÷àñíå âðàõóâàííÿ ñåìàíòè÷íèõ òà ëåêñè÷-
íèõ âëàñòèâîñòåé òåêñòó º äîö³ëüíèì. ϳäâèùèòè òî÷íîñò³ àíàë³çó ñåìàíòè÷íî¿
ñêëàäîâî¿ ìîæíà çà ðàõóíîê âèêîðèñòàííÿ ³íøèõ ìîäåëåé ñåìàíòè÷íîãî ïðåä-
ñòàâëåííÿ åëåìåíò³â òåêñòó;
� àíàë³ç ðå÷åíü çà äîïîìîãîþ åêñòðàãîâàíèõ ñëîâîñïîëó÷åíü äຠìîæ-
ëèâ³ñòü âèêîíàòè ïåðåâ³ðêó ñòðóêòóðíî¿ óçãîäæåíîñò³ ðå÷åííÿ òà çä³éñíèòè
îö³íþâàííÿ ñåìàíòè÷íî¿ ñõîæîñò³ ðå÷åíü íà ð³âí³ îòðèìàíèõ êëàñ³â îá’ºêò³â ³
çâ’ÿçê³â ì³æ íèìè;
� îòðèìàí³ ðåçóëüòàòè ïîð³âíÿëüíîãî àíàë³çó òî÷íîñò³ ïðîïîíîâàíîãî ìåòî-
äó òà ³íøèõ ìåòîä³â ñâ³ä÷àòü ïðî ìîæëèâ³ñòü éîãî âèêîðèñòàííÿ äëÿ îö³íþâàííÿ
êîãåðåíòíîñò³ àíãëîìîâíèõ òåêñò³â. Ïðîïîíîâàíèé ìåòîä ìîæíà çàñòîñîâóâàòè
äëÿ ³íøîìîâíîãî êîðïóñó çà óìîâè ïîïåðåäíüîãî íàâ÷àííÿ òà çàì³íè â³äïîâ³äíèõ
ë³íãâ³ñòè÷íèõ ìîäåëåé (ñåìàíòè÷íå ïðåäñòàâëåííÿ òåêñòó, åêñòðàêö³ÿ ñëîâîñïî-
ëó÷åíü, âèÿâëåííÿ êîðåôåðåíòíèõ îá’ºêò³â).
ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 43
Ò à á ë è ö ÿ 1. Ïîð³âíÿííÿ ðåçóëüòàò³â òî÷íîñò³ ðîçâ’ÿçàííÿ çàäà÷ ðîçð³çíåííÿ
äîêóìåíò³â òà âñòàâêè äëÿ àíãëîìîâíèõ òåêñò³â
Ìåòîä ³ çíà÷åííÿ
ðåãóëÿòèâíèõ ïàðàìåòð³â
Çàäà÷à ðîçð³çíåííÿ
äîêóìåíò³â
Çàäà÷à âñòàâêè
PAV 0.774 0.356
SSV 0.676 0.346
MSV 0.741 0.327
Entity Grid 0.845 0.346
Entity Graph 0.725 0.260
Ïðîïîíîâàíèé ìåòîä, � � 0.4 0.900 0.370
ÑÏÈÑÎÊ Ë²ÒÅÐÀÒÓÐÈ
1. Kurdi M. Natural language processing and computational linguistics 2: Semantics, discourse and
applications. John Wiley & Sons, 2018. 316 p.
2. Poulimenou S., Stamou S., Papavlasopoulos S., Poulos M. Short text coherence hypothesis. Journal
of Quantitative Linguistics. 2016. Vol. 23, Iss. 2. P. 191–210. https://doi.org/10.1080/09296174.
2016.1142328.
3. Marchenko O., Radyvonenko O., Ignatova T., Titarchuk P., Zhelezniakov D. Improving text
generation through introducing coherence metrics. Cybernetics and Systems Analysis. 2020.Vol. 56,
N 1, P. 13–21. https://doi.org/10.1007/s10559-020-00216-x.
4. Pogorilyy S., Kramov A. Automated extraction of structured information from a variety of web
pages. Proc. 11th International Conference of Programming UkrPROG 2018 (22–24 May 2018,
Kyiv, Ukraine). Kyiv, Ukraine, 2018. P. 149–158.
5. Barzilay R., Lapata M. Modeling local coherence: an entity-based approach. Computational
Linguistics. 2008. Vol. 34, N 1, P. 1–34. https://doi.org/10.1162/coli.2008.34.1.1.
6. Mesgar M., Strube M. Normalized entity graph for computing local coherence. Proc. TextGraphs-9:
the workshop on Graph-based Methods for Natural Language Processing (29 October 2014, Doha,
Quatar). Doha, Quatar, 2014. P. 1–5. https://doi.org/10.3115/v1/w14-3701.
7. Li J., Hovy E. A model of coherence based on distributed sentence representation. Proc. 2014
Conference on Empirical Methods in Natural Language Processing (EMNLP) (25–29 October 2014,
Doha, Quatar). Doha, Quatar, 2014. P. 2039–2048, 2014. https://doi.org/10.3115/v1/d14-1218.
8. Cui B., Li Y., Zhang Y., Zhang Z. Text coherence analysis based on deep neural network. Proc.
2017 ACM on Conference on Information and Knowledge Management (CIKM’17) (6–10 November
2017, Singapore, Singapore). Singapore, Singapore, 2017. P. 2027–2030. https://doi.org/10.1145/
3132847.3133047.
9. Putra J., Tokunaga T. Evaluating text coherence based on semantic similarity graph. Proc.
TextGraphs-11: the Workshop on Graph-based Methods for Natural Language Processing
(3 November 2017, Vancouver, Canada). Vancouver, Canada, 2017. P. 76–85. 2017. https://doi.org/
10.18653/v1/w17-2410.
10. Giray G., ��Unal�r M. Assessment of text coherence using an ontology-based relatedness measurement
method. Expert Systems. 2019. Vol. 37, N. 3. P. 1–24. https://doi.org/10.1111/exsy.12505.
11. Bohn T., Hu Y., Zhang J., Ling C.X. Learning sentence embeddings for coherence modelling and
beyond. Proc. Recent Advances in Natural Language Processing (2–4 September 2019, Varna,
Bulgaria). Varna, Bulgaria, 2019. P. 151–160. https://doi.org/10.26615/978-954-452-056-4_018.
12. Angeli G., Premkumar M.J.J., Manning C. Leveraging linguistic structure for open domain
information extraction. Proc. 53rd Annual Meeting of the Association for Computational Linguistics
and the 7th International Joint Conference on Natural Language Processing (Vol. 1: Long Papers)
(26–31 July 2015, Beijing, China). Beijing, China, 2015. P. 344–354. https://doi.org/10.3115/
v1/p15-1034.
13. Pogorilyy S., Kramov A. Coreference resolution method using a convolutional neural network. Proc.
2019 IEEE International Conference on Advanced Trends in Information Theory (ATIT) (18–20
December 2019, Kyiv, Ukraine). Kyiv, Ukraine, 2019. P. 397–401. https://doi.org/10.1109/
ATIT49449.2019.9030596.
14. Le Q., Mikolov T. Distributed representations of sentences and documents. Proc. 31st International
Conference on Machine Learning (21–26 June 2014, Beijing, China). Beijing, China, 2014.
P. 1188–1196.
15. Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed representations of words and
phrases and their compositionality. Proc. 26th International Conference on Neural Information
Processing Systems (5–8 December 2013, Lake Tahoe, Nevada, USA). Lake Tahoe, Nevada, USA,
2013. P. 3111–3119.
44 ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6
16. Mikolov T., Grave E., Bojanowski P., Puhrsch C., Joulin A. Advances in pre-training distributed
word representations. Proc. Eleventh International Conference on Language Resources and
Evaluation (LREC 2018) (7–12 May 2018, Miyazaki, Japan). Miyazaki, Japan, 2018. P. 52–55.
17. Pogorilyy S., Kramov A. Method of the coherence evaluation of Ukrainian text. Data Recording,
Storage & Processing. 2018. Vol. 20, N 4. P. 64–75. https://doi.org/10.35681/1560-9189.2018.
20.4.178945.
18. OntoNotes Release 5.0. Linguistic Data Consortium, Catalog.ldc.upenn.edu, 2020. URL: https://
catalog.ldc.upenn.edu/LDC2013T19.
Íàä³éøëà äî ðåäàêö³¿ 13.03.2020
Ñ.Ä. Ïîãîðåëûé, À.À. Êðàìîâ
ÎÖÅÍÊÀ ÊÎÃÅÐÅÍÒÍÎÑÒÈ ÒÅÊÑÒÀ Ñ ÏÎÌÎÙÜÞ ÏÎÑÒÐÎÅÍÈß ÃÐÀÔÀ
ÑÅÌÀÍÒÈ×ÅÑÊÎÉ È ËÅÊÑÈÊÎ-ÃÐÀÌÌÀÒÈ×ÅÑÊÎÉ ÑÎÃËÀÑÎÂÀÍÍÎÑÒÈ
ÑËÎÂÎÑÎ×ÅÒÀÍÈÉ ÏÐÅÄËÎÆÅÍÈÉ
Àííîòàöèÿ. Ïðåäëîæåí ìåòîä îöåíêè êîãåðåíòíîñòè òåêñòîâ ñ ïîìîùüþ
ïîñòðîåíèÿ ãðàôà ñåìàíòè÷åñêîé è ëåêñèêî-ãðàììàòè÷åñêîé ñîãëàñîâàííîñ-
òè ñëîâîñî÷åòàíèé ïðåäëîæåíèé. Îñóùåñòâëåíà ýêñïåðèìåíòàëüíàÿ ïðîâåð-
êà ýôôåêòèâíîñòè ìåòîäà íà àíãëîÿçû÷íîì êîðïóñå. Ïîëó÷åííûå ðåçóëüòà-
òû ðàññ÷èòàííûõ ìåòðèê ïðåäëîæåííîãî ìåòîäà ïðåâûøàþò ñîîòâåòñòâóþ-
ùèå çíà÷åíèÿ äðóãèõ ñîâðåìåííûõ ïîäõîäîâ. Ìåòîä ìîæåò áûòü ïðèìåíåí
ê òåêñòàì äðóãèõ ÿçûêîâ ïóòåì çàìåíû ëèíãâèñòè÷åñêîé ìîäåëè â ñîîò-
âåòñòâèè ñ îñîáåííîñòÿìè êîíêðåòíîãî ÿçûêà.
Êëþ÷åâûå ñëîâà: îáðàáîòêà åñòåñòâåííîãî ÿçûêà, îöåíêà êîãåðåíòíîñòè òåê-
ñòà, äâóäîëüíûé ãðàô ñëîâîñî÷åòàíèé, ìåòîä ðàñ÷åòà êîãåðåíòíîñòè òåêñòîâ
íà îñíîâå ãðàôà, ëåêñèêî-ãðàììàòè÷åñêàÿ ñîãëàñîâàííîñòü ïðåäëîæåíèé.
S.D. Pogorilyy, A.A. Kramov
ASSESSMENT OF TEXT COHERENCE BY CONSTRUCTING THE GRAPH OF SEMANTIC,
LEXICAL AND GRAMMATICAL CONSISTENCY OF PHRASES OF SENTENCES
Abstract. The graph-based method of coherence evaluation of texts based on the
analysis of semantic, grammatical, and lexical consistency of sentence phrases
has been suggested. The experimental verification of the efficiency of the
method has been performed on the English-language corpus. The metrics
obtained can indicate that the suggested method outperforms other
state-of-the-art approaches. The method can be applied to other languages by
replacing the linguistic models according to the features of a certain language.
Keywords: natural language processing, evaluation of text coherence, bipartite
graph of phrases, graph-based method of coherence assessment of texts, lexical
and grammatical consistency of sentences.
Ïîãîð³ëèé Ñåðã³é Äåì’ÿíîâè÷,
äîêòîð òåõí. íàóê, ïðîôåñîð, çàâ³äóâà÷ êàôåäðè Êè¿âñüêîãî íàö³îíàëüíîãî óí³âåðñèòåòó
³ìåí³ Òàðàñà Øåâ÷åíêà, e-mail: sdp77@i.ua.
Êðàìîâ Àðòåì Àíäð³éîâè÷,
àñï³ðàíò Êè¿âñüêîãî íàö³îíàëüíîãî óí³âåðñèòåòó ³ìåí³ Òàðàñà Øåâ÷åíêà,
e-mail: artemkramovphd@knu.ua.
ISSN 1019-5262. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2020, òîì 56, ¹ 6 45
|