Метод розрахунку когерентності українського тексту
Проаналізовано основні методи автоматизованої оцінки когерентності тексту, який написано природною мовою. Запропоновано вдосконалення методу графа семантичної схожості за допомогою попередньої підготовки моделі, а саме здійснення навчання нейронної мережі векторного представлення речень. Проведено е...
Saved in:
| Published in: | Реєстрація, зберігання і обробка даних |
|---|---|
| Date: | 2018 |
| Main Authors: | , |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
Інститут проблем реєстрації інформації НАН України
2018
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/169073 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Метод розрахунку когерентності українського тексту / С.Д. Погорілий, А.А. Крамов // Реєстрація, зберігання і обробка даних. — 2018. — Т. 20, № 4. — С. 64–75. — Бібліогр.: 15 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859667744762363904 |
|---|---|
| author | Погорілий, С.Д. Крамов, А.А. |
| author_facet | Погорілий, С.Д. Крамов, А.А. |
| citation_txt | Метод розрахунку когерентності українського тексту / С.Д. Погорілий, А.А. Крамов // Реєстрація, зберігання і обробка даних. — 2018. — Т. 20, № 4. — С. 64–75. — Бібліогр.: 15 назв. — укр. |
| collection | DSpace DC |
| container_title | Реєстрація, зберігання і обробка даних |
| description | Проаналізовано основні методи автоматизованої оцінки когерентності тексту, який написано природною мовою. Запропоновано вдосконалення методу графа семантичної схожості за допомогою попередньої підготовки моделі, а саме здійснення навчання нейронної мережі векторного представлення речень. Проведено експериментальну перевірку роботи методу графа семантичної схожості та його модифікованих версій на множині україномовних статей наукових журналів різної тематики. Ефективність роботи методу та його модифікацій розраховано за допомогою вирішення типових задач оцінки когерентності тексту: задач розрізнення документів і вставки. На основі отриманих результатів визначено найбільш ефективні модифікацію та параметри методу графа семантичної схожості для оцінки когерентності україномовних текстів.
Проанализированы основные методы автоматизированной оценки когерентности текста, написанного на естественном языке, с помощью подходов, основанных на машинном обучении. Предложено усовершенствование метода графа семантического сходства с помощью предварительной подготовки модели, а именно осуществления обучения нейронной сети векторного представления предложений. Проведена экспериментальная проверка работы метода графа семантического сходства и его модифицированных версий на множестве статей, написанных на украинском языке, научных журналов различной тематики. Эффективность работы метода и его модификаций рассчитана с помощью решения типичных задач оценки когерентности текста: задач различения документов и вставки. На основе полученных результатов определены наиболее эффективные модификации и параметры метода графа семантического сходства для оценки когерентности текстов, написанных на украинском языке.
Due to the growing role of the SEO technologies, it is necessary to perform an automated analysis of the article’s quality. Such an approach helps both to return the most intelligible pages for the user’s query and to raise the web-sites positions to the top of query results. An automated assessment of a coherence is a part of the complex analysis of the text. In this article, main methods for text coherence measurements for Ukrainian languageare analyzed. Expediency of using the semantic similarity graph method in comparison with other methods is explained. It is suggested the improvement of that method by the pretraining of the neural network for vector representations of sentences. Experimental examination of the original method and its modifications is made. Training and examination procedures are made on the corpus of Ukrainian texts, which were previously retrieved from abstracts and full texts of Ukrainian
scientific articles. The testing procedure is implemented by performing of two typical tasks for the text coherence assessment: document discrimination task and insertion task. Accordingly to the analysis it is defined the most effective combination of method’s modification and its parameter for the measurement of the text coherence.
|
| first_indexed | 2025-11-30T12:19:29Z |
| format | Article |
| fulltext |
64
004.83
. . , . .
, 4 , 03022 ,
-
, . -
-
,
. -
-
-
.
-
: .
-
.
: , ,
, , Doc2Vec, -
.
’ -
,
,
AI- . AI- , -
, [1].
( . Natural language processing —
NLP), [2], ’
NLP. NLP : , -
, , ,
. NLP ’ ,
: , , .
-
Google [2, 3]. -
,
© . . , . .
ISSN 1560-9189 , , 2018, . 20, 4 65
, , -
[4].
,
- . -
.
, - ,
[5]. -
: ,
.
’ ; — , -
. -
, . , -
,
, , .
:
.
; ,
, , -
.
, -
.
-
; -
.
. -
— .
, -
.
2008 ,
Entity Grid [6]. ,
( , ) -
. -
( , , -
), ,
. /
/ .
(support vector machine —
SVM). , Entity Grid : 1 —
, 0 — .
. . , . .
66
2013 ,
Entity Graph [7]. Entity Graph
, , ’ -
( Entity Grid,
’ ).
( ). -
. .
-
. -
( , , ).
,
,
.
. -
.
.
,
. -
[8] [9].
« » – « »;
. ,
: Word2Vec, GloVe . -
« » – « » -
. ; -
, . -
: -
/ .
( ) [10].
Entity Graph, .
( , )G V E , V — -
, E — . iv V i - -
is , ije E -
is js .
.
Word2Vec GloVe. , -
1 2, ,..., Mw w w ( M — ),
1 2, ,..., Mw w w . s
s :
1
1 M
k
kM
s w . (1)
ISSN 1560-9189 , , 2018, . 20, 4 67
:
PAV, SSV, MSV.
PAV (preceding adjacent vertex — ) -
, 0; -
.
:
sim( , ) uot( , ) (1 ) cos( , )i j i j i js s s s s s , (2)
uot — is js
; cos( , )i js s —
; — , 0,1 .
PAV, SSV (single similar vertex — -
) ,
. -
, 1.
, .
, , -
:
(3)
PAV SSV
-
, -
, . MSV (mul-
tiple similar vertex — -
) : -
-
, ( . (3))
.
.
-
. 1.
ct -
:
1 1
1 1 weight( )
iLN
c ik
i ki
t e
N L
, (4)
cos( , )
weight( ) .i j
ije
i j
s s
. 1.
. . , . .
68
N — ; iL — ,
iv . ct ( [0,1] ) -
.
( , Entity Graph)
,
. « »,
. , Entity Graph,
: Entity Graph -
. -
-
. ,
,
.
, , —
.
. -
, (PAV, SSV,
MSV) .
,
( . (1)). -
Word2Vec GloVe.
-
, ’ , -
. , :
— , -
, ;
— ,
;
— .
, . , -
.
( , -
). , ,
, , , -
; ,
.
— Doc2Vec [11]. -
ISSN 1560-9189 , , 2018, . 20, 4 69
Doc2Vec , -
, ( ). -
-
.
« », -
, . [11]
Doc2Vec: Distributed Bag of Words (DBOW) Distributed Memo-
ry (DM). : DM,
DBOW, . -
’ DM DBOW.
’ DBOW DM ( DBOW+DM),
Doc2Vec .
-
:
— ;
— ;
— ;
— -
.
-
Word2Vec, DBOW DM. -
,
lang-uk [4].
lang-uk
, , , « -
». , ,
. -
, -
. -
.
PDF- , -
,
.
, HTML- . -
, ,
, -
, , ’ -
. -
, PDF- . -
, -
Python 3.6. HTML- PDF-
. . , . .
70
, HTTP- [12, 13]. -
266 - , -
« » « ».
, - ,
, -
langdetect,
Google.
-
, : 1) ; 2) -
; 3) .
-
- . —
. -
, — ( -
« ?»). , Python
. , ,
, -
lang-uk. Groovy,
« » Python
.
. -
74 180 ;
355 537. -
PDF- .
, -
— - Science Parse [14]. -
1000 .
Word2Vec, DBOW DM -
,
Python 3.6. -
Word2Vec Doc2Vec genism [15]. -
Cython. -
:
1) — 300;
2) — 50;
3) « » — 10;
4) — 1.
-
: Intel Core i7-7700 (3,6–4,2 ) / RAM 32 / SSD. -
— Word2Vec, DBOW, DM — -
’ -
.
ISSN 1560-9189 , , 2018, . 20, 4 71
Python 3.6. -
3 ,
: PAV, SSV, MSV. ,
. -
( -
) . PAV
MSV : -
PAV MSV. -
,
.
( . document discrimination task — DDT)
:
; , -
.
, , .
DDTS :
correct
DDT
total
NS
N
, (5)
correctN — ; totalN —
.
PAV -
0,1. -
MSV. -
-
. -
SSV, PAV MSV -
.
. . 2
PAV.
PAV
;
( , ,
) . -
, Doc2Vec -
, Word2Vec. -
DBOW+DM (
Word2Vec 0 ’ -
),
DBOW
DBOW+DM. . 3 -
. . , . .
72
MSV. -
-
. ’
,
0 .
DM. -
DBOW+DM, , PAV
SSV, MSV .
PAV 0,8 DBOW 0,661 DM 0,532
SSV – DBOW+DM 0,628 DBOW+DM 0,227
MSV 0 DM 0,808 DM 0,76
. 2.
PAV
. 3.
MSV
ISSN 1560-9189 , , 2018, . 20, 4 73
. ( . insertion
task — IT) : ; -
.
.
.
, -
. ITS ,
:
correct
IT
total
NS
N
, (6)
correctN — ; totalN —
.
. -
PAV MSV . . 4
PAV. Word2Vec, Doc2Vec -
. DM. -
,
PAV .
. 5
MSV. -
DM, DBOW+DM -
. , -
MSV, -
: , , -
.
. 4.
PAV
. . , . .
74
. 5.
MSV
, :
— ,
MSV 0 ,
DM;
— SSV
,
’ ,
;
— PAV 0,5 -
;
—
MSV ’ -
, ; -
Word2Vec -
, ;
— DBOW+DM
PAV SSV, ’ ;
,
’ ,
;
— ’ -
( , , , ’ ) -
, -
.
1. Raymond E.S. The new hacker's dictionary. Mit Press, 1996. 568 p.
ISSN 1560-9189 , , 2018, . 20, 4 75
2. Publications — The Stanford Natural Language Processing Group. URL: https://nlp.stanford.edu/
pubs ( : 08.12.2018).
3. Publications — Google AI. URL: https://ai.google/research/pubs ( : 08.12.2018).
4. Homepage: lang-uk. URL: http://lang.org.ua ( : 02.12.2018).
5. . . ' . -
. . . 10:
. 2010. . 6. C. 119–123.
6. Barzilay R., Lapata M. Modeling local coherence: An entity-based approach. Computational
Linguistics. 2008. Vol. 34, No 1. P. 1–34.
7. Guinaudeau C., Strube M. Graph-based local coherence modeling. Proceedings of the 51st An-
nual Meeting of the Association for Computational Linguistics. 2013. Vol. 1. P. 93–103.
8. Li J., Hovy E. A model of coherence based on distributed sentence representation. Proceedings
of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014.
P. 2039–2048.
9. Cui B., Li Y., Zhang Y., Zhang Z. Text Coherence Analysis Based on Deep Neural Network.
Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. 2017.
P. 2027–2030.
10. Putra J.W.G., Tokunaga T. Evaluating text coherence based on semantic similarity graph. Pro-
ceedings of TextGraphs-11: the Workshop on Graph-based Methods for Natural Language Processing.
2017. P. 76–85.
11. Le Q., Mikolov T. Distributed representations of sentences and documents. International Con-
ference on Machine Learning. 2014. P. 1188–1196.
12. . ., . .
- . . 2018. 2–3. . 149–158.
13. Pogorilyy S., Kramov A. Automated extraction of structured information from a variety of web
pages. Proceedings of the 11th International Conference of Programming UkrPROG 2018. Kyiv, 2018.
P. 149–158.
14. Science Parse Server. URL: https://github.com/allenai/science-parse/blob/master/server/
README.md ( : 08.12.2018).
15. gensim: Topic modelling for humans. URL: https://radimrehurek.com/gensim ( -
: 08.12.2018).
13.12.2018
https://nlp.stanford.edu/
https://ai.google/research/pubs
http://lang.org.ua
https://github.com/allenai/science-parse/blob/master/server/
https://radimrehurek.com/gensim
|
| id | nasplib_isofts_kiev_ua-123456789-169073 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1560-9189 |
| language | Ukrainian |
| last_indexed | 2025-11-30T12:19:29Z |
| publishDate | 2018 |
| publisher | Інститут проблем реєстрації інформації НАН України |
| record_format | dspace |
| spelling | Погорілий, С.Д. Крамов, А.А. 2020-06-03T18:05:38Z 2020-06-03T18:05:38Z 2018 Метод розрахунку когерентності українського тексту / С.Д. Погорілий, А.А. Крамов // Реєстрація, зберігання і обробка даних. — 2018. — Т. 20, № 4. — С. 64–75. — Бібліогр.: 15 назв. — укр. 1560-9189 DOI: https://doi.org/10.35681/1560-9189.2018.20.4.178945 https://nasplib.isofts.kiev.ua/handle/123456789/169073 004.83 Проаналізовано основні методи автоматизованої оцінки когерентності тексту, який написано природною мовою. Запропоновано вдосконалення методу графа семантичної схожості за допомогою попередньої підготовки моделі, а саме здійснення навчання нейронної мережі векторного представлення речень. Проведено експериментальну перевірку роботи методу графа семантичної схожості та його модифікованих версій на множині україномовних статей наукових журналів різної тематики. Ефективність роботи методу та його модифікацій розраховано за допомогою вирішення типових задач оцінки когерентності тексту: задач розрізнення документів і вставки. На основі отриманих результатів визначено найбільш ефективні модифікацію та параметри методу графа семантичної схожості для оцінки когерентності україномовних текстів. Проанализированы основные методы автоматизированной оценки когерентности текста, написанного на естественном языке, с помощью подходов, основанных на машинном обучении. Предложено усовершенствование метода графа семантического сходства с помощью предварительной подготовки модели, а именно осуществления обучения нейронной сети векторного представления предложений. Проведена экспериментальная проверка работы метода графа семантического сходства и его модифицированных версий на множестве статей, написанных на украинском языке, научных журналов различной тематики. Эффективность работы метода и его модификаций рассчитана с помощью решения типичных задач оценки когерентности текста: задач различения документов и вставки. На основе полученных результатов определены наиболее эффективные модификации и параметры метода графа семантического сходства для оценки когерентности текстов, написанных на украинском языке. Due to the growing role of the SEO technologies, it is necessary to perform an automated analysis of the article’s quality. Such an approach helps both to return the most intelligible pages for the user’s query and to raise the web-sites positions to the top of query results. An automated assessment of a coherence is a part of the complex analysis of the text. In this article, main methods for text coherence measurements for Ukrainian languageare analyzed. Expediency of using the semantic similarity graph method in comparison with other methods is explained. It is suggested the improvement of that method by the pretraining of the neural network for vector representations of sentences. Experimental examination of the original method and its modifications is made. Training and examination procedures are made on the corpus of Ukrainian texts, which were previously retrieved from abstracts and full texts of Ukrainian scientific articles. The testing procedure is implemented by performing of two typical tasks for the text coherence assessment: document discrimination task and insertion task. Accordingly to the analysis it is defined the most effective combination of method’s modification and its parameter for the measurement of the text coherence. uk Інститут проблем реєстрації інформації НАН України Реєстрація, зберігання і обробка даних Інформаційно-аналітичні системи обробки даних Метод розрахунку когерентності українського тексту Метод расчета когерентности украинского текста Method of the coherence evaluation of Ukrainian text Article published earlier |
| spellingShingle | Метод розрахунку когерентності українського тексту Погорілий, С.Д. Крамов, А.А. Інформаційно-аналітичні системи обробки даних |
| title | Метод розрахунку когерентності українського тексту |
| title_alt | Метод расчета когерентности украинского текста Method of the coherence evaluation of Ukrainian text |
| title_full | Метод розрахунку когерентності українського тексту |
| title_fullStr | Метод розрахунку когерентності українського тексту |
| title_full_unstemmed | Метод розрахунку когерентності українського тексту |
| title_short | Метод розрахунку когерентності українського тексту |
| title_sort | метод розрахунку когерентності українського тексту |
| topic | Інформаційно-аналітичні системи обробки даних |
| topic_facet | Інформаційно-аналітичні системи обробки даних |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/169073 |
| work_keys_str_mv | AT pogoríliisd metodrozrahunkukogerentnostíukraínsʹkogotekstu AT kramovaa metodrozrahunkukogerentnostíukraínsʹkogotekstu AT pogoríliisd metodrasčetakogerentnostiukrainskogoteksta AT kramovaa metodrasčetakogerentnostiukrainskogoteksta AT pogoríliisd methodofthecoherenceevaluationofukrainiantext AT kramovaa methodofthecoherenceevaluationofukrainiantext |