Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media

The purpose of the study is to review and systematize current text analytics and natural language processing methods for knowledge extraction from unstructured social media content, with a focus on Ukrainian-language sources.A comparative analysis of topic modelling methods (LSA, NMF, LDA, HDP, Top2...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2026
Hauptverfasser: Terentiev, Oleksandr, Abroskin, Yurii, Duda, Volodymyr, Prosyankina-Zharova, Tetyana
Format: Artikel
Sprache:Ukrainisch
Veröffentlicht: Kyiv National University of Construction and Architecture 2026
Schlagworte:
Online Zugang:https://es-journal.in.ua/article/view/358171
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Environmental safety and natural resources

Institution

Environmental safety and natural resources
_version_ 1863039801187368960
author Terentiev, Oleksandr
Abroskin, Yurii
Duda, Volodymyr
Prosyankina-Zharova, Tetyana
author_facet Terentiev, Oleksandr
Abroskin, Yurii
Duda, Volodymyr
Prosyankina-Zharova, Tetyana
author_sort Terentiev, Oleksandr
baseUrl_str http://es-journal.in.ua/oai
collection OJS
datestamp_date 2026-04-20T15:28:04Z
description The purpose of the study is to review and systematize current text analytics and natural language processing methods for knowledge extraction from unstructured social media content, with a focus on Ukrainian-language sources.A comparative analysis of topic modelling methods (LSA, NMF, LDA, HDP, Top2Vec, BERTopic), ontology construction approaches, OSINT data collection tools, and the F1 evaluation metric for named entity recognition tasks was conducted.Comparative analysis of four topic modelling methods applied to real Twitter datasets demonstrated that BERTopic (coherence score 0.62) outperforms LDA (0.45) and Top2Vec (0.56) for short texts; the NER-UK 2.0 corpus provides a baseline solution for Ukrainian named entity recognition with an F1 score of 0.89.Theoretically, the selection of methods that take into account the temporal dynamics of topics is justified. Practically, five-block pipeline architecture for knowledge extraction from Ukrainian-language social media is proposed.The originality of the work lies in the adaptation of the Methontology-based approach to ontology generation for short unstructured Ukrainian-language texts.Further prospects include practical implementation and validation of the proposed pipeline on real Ukrainian social media datasets.
doi_str_mv 10.32347/2411-4049.2026.1.161-170
first_indexed 2026-04-21T01:00:08Z
format Article
id es-journalinua-article-358171
institution Environmental safety and natural resources
keywords_txt_mv keywords
language Ukrainian
last_indexed 2026-04-21T01:00:08Z
publishDate 2026
publisher Kyiv National University of Construction and Architecture
record_format ojs
spelling es-journalinua-article-3581712026-04-20T15:28:04Z Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media Аналіз методів текстової аналітики для видобування знань з україномовного контенту соціальних мереж Terentiev, Oleksandr Abroskin, Yurii Duda, Volodymyr Prosyankina-Zharova, Tetyana текстова аналітика обробка даних коефіцієнт узгодженості тем F1-метрика LSA NMF LDA Top2Vec BERTopic OSINT text analytics data processing Coherence Score F1-score LSA NMF LDA Top2Vec BERTopic OSINT The purpose of the study is to review and systematize current text analytics and natural language processing methods for knowledge extraction from unstructured social media content, with a focus on Ukrainian-language sources.A comparative analysis of topic modelling methods (LSA, NMF, LDA, HDP, Top2Vec, BERTopic), ontology construction approaches, OSINT data collection tools, and the F1 evaluation metric for named entity recognition tasks was conducted.Comparative analysis of four topic modelling methods applied to real Twitter datasets demonstrated that BERTopic (coherence score 0.62) outperforms LDA (0.45) and Top2Vec (0.56) for short texts; the NER-UK 2.0 corpus provides a baseline solution for Ukrainian named entity recognition with an F1 score of 0.89.Theoretically, the selection of methods that take into account the temporal dynamics of topics is justified. Practically, five-block pipeline architecture for knowledge extraction from Ukrainian-language social media is proposed.The originality of the work lies in the adaptation of the Methontology-based approach to ontology generation for short unstructured Ukrainian-language texts.Further prospects include practical implementation and validation of the proposed pipeline on real Ukrainian social media datasets. Мета дослідження полягає в аналізі та систематизації сучасних методів текстової аналітики для видобування знань із соціальних мереж з акцентом на україномовний контент. Було виконано порівняльний аналіз шести методів тематичного моделювання (LSA, NMF, LDA, HDP, Top2Vec, BERTopic), підходів до побудови онтологій та графів знань, інструментів OSINT, а також метрики F1 для оцінювання завдань розпізнавання іменованих сутностей.Порівняльний аналіз методів тематичного моделювання на реальних наборах повідомлень показав, що BERTopic (когерентність 0,62) перевищує LDA (0,45) і Top2Vec (0,56) на коротких текстах; корпус NER-UK 2.0 забезпечує базове рішення NER для української мови з точністю F1 = 0,89.Теоретично обґрунтовано вибір методів з урахуванням часової динаміки тем, для подальшого використання в дисертаційному дослідженні. Запропоновано концептуальну архітектуру п’ятиблокового конвеєру, для практичного використання.Оригінальність дослідження полягає в адаптації загальновідомого підходу під назвою Methontology до генерації онтологій для коротких неструктурованих україномовних текстів.Перспективи подальшої роботи – практична реалізація та апробація конвеєру на реальних даних україномовних соціальних мереж. Kyiv National University of Construction and Architecture 2026-04-03 Article Article application/pdf https://es-journal.in.ua/article/view/358171 10.32347/2411-4049.2026.1.161-170 Environmental safety and natural resources; Vol. 57 No. 1 (2026): Environmental safety and natural resources; 161-170 Екологічна безпека та природокористування; Том 57 № 1 (2026): Екологічна безпека та природокористування; 161-170 2616-2121 2411-4049 10.32347/2411-4049.2026.1 uk https://es-journal.in.ua/article/view/358171/344097 Copyright (c) 2026 О.М. Терентьєв, Ю.Ю. Аброскін, В.О. Дуда, Т.І. Просянкіна-Жарова http://creativecommons.org/licenses/by/4.0
spellingShingle text analytics
data processing
Coherence Score
F1-score
LSA
NMF
LDA
Top2Vec
BERTopic
OSINT
Terentiev, Oleksandr
Abroskin, Yurii
Duda, Volodymyr
Prosyankina-Zharova, Tetyana
Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title_alt Аналіз методів текстової аналітики для видобування знань з україномовного контенту соціальних мереж
title_full Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title_fullStr Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title_full_unstemmed Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title_short Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title_sort analysis of text analytics methods for knowledge extraction from ukrainian-language social media
topic text analytics
data processing
Coherence Score
F1-score
LSA
NMF
LDA
Top2Vec
BERTopic
OSINT
topic_facet текстова аналітика
обробка даних
коефіцієнт узгодженості тем
F1-метрика
LSA
NMF
LDA
Top2Vec
BERTopic
OSINT
text analytics
data processing
Coherence Score
F1-score
LSA
NMF
LDA
Top2Vec
BERTopic
OSINT
url https://es-journal.in.ua/article/view/358171
work_keys_str_mv AT terentievoleksandr analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia
AT abroskinyurii analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia
AT dudavolodymyr analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia
AT prosyankinazharovatetyana analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia
AT terentievoleksandr analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež
AT abroskinyurii analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež
AT dudavolodymyr analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež
AT prosyankinazharovatetyana analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež