Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media

The purpose of the study is to review and systematize current text analytics and natural language processing methods for knowledge extraction from unstructured social media content, with a focus on Ukrainian-language sources.A comparative analysis of topic modelling methods (LSA, NMF, LDA, HDP, Top2...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2026
Автори:	Terentiev, Oleksandr, Abroskin, Yurii, Duda, Volodymyr, Prosyankina-Zharova, Tetyana
Формат:	Стаття
Мова:	Українська
Опубліковано:	Kyiv National University of Construction and Architecture 2026
Теми:	text analytics data processing Coherence Score F1-score LSA NMF LDA Top2Vec BERTopic OSINT
Онлайн доступ:	https://es-journal.in.ua/article/view/358171
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Environmental safety and natural resources

Репозитарії

Environmental safety and natural resources

_version_	1866301509724012544
author	Terentiev, Oleksandr Abroskin, Yurii Duda, Volodymyr Prosyankina-Zharova, Tetyana
author_facet	Terentiev, Oleksandr Abroskin, Yurii Duda, Volodymyr Prosyankina-Zharova, Tetyana
author_sort	Terentiev, Oleksandr
baseUrl_str	http://es-journal.in.ua/oai
collection	OJS
datestamp_date	2026-05-20T08:14:07Z
description	The purpose of the study is to review and systematize current text analytics and natural language processing methods for knowledge extraction from unstructured social media content, with a focus on Ukrainian-language sources.A comparative analysis of topic modelling methods (LSA, NMF, LDA, HDP, Top2Vec, BERTopic), ontology construction approaches, OSINT data collection tools, and the F1 evaluation metric for named entity recognition tasks was conducted.Comparative analysis of four topic modelling methods applied to real Twitter datasets demonstrated that BERTopic (coherence score 0.62) outperforms LDA (0.45) and Top2Vec (0.56) for short texts; the NER-UK 2.0 corpus provides a baseline solution for Ukrainian named entity recognition with an F1 score of 0.89.Theoretically, the selection of methods that take into account the temporal dynamics of topics is justified. Practically, five-block pipeline architecture for knowledge extraction from Ukrainian-language social media is proposed.The originality of the work lies in the adaptation of the Methontology-based approach to ontology generation for short unstructured Ukrainian-language texts.Further prospects include practical implementation and validation of the proposed pipeline on real Ukrainian social media datasets.
doi_str_mv	10.32347/2411-4049.2026.1.161-170
first_indexed	2026-04-21T01:00:08Z
format	Article
id	es-journalinua-article-358171
institution	Environmental safety and natural resources
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2026-05-21T01:00:09Z
publishDate	2026
publisher	Kyiv National University of Construction and Architecture
record_format	ojs
spelling	es-journalinua-article-3581712026-05-20T08:14:07Z Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media Аналіз методів текстової аналітики для видобування знань з україномовного контенту соціальних мереж Terentiev, Oleksandr Abroskin, Yurii Duda, Volodymyr Prosyankina-Zharova, Tetyana текстова аналітика обробка даних коефіцієнт узгодженості тем F1-метрика LSA NMF LDA Top2Vec BERTopic OSINT text analytics data processing Coherence Score F1-score LSA NMF LDA Top2Vec BERTopic OSINT The purpose of the study is to review and systematize current text analytics and natural language processing methods for knowledge extraction from unstructured social media content, with a focus on Ukrainian-language sources.A comparative analysis of topic modelling methods (LSA, NMF, LDA, HDP, Top2Vec, BERTopic), ontology construction approaches, OSINT data collection tools, and the F1 evaluation metric for named entity recognition tasks was conducted.Comparative analysis of four topic modelling methods applied to real Twitter datasets demonstrated that BERTopic (coherence score 0.62) outperforms LDA (0.45) and Top2Vec (0.56) for short texts; the NER-UK 2.0 corpus provides a baseline solution for Ukrainian named entity recognition with an F1 score of 0.89.Theoretically, the selection of methods that take into account the temporal dynamics of topics is justified. Practically, five-block pipeline architecture for knowledge extraction from Ukrainian-language social media is proposed.The originality of the work lies in the adaptation of the Methontology-based approach to ontology generation for short unstructured Ukrainian-language texts.Further prospects include practical implementation and validation of the proposed pipeline on real Ukrainian social media datasets. Мета дослідження полягає в аналізі та систематизації сучасних методів текстової аналітики для видобування знань із соціальних мереж з акцентом на україномовний контент. Було виконано порівняльний аналіз шести методів тематичного моделювання (LSA, NMF, LDA, HDP, Top2Vec, BERTopic), підходів до побудови онтологій та графів знань, інструментів OSINT, а також метрики F1 для оцінювання завдань розпізнавання іменованих сутностей.Порівняльний аналіз методів тематичного моделювання на реальних наборах повідомлень показав, що BERTopic (когерентність 0,62) перевищує LDA (0,45) і Top2Vec (0,56) на коротких текстах; корпус NER-UK 2.0 забезпечує базове рішення NER для української мови з точністю F1 = 0,89.Теоретично обґрунтовано вибір методів з урахуванням часової динаміки тем, для подальшого використання в дисертаційному дослідженні. Запропоновано концептуальну архітектуру п’ятиблокового конвеєру, для практичного використання.Оригінальність дослідження полягає в адаптації загальновідомого підходу під назвою Methontology до генерації онтологій для коротких неструктурованих україномовних текстів.Перспективи подальшої роботи – практична реалізація та апробація конвеєру на реальних даних україномовних соціальних мереж. Kyiv National University of Construction and Architecture 2026-03-16 Article Article application/pdf https://es-journal.in.ua/article/view/358171 10.32347/2411-4049.2026.1.161-170 Environmental safety and natural resources; Vol. 57 No. 1 (2026): Environmental safety and natural resources; 161-170 Екологічна безпека та природокористування; Том 57 № 1 (2026): Екологічна безпека та природокористування; 161-170 2616-2121 2411-4049 10.32347/2411-4049.2026.1 uk https://es-journal.in.ua/article/view/358171/344097 Copyright (c) 2026 Oleksandr Terentiev, Yurii Abroskin, Volodymyr Duda, Tetyana Prosyankina-Zharova http://creativecommons.org/licenses/by/4.0
spellingShingle	text analytics data processing Coherence Score F1-score LSA NMF LDA Top2Vec BERTopic OSINT Terentiev, Oleksandr Abroskin, Yurii Duda, Volodymyr Prosyankina-Zharova, Tetyana Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title	Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title_alt	Аналіз методів текстової аналітики для видобування знань з україномовного контенту соціальних мереж
title_full	Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title_fullStr	Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title_full_unstemmed	Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title_short	Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
title_sort	analysis of text analytics methods for knowledge extraction from ukrainian-language social media
topic	text analytics data processing Coherence Score F1-score LSA NMF LDA Top2Vec BERTopic OSINT
topic_facet	текстова аналітика обробка даних коефіцієнт узгодженості тем F1-метрика LSA NMF LDA Top2Vec BERTopic OSINT text analytics data processing Coherence Score F1-score LSA NMF LDA Top2Vec BERTopic OSINT
url	https://es-journal.in.ua/article/view/358171
work_keys_str_mv	AT terentievoleksandr analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia AT abroskinyurii analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia AT dudavolodymyr analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia AT prosyankinazharovatetyana analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia AT terentievoleksandr analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež AT abroskinyurii analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež AT dudavolodymyr analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež AT prosyankinazharovatetyana analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež

Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media

Репозитарії

Схожі ресурси