Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media
The purpose of the study is to review and systematize current text analytics and natural language processing methods for knowledge extraction from unstructured social media content, with a focus on Ukrainian-language sources.A comparative analysis of topic modelling methods (LSA, NMF, LDA, HDP, Top2...
Gespeichert in:
| Datum: | 2026 |
|---|---|
| Hauptverfasser: | , , , |
| Format: | Artikel |
| Sprache: | Ukrainisch |
| Veröffentlicht: |
Kyiv National University of Construction and Architecture
2026
|
| Schlagworte: | |
| Online Zugang: | https://es-journal.in.ua/article/view/358171 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Environmental safety and natural resources |
Institution
Environmental safety and natural resources| _version_ | 1863039801187368960 |
|---|---|
| author | Terentiev, Oleksandr Abroskin, Yurii Duda, Volodymyr Prosyankina-Zharova, Tetyana |
| author_facet | Terentiev, Oleksandr Abroskin, Yurii Duda, Volodymyr Prosyankina-Zharova, Tetyana |
| author_sort | Terentiev, Oleksandr |
| baseUrl_str | http://es-journal.in.ua/oai |
| collection | OJS |
| datestamp_date | 2026-04-20T15:28:04Z |
| description | The purpose of the study is to review and systematize current text analytics and natural language processing methods for knowledge extraction from unstructured social media content, with a focus on Ukrainian-language sources.A comparative analysis of topic modelling methods (LSA, NMF, LDA, HDP, Top2Vec, BERTopic), ontology construction approaches, OSINT data collection tools, and the F1 evaluation metric for named entity recognition tasks was conducted.Comparative analysis of four topic modelling methods applied to real Twitter datasets demonstrated that BERTopic (coherence score 0.62) outperforms LDA (0.45) and Top2Vec (0.56) for short texts; the NER-UK 2.0 corpus provides a baseline solution for Ukrainian named entity recognition with an F1 score of 0.89.Theoretically, the selection of methods that take into account the temporal dynamics of topics is justified. Practically, five-block pipeline architecture for knowledge extraction from Ukrainian-language social media is proposed.The originality of the work lies in the adaptation of the Methontology-based approach to ontology generation for short unstructured Ukrainian-language texts.Further prospects include practical implementation and validation of the proposed pipeline on real Ukrainian social media datasets. |
| doi_str_mv | 10.32347/2411-4049.2026.1.161-170 |
| first_indexed | 2026-04-21T01:00:08Z |
| format | Article |
| id | es-journalinua-article-358171 |
| institution | Environmental safety and natural resources |
| keywords_txt_mv | keywords |
| language | Ukrainian |
| last_indexed | 2026-04-21T01:00:08Z |
| publishDate | 2026 |
| publisher | Kyiv National University of Construction and Architecture |
| record_format | ojs |
| spelling | es-journalinua-article-3581712026-04-20T15:28:04Z Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media Аналіз методів текстової аналітики для видобування знань з україномовного контенту соціальних мереж Terentiev, Oleksandr Abroskin, Yurii Duda, Volodymyr Prosyankina-Zharova, Tetyana текстова аналітика обробка даних коефіцієнт узгодженості тем F1-метрика LSA NMF LDA Top2Vec BERTopic OSINT text analytics data processing Coherence Score F1-score LSA NMF LDA Top2Vec BERTopic OSINT The purpose of the study is to review and systematize current text analytics and natural language processing methods for knowledge extraction from unstructured social media content, with a focus on Ukrainian-language sources.A comparative analysis of topic modelling methods (LSA, NMF, LDA, HDP, Top2Vec, BERTopic), ontology construction approaches, OSINT data collection tools, and the F1 evaluation metric for named entity recognition tasks was conducted.Comparative analysis of four topic modelling methods applied to real Twitter datasets demonstrated that BERTopic (coherence score 0.62) outperforms LDA (0.45) and Top2Vec (0.56) for short texts; the NER-UK 2.0 corpus provides a baseline solution for Ukrainian named entity recognition with an F1 score of 0.89.Theoretically, the selection of methods that take into account the temporal dynamics of topics is justified. Practically, five-block pipeline architecture for knowledge extraction from Ukrainian-language social media is proposed.The originality of the work lies in the adaptation of the Methontology-based approach to ontology generation for short unstructured Ukrainian-language texts.Further prospects include practical implementation and validation of the proposed pipeline on real Ukrainian social media datasets. Мета дослідження полягає в аналізі та систематизації сучасних методів текстової аналітики для видобування знань із соціальних мереж з акцентом на україномовний контент. Було виконано порівняльний аналіз шести методів тематичного моделювання (LSA, NMF, LDA, HDP, Top2Vec, BERTopic), підходів до побудови онтологій та графів знань, інструментів OSINT, а також метрики F1 для оцінювання завдань розпізнавання іменованих сутностей.Порівняльний аналіз методів тематичного моделювання на реальних наборах повідомлень показав, що BERTopic (когерентність 0,62) перевищує LDA (0,45) і Top2Vec (0,56) на коротких текстах; корпус NER-UK 2.0 забезпечує базове рішення NER для української мови з точністю F1 = 0,89.Теоретично обґрунтовано вибір методів з урахуванням часової динаміки тем, для подальшого використання в дисертаційному дослідженні. Запропоновано концептуальну архітектуру п’ятиблокового конвеєру, для практичного використання.Оригінальність дослідження полягає в адаптації загальновідомого підходу під назвою Methontology до генерації онтологій для коротких неструктурованих україномовних текстів.Перспективи подальшої роботи – практична реалізація та апробація конвеєру на реальних даних україномовних соціальних мереж. Kyiv National University of Construction and Architecture 2026-04-03 Article Article application/pdf https://es-journal.in.ua/article/view/358171 10.32347/2411-4049.2026.1.161-170 Environmental safety and natural resources; Vol. 57 No. 1 (2026): Environmental safety and natural resources; 161-170 Екологічна безпека та природокористування; Том 57 № 1 (2026): Екологічна безпека та природокористування; 161-170 2616-2121 2411-4049 10.32347/2411-4049.2026.1 uk https://es-journal.in.ua/article/view/358171/344097 Copyright (c) 2026 О.М. Терентьєв, Ю.Ю. Аброскін, В.О. Дуда, Т.І. Просянкіна-Жарова http://creativecommons.org/licenses/by/4.0 |
| spellingShingle | text analytics data processing Coherence Score F1-score LSA NMF LDA Top2Vec BERTopic OSINT Terentiev, Oleksandr Abroskin, Yurii Duda, Volodymyr Prosyankina-Zharova, Tetyana Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media |
| title | Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media |
| title_alt | Аналіз методів текстової аналітики для видобування знань з україномовного контенту соціальних мереж |
| title_full | Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media |
| title_fullStr | Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media |
| title_full_unstemmed | Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media |
| title_short | Analysis of text analytics methods for knowledge extraction from Ukrainian-language social media |
| title_sort | analysis of text analytics methods for knowledge extraction from ukrainian-language social media |
| topic | text analytics data processing Coherence Score F1-score LSA NMF LDA Top2Vec BERTopic OSINT |
| topic_facet | текстова аналітика обробка даних коефіцієнт узгодженості тем F1-метрика LSA NMF LDA Top2Vec BERTopic OSINT text analytics data processing Coherence Score F1-score LSA NMF LDA Top2Vec BERTopic OSINT |
| url | https://es-journal.in.ua/article/view/358171 |
| work_keys_str_mv | AT terentievoleksandr analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia AT abroskinyurii analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia AT dudavolodymyr analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia AT prosyankinazharovatetyana analysisoftextanalyticsmethodsforknowledgeextractionfromukrainianlanguagesocialmedia AT terentievoleksandr analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež AT abroskinyurii analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež AT dudavolodymyr analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež AT prosyankinazharovatetyana analízmetodívtekstovoíanalítikidlâvidobuvannâznanʹzukraínomovnogokontentusocíalʹnihmerež |