Method for political propaganda detection in internet content using neural network natural language processing tools

The automation of propaganda detection processes in textual Internet content using natura l language processing is extremely relevant in modern conditions and can provide fast and well-timed targeted detection of hostile manipulative influence in largescale amounts of Internet content. The paper pro...

Full description

Saved in:
Bibliographic Details
Date:2024
Main Authors: Krak, Iu.V., Didur, V.O., Molchanova, M.O., Mazurets, O.V., Sobko, O.V., Zalutska, O.O., Barmak, O.V.
Format: Article
Language:Ukrainian
Published: PROBLEMS IN PROGRAMMING 2024
Subjects:
Online Access:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/648
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Problems in programming
Download file: Pdf

Institution

Problems in programming
id pp_isofts_kiev_ua-article-648
record_format ojs
resource_txt_mv ppisoftskievua/2e/ced5575aa5044f4a2113fd9f89dead2e.pdf
spelling pp_isofts_kiev_ua-article-6482025-02-15T13:56:17Z Method for political propaganda detection in internet content using neural network natural language processing tools Метод виявлення політичної пропаганди в інтернет-контенті нейромережевими засобами обробки природної мови Krak, Iu.V. Didur, V.O. Molchanova, M.O. Mazurets, O.V. Sobko, O.V. Zalutska, O.O. Barmak, O.V. propaganda; recurrent neural networks; ensemble of neural networks; natural language processing UDC 004.8 пропаганда; рекурентні нейронні мережі; ансамбль нейронних мереж; обробка природної мови УДК 004.8 The automation of propaganda detection processes in textual Internet content using natura l language processing is extremely relevant in modern conditions and can provide fast and well-timed targeted detection of hostile manipulative influence in largescale amounts of Internet content. The paper proposes a method of automated propaganda detection that operates in the Ukrainian language. The method for detecting political propaganda in Internet content using neural network natural language processing tools is intended to identify and analyze potentially propagandistic or manipulative content spread on the Internet. The input data of the method is an ensemble of trained models of recurrent neural networks with tokenizers and a text message for analysis. The output data are the level and percentage of propaganda presence for each neural network model of ensemble and in general. To examine the effectiveness of developed method for detecting political propaganda in textual Internet content using natural language processing, which includes the ensemble use of recurrent neural network models of the BiLSTM and GRU architectures, a software implementation of the method was created using Python. The software implementation allows training neural network models and using them to detect political propaganda in textual Internet content. The training data set in Ukrainian was prepared. The test training of an ensemble of classifiers based on the BiLSTM and GRU neural network architectures was conducted. The proposed approach is capable of detecting political propaganda by an ensemble of RNN models with Acuracy 0.97, Precision 0.973, Recall 0.981, and F1 0.976 in the discrete approach (bagging), and Acuracy 0.95, Precision 0.977, Recall 0.987, and F1 0.981 in the binary approach (stacking). The developed method has a limitation: it works with text posts from 200 to 6300 characters long. For shorter and longer texts, performance degradation is observed.Prombles in programming 2024; 2-3: 288-295 Автоматизація процесів виявлення пропаганди в текстовому інтернет-контенті засобами обробки природної мови є надзвичайно актуальною в сучасних умовах і здатна забезпечити швидке і своєчасне цільове виявлення ворожого маніпулятивного впливу в масштабних обсягах інтернет-контенту. В статті запропоновано метод автоматизованого виявлення пропаганди, який працює з українською мовою. Метод виявлення політичної пропаганди в інтернет-контенті нейромережевими засобами обробки природної мови призначений для виявлення та аналізу потенційно пропагандистського або маніпулятивного контенту, що поширюється в мережі Інтернет. Вхідними даними методу є ансамбль навчених моделей рекурентних нейронних мереж з токенізаторами і текстовий допис для аналізу. Вихідними даними є рівень і відсоткова оцінка наявності пропаганди як за кожною нейромережевою моделлю ансамбля, так і узагальнено. Для дослідження ефективності розробленого методу виявлення політичної пропаганди в текстовому інтернет-контенті засобами обробки природної мови, що містить ансамблеве використання рекурентних нейромережевих моделей архітектур BiLSTM та GRU, було створено програмну реалізацію методу засобами мови Python. Програмна реалізація дозволяє здійснювати навчання моделей нейронних мереж та використовувати їх для виявлення політичної пропаганди в текстовому інтернетконтенті. Виконано підготовку навчального україномовного набору даних. Проведено тестове навчання ансамблю класифікаторів із нейромережевих архітектур BiLSTM та GRU. Запропонований підхід, здатний визначати політичну пропаганду ансамблем моделей RNN з показниками Acuracy 0.97, Precision 0.973, Recall 0.981 і F1 0.976 за дискретного підходу (беггінг), та Acuracy 0.95, Precision 0.977, Recall 0.987 та F1 0.981 при бінарному підході (стекінг). Розроблений метод має обмеження: працює з текстовими дописами довжиною від 200 до 6300 символів. Для коротших та довших текстів спостерігається погіршення продуктивності.Prombles in programming 2024; 2-3: 288-295 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2024-12-17 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/648 10.15407/pp2024.02-03.288 PROBLEMS IN PROGRAMMING; No 2-3 (2024); 288-295 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2024); 288-295 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2024); 288-295 1727-4907 10.15407/pp2024.02-03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/648/700 Copyright (c) 2024 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2025-02-15T13:56:17Z
collection OJS
language Ukrainian
topic propaganda
recurrent neural networks
ensemble of neural networks
natural language processing
UDC 004.8
spellingShingle propaganda
recurrent neural networks
ensemble of neural networks
natural language processing
UDC 004.8
Krak, Iu.V.
Didur, V.O.
Molchanova, M.O.
Mazurets, O.V.
Sobko, O.V.
Zalutska, O.O.
Barmak, O.V.
Method for political propaganda detection in internet content using neural network natural language processing tools
topic_facet propaganda
recurrent neural networks
ensemble of neural networks
natural language processing
UDC 004.8
пропаганда
рекурентні нейронні мережі
ансамбль нейронних мереж
обробка природної мови
УДК 004.8
format Article
author Krak, Iu.V.
Didur, V.O.
Molchanova, M.O.
Mazurets, O.V.
Sobko, O.V.
Zalutska, O.O.
Barmak, O.V.
author_facet Krak, Iu.V.
Didur, V.O.
Molchanova, M.O.
Mazurets, O.V.
Sobko, O.V.
Zalutska, O.O.
Barmak, O.V.
author_sort Krak, Iu.V.
title Method for political propaganda detection in internet content using neural network natural language processing tools
title_short Method for political propaganda detection in internet content using neural network natural language processing tools
title_full Method for political propaganda detection in internet content using neural network natural language processing tools
title_fullStr Method for political propaganda detection in internet content using neural network natural language processing tools
title_full_unstemmed Method for political propaganda detection in internet content using neural network natural language processing tools
title_sort method for political propaganda detection in internet content using neural network natural language processing tools
title_alt Метод виявлення політичної пропаганди в інтернет-контенті нейромережевими засобами обробки природної мови
description The automation of propaganda detection processes in textual Internet content using natura l language processing is extremely relevant in modern conditions and can provide fast and well-timed targeted detection of hostile manipulative influence in largescale amounts of Internet content. The paper proposes a method of automated propaganda detection that operates in the Ukrainian language. The method for detecting political propaganda in Internet content using neural network natural language processing tools is intended to identify and analyze potentially propagandistic or manipulative content spread on the Internet. The input data of the method is an ensemble of trained models of recurrent neural networks with tokenizers and a text message for analysis. The output data are the level and percentage of propaganda presence for each neural network model of ensemble and in general. To examine the effectiveness of developed method for detecting political propaganda in textual Internet content using natural language processing, which includes the ensemble use of recurrent neural network models of the BiLSTM and GRU architectures, a software implementation of the method was created using Python. The software implementation allows training neural network models and using them to detect political propaganda in textual Internet content. The training data set in Ukrainian was prepared. The test training of an ensemble of classifiers based on the BiLSTM and GRU neural network architectures was conducted. The proposed approach is capable of detecting political propaganda by an ensemble of RNN models with Acuracy 0.97, Precision 0.973, Recall 0.981, and F1 0.976 in the discrete approach (bagging), and Acuracy 0.95, Precision 0.977, Recall 0.987, and F1 0.981 in the binary approach (stacking). The developed method has a limitation: it works with text posts from 200 to 6300 characters long. For shorter and longer texts, performance degradation is observed.Prombles in programming 2024; 2-3: 288-295
publisher PROBLEMS IN PROGRAMMING
publishDate 2024
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/648
work_keys_str_mv AT krakiuv methodforpoliticalpropagandadetectionininternetcontentusingneuralnetworknaturallanguageprocessingtools
AT didurvo methodforpoliticalpropagandadetectionininternetcontentusingneuralnetworknaturallanguageprocessingtools
AT molchanovamo methodforpoliticalpropagandadetectionininternetcontentusingneuralnetworknaturallanguageprocessingtools
AT mazuretsov methodforpoliticalpropagandadetectionininternetcontentusingneuralnetworknaturallanguageprocessingtools
AT sobkoov methodforpoliticalpropagandadetectionininternetcontentusingneuralnetworknaturallanguageprocessingtools
AT zalutskaoo methodforpoliticalpropagandadetectionininternetcontentusingneuralnetworknaturallanguageprocessingtools
AT barmakov methodforpoliticalpropagandadetectionininternetcontentusingneuralnetworknaturallanguageprocessingtools
AT krakiuv metodviâvlennâpolítičnoípropagandivínternetkontentínejromereževimizasobamiobrobkiprirodnoímovi
AT didurvo metodviâvlennâpolítičnoípropagandivínternetkontentínejromereževimizasobamiobrobkiprirodnoímovi
AT molchanovamo metodviâvlennâpolítičnoípropagandivínternetkontentínejromereževimizasobamiobrobkiprirodnoímovi
AT mazuretsov metodviâvlennâpolítičnoípropagandivínternetkontentínejromereževimizasobamiobrobkiprirodnoímovi
AT sobkoov metodviâvlennâpolítičnoípropagandivínternetkontentínejromereževimizasobamiobrobkiprirodnoímovi
AT zalutskaoo metodviâvlennâpolítičnoípropagandivínternetkontentínejromereževimizasobamiobrobkiprirodnoímovi
AT barmakov metodviâvlennâpolítičnoípropagandivínternetkontentínejromereževimizasobamiobrobkiprirodnoímovi
first_indexed 2025-07-17T09:47:30Z
last_indexed 2025-07-17T09:47:30Z
_version_ 1850409845201567744
fulltext 288 Машинне навчання та нейронні мережі УДК 004.8 http://doi.org/10.15407/pp2024.02-03.288 Ю.В. Крак, В.О. Дідур, М.О. Молчанова, О.В. Мазурець, О.В. Собко, О.О. Залуцька, О.В. Бармак МЕТОД ВИЯВЛЕННЯ ПОЛІТИЧНОЇ ПРОПАГАНДИ В ІНТЕРНЕТ-КОНТЕНТІ НЕЙРОМЕРЕЖЕВИМИ ЗАСОБАМИ ОБРОБКИ ПРИРОДНОЇ МОВИ Автоматизація процесів виявлення пропаганди в текстовому інтернет-контенті засобами обробки природної мови є надзвичайно актуальною в сучасних умовах і здатна забезпечити швидке і своєчас- не цільове виявлення ворожого маніпулятивного впливу в масштабних обсягах інтернет-контенту. В статті запропоновано метод автоматизованого виявлення пропаганди, який працює з українською мовою. Метод виявлення політичної пропаганди в інтернет-контенті нейромережевими засобами об- робки природної мови призначений для виявлення та аналізу потенційно пропагандистського або маніпулятивного контенту, що поширюється в мережі Інтернет. Вхідними даними методу є ансамбль навчених моделей рекурентних нейронних мереж з токенізаторами і текстовий допис для аналізу. Вихідними даними є рівень і відсоткова оцінка наявності пропаганди як за кожною нейромережевою моделлю ансамбля, так і узагальнено. Для дослідження ефективності розробленого методу виявлення політичної пропаганди в текстовому інтернет-контенті засобами обробки природної мови, що містить ансамблеве використання рекурен- тних нейромережевих моделей архітектур BiLSTM та GRU, було створено програмну реалізацію ме- тоду засобами мови Python. Програмна реалізація дозволяє здійснювати навчання моделей нейрон- них мереж та використовувати їх для виявлення політичної пропаганди в текстовому інтернет- контенті. Виконано підготовку навчального україномовного набору даних. Проведено тестове навчання ансамблю класифікаторів із нейромережевих архітектур BiLSTM та GRU. Запропонований підхід, здатний визначати політичну пропаганду ансамблем моделей RNN з показниками Acuracy 0.97, Precision 0.973, Recall 0.981 і F1 0.976 за дискретного підходу (беггінг), та Acuracy 0.95, Precision 0.977, Recall 0.987 та F1 0.981 при бінарному підході (стекінг). Розроблений метод має обмеження: працює з текстовими дописами довжиною від 200 до 6300 символів. Для коро- тших та довших текстів спостерігається погіршення продуктивності. Ключові слова: пропаганда, рекурентні нейронні мережі, ансамбль нейронних мереж, обробка при- родної мови. I. Krak, V. Didur, M. Molchanova, O. Mazurets, O. Sobko, O. Zalutska, O. Barmak METHOD FOR POLITICAL PROPAGANDA DETECTION IN INTERNET CONTENT USING NEURAL NETWORK NATURAL LANGUAGE PROCESSING TOOLS The automation of propaganda detection processes in textual Internet content using natura l language pro- cessing is extremely relevant in modern conditions and can provide fast and well-timed targeted detection of hostile manipulative influence in largescale amounts of Internet content. The paper proposes a method of automated propaganda detection that operates in the Ukrainian language. The method for detecting political propaganda in Internet content using neural network natural language processing tools is intended to identi- fy and analyze potentially propagandistic or manipulative content spread on the Internet. The input data of the method is an ensemble of trained models of recurrent neural networks with tokenizers and a text mes- sage for analysis. The output data are the level and percentage of propaganda presence for each neural net- work model of ensemble and in general. To examine the effectiveness of developed method for detecting political propaganda in textual Internet content using natural language processing, which includes the ensemble use of recurrent neural network models of the BiLSTM and GRU architectures, a software implementation of the method was created using Python. The software implementation allows training neural network models and using them to detect polit- ical propaganda in textual Internet content. The training data set in Ukrainian was prepared. The test training of an ensemble of classifiers based on the BiLSTM and GRU neural network arch itectures was conducted. The proposed approach is capable of detecting political propaganda by an ensemble of RNN models with Acuracy 0.97, Precision 0.973, Recall 0.981, and F1 0.976 in the discrete approach (bagging), © Ю.В. Крак, В.О. Дідур, М.О. Молчанова, О.В. Мазурець, О.В. Собко, О.О. Залуцька, О.В. Бармак, 2024 ISSN 1727-4907. Проблеми програмування. 2024. №2-3 289 Машинне навчання та нейронні мережі and Acuracy 0.95, Precision 0.977, Recall 0.987, and F1 0.981 in the binary approach (stacking). The de- veloped method has a limitation: it works with text posts from 200 to 6300 characters long. For shorter and longer texts, performance degradation is observed. Keywords: propaganda, recurrent neural networks, ensemble of neural networks, natural language pro- cessing. Вступ Пропаганда є невід’ємним складни- ком інформаційних маніпуляцій і включає різноманітні форми, методи і засоби впли- ву на людей з метою зміни їхніх психоло- гічних настроїв у бажаному напрямку. То- му її своєчасне виявлення є актуальною задачею інформаційних технологій. Такі маніпуляції часто використовується для зміни психологічного клімату в суспільст- ві, мобілізації підтримки або дискредитації опонентів [1]. Пропаганда, яка розповсюджується в мережі Інтернет, представляє масштабну загрозу для національної безпеки країни. Несвоєчасне запобігання їй може призвес- ти до руйнівних наслідків [2]. Тому авто- матизація процесів виявлення пропаганди у текстовому інтернет-контенті засобами обробки природної мови є надзвичайно ак- туальною у сучасних умовах і здатна за- безпечити швидке та своєчасне цільове ви- явлення ворожого маніпулятивного впливу в масштабних обсягах інтернет- контенту. 1. Аналіз останніх досліджень і публікацій Наукові публікації вітчизняних вчених різнобічно висвітлюють актуаль- ність проблеми автоматизованого вияв- лення пропаганди в текстовому інтернет- контенті. Особливо актуальними наразі є напрямки досліджень, присвячені інтелек- туалізації процесів виявлення пропаганди, що дозволяє уникнути низки технологіч- них проблем щодо моніторингу медіа- джерел [3] та проблемі відділення проявів технік пропаганди від інших маніпулятив- них впливів [4]. Відзначається, що елемен- ти моделі пропаганди включають суб'єкт, зміст, форми і методи, а також засоби або канали передачі інформації. Суб'єктом пропаганди є соціальна група, яка прагне впливати на аудиторію. Зміст пропаганди визначається соціальни- ми інтересами суб'єкта та їх відношенням до інтересів суспільства загалом. Форми і методи пропаганди вибираються залежно від цілей та аудиторії, на яку має здійсню- ватись вплив. Засоби передачі інформації включають друковані видання, радіо, теле- бачення тощо. Об'єктом пропаганди є ау- диторія або соціальні групи, які є метою впливу. Соціальні інтереси суб'єкта пропа- ганди впливають на її зміст і вибір форм, методів і засобів передачі інформації [5]. Виявлення пропаганди за допомо- гою NLP у тексті є складною задачею че- рез використання в пропаганді тонких ме- тодів маніпулювання та контекстуальних залежностей. Для вирішення цієї пробле- ми, автори [6] досліджували ефективність сучасних великих мовних моделей, таких як GPT-3 і GPT-4 для виявлення пропаган- ди. Експерименти здійснювалися із вико- ристанням набору даних SemEval-2020 task 11, який містить статті новин, позна- чені 14 пропагандистськими техніками. Отримані результати показують, що GPT-4 досягає результатів, порівняних із поточ- ним сучасним рівнем розвитку технологій. Автори [7] відзначають, що існуючі методи виявлення пропаганди зосереджені насамперед на виявленні мовних особли- востей її змісту. Однак ці методи зазвичай пропускають інформацію, представлену в зовнішньому новинному середовищі, з якого виникли та поширилися пропаганди- стські новини. Авторами [8] аналізується, як ЗМІ вплинули та відобразили громадсь- ку думку протягом першого місяця росій- ського вторгнення за допомогою статей і каналів новин у Telegram українською, ро- сійською, румунською, французькою та англійською мовами. Було запропоновано та порівняно два методи багатомовної ав- томатизованої ідентифікації прокремлівсь- кої пропаганди, засновані на трансформе- рах (BERT) і лінгвістичних ознаках (SVM). 290 Машинне навчання та нейронні мережі Метою статті є створення методу виявлення політичної пропаганди в текс- товому інтернет-контенті нейромережеви- ми засобами обробки природної мови, який буде працювати з українською мо- вою, а також його апробація. У рамках дослідження також було виконано такі завдання: підготовка навча- льного україномовного набору даних; роз- робка програмного забезпечення, що реа- лізовує створений метод; навчання ансам- блю нейромережевих класифікаторів; дос- лідження ефективності методу з викорис- танням розробленого програмного забез- печення. Основним внеском статті є розроб- ка дієвого методу автоматизованого вияв- лення політичної пропаганди в україномо- вних текстах. 2. Метод та матеріали Враховуючи недостатню кількість україномовних даних, є потреба у ство- ренні власного розміченого набору даних, що буде використовуватись для навчання нейромереж. 1.1. Підготовка набору даних. Для навчання моделей рекурентних ней- ронних мереж було сформовано набір да- них з понад 25000 дописів, які були розмі- чені відповідно приналежності категоріям «Пропаганда» та «Не пропаганда». Перелі- ки пропагандистських та верифікованих джерел було сформовано згідно офіційних каналів Президента й Верховної Ради Ук- раїни, а також за даними аналітичних між- народних авторитетних досліджень [9] та аналітичних зведень [10]. Для нормалізації вхідних даних бу- ло відкинуто записи довжиною менше 200 і більше 6300 символів. У результаті філь- трації даних отримано набір, що склада- ється із 21 222 елементів, де 10737 записів належать класу «пропагандистський до- пис» та 10485 записів класу «допис без пропаганди». Отож, кількість записів, які не місять пропаганди і знаходяться в діа- пазоні довжини 200..800 символів стано- вить більшу половину набору. Це може не- гативно вплинути на якість класифікації у майбутньому. Водночас набір пропаганди- стських текстів рівномірніше розподіле- ний. Всі багатомовні фрагменти було ав- томатично перекладено українською мо- вою. 1.2. Схема методу виявлення політичної пропаганди наведена на рис. 1. Вхідними даними методу є ансамбль на- вчених моделей рекурентних нейронних мереж з токенізаторами і текстовий допис для аналізу. На кроці 1 відбувається вибір і завантаження ансамблю RNN-моделей, а також їхніх токенізаторів. Рис. 1. Схема методу виявлення пропаганди Наступним кроком 2 здійснюється попередня обробка користувацького допи- су для аналізу, що включає в себе перетво- рення тексту у нижній регістр, видалення стоп-слів та елементів пунктуації тощо. На кроці 3 попередньо оброблений текст перетворюється у числові послідов- ності, які будуть подані нейронним мере- жам на вхід для подальшої бінарної кла- сифікації. Кроком 4 є аналіз допису на на- явність пропаганди, що включає в себе одержання відсоткових показників наявно- сті пропаганди у дописі за аналізом кож- ною RNN-моделлю. На кроці 5 здійснюється формуван- ня висновку щодо наявності пропаганди. Пропонується використати два підходи – 291 Машинне навчання та нейронні мережі бінарний (стекінг) та дискретний (беггінг). Для бінарного підходу для визначення рів- ня пропаганди для нейромереж ансамблю отримуються бінарні оцінки, де оцінка 0 – не містить пропаганди, 1 – містить пропа- ганду. У дискретному підході оцінка ней- ромереж береться як дискретна величина з проміжку від 0 до 1, де 1 – максимальний прояв пропаганди, а 0 – її відсутність. У випадку стекінгу відбувається одержання бінарної оцінки, й висновок щодо класу допису формується за прави- лами: «пропагандистський допис», якщо понад 50% моделей отримали бінарні оці- нки 1; «допис без пропаганди», якщо по- над 50% моделей отримали бінарні оцінки 0; «підозрілий допис», якщо нейромереже- ві моделі мають паритетні результати го- лосування (близько половини з оцінками 0 і половини з оцінками 1). Для визначення рівня пропаганди у випадку дискретної оцінки, експертним шляхом установлюються межі трьох кла- сів: верхня межа класу «допис без пропа- ганди» та нижня межа класу «пропаганди- стський допис». Після чого здійснюється розрахунок загальної дискретної оцінки приналежнос- ті допису до вказаних класів (1): +++= ..2211 RNNkRNNkEval nn RNNk + (1) де nkkk ,..,, 21 – коефіцієнти впливу дискретних оцінок, отриманих нейроме- режами nRNNRNNRNN ,..,, 21 відповідно. Коєфіцієнти впливу дискретних нейромережевих оцінок nkkk ,..,, 21 обира- ються емпіричним шляхом в залежності від фокусуванні процесу на виявленні пропаганди відповідних видів. Відповідно до вищевикладеного ма- теріалу, результатом роботи запропонова- ного методу є рівень і відсоткова оцінка наявності пропаганди за кожною RNN- моделлю ансамбля, а також узагальнені рі- вень і відсоткова оцінка наявності пропа- ганди у досліджуваному дописі. 3. Експерименти Для проведення експерименту з до- слідження ефективності розробленого ме- тоду виявлення пропаганди в інтернет- контенті було сформовано ансамбль із двох нейромережевих моделей. Зокрема, було використано рекурентні нейронні ме- режі архітектур BiLSTM та GRU. Підбір різних нейромережевих моделей обумов- лений їхніми специфічними можливостями з аналізу текстових послідовностей. BiLSTM шляхом використання прихованого стану дозволяє аналізувати текстові послідовності у прямому та зво- ротному напрямках, що допомагає усунути бар’єри традиційних RNN. GRU має меха- нізми воріт, які дозволяють ефективніше управляти градієнтами в часі, що робить її більш стійкою до проблеми зникнення градієнтів порівняно з класичними RNN. У випадку використання архітектур BiLSTM та GRU для проведення експери- менту, формула (1) набуде вигляду: rr GRUkBiLSTMkEval += 21 , (2) де 1k – коефіцієнт впливу дискрет- ної оцінки отриманої нейромережею BiLSTM, 2k – коефіцієнт впливу дискрет- ної оцінки отриманої нейромережею GRU, rBiLSTM та rGRU – дискретні оцінки ви- явлення пропаганди нейромережами BiLSTM та GRU відповідно. Під час дослідів нейромережі на- вчались із різними параметрами (batch, epoch), результати порівняння найкращих моделей наведені у Табл.1. Таблиця 1 Залежність метрик від параметрів нейромереж Параметри: GRU BiLSTM batch 32 64 32 64 epoch 20 20 20 20 Метрики: Точність 0.97 0.96 0.96 0.95 Втрати 0.04 0.06 0.04 0.07 Як видно з Табл. 1, GRU має вищу точність, ніж BiLSTM, за однакових пара- метрів. На Рис. 2 наведено розподіл коре- ктно класифікованих текстів нейромере- жею GRU, а на Рис. 3 – розподіл некорект- но класифікованих текстів. За валідаційні дані було взято 3573 записи, з яких до класу «пропагандистсь- 292 Машинне навчання та нейронні мережі кий допис» належало 1951, а до класу «до- пис без пропаганди» – 1622. З них корект- но було класифіковано 1912 класу «пропа- гандистський допис» та 1565 текстів класу «допис без пропаганди». 57 текстів класу «допис без пропаганди» нейромережею хибно класифіковано як пропаганда, а 39 текстів класу «пропагандистський допис» хибно класифіковані як не пропагандист- ські. Загальна точність на валідаційних да- них становить 0.97. Як видно з числових даних, клас «допис без пропаганди» кла- сифікується дещо гірше, ніж клас «пропа- гандистський допис». Рис. 2. Розподіл коректно класифі- кованих текстів нейромережею GRU Рис. 3. Розподіл некоректно класи- фікованих текстів нейромережею GRU На Рис. 4 наведено розподіл корек- тно класифікованих текстів нейромережею BiLSTM, а на Рис. 5 – розподіл некоректно класифікованих текстів. З 3573 валідаційних дописів корек- тно класифіковано 1883 дописи класу «пропагандистський допис» та 1572 тексти класу «допис без пропаганди». 86 текстів класу «допис без пропаганди» нейромере- жею хибно класифіковано як пропаганда, а 32 тексти класу «пропагандистський до- пис» хибно класифіковані як не пропаган- дистські. Загальна точність на валідацій- них даних становить 0.967. Рис. 4. Розподіл коректно класифі- кованих текстів нейромережею BiLSTM Рис. 5. Розподіл некоректно класи- фікованих текстів нейромережею BiLSTM Як бачимо з Рис.3 та Рис.5, тексти мають достатньо високий рівень міжкла- сової роздільності, тоді, як видно на Рис.4 та Рис.6, некоректно класифіковані дані зосереджені ближче до центральної части- ни графіків, що свідчить про доцільність підходу з розбиттям на 3 класи: «пропага- ндистський допис», «допис без пропаган- ди», «підозрілий допис». 293 Машинне навчання та нейронні мережі 4. Практичне застосування Для дослідження ефективності роз- робленого методу, що містить ансамблеве використання RNN-моделей архітектур BiLSTM та GRU, було створено програмну реалізацію методу засобами мови Python. Інтерфейс програмної частини, що відпо- відає за процес виявлення пропаганди роз- робленим методом, наведено на Рис. 6. Рис. 6. Модуль виявлення політич- ної пропаганди Із запровадженням категорії «підоз- рілий допис», відсоток помилок першого та другого роду зменшився. У разі викори- стання бінарного підходу, некоректно кла- сифікованими виявилось 178 зразків із 3573. Однак із 178 зразків 71 зразок є хиб- ним, 107 визначено підозрілими. З 71 хиб- ного зразка 26 текстів хибно віднесено до класу «допис без пропаганди», і 45 текстів хибно віднесено до класу «пропагандист- ський допис». Щодо результатів дискрет- ного підходу, то некоректно класифікова- ними виявились 130 зразків, що в цілому не погіршило статистику показників ней- ромережі GRU, але зі 130 зразків 37 текс- тів хибно віднесено до класу «допис без пропаганди» і 52 тексти хибно віднесено до класу «пропагандистський допис». 5. Результати та дискусія Для дослідження ефективності ви- явлення політичної пропаганди в тексто- вому інтернет-контенті розробленим мето- дом було використано метрики Acuracy, Precision, Recall та F1 [11]. Значення мет- рик для дискретного та бінарного варіацій методу наведено в Табл.2. Хоча бінарний підхід дав гірші результати за метрикою Acuracy, однак дав кращі показники мет- рик Precision, Recall та F1, тоді як дискрет- ний підхід Acuracy практично не погіршив, але водночас метрики Precision, Recall та F1 дещо йому поступаються. Таблиця 2 Значення метрик за беггінгу та стекінгу Підхід Acuracy Precision Recall F1 Беггінг 0.97 0.973 0.981 0.976 Стекінг 0.95 0.977 0.987 0.981 Для експерименту параметри дис- кретного підходу були такими: k1=0.5, k2=0.5, l2 = 0.45, l4 = 0.55. Висновки Запропоновано метод виявлення політичної пропаганди в текстовому інте- рнет-контенті нейромережевими засобами обробки природної мови, який працює з українською мовою, а також здійснена йо- го апробація. У межах дослідження виконано під- готовку навчального україномовного на- бору даних, здійснено тестове навчання ансамблю класифікаторів із нейромереже- вих архітектур BiLSTM та GRU, розробле- но програмне забезпечення, що імплемен- тує створений метод та проведено дослі- дження його ефективності. Запропонований підхід здатний ви- значати політичну пропаганду ансамблем моделей RNN з показниками Acuracy 0.97, Precision 0.973, Recall 0.981 і F1 0.976 при дискретному підході (беггінг), та Acuracy 0.95, Precision 0.977, Recall 0.987 та F1 0.981 у разі бінарного підходу (стекінг). Розроблений метод має обмеження: працює з текстовими дописами довжиною від 200 до 6300 символів. Для коротших та довших текстів спостерігається погіршен- ня продуктивності. Подальші дослідження будуть спря- мовані на аналіз залежності розглянутих показників ефективності запропонованого 294 Машинне навчання та нейронні мережі методу від ознак і параметрів аналізованого допису, таких як розмір, жанр та тематика. Перспективним напрямком продовження досліджень також є збільшення кількості RNN-моделей у ансамблі для покращення показників ефективності і спеціалізація мо- делей по окремих видах пропаганди. Література 1. В. В. Посмітна, Особливості сучас- ної антиукраїнської маніпулятивної пропаганди в текстах і заголовках російських інформаційних повідо- млень, Сучасні умови. Науковий ві- сник Міжнародного гуманітарного університету, 2023. №59. С. 35–39. 2. І. А. Колеснікова, Проблеми проти- дії пропаганді та дезінформаці у ві- дкритих джерелах інформаційно- телекомунікаційної мережі інтер- нет. Актуальні проблеми протидії злочинності та корупції: збірник тез Всеукраїнської науково-практичної конференції, 2023. С. 88–93. 3. М. А. Польовий, Технологічні про- блеми автоматичного виявлення проросійської пропаганди в мережі Facebook. Актуальні проблеми уп- равління інформаційною безпекою держави: зб. тез наук. доп. наук.- практ. конф. Національна академія СБУ. Київ, 2021. С. 96-98. 4. Я. В. Тарасенко, Основні проблеми комп’ютеризованого виявлення відмінностей між інформаційним впливом та пропагандою. Сучасний рух науки: тези XII міжнародної науково-практичної конференції, 2021. С. 380-380. 5. Пропаганда. Accessed: 01.04.2024. https://vue.gov.ua/Пропаганда 6. K. Sprenkamp, D. J. Gordon, L. Zavolokina, Large Language Models for Propaganda Detection. Computa- tion and Language, 2023. 7. X. Liu, K. Ma, K. Ji, Zh. Chen, B. Yang, Graph-based multi-information integration network with external news environment perception for Propaganda detection, International Journal of Web Information Systems, 2024. Vol. 20, Issue 2. pp. 195–212. 8. V. Solopova, O. I. Popescu, C. Benzmül- ler, Automated Multilingual Detection of Pro-Kremlin Propaganda in Newspapers and Telegram Posts, Datenbank Spek- trum, 2023. №23. pp. 5–14. 9. Russia Today’s Disinformation Cam- paign. Accessed: 02.04.2024. https://blogs.state.gov/stories/2014/04/ 29/russia-today-s-disinformation- campaign. 10. Canada sanctions Russian propagan- dists, singers, actors, musicians, and Wagner Group media. Accessed: 02.04.2024. https://english.nv.ua/life/canada- sanctions-russian-propagandists- singers-actors-musicians-and-wagner- group-media-50302091.html. 11. O. Zalutska, M. Molchanova, O. Sobko, O. Mazurets, O. Pasichnyk, O. Barmak, I. Krak, Method for Senti- ment Analysis of Ukrainian-Language Reviews in E-Commerce Using RoB- ERTa Neural Network. CEUR Work- shop Proceedings, 2023. pp. 561–571. References 1. V. V. Posmitna, Features of anti- ukrainian manipulative propaganda in: Modern conditions. Scientific Bulletin of the International Humanitarian University, 2023 [in Ukrainian]. 2. I. A. Kolesnikova, Problems of coun- tering propaganda and disinformation in open sources of the Internet infor- mation and telecommunications net- work, in: Conference Organizing Committee 88, 2023. [in Ukrainian]. 3. M. A. Polevyi, Technological prob- lems of automatic detection of pro- Russian propaganda in the Facebook network. Actual problems of state in- formation security management: coll. theses of sciences add. science and practice conf. NA SBU. Kyiv, 2021. P. 96-98. [in Ukrainian]. 4. Y. V. Tarasenko, Main problems of computerized detection of differences 295 Машинне навчання та нейронні мережі between information influence and propaganda. Modern movement of science: theses XII International Sci- entific and Practical Conference, 2021. P. 380-380. [in Ukrainian]. 5. Propaganda. [cited 1 Apr 2024]. https://vue.gov.ua/Пропаганда [in Ukrainian]. 6. K. Sprenkamp, D. J. Gordon, L. Zavolokina, Large Language Models for Propaganda Detection, in: Compu- tation and Language, 2023. doi: 10.48550/arXiv.2310.06422. 7. X. Liu, K. Ma, K. Ji, Zh. Chen, B. Yang, Graph-based multi-information integration network with external news environment perception for Propagan- da detection, in: International Journal of Web Information Systems (2024). 8. V. Solopova, OI. Popescu, C. Benzmüller, Automated Multilingual Detection of Pro-Kremlin Propaganda in Newspapers and Telegram Posts, in: Datenbank Spektrum (2023), 5–14. doi: 10.1007/s13222-023-00437-2. 9. Russia Today’s Disinformation Cam- paign. [cited 2 Apr 2024]. https://blogs.state.gov/stories/2014/04/ 29/russia-today-s-disinformation- campaign 10. Canada sanctions Russian propagan- dists, singers, actors, musicians, and Wagner Group media. [cited 2 Apr 2024]. https://english.nv.ua/life/canada- sanctions-russian-propagandists- singers-actors-musicians-and-wagner- group-media-50302091.html 11. O.Zalutska, M. Molchanova, O. Sobko, O. Mazurets, O. Pasichnyk, O. Barmak, I.Krak, Method for Senti- ment Analysis of Ukrainian-Language Reviews in E-Commerce Using RoB- ERTa Neural Network, in: CEUR Workshop Proceedings, 2023, pp. 561–571. Одержано: 12.02.2024 Внутрішня рецензія отримана: 19.02.2024 Зовнішня рецензія отримана: 08.03.2024 Про авторів: 1,2Крак Юрій Васильович, доктор фізико-математичних наук, професор. http://orcid.org/0000-0002-8043-0785. 3Дідур Володимир Олександрович, студент. http://orcid.org/0009-0004-3149-3781. 3Молчанова Марина Олексіївна, викладач. http://orcid.org/0000-0001-9810- 936X. 3Мазурець Олександр Вікторович, кандидат технічних наук, доцент. http://orcid.org/0000-0002-8900-0650. 3Собко Олена Віталіївна, викладач. http://orcid.org/0000-0001-5371-5788. 3Залуцька Ольга Олександрівна, студент. http://orcid.org/0000-0003-1242-3548. 3Бармак Олександр Володимирович, доктор технічних наук, професор. http://orcid.org/0000-0003-0739-9678. Місце роботи авторів: 1Київський національний університет імені Тараса Шевченка Тел. (+38) (044) 239-33-29 E-mail: info@knu.ua Сайт: knu.ua 2Інститут кібернетики імені В.М. Глушкова НАН України Тел. (+38) (044) 526-20-08 E-mail: incyb@incyb.kiev.ua Сайт: incyb.kiev.ua 3Хмельницький національний університет, Тел. (+38) (0382) 67-02-76 E-mail: centr@khmnu.edu.ua Сайт: khmnu.edu.ua