Формування масиву вхідних даних при класифікації текстів у технології інформаційного моніторингу

У статті наведено результати досліджень процесів перетворення інформації від форми текстового повідомлення до форми двовимірного масиву чисельних характеристик. Ці характеристики використовуються як масив вхідних даних (МВД) при синтезі моделі-класифікатора індуктивними методами, зокрема, багаторядн...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Математичні машини і системи
Datum:2018
1. Verfasser: Голуб, М.С.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Інститут проблем математичних машин і систем НАН України 2018
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/132011
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Формування масиву вхідних даних при класифікації текстів у технології інформаційного моніторингу / М.С. Голуб // Математичні машини і системи. — 2018. — № 1. — С. 59-66. — Бібліогр.: 10 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
Beschreibung
Zusammenfassung:У статті наведено результати досліджень процесів перетворення інформації від форми текстового повідомлення до форми двовимірного масиву чисельних характеристик. Ці характеристики використовуються як масив вхідних даних (МВД) при синтезі моделі-класифікатора індуктивними методами, зокрема, багаторядним алгоритмом методу групового урахування аргументів (МГУА). Запропоновано новий метод визначення переліку інформативних ознак тексту, який є адаптивним до поставленої задачі та до властивостей МВД. Створені умови для 100% вірної класифікації текстів. Це свідчить про забезпечення достатньої інформативності МВД у технологіях моніторингу текстових повідомлень. В статье приведены результаты исследований процессов преобразования информации от формы текстового сообщения в форму двумерного массива численных характеристик. Эти характеристики используются в качестве массива входных данных (МВД) при синтезе модели-классификатора индуктивными методами, в частности, многорядным алгоритмом метода группового учёта аргументов (МГУА). Предложен новый метод формирования перечня информативных признаков текста, который является адаптивным к поставленной задаче и свойствам МВД. Созданы условия для 100% верной классификации текстов. Это свидетельствует о том, что обеспечена достаточная информативность МВД в технологиях мониторинга текстовых сообщений. The article presents investigation results of information transformation from a form of the text message into the two-dimensional array of numerical characteristics. These characteristics are used as an array of input data (AID) when synthesizing the model-classifier by using inductive methods, in particular the multi-row algorithm of group method of data handling (GMDH). A new method for defining the list of informative text features that are adaptive to a given task and properties of the AID are suggested. Conditions for 100% correct classification of texts are created. This enables sufficient informativeness of AID in technologies of text message monitoring.
ISSN:1028-9763