Extracting structure from text documents based on machine learning

This study is devoted to a method that facilitates the task of extracting structure from the text documents using an artificial neural network. The method consists of data preparation, building and training the model and results evaluation. Data preparation includes collecting corpora of documents...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Проблеми програмування
Дата:2022
Автори: Kudim, K.A., Proskudina, G.Yu.
Формат: Стаття
Мова:English
Опубліковано: Інститут програмних систем НАН України 2022
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/188639
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Extracting structure from text documents based on machine learning / K.A. Kudim, G.Yu. Proskudina // Проблеми програмування. — 2022. — № 3-4. — С. 154-160. — Бібліогр.: 5 назв. — англ.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-188639
record_format dspace
spelling Kudim, K.A.
Proskudina, G.Yu.
2023-03-10T18:57:03Z
2023-03-10T18:57:03Z
2022
Extracting structure from text documents based on machine learning / K.A. Kudim, G.Yu. Proskudina // Проблеми програмування. — 2022. — № 3-4. — С. 154-160. — Бібліогр.: 5 назв. — англ.
1727-4907
DOI: https://doi.org/10.15407/pp2022.03-04.154
https://nasplib.isofts.kiev.ua/handle/123456789/188639
004.82
This study is devoted to a method that facilitates the task of extracting structure from the text documents using an artificial neural network. The method consists of data preparation, building and training the model and results evaluation. Data preparation includes collecting corpora of documents, converting a variety of file formats into plain text, and manual labeling each document structure. Then documents are split into tokens and into paragraphs. The text paragraphs are represented as feature vectors to provide input to the neural network. The model is trained and validated on the selected data subsets. Trained model results evaluation is presented. The final performance is calculated per label using precision, recall, and F1 measures, and overall average. The trained model can be used to extract sections of documents bearing similar structure.
Дослідження присвячене методу, що вирішує задачу автоматичного витягу структури з слабо структурованих текстових документів за допомогою штучної нейронної мережі. Метод складається з підготовки даних, побудови та навчання моделі та оцінки результатів. Підготовка даних включає збирання корпусів документів, перетворення різних форматів файлів у звичайний текст і ручне маркування структури кожного документа. Потім документи розбиваються на слова та абзаци. Абзаци тексту представлені як вектори ознак для забезпечення вхідних даних для нейронної мережі. Модель навчена та перевірена на вибраних підмножинах даних. Представлена оцінка результатів навченої моделі. Остаточна ефективність розраховується для кожної мітки з використанням F1-оцінки, точності та повноти, а також загального середнього значення. Навчену модель можна використовувати для витягу розділів документів, що мають подібну структуру.
en
Інститут програмних систем НАН України
Проблеми програмування
Моделі і засоби систем баз даних та знань
Extracting structure from text documents based on machine learning
Витяг структури з текстових документів на основі машинного навчання
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Extracting structure from text documents based on machine learning
spellingShingle Extracting structure from text documents based on machine learning
Kudim, K.A.
Proskudina, G.Yu.
Моделі і засоби систем баз даних та знань
title_short Extracting structure from text documents based on machine learning
title_full Extracting structure from text documents based on machine learning
title_fullStr Extracting structure from text documents based on machine learning
title_full_unstemmed Extracting structure from text documents based on machine learning
title_sort extracting structure from text documents based on machine learning
author Kudim, K.A.
Proskudina, G.Yu.
author_facet Kudim, K.A.
Proskudina, G.Yu.
topic Моделі і засоби систем баз даних та знань
topic_facet Моделі і засоби систем баз даних та знань
publishDate 2022
language English
container_title Проблеми програмування
publisher Інститут програмних систем НАН України
format Article
title_alt Витяг структури з текстових документів на основі машинного навчання
description This study is devoted to a method that facilitates the task of extracting structure from the text documents using an artificial neural network. The method consists of data preparation, building and training the model and results evaluation. Data preparation includes collecting corpora of documents, converting a variety of file formats into plain text, and manual labeling each document structure. Then documents are split into tokens and into paragraphs. The text paragraphs are represented as feature vectors to provide input to the neural network. The model is trained and validated on the selected data subsets. Trained model results evaluation is presented. The final performance is calculated per label using precision, recall, and F1 measures, and overall average. The trained model can be used to extract sections of documents bearing similar structure. Дослідження присвячене методу, що вирішує задачу автоматичного витягу структури з слабо структурованих текстових документів за допомогою штучної нейронної мережі. Метод складається з підготовки даних, побудови та навчання моделі та оцінки результатів. Підготовка даних включає збирання корпусів документів, перетворення різних форматів файлів у звичайний текст і ручне маркування структури кожного документа. Потім документи розбиваються на слова та абзаци. Абзаци тексту представлені як вектори ознак для забезпечення вхідних даних для нейронної мережі. Модель навчена та перевірена на вибраних підмножинах даних. Представлена оцінка результатів навченої моделі. Остаточна ефективність розраховується для кожної мітки з використанням F1-оцінки, точності та повноти, а також загального середнього значення. Навчену модель можна використовувати для витягу розділів документів, що мають подібну структуру.
issn 1727-4907
url https://nasplib.isofts.kiev.ua/handle/123456789/188639
citation_txt Extracting structure from text documents based on machine learning / K.A. Kudim, G.Yu. Proskudina // Проблеми програмування. — 2022. — № 3-4. — С. 154-160. — Бібліогр.: 5 назв. — англ.
work_keys_str_mv AT kudimka extractingstructurefromtextdocumentsbasedonmachinelearning
AT proskudinagyu extractingstructurefromtextdocumentsbasedonmachinelearning
AT kudimka vitâgstrukturiztekstovihdokumentívnaosnovímašinnogonavčannâ
AT proskudinagyu vitâgstrukturiztekstovihdokumentívnaosnovímašinnogonavčannâ
first_indexed 2025-12-07T19:21:55Z
last_indexed 2025-12-07T19:21:55Z
_version_ 1850878528678002688