Machine learning methods analysis in the document classification problem

Current situation with official documentary in the world, and especially in Ukraine, requires tools for electronical processing. One of the main tasks at this field is seal (or stamp) detection, which leads to documents classification based on mentioned criterion. Current article analyzes some of ex...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2021
Автори:	Zhyrkova, A.P., Ignatenko, O.P.
Формат:	Стаття
Мова:	Українська
Опубліковано:	PROBLEMS IN PROGRAMMING 2021
Теми:	machine learning classification convolutional neural networks stamp seal UDC 004.85
Онлайн доступ:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/441
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Problems in programming
Завантажити файл:

Репозитарії

Problems in programming

_version_	1865434620893331456
author	Zhyrkova, A.P. Ignatenko, O.P.
author_facet	Zhyrkova, A.P. Ignatenko, O.P.
author_institution_txt_mv	[ { "author": "A.P. Zhyrkova", "institution": "National University \"Kyiv-Mohyla Academy\"" }, { "author": "O.P. Ignatenko", "institution": "Institute of Software Systems NAS of Ukraine" } ]
author_sort	Zhyrkova, A.P.
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection	OJS
datestamp_date	2024-04-26T22:46:31Z
description	Current situation with official documentary in the world, and especially in Ukraine, requires tools for electronical processing. One of the main tasks at this field is seal (or stamp) detection, which leads to documents classification based on mentioned criterion. Current article analyzes some of existed methods to resolve the problem, describes a new approach to classify documentary and reflects dependence of model accuracy to input data amount. As a result of this work is a convolutional neural network that classify 708 out of 804 images of official documents correctly. A corresponded percentage of model accuracy is 88.03, despite the fact of bias presence in input data.Problems in programming 2020; 4: 81-87
doi_str_mv	10.15407/pp2020.04.081
first_indexed	2025-07-17T10:06:26Z
format	Article
fulltext	Моделі та методи машинного навчання © А.П. Жиркова, О.П. Ігнатенко, 2020 ISSN 1727-4907. Проблеми програмування. 2020. № 4 81 УДК 004.85 https://doi.org/10.15407/pp2020.04.081 А.П. Жиркова, О.П. Ігнатенко АНАЛІЗ МЕТОДІВ МАШИННОГО НАВЧАННЯ В ЗАДАЧІ КЛАСИФІКАЦІЇ ДОКУМЕНТІВ Публікація досліджує методи класифікації документів за наявністю печатки. Для цього, по-перше, проаналізовано вже існуючі методи вирішення поставленої проблеми; по-друге, запропоновано мо- дель згорткової нейронної мережі для класифікації документів; по-третє, відображено залежність ко- ректності роботи нейронної мережі від кількості вхідних даних, на яких навчається модель. В резуль- таті отримано нейронну мережу, що класифікує документи за наявністю печатки з точністю трохи бі- льше ніж 88 %. Ключові слова: машинне навчання, класифікація, згорткові нейронні мережі, послідовна модель. Вступ Дана робота досліджує актуальну проблему класифікації відсканованих документів за наявністю печатки. Ця проб- лема виникає у багатьох областях діяльно- сті, пов’язаних з документообігом, оскіль- ки поточна нормативна база України оріє- нтується, в основному, на паперові доку- менти. Особливо важливим напрямком застосування є класифікація документів у системі публічних закупівель “Прозорро”, в якій у 2019 р. успішно відбулось 1,238 млн. публічних закупівель з очікуваною вартістю 581,3 млрд грн. Кількість актив- них організаторів закупівель склала 28 850, кількість активних учасників – 159 980 (дані за 2019 рік). З огляду на ус- пішність даного проекту планується пода- льше розширення сфери застосування сис- теми Прозорро на інші напрямки. Розпізнавання паттернів на від- сканованих документах, зокрема визначен- ня наявності печатки, підпису, реквізитів та інших шаблонізованих частин є критично важливим для автоматичної перевірки ко- ректності завантажених документів. Кіль- кість щоденних тендерів змушує шукати алгоритмічні шляхи розв’язання проблеми, і тут природнім напрямком пошуку є мето- ди машинного навчання. Машинне навчан- ня – вже не новий, але дуже популярний напрям для досліджень та розробки, орієн- тований на роботу з різними видами даних, розуміння їх структури та взаємозв’язків. Обсяг даних, представлений у ви- гляді зображень, значно виріс з розвитком технологій та популяризацією фотографій як способу поділитися певною інформаці- єю. Присутність камери на всіх мобільних пристроях, що випускаються останнім ча- сом, та поліпшення якості фотографій, є значним рушієм для поширення викорис- тання даних такого виду. А отже, з’являються і методи обробки подібної інформації, де центральним поняттям є термін “computer vision”, який на українсь- ку перекладається як “комп’ютерний зір” та означає процес обробки графічних да- них, який має на меті, наприклад, розпі- знавання об’єктів певного класу. Можливість сканувати або фото- графувати документи дозволяє зберігати їх у вигляді зображень, а отже, і застосовува- ти до них відповідні методи обробки. Ная- вність або відсутність печаток на зобра- женні є типовим представником задачі класифікації. При складанні документів виникають помилки різного типу, які важ- ко відстежити та навіть при дуже уважно- му перегляді можна пропустити. Тоді виникає потреба обробляти документи в автоматизованому режимі, щоб відслідко- вувати помилки та мінімізувати їхню при- сутність у документах. Використання машинного навчання для розв'язання задач цього класу є актуальним способом вирі- шення подібних проблем. В даній роботі Моделі та методи машинного навчання 82 пропонується метод вирішення описаної задачі за допомогою навченої нейронної мережі. Розробка моделі згорткової ней- ронної мережі для коректної класифікації документів за наявністю або відсутністю печаток на ньому потребує вирішення на- ступних завдань, а саме: проведення аналі- зу існуючих методів вирішення поставле- ної проблеми, проведення збору та оброб- ки даних, побудови нейронної мережі для класифікації документів, дослідження за- лежності точності моделі від кількості да- них для її навчання. Огляд літератури Опишемо існуючі методи, які ви- користовуються для розпізнавання печа- ток на документах. Двоетапний підхід до вилучення візуальних об’єктів з паперо- вих документів, про який розповідається у [1], серед інших задач вирішує і постав- лену у даній роботі. Двоетапний підхід працює наступним чином: спочатку за- стосовується певний алгоритм для розпі- знавання об’єкту на вхідному зображенні, після чого застосовується інший метод, заснований на добуванні з зображення низько-рівневих характеристик (з англ. “features”) – таким чином перевіряється правильність роботи попереднього етапу. Отже, перший етап – каскадне навчання та розпізнавання на основі класифікатора AdaBoost. На другому етапі проводиться оцінка низько-рівневих характеристик зображення за допомогою різних алгори- тмів машинного навчання. Зображення представляється даними, отриманими з нього за допомогою різних функцій, одні- єю з яких є статистика першого порядку, що означає представлення зображення у вигляді таких характеристик як середня інтенсивність пікселів, дисперсія, асимет- рія, центральний момент та ентропія. Наступним методом представлення зо- браження є його опис за допомогою статистики довжини сірого, дані про яку надають інформацію щодо текстури зо- браження. Також серед таких методів є гістограма напрямлених градієнтів, яка допомагає розрізняти об’єкти різних типів, та локальні бінарні патерни, які є універсальними дескрипторами тексту- ри. На другому етапі до усіх цих предста- влень застосовуються алгоритми машин- ного навчання, такі як метод k- найближчих сусідів (k=1), наївний Байєс, метод опорних векторів, бінарне дерево рішень та інші. Використання двоетапно- го підходу до вилучення візуальних об’єктів з паперових документів у випад- ку розпізнавання печаток дало середню точність 53.3 %. Наступний підхід до виявлення пе- чаток у документах, представлений у [2], використовує поєднання деяких простих характеристик зображення. Алгоритми машинного навчання (такі як метод k- найближчих сусідів, метод опорних век- торів, випадкові ліси), що використову- ються для виявлення печаток, обробляють інформацію про зображення, в якому за- кодували початкову модель RGB у мо- дель, що представляє зображення як по- єднання Y, Cb, Cr, де кожна з компонент є сумою значень RGB, перемножених на сталі коефіцієнти, після чого зображення бінаризується. В результаті навчання та валідації зображень, виявилося, що серед- ня точність передбачень становить близь- ко 70 %. Також існує підхід до розпізнаван- ня печаток, який в цілому фокусується на розпізнаванні геометричних форм, прита- манних їм. Для цього використовується перетворення Хафа, оскільки його метою є виявлення кругів та квадратів. Також тут застосовується алгоритм згладжуван- ня, який прибирає шуми. Після усіх пере- творень метод опорних векторів класифі- кує документи за наявністю/відсутністю печаток. За словами авторів, вони досягли 92 % точності роботи алгоритму [3]. Але тут варто зауважити, що даний підхід фо- кусується на розпізнаванні печаток, пред- ставлених у формі кругу чи квадрату, що є лише підмножиною усіх можливих Моделі та методи машинного навчання 83 форм печаток. А тому результати дослі- дження є ідеалізованими і не відповіда- ють реальним практичним задачам. Наступним варіантом вирішення задачі розпізнавання печаток у докумен- тах може бути підхід, викладений у роботі [4]. Він полягає у наступному: відскано- вані зображення розбиваються за кольо- рами, які в свою чергу розділяються на кандидатів на печатку, після чого з зо- браження виділяються деякі його харак- теристики, які допомагають визначитися, чи об’єкт є печаткою, чи ні. Даний метод добре працює, коли документ є кольоро- вим і колір тексту відрізняється від ко- льору печатки, в інакшому випадку він не дає задовільних результатів. Одним з методів, запропонованих останнім часом, є використання FCN (Fully Convolutional Neural Network). Ав- тори представляють підхід, який розпі- знає печатки на картинках документів, під назвою D-StaR [5]. Для кращої роботи нейронної мережі вони використовують переднавчену модель VGG-Net, вихідний результат роботи якої є вхідними даними для FCN. Такий підхід використовується, оскільки при його реалізації автори зіш- товхнулися з нестачею даних для навчан- ня і валідації (в доступі було 400 карти- нок), до того ж поділ на навчальну та тре- нувальну вибірки зроблений як 90 % і 10 % від усього обсягу даних. Тобто, ва- лідація роботи методу проходила на зо- всім малій вибірці, що варте зауваження. В результаті роботи D-StaR точність ста- новить 87 %, але при розпізнаванні печа- ток, які накладаються на текст, вона падає до 74 %. Також можна відзначити роботу [6], де методи навчання застосовуються до розпізнавання традиційних монгольсь- ких печаток. Ключова ідея полягає у по- єднанні аналізу головних компонент (PCA) та рекурентних нейронних мереж. Автори декларують високу точність, хоча можливо це пояснюється невеликими ро- змірами датасету. Цікавим напрямком розвитку є логічне продовження ідеї перевірки доку- ментів, яке полягає у розпізнаванні підпи- су. Цій нетривіальній задачі присвячена робота [7], де пропонується спочатку “очищувати” сліди печатки (як правило підпис і печатка мають перекриватись, забезпечуючи додатковий захист докуме- нту) за допомогою генеративних нейро- мереж (GAN), а потім розпізнавання під- пису виконується з використанням тих же згорткових мереж. Постановка задачі При роботі з документами деякі компанії стикаються з проблемами, які необхідно автоматизувати, оскільки їх вирішення співробітниками займає багато часу та не звільняє від помилок, які важко контролювати. Прикладами таких задач є розпізнавання печаток (чи їхню відсутність) у документах, розпізнавання підписів, виявлення слів, написаних однією мовою, у документі, написаному іншою. Всі ці задачі можливо вирішити за- собами машинного навчання. Наразі проведено роботу з розпі- знавання печаток у документах. Для цього оброблено документи, вивантаженні з сайту Prozorro [8], які є дозволеними для їх подальшого використання та розпо- всюдження. Тут варто враховувати, що документи представлені не тільки в фор- маті зображень (з розширенням “.png”, “.jpg” або “.jpeg”), а також у вигляді до- кументів PDF. Тому при формуванні на- вчальної вибірки (а також при подальшій класифікації документів, що мають печат- ку, або не мають її взагалі) слід перетво- рити усі документи, представленні у фор- маті PDF, на зображення. Для навчання обраної моделі ма- шинного навчання, на вхід подаються зо- браження документів, які вона класифікує як 0, якщо на зображенні немає печатки, та як 1, якщо має хоча б одну (рис. 1). Моделі та методи машинного навчання 84 Рис. 1. Приклад документів з печатками (зліва) та без печаток (справа) Опис методу вирішення задачі Розв’язувати задачу розпізнавання печаток у документах було вирішено за допомогою нейронних мереж. В ході виконання роботи було застосовано декі- лька різних моделей, в результаті чого під- твердилося припущення, що згорткові нейронні мережі є найбільш ефективним методом роботи з зображеннями (звичайні послідовні нейронні мережі дали 59.9 % точності, а рекурентні – 59.8 %, водночас як згорткові нейронні мережі на тих самих даних мають 88.03 % точності). Тому далі більш детально розглянуто саме згорткові нейронні мережі. Перед етапом навчання моделі не- обхідно сформувати тренувальну та тесто- ву вибірки, для чого: усі документи було перетворено у формат зображень, стандар- тизовано їх розмір та розбито на тренува- льну та тестову вибірки випадковим чином так, щоб перша містила 70 % усіх зобра- жень, а друга – відповідно, 30 %. Для класифікації документів вико- ристовується послідовна модель, яка у сво- їй структурі має три згорткових шари для обробки зображень, та використовує ще три для їхньої класифікації. Числові значення, показані на рис. 2, є розмірністю вихідного простору відповідного шару. До усіх шарів, окрім вихідного, застосовується активаційна фу- нкція “relu”, останній же використовує “sigmoid”. При заміні активаційної функції у вихідному шарі (зокрема, на активаційну функцію “softmax”) точність роботи моде- лі зменшується приблизно у два рази. Рис. 2. Реалізація нейронної мережі для класифікації документів за наявністю або відсутністю печаток Моделі та методи машинного навчання 85 Результати експериментів Для порівняння правильності робо- ти моделі в залежності від кількості трену- вальних даних, тестування проводилося на одному й тому самому наборі зображень. Це дає можливість побачити вплив більшої кількості даних на більш правильне нала- штування моделі під час навчання. Після отримання даних для навчан- ня, набір поділяється на тренувальну та валідаційну вибірки, які використовуються для навчання моделі. Набір даних для валідації роботи моделі складає близько 25 % від загального обсягу тренувальних даних (рис. 3, 4). Під час тестування роботи моделі, яку було навчено на 435 зображеннях, ви- явилося, що правильно класифіковано приблизно 81 % тестових даних. А після навчання нейронної мережі на 3216 об’єктах, доля правильних відповідей ста- новила трохи більше 88 % (табл. 1). Також варто зауважити, що на дру- гій і третій ітерації точність роботи моделі на тестових даних трохи погіршилась, піс- ля чого досить різко виросла на двох останніх. Такий ефект можна приписати якості самих даних та їхньої попередньої класифікації, оскільки вона проводилася вручну, а при цьому можлива невелика похибка. Щодо самих даних, то при кла- сифікації було виявлено велику кількість погано відсканованих документів, на яких відображалися печатки з наступних сторі- нок. В результаті було вирішено класифі- кувати такі зображення як ті, що не міс- тять печаток, хоча їх на документі гарно видно. При збільшенні розміру тренуваль- ної вибірки час на навчання моделі зрос- тає, а час роботи на тестових даних почи- нає істотно збільшуватися тільки на остан- ніх ітераціях, що зображено у табл. 2. Рис. 3. Втрати в процесі тренування та валідації моделі Рис. 4. Точність в процесі тренування та валідації моделі Таблиця 1. Вплив розміру тренувального набору даних на точність роботи нейронної мережі Розмір тренувальної вибірки Розмір валідацій- ної вибірки Розмір тесто- вої вибірки Точність роботи моделі 435 109 234 81.19 % 1164 291 80.76 % 1896 474 80.76 % 2596 650 86.32 % 3216 804 88.03 % Моделі та методи машинного навчання 86 Таблиця 2. Вплив розміру тренувального набору даних на час роботи нейронної мережі Розмір тренувальної вибірки Розмір валідаційної вибірки Розмір тестової вибірки Час, необхідний на навчання моделі (у хв) Час роботи мережі на тестових даних (у сек) 435 109 234 0,66 0,23 1164 291 1,78 0,22 1896 474 2,86 0,21 2596 650 3,86 0,27 3216 804 4,81 0,37 Висновки Машинне навчання широко викори- стовується для роботи з зображеннями, особливо ефективним підходом до їхньої обробки є використання згорткових нейронних мереж. Через структуру архіте- ктури мереж даного типу вони гарно пра- цюють з зображеннями, тому широко ви- користовуються для роботи з цим типом даних. Автоматизоване розпізнавання різ- них типів помилок у документах є актуа- льною темою, що потребує вирішення. Прикладом таких помилок є відсут- ність печаток на документах, для розпізна- вання чого в рамках даної курсової роботи було побудовано нейронну мережу, здатну класифікувати дані, що подаються на вхід у вигляді зображень, за наявністю або від- сутністю печаток. Початкова точність роботи даної моделі складала 81.19 %, при цьому для її навчання використовувалося 435 зобра- жень (для тренування мережі) і 109 (для валідації її роботи). Наступні дві спроби навчити модель на більшій кількості да- них, ніж при попередній спробі, дали тро- хи гірші результати, а саме точність робо- ти моделі на тестовому наборі даних скла- дала 80.76 % в обох випадках. Спочатку для навчання мережі використовувалося 1164 зображення (і 291 для валідації), піс- ля чого на вхід моделі було подано 1896 зображень для навчання (і 474 для валіда- ції). Останні два процеси навчання на бі- льшій кількості даних (2596 для навчання і 650 для валідації в першому випадку, 3216 для навчання і 804 для валідації – в друго- му), показали покращення при класифіка- ції тестового набору, що дає 86.32 % і 88.03 % правильних відповідей. Література 1. Forczmanski P., Markiewicz A. Two-stage approach to extracting visual objects from paperdocuments. Machine Vision and Applications. 2016. N 27. P. 1243–1257. 2. Forczmanski P., Markiewicz A. Stamps Detection and Classification Using Simple Features Ensemble. Mathematical Problems in Engineering. 2015. 3. Roy P., Pal U., Lladós J. Seal Detection and Recognition: An Approach for Document Indexing [Електронний ресурс]. 10th International Conference on Document Analysis and Recognition. 2009. Режим дос- тупу до ресурсу: https://www.researchgate.- net/publication/220861099_Seal_Detection_a nd_Recognition_An_Approach_for_Documen t_Indexing. 4. Micenkova B., van Beusekom J., Shafait F. Stamp Verification for Automated Document Authentication [Електронний ресурс]. Ре- жим доступу до ресурсу: http://pure.au.dk/- portal/files/51730044/Barbora_Stamp_Verific ation_IWCF12.pdf. 5. D-StaR: A, Younas M., Afzal M., Malik та ін. Generic Method for Stamp Segmentation from Document Images [Електронний ре- сурс]. 2017. Режим доступу до ресурсу: https://tukl.seecs.nust.edu.pk/members/project Моделі та методи машинного навчання 87 s/conference/D-StaR-A-Generic-Method-for- Stamp-Segmentation-from-Document- Images.pdf. 6. Gantuya P., Mungunshagai B., Suvdaa B. "Mongolian Traditional Stamp Recognition using Scalable kNN." International journal of advanced smart convergence 4.2 (2015): 170–176. 7. Engin Deniz, et al. "Offline Signature Verification on Real-World Documents." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020. 8. Офіційний портал оприлюднення інфор- мації про публічні закупівлі України [Еле- ктронний ресурс]. Режим доступу до ресу- рсу: https://prozorro.gov.ua. References 1. Forczmanski P., Markiewicz A. Two-stage approach to extracting visual objects from paperdocuments. Machine Vision and Applications. 2016. N 27. P. 1243–1257. 2. Forczmanski P., Markiewicz A. Stamps Detection and Classification Using Simple Features Ensemble. Mathematical Problems in Engineering. 2015. 3. Roy P., Pal U., Lladós J. Seal Detection and Recognition: An Approach for Document Indexing [Електронний ресурс]. 10th International Conference on Document Analysis and Recognition. 2009. Режим дос- тупу до ресурсу: https://www.researchgate.- net/publication/220861099_Seal_Detection_a nd_Recognition_An_Approach_for_Documen t_Indexing. 4. Micenkova B., van Beusekom J., Shafait F. Stamp Verification for Automated Document Authentication [Електронний ресурс]. Ре- жим доступу до ресурсу: http://pure.au.dk/- portal/files/51730044/Barbora_Stamp_Verific ation_IWCF12.pdf. 5. D-StaR: A, Younas M., Afzal M., Malik та ін. Generic Method for Stamp Segmentation from Document Images [Електронний ре- сурс]. 2017. Режим доступу до ресурсу: https://tukl.seecs.nust.edu.pk/members/project s/conference/D-StaR-A-Generic-Method-for- Stamp-Segmentation-from-Document- Images.pdf. 6. Gantuya P., Mungunshagai B., Suvdaa B. "Mongolian Traditional Stamp Recognition using Scalable kNN." International journal of advanced smart convergence 4.2 (2015): 170–176. 7. Engin Deniz, et al. "Offline Signature Verification on Real-World Documents." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020. 8. Official portal for publishing information on public procurement in Ukraine [Electronic resource]. Access to the resource: https://prozorro.gov.ua. Одержано 04.11.2020 Про авторів: Жиркова Анастасія Павлівна, студентка Національного університету “Києво-Могилянська Академія”. Кількість наукових публікацій в українських виданнях – 1. https://orcid.org/0000-0002-4604-1137, Ігнатенко Олексій Петрович, доктор фізико-математичних наук, провідний науковий співробітник. Кількість наукових публікацій в українських виданнях – 27. Кількість наукових публікацій в зарубіжних виданнях – 7. http://orcid.org/0000-0001-8692-2062. Місце роботи авторів: Національний університет “Києво-Могилянська Академія”, вулиця Григорія Сковороди, 2, Київ. Інститут програмних систем НАН України, 03187, Київ-187, проспект Академіка Глушкова, 40. E-mail: nastia.nastia.zh@gmail.com, o.ignatenko@gmail.com
id	pp_isofts_kiev_ua-article-441
institution	Problems in programming
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2025-07-17T10:06:26Z
publishDate	2021
publisher	PROBLEMS IN PROGRAMMING
record_format	ojs
resource_txt_mv	ppisoftskievua/25/b5c1eadeea0f9b719602009230b58025.pdf
spelling	pp_isofts_kiev_ua-article-4412024-04-26T22:46:31Z Machine learning methods analysis in the document classification problem Анализ методов машинного обучения в задачах классификации документов Аналіз методів машинного навчання в задачі класифікації документів Zhyrkova, A.P. Ignatenko, O.P. machine learning; classification; convolutional neural networks; stamp; seal UDC 004.85 машинное обучение; классификация; сверточные нейронные сети; последовательная модель; печать УДК 004.85 машинне навчання; класифікація; згорткові нейронні мережі; послідовна модель УДК 004.85 Current situation with official documentary in the world, and especially in Ukraine, requires tools for electronical processing. One of the main tasks at this field is seal (or stamp) detection, which leads to documents classification based on mentioned criterion. Current article analyzes some of existed methods to resolve the problem, describes a new approach to classify documentary and reflects dependence of model accuracy to input data amount. As a result of this work is a convolutional neural network that classify 708 out of 804 images of official documents correctly. A corresponded percentage of model accuracy is 88.03, despite the fact of bias presence in input data.Problems in programming 2020; 4: 81-87 Публикация рассматривает методы классификации документов по наличию в них печати. Для этого проанализировано уже существующие методы решения данной задачи, предложено модель сверточной нейронной сети для классификации документов, а также отображено зависимость корректности работы нейронной сети от количества входных данных, на которых обучается модель. В результате получено нейронную сеть, которая классифицирует документы по наличию печати с точностью немного больше 88 %.Problems in programming 2020; 4: 81-87 Публікація досліджує методи класифікації документів за наявністю печатки. Для цього, по-перше, проаналізовано вже існуючі методи вирішення поставленої проблеми; по-друге, запропоновано модель згорткової нейронної мережі для класифікації документів; по-третє, відображено залежність коректності роботи нейронної мережі від кількості вхідних даних, на яких навчається модель. В результаті отримано нейронну мережу, що класифікує документи за наявністю печатки з точністю трохи більше ніж 88 %.Problems in programming 2020; 4: 81-87 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2021-01-25 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/441 10.15407/pp2020.04.081 PROBLEMS IN PROGRAMMING; No 4 (2020); 81-87 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2020); 81-87 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2020); 81-87 1727-4907 10.15407/pp2020.04 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/441/445 Copyright (c) 2021 PROBLEMS IN PROGRAMMING
spellingShingle	machine learning classification convolutional neural networks stamp seal UDC 004.85 Zhyrkova, A.P. Ignatenko, O.P. Machine learning methods analysis in the document classification problem
title	Machine learning methods analysis in the document classification problem
title_alt	Анализ методов машинного обучения в задачах классификации документов Аналіз методів машинного навчання в задачі класифікації документів
title_full	Machine learning methods analysis in the document classification problem
title_fullStr	Machine learning methods analysis in the document classification problem
title_full_unstemmed	Machine learning methods analysis in the document classification problem
title_short	Machine learning methods analysis in the document classification problem
title_sort	machine learning methods analysis in the document classification problem
topic	machine learning classification convolutional neural networks stamp seal UDC 004.85
topic_facet	machine learning classification convolutional neural networks stamp seal UDC 004.85 машинное обучение классификация сверточные нейронные сети последовательная модель печать УДК 004.85 машинне навчання класифікація згорткові нейронні мережі послідовна модель УДК 004.85
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/441
work_keys_str_mv	AT zhyrkovaap machinelearningmethodsanalysisinthedocumentclassificationproblem AT ignatenkoop machinelearningmethodsanalysisinthedocumentclassificationproblem AT zhyrkovaap analizmetodovmašinnogoobučeniâvzadačahklassifikaciidokumentov AT ignatenkoop analizmetodovmašinnogoobučeniâvzadačahklassifikaciidokumentov AT zhyrkovaap analízmetodívmašinnogonavčannâvzadačíklasifíkacíídokumentív AT ignatenkoop analízmetodívmašinnogonavčannâvzadačíklasifíkacíídokumentív

Machine learning methods analysis in the document classification problem

Репозитарії

Схожі ресурси