Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні

Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть не...

Full description

Saved in:
Bibliographic Details
Date:2023
Main Authors: Okhrimenko, Anton, Kussul, Nataliia
Format: Article
Language:Ukrainian
Published: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2023
Subjects:
Online Access:https://jais.net.ua/index.php/files/article/view/115
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Problems of Control and Informatics

Institution

Problems of Control and Informatics
Description
Summary:Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть неможлива, незалежно від складності моделі машинного навчання. Запропоновано метод та алгоритм виявлення таких неоднозначних екземплярів даних, що базуються на використанні методу найближчого сусіда та аналізу класів екземплярів даних, розташованих поряд у просторі ознак, та дозволяють виділити підмножину неоднозначних екземплярів даних, що можуть негативно впливати на процес навчання моделі класифікації. З метою демонстрації практичного застосування алгоритму проведено експеримент на чотириканальному супутниковому композиті, що використовується для попіксельної класифікації сільськогосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є можливість використання запропонованого алгоритму під час конструювання датасету (набору даних, dataset) для навчання моделі класифікації. Він допомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідного набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі при використанні в операційному режимі. Виявлення неоднозначних екземплярів може допомогти знайти потенційні помилки класифікації та покращити результати роботи моделі. Представлений алгоритм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скорочуватиме час на отримання якісних навчальних даних, покращуватиме метрики класифікації та забезпечуватиме більш надійні результати у задачах машинного навчання.