Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть не...
Збережено в:
| Дата: | 2023 |
|---|---|
| Автори: | , |
| Формат: | Стаття |
| Мова: | Ukrainian |
| Опубліковано: |
V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
2023
|
| Теми: | |
| Онлайн доступ: | https://jais.net.ua/index.php/files/article/view/115 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Problems of Control and Informatics |
Репозитарії
Problems of Control and Informatics| Резюме: | Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть неможлива, незалежно від складності моделі машинного навчання. Запропоновано метод та алгоритм виявлення таких неоднозначних екземплярів даних, що базуються на використанні методу найближчого сусіда та аналізу класів екземплярів даних, розташованих поряд у просторі ознак, та дозволяють виділити підмножину неоднозначних екземплярів даних, що можуть негативно впливати на процес навчання моделі класифікації. З метою демонстрації практичного застосування алгоритму проведено експеримент на чотириканальному супутниковому композиті, що використовується для попіксельної класифікації сільськогосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є можливість використання запропонованого алгоритму під час конструювання датасету (набору даних, dataset) для навчання моделі класифікації. Він допомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідного набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі при використанні в операційному режимі. Виявлення неоднозначних екземплярів може допомогти знайти потенційні помилки класифікації та покращити результати роботи моделі. Представлений алгоритм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скорочуватиме час на отримання якісних навчальних даних, покращуватиме метрики класифікації та забезпечуватиме більш надійні результати у задачах машинного навчання. |
|---|