Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні

Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть не...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2023
Автори: Okhrimenko, Anton, Kussul, Nataliia
Формат: Стаття
Мова:Ukrainian
Опубліковано: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2023
Теми:
Онлайн доступ:https://jais.net.ua/index.php/files/article/view/115
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems of Control and Informatics

Репозитарії

Problems of Control and Informatics
id oai:ojs2.jais.net.ua:article-115
record_format ojs
institution Problems of Control and Informatics
baseUrl_str
datestamp_date 2024-03-14T10:17:57Z
collection OJS
language Ukrainian
topic машинне навчання
класифікатор
метод найближчого сусіда
оцінка якості датасету (набору даних)
незбалансовані набори даних
перекриття класів
spellingShingle машинне навчання
класифікатор
метод найближчого сусіда
оцінка якості датасету (набору даних)
незбалансовані набори даних
перекриття класів
Okhrimenko, Anton
Kussul, Nataliia
Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
topic_facet машинное обучение
классификатор
метод ближайшего соседа
оценка качества датасета (набора данных)
несбалансированные наборы данных
перекрытие классов
machine learning
classifier
the nearest neighbor method
dataset quality assessment
imbalanced datasets
hard cases
машинне навчання
класифікатор
метод найближчого сусіда
оцінка якості датасету (набору даних)
незбалансовані набори даних
перекриття класів
format Article
author Okhrimenko, Anton
Kussul, Nataliia
author_facet Okhrimenko, Anton
Kussul, Nataliia
author_sort Okhrimenko, Anton
title Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_short Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_full Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_fullStr Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_full_unstemmed Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_sort метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_alt Data mining of machine learning datasets for hard case identification
Метод выявления сложных для распознавания образцов в наборах данных для задач классификации в машинном обучении
description Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть неможлива, незалежно від складності моделі машинного навчання. Запропоновано метод та алгоритм виявлення таких неоднозначних екземплярів даних, що базуються на використанні методу найближчого сусіда та аналізу класів екземплярів даних, розташованих поряд у просторі ознак, та дозволяють виділити підмножину неоднозначних екземплярів даних, що можуть негативно впливати на процес навчання моделі класифікації. З метою демонстрації практичного застосування алгоритму проведено експеримент на чотириканальному супутниковому композиті, що використовується для попіксельної класифікації сільськогосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є можливість використання запропонованого алгоритму під час конструювання датасету (набору даних, dataset) для навчання моделі класифікації. Він допомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідного набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі при використанні в операційному режимі. Виявлення неоднозначних екземплярів може допомогти знайти потенційні помилки класифікації та покращити результати роботи моделі. Представлений алгоритм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скорочуватиме час на отримання якісних навчальних даних, покращуватиме метрики класифікації та забезпечуватиме більш надійні результати у задачах машинного навчання.
publisher V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
publishDate 2023
url https://jais.net.ua/index.php/files/article/view/115
work_keys_str_mv AT okhrimenkoanton metodviâvlennâskladnihdlârozpíznavannâzrazkívunaborahdanihdlâzadačklasifíkacííumašinnomunavčanní
AT kussulnataliia metodviâvlennâskladnihdlârozpíznavannâzrazkívunaborahdanihdlâzadačklasifíkacííumašinnomunavčanní
AT okhrimenkoanton dataminingofmachinelearningdatasetsforhardcaseidentification
AT kussulnataliia dataminingofmachinelearningdatasetsforhardcaseidentification
AT okhrimenkoanton metodvyâvleniâsložnyhdlâraspoznavaniâobrazcovvnaborahdannyhdlâzadačklassifikaciivmašinnomobučenii
AT kussulnataliia metodvyâvleniâsložnyhdlâraspoznavaniâobrazcovvnaborahdannyhdlâzadačklassifikaciivmašinnomobučenii
first_indexed 2025-10-30T02:48:39Z
last_indexed 2025-10-30T02:48:39Z
_version_ 1847373352939814912
spelling oai:ojs2.jais.net.ua:article-1152024-03-14T10:17:57Z Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні Data mining of machine learning datasets for hard case identification Метод выявления сложных для распознавания образцов в наборах данных для задач классификации в машинном обучении Okhrimenko, Anton Kussul, Nataliia машинное обучение классификатор метод ближайшего соседа оценка качества датасета (набора данных) несбалансированные наборы данных перекрытие классов machine learning classifier the nearest neighbor method dataset quality assessment imbalanced datasets hard cases машинне навчання класифікатор метод найближчого сусіда оцінка якості датасету (набору даних) незбалансовані набори даних перекриття класів Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть неможлива, незалежно від складності моделі машинного навчання. Запропоновано метод та алгоритм виявлення таких неоднозначних екземплярів даних, що базуються на використанні методу найближчого сусіда та аналізу класів екземплярів даних, розташованих поряд у просторі ознак, та дозволяють виділити підмножину неоднозначних екземплярів даних, що можуть негативно впливати на процес навчання моделі класифікації. З метою демонстрації практичного застосування алгоритму проведено експеримент на чотириканальному супутниковому композиті, що використовується для попіксельної класифікації сільськогосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є можливість використання запропонованого алгоритму під час конструювання датасету (набору даних, dataset) для навчання моделі класифікації. Він допомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідного набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі при використанні в операційному режимі. Виявлення неоднозначних екземплярів може допомогти знайти потенційні помилки класифікації та покращити результати роботи моделі. Представлений алгоритм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скорочуватиме час на отримання якісних навчальних даних, покращуватиме метрики класифікації та забезпечуватиме більш надійні результати у задачах машинного навчання. This article addresses the issue of ambiguity in classification tasks in the field of machine learning. Classification involves training a model that is able to distinguish between data samples belonging to different classes. However, there are situations where correctly classifying certain data samples becomes a difficult or even impossible task, regardless of the complexity of the machine learning mo­del. In this study, a method and algorithm for detecting such ambiguous data samples are proposed. The method is based on the nearest neighbor approach and analyzes the class labels of data samples that are closely located in the feature space, it makes possible the identification of a subset of ambiguous data samples that may negatively impact the classification model’s training process. To demonstrate the practical application of the algorithm, an experiment was conducted using a four-channel satellite composite for pixel-to-pixel classification of agricultural crops. The percentage of unreliable data was determined both total and separately for each crop. One of the main findings of the research is the potential use of the proposed algorithm in constructing the dataset for classification model training. It helps identify potentially problematic data samples and ensures the quality of the input data set. Additionally, there were considered the possibilities of applying the algorithm after the model training process while using it in operational mode. Detecting ambiguous data samples can help identify potential classification errors and improve the model’s performance. The presented algorithm can be a valuable tool for researchers through the entire cycle of machine learning model development, starting from data preparation for training and ending with its deploying for a practical use. An algorithm can contribute to reducing the time required for obtaining high quality training data, improving the classification metrics, and providing more reliable results in machine learning tasks. Рассматривается неувязка неоднозначности в задачках классификации в области машинного обучения. Задача классификации состоит в обучении модели отличать экземпляры данных, принадлежащих разным классам. Однако возможны ситуации, когда правильная классификация определенного множества экземпляров данных сложна или даже невозможна вне зависимости от сложности модели машинного обучения. Предложен метод и алгоритм выявления таких неоднозначных экземпляров данных, основанных на использовании метода ближайшего соседа и анализа классов экземпляров данных, расположенных рядом в пространстве признаков, и позволяют выделить подмножество неоднозначных экземпляров данных, которые могут негативно влиять на процесс обучения модели классификации. В целях демонстрации практического применения алгоритма проведен эксперимент на четырехканальном спутниковом композите, используемом для попиксельной классификации сельскохозяйственных культур. Определен процент ненадежных данных в целом и отдельно для каждой культуры. Одним из основных результатов исследования является возможность использования предложенного алгоритма при конструировании датасета (набора данных, dataset) для обучения модели классификации. Он помогает выявить потенциально проблемные экземпляры данных и обеспечить качество входного набора данных. Кроме того, рассмотрены возможности применения алгоритма после процесса обучения модели при использовании в операционном режиме. Выявление неоднозначных экземпляров может помочь найти потенциальные ошибки классификации и улучшить результаты работы модели. Представленный алгоритм может стать важным инструментом для исследователя на протяжении полного цикла разработки модели машинного обучения, начиная с подготовки данных для обучения и заканчивая ее практическим внедрением. Его применение будет сокращать время на получение качественных учебных данных, улучшать метрику классификации и обеспечивать более надежные результаты в задачах машинного обучения. V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2023-05-26 Article Article application/pdf https://jais.net.ua/index.php/files/article/view/115 10.34229/1028-0979-2023-4-7 Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; Том 68 № 4 (2023): Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; 84-95 International Scientific Technical Journal "Problems of Control and Informatics; Том 68 № 4 (2023): International Scientific Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 84-95 International Scientific Technical Journal "Problems of Control and Informatics"; Vol. 68 No. 4 (2023): International Scientific Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 84-95 2786-6505 2786-6491 10.34229/1028-0979-2023-4 uk https://jais.net.ua/index.php/files/article/view/115/208 Copyright (c) 2023 Anton Okhrimenko, Nataliia Kussul https://creativecommons.org/licenses/by-nc-nd/4.0