Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні

Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть не...

Full description

Saved in:

Bibliographic Details
Date:	2023
Main Authors:	Okhrimenko, Anton, Kussul, Nataliia
Format:	Article
Language:	Ukrainian
Published:	V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2023
Subjects:	машинне навчання класифікатор метод найближчого сусіда оцінка якості датасету (набору даних) незбалансовані набори даних перекриття класів
Online Access:	https://jais.net.ua/index.php/files/article/view/115
Tags:	Add Tag No Tags, Be the first to tag this record!
Journal Title:	Problems of Control and Informatics

Institution

Problems of Control and Informatics

id	oai:ojs2.jais.net.ua:article-115
record_format	ojs
institution	Problems of Control and Informatics
baseUrl_str
datestamp_date	2024-03-14T10:17:57Z
collection	OJS
language	Ukrainian
topic	машинне навчання класифікатор метод найближчого сусіда оцінка якості датасету (набору даних) незбалансовані набори даних перекриття класів
spellingShingle	машинне навчання класифікатор метод найближчого сусіда оцінка якості датасету (набору даних) незбалансовані набори даних перекриття класів Okhrimenko, Anton Kussul, Nataliia Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
topic_facet	машинное обучение классификатор метод ближайшего соседа оценка качества датасета (набора данных) несбалансированные наборы данных перекрытие классов machine learning classifier the nearest neighbor method dataset quality assessment imbalanced datasets hard cases машинне навчання класифікатор метод найближчого сусіда оцінка якості датасету (набору даних) незбалансовані набори даних перекриття класів
format	Article
author	Okhrimenko, Anton Kussul, Nataliia
author_facet	Okhrimenko, Anton Kussul, Nataliia
author_sort	Okhrimenko, Anton
title	Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_short	Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_full	Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_fullStr	Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_full_unstemmed	Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_sort	метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
title_alt	Data mining of machine learning datasets for hard case identification Метод выявления сложных для распознавания образцов в наборах данных для задач классификации в машинном обучении
description	Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть неможлива, незалежно від складності моделі машинного навчання. Запропоновано метод та алгоритм виявлення таких неоднозначних екземплярів даних, що базуються на використанні методу найближчого сусіда та аналізу класів екземплярів даних, розташованих поряд у просторі ознак, та дозволяють виділити підмножину неоднозначних екземплярів даних, що можуть негативно впливати на процес навчання моделі класифікації. З метою демонстрації практичного застосування алгоритму проведено експеримент на чотириканальному супутниковому композиті, що використовується для попіксельної класифікації сільськогосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є можливість використання запропонованого алгоритму під час конструювання датасету (набору даних, dataset) для навчання моделі класифікації. Він допомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідного набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі при використанні в операційному режимі. Виявлення неоднозначних екземплярів може допомогти знайти потенційні помилки класифікації та покращити результати роботи моделі. Представлений алгоритм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скорочуватиме час на отримання якісних навчальних даних, покращуватиме метрики класифікації та забезпечуватиме більш надійні результати у задачах машинного навчання.
publisher	V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
publishDate	2023
url	https://jais.net.ua/index.php/files/article/view/115
work_keys_str_mv	AT okhrimenkoanton metodviâvlennâskladnihdlârozpíznavannâzrazkívunaborahdanihdlâzadačklasifíkacííumašinnomunavčanní AT kussulnataliia metodviâvlennâskladnihdlârozpíznavannâzrazkívunaborahdanihdlâzadačklasifíkacííumašinnomunavčanní AT okhrimenkoanton dataminingofmachinelearningdatasetsforhardcaseidentification AT kussulnataliia dataminingofmachinelearningdatasetsforhardcaseidentification AT okhrimenkoanton metodvyâvleniâsložnyhdlâraspoznavaniâobrazcovvnaborahdannyhdlâzadačklassifikaciivmašinnomobučenii AT kussulnataliia metodvyâvleniâsložnyhdlâraspoznavaniâobrazcovvnaborahdannyhdlâzadačklassifikaciivmašinnomobučenii
first_indexed	2025-10-30T02:48:39Z
last_indexed	2025-10-30T02:48:39Z
_version_	1847373352939814912
spelling	oai:ojs2.jais.net.ua:article-1152024-03-14T10:17:57Z Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні Data mining of machine learning datasets for hard case identification Метод выявления сложных для распознавания образцов в наборах данных для задач классификации в машинном обучении Okhrimenko, Anton Kussul, Nataliia машинное обучение классификатор метод ближайшего соседа оценка качества датасета (набора данных) несбалансированные наборы данных перекрытие классов machine learning classifier the nearest neighbor method dataset quality assessment imbalanced datasets hard cases машинне навчання класифікатор метод найближчого сусіда оцінка якості датасету (набору даних) незбалансовані набори даних перекриття класів Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть неможлива, незалежно від складності моделі машинного навчання. Запропоновано метод та алгоритм виявлення таких неоднозначних екземплярів даних, що базуються на використанні методу найближчого сусіда та аналізу класів екземплярів даних, розташованих поряд у просторі ознак, та дозволяють виділити підмножину неоднозначних екземплярів даних, що можуть негативно впливати на процес навчання моделі класифікації. З метою демонстрації практичного застосування алгоритму проведено експеримент на чотириканальному супутниковому композиті, що використовується для попіксельної класифікації сільськогосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є можливість використання запропонованого алгоритму під час конструювання датасету (набору даних, dataset) для навчання моделі класифікації. Він допомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідного набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі при використанні в операційному режимі. Виявлення неоднозначних екземплярів може допомогти знайти потенційні помилки класифікації та покращити результати роботи моделі. Представлений алгоритм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скорочуватиме час на отримання якісних навчальних даних, покращуватиме метрики класифікації та забезпечуватиме більш надійні результати у задачах машинного навчання. This article addresses the issue of ambiguity in classification tasks in the field of machine learning. Classification involves training a model that is able to distinguish between data samples belonging to different classes. However, there are situations where correctly classifying certain data samples becomes a difficult or even impossible task, regardless of the complexity of the machine learning model. In this study, a method and algorithm for detecting such ambiguous data samples are proposed. The method is based on the nearest neighbor approach and analyzes the class labels of data samples that are closely located in the feature space, it makes possible the identification of a subset of ambiguous data samples that may negatively impact the classification model’s training process. To demonstrate the practical application of the algorithm, an experiment was conducted using a four-channel satellite composite for pixel-to-pixel classification of agricultural crops. The percentage of unreliable data was determined both total and separately for each crop. One of the main findings of the research is the potential use of the proposed algorithm in constructing the dataset for classification model training. It helps identify potentially problematic data samples and ensures the quality of the input data set. Additionally, there were considered the possibilities of applying the algorithm after the model training process while using it in operational mode. Detecting ambiguous data samples can help identify potential classification errors and improve the model’s performance. The presented algorithm can be a valuable tool for researchers through the entire cycle of machine learning model development, starting from data preparation for training and ending with its deploying for a practical use. An algorithm can contribute to reducing the time required for obtaining high quality training data, improving the classification metrics, and providing more reliable results in machine learning tasks. Рассматривается неувязка неоднозначности в задачках классификации в области машинного обучения. Задача классификации состоит в обучении модели отличать экземпляры данных, принадлежащих разным классам. Однако возможны ситуации, когда правильная классификация определенного множества экземпляров данных сложна или даже невозможна вне зависимости от сложности модели машинного обучения. Предложен метод и алгоритм выявления таких неоднозначных экземпляров данных, основанных на использовании метода ближайшего соседа и анализа классов экземпляров данных, расположенных рядом в пространстве признаков, и позволяют выделить подмножество неоднозначных экземпляров данных, которые могут негативно влиять на процесс обучения модели классификации. В целях демонстрации практического применения алгоритма проведен эксперимент на четырехканальном спутниковом композите, используемом для попиксельной классификации сельскохозяйственных культур. Определен процент ненадежных данных в целом и отдельно для каждой культуры. Одним из основных результатов исследования является возможность использования предложенного алгоритма при конструировании датасета (набора данных, dataset) для обучения модели классификации. Он помогает выявить потенциально проблемные экземпляры данных и обеспечить качество входного набора данных. Кроме того, рассмотрены возможности применения алгоритма после процесса обучения модели при использовании в операционном режиме. Выявление неоднозначных экземпляров может помочь найти потенциальные ошибки классификации и улучшить результаты работы модели. Представленный алгоритм может стать важным инструментом для исследователя на протяжении полного цикла разработки модели машинного обучения, начиная с подготовки данных для обучения и заканчивая ее практическим внедрением. Его применение будет сокращать время на получение качественных учебных данных, улучшать метрику классификации и обеспечивать более надежные результаты в задачах машинного обучения. V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2023-05-26 Article Article application/pdf https://jais.net.ua/index.php/files/article/view/115 10.34229/1028-0979-2023-4-7 Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; Том 68 № 4 (2023): Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; 84-95 International Scientific Technical Journal "Problems of Control and Informatics; Том 68 № 4 (2023): International Scientific Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 84-95 International Scientific Technical Journal "Problems of Control and Informatics"; Vol. 68 No. 4 (2023): International Scientific Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 84-95 2786-6505 2786-6491 10.34229/1028-0979-2023-4 uk https://jais.net.ua/index.php/files/article/view/115/208 Copyright (c) 2023 Anton Okhrimenko, Nataliia Kussul https://creativecommons.org/licenses/by-nc-nd/4.0

Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні

Institution

Similar Items