Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні
Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть не...
Збережено в:
| Дата: | 2023 |
|---|---|
| Автори: | , |
| Формат: | Стаття |
| Мова: | Ukrainian |
| Опубліковано: |
V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
2023
|
| Теми: | |
| Онлайн доступ: | https://jais.net.ua/index.php/files/article/view/115 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Problems of Control and Informatics |
Репозитарії
Problems of Control and Informatics| id |
oai:ojs2.jais.net.ua:article-115 |
|---|---|
| record_format |
ojs |
| institution |
Problems of Control and Informatics |
| baseUrl_str |
|
| datestamp_date |
2024-03-14T10:17:57Z |
| collection |
OJS |
| language |
Ukrainian |
| topic |
машинне навчання класифікатор метод найближчого сусіда оцінка якості датасету (набору даних) незбалансовані набори даних перекриття класів |
| spellingShingle |
машинне навчання класифікатор метод найближчого сусіда оцінка якості датасету (набору даних) незбалансовані набори даних перекриття класів Okhrimenko, Anton Kussul, Nataliia Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні |
| topic_facet |
машинное обучение классификатор метод ближайшего соседа оценка качества датасета (набора данных) несбалансированные наборы данных перекрытие классов machine learning classifier the nearest neighbor method dataset quality assessment imbalanced datasets hard cases машинне навчання класифікатор метод найближчого сусіда оцінка якості датасету (набору даних) незбалансовані набори даних перекриття класів |
| format |
Article |
| author |
Okhrimenko, Anton Kussul, Nataliia |
| author_facet |
Okhrimenko, Anton Kussul, Nataliia |
| author_sort |
Okhrimenko, Anton |
| title |
Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні |
| title_short |
Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні |
| title_full |
Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні |
| title_fullStr |
Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні |
| title_full_unstemmed |
Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні |
| title_sort |
метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні |
| title_alt |
Data mining of machine learning datasets for hard case identification Метод выявления сложных для распознавания образцов в наборах данных для задач классификации в машинном обучении |
| description |
Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть неможлива, незалежно від складності моделі машинного навчання. Запропоновано метод та алгоритм виявлення таких неоднозначних екземплярів даних, що базуються на використанні методу найближчого сусіда та аналізу класів екземплярів даних, розташованих поряд у просторі ознак, та дозволяють виділити підмножину неоднозначних екземплярів даних, що можуть негативно впливати на процес навчання моделі класифікації. З метою демонстрації практичного застосування алгоритму проведено експеримент на чотириканальному супутниковому композиті, що використовується для попіксельної класифікації сільськогосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є можливість використання запропонованого алгоритму під час конструювання датасету (набору даних, dataset) для навчання моделі класифікації. Він допомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідного набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі при використанні в операційному режимі. Виявлення неоднозначних екземплярів може допомогти знайти потенційні помилки класифікації та покращити результати роботи моделі. Представлений алгоритм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скорочуватиме час на отримання якісних навчальних даних, покращуватиме метрики класифікації та забезпечуватиме більш надійні результати у задачах машинного навчання. |
| publisher |
V.M. Glushkov Institute of Cybernetics of NAS of Ukraine |
| publishDate |
2023 |
| url |
https://jais.net.ua/index.php/files/article/view/115 |
| work_keys_str_mv |
AT okhrimenkoanton metodviâvlennâskladnihdlârozpíznavannâzrazkívunaborahdanihdlâzadačklasifíkacííumašinnomunavčanní AT kussulnataliia metodviâvlennâskladnihdlârozpíznavannâzrazkívunaborahdanihdlâzadačklasifíkacííumašinnomunavčanní AT okhrimenkoanton dataminingofmachinelearningdatasetsforhardcaseidentification AT kussulnataliia dataminingofmachinelearningdatasetsforhardcaseidentification AT okhrimenkoanton metodvyâvleniâsložnyhdlâraspoznavaniâobrazcovvnaborahdannyhdlâzadačklassifikaciivmašinnomobučenii AT kussulnataliia metodvyâvleniâsložnyhdlâraspoznavaniâobrazcovvnaborahdannyhdlâzadačklassifikaciivmašinnomobučenii |
| first_indexed |
2025-10-30T02:48:39Z |
| last_indexed |
2025-10-30T02:48:39Z |
| _version_ |
1847373352939814912 |
| spelling |
oai:ojs2.jais.net.ua:article-1152024-03-14T10:17:57Z Метод виявлення складних для розпізнавання зразків у наборах даних для задач класифікації у машинному навчанні Data mining of machine learning datasets for hard case identification Метод выявления сложных для распознавания образцов в наборах данных для задач классификации в машинном обучении Okhrimenko, Anton Kussul, Nataliia машинное обучение классификатор метод ближайшего соседа оценка качества датасета (набора данных) несбалансированные наборы данных перекрытие классов machine learning classifier the nearest neighbor method dataset quality assessment imbalanced datasets hard cases машинне навчання класифікатор метод найближчого сусіда оцінка якості датасету (набору даних) незбалансовані набори даних перекриття класів Розглядається проблема неоднозначності в задачах класифікації в області машинного навчання. Задача класифікації полягає у навчанні моделі відрізняти екземпляри даних, що належать різним класам. Однак можливі ситуації, коли правильна класифікація певної множини екземплярів даних складна або навіть неможлива, незалежно від складності моделі машинного навчання. Запропоновано метод та алгоритм виявлення таких неоднозначних екземплярів даних, що базуються на використанні методу найближчого сусіда та аналізу класів екземплярів даних, розташованих поряд у просторі ознак, та дозволяють виділити підмножину неоднозначних екземплярів даних, що можуть негативно впливати на процес навчання моделі класифікації. З метою демонстрації практичного застосування алгоритму проведено експеримент на чотириканальному супутниковому композиті, що використовується для попіксельної класифікації сільськогосподарських культур. Визначено відсоток ненадійних даних загалом та окремо для кожної культури. Одним з основних результатів дослідження є можливість використання запропонованого алгоритму під час конструювання датасету (набору даних, dataset) для навчання моделі класифікації. Він допомагає виявити потенційно проблемні екземпляри даних та забезпечити якість вхідного набору даних. Крім того, розглянуто можливості застосування алгоритму після процесу навчання моделі при використанні в операційному режимі. Виявлення неоднозначних екземплярів може допомогти знайти потенційні помилки класифікації та покращити результати роботи моделі. Представлений алгоритм може стати важливим інструментом для дослідника впродовж повного циклу розробки моделі машинного навчання, починаючи від підготовки даних для навчання і закінчуючи її практичним впровадженням. Його застосування скорочуватиме час на отримання якісних навчальних даних, покращуватиме метрики класифікації та забезпечуватиме більш надійні результати у задачах машинного навчання. This article addresses the issue of ambiguity in classification tasks in the field of machine learning. Classification involves training a model that is able to distinguish between data samples belonging to different classes. However, there are situations where correctly classifying certain data samples becomes a difficult or even impossible task, regardless of the complexity of the machine learning model. In this study, a method and algorithm for detecting such ambiguous data samples are proposed. The method is based on the nearest neighbor approach and analyzes the class labels of data samples that are closely located in the feature space, it makes possible the identification of a subset of ambiguous data samples that may negatively impact the classification model’s training process. To demonstrate the practical application of the algorithm, an experiment was conducted using a four-channel satellite composite for pixel-to-pixel classification of agricultural crops. The percentage of unreliable data was determined both total and separately for each crop. One of the main findings of the research is the potential use of the proposed algorithm in constructing the dataset for classification model training. It helps identify potentially problematic data samples and ensures the quality of the input data set. Additionally, there were considered the possibilities of applying the algorithm after the model training process while using it in operational mode. Detecting ambiguous data samples can help identify potential classification errors and improve the model’s performance. The presented algorithm can be a valuable tool for researchers through the entire cycle of machine learning model development, starting from data preparation for training and ending with its deploying for a practical use. An algorithm can contribute to reducing the time required for obtaining high quality training data, improving the classification metrics, and providing more reliable results in machine learning tasks. Рассматривается неувязка неоднозначности в задачках классификации в области машинного обучения. Задача классификации состоит в обучении модели отличать экземпляры данных, принадлежащих разным классам. Однако возможны ситуации, когда правильная классификация определенного множества экземпляров данных сложна или даже невозможна вне зависимости от сложности модели машинного обучения. Предложен метод и алгоритм выявления таких неоднозначных экземпляров данных, основанных на использовании метода ближайшего соседа и анализа классов экземпляров данных, расположенных рядом в пространстве признаков, и позволяют выделить подмножество неоднозначных экземпляров данных, которые могут негативно влиять на процесс обучения модели классификации. В целях демонстрации практического применения алгоритма проведен эксперимент на четырехканальном спутниковом композите, используемом для попиксельной классификации сельскохозяйственных культур. Определен процент ненадежных данных в целом и отдельно для каждой культуры. Одним из основных результатов исследования является возможность использования предложенного алгоритма при конструировании датасета (набора данных, dataset) для обучения модели классификации. Он помогает выявить потенциально проблемные экземпляры данных и обеспечить качество входного набора данных. Кроме того, рассмотрены возможности применения алгоритма после процесса обучения модели при использовании в операционном режиме. Выявление неоднозначных экземпляров может помочь найти потенциальные ошибки классификации и улучшить результаты работы модели. Представленный алгоритм может стать важным инструментом для исследователя на протяжении полного цикла разработки модели машинного обучения, начиная с подготовки данных для обучения и заканчивая ее практическим внедрением. Его применение будет сокращать время на получение качественных учебных данных, улучшать метрику классификации и обеспечивать более надежные результаты в задачах машинного обучения. V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2023-05-26 Article Article application/pdf https://jais.net.ua/index.php/files/article/view/115 10.34229/1028-0979-2023-4-7 Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; Том 68 № 4 (2023): Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; 84-95 International Scientific Technical Journal "Problems of Control and Informatics; Том 68 № 4 (2023): International Scientific Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 84-95 International Scientific Technical Journal "Problems of Control and Informatics"; Vol. 68 No. 4 (2023): International Scientific Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 84-95 2786-6505 2786-6491 10.34229/1028-0979-2023-4 uk https://jais.net.ua/index.php/files/article/view/115/208 Copyright (c) 2023 Anton Okhrimenko, Nataliia Kussul https://creativecommons.org/licenses/by-nc-nd/4.0 |