Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних

The paper is devoted to improving semi-supervised clustering methods and comparing their accuracy and robustness. The proposed approach is based on expanding a clustering algorithm for using an available set of labels by replacing the distance function. Using the distance function considers not only...

Full description

Saved in:
Bibliographic Details
Date:2022
Main Authors: Lyubchyk, Leonid, Yamkovyi, Klym
Format: Article
Language:English
Published: The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2022
Subjects:
Online Access:http://journal.iasa.kpi.ua/article/view/239726
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:System research and information technologies

Institution

System research and information technologies
_version_ 1856543527730675712
author Lyubchyk, Leonid
Yamkovyi, Klym
author_facet Lyubchyk, Leonid
Yamkovyi, Klym
author_sort Lyubchyk, Leonid
baseUrl_str
collection OJS
datestamp_date 2023-05-21T20:04:38Z
description The paper is devoted to improving semi-supervised clustering methods and comparing their accuracy and robustness. The proposed approach is based on expanding a clustering algorithm for using an available set of labels by replacing the distance function. Using the distance function considers not only spatial data but also available labels. Moreover, the proposed distance function could be adopted for working with ordinal variables as labels. An extended approach is also considered, based on a combination of unsupervised k-medoids methods, modified for using only labeled data during the medoids calculation step, supervised method of k nearest neighbor, and unsupervised k-means. The learning algorithm uses information about the nearest points and classes’ centers of mass. The results demonstrate that even a small amount of labeled data allows us to use semi-supervised learning, and proposed modifications improve accuracy and algorithm performance, which was found during experiments.
first_indexed 2025-07-17T10:27:22Z
format Article
id journaliasakpiua-article-239726
institution System research and information technologies
language English
last_indexed 2025-07-17T10:27:22Z
publishDate 2022
publisher The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
record_format ojs
spelling journaliasakpiua-article-2397262023-05-21T20:04:38Z Comparative analysis of modified semi-supervised learning algorithms on a small amount of labeled data СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДИФИЦИРОВАННЫХ АЛГОРИТМОВ ОБУЧЕНИЯ С ЧАСТИЧНЫМ ПРИВЛЕЧЕНИЕМ УЧИТЕЛЯ НА МАЛОМ КОЛИЧЕСТВЕ РАЗ-МЕЧЕННЫХ ДАННЫХ Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних Lyubchyk, Leonid Yamkovyi, Klym центр мас кластеризація функція відстані медоід найближчий сусід навчання з частковим залученням вчителя center of mass clustering distance function medoids nearest neighbor semi-supervised learning The paper is devoted to improving semi-supervised clustering methods and comparing their accuracy and robustness. The proposed approach is based on expanding a clustering algorithm for using an available set of labels by replacing the distance function. Using the distance function considers not only spatial data but also available labels. Moreover, the proposed distance function could be adopted for working with ordinal variables as labels. An extended approach is also considered, based on a combination of unsupervised k-medoids methods, modified for using only labeled data during the medoids calculation step, supervised method of k nearest neighbor, and unsupervised k-means. The learning algorithm uses information about the nearest points and classes’ centers of mass. The results demonstrate that even a small amount of labeled data allows us to use semi-supervised learning, and proposed modifications improve accuracy and algorithm performance, which was found during experiments. Статья посвящена совершенствованию методов кластеризации с частичным подкреплением, а также сравнению их точности и устойчивости. Предлагаемый подход основан на расширении алгоритмов кластеризации, путем использования доступного набора меток классов с помощью замены функции расстояния; при этом при использовании предложенной функции расстояния учитываются не только пространственные данные, но и доступные метки. Более того, предложенная функция расстояния может быть адаптирована для работы с порядковыми переменными в качестве меток. Также предложено подход основанный на методе  обучения без учителя K-медоидов, модифицированный для использования только размеченных данных на этапе вычисления медоидов кластеров, а также комбинация метода обучения с учителем K ближайшего соседа и без учителя — K-средних. При этом алгоритм обучения использует информацию как о ближайших точках, так и о центрах масс классов. Полученные результаты демонстрируют, что даже небольшой объем помеченных данных позволяет использовать обучение с частичным подкреплением, а предлагаемые модификации обеспечивают повышение точности и устойчивости алгоритма, что было показано в ходе экспериментов. Присвячено вдосконаленню методів кластеризації з частковим підкріпленням, а також порівнянню їх точності та стійкості. Запропонований підхід заснований на розширенні алгоритмів кластеризації шляхом використання доступного набору міток класів за допомогою заміни функції відстані, при цьому за використання запропонованої функції відстані враховуються не тільки просторові дані, але й мітки. Більше того, запропонована функція відстані може бути адаптована для роботи з порядковими змінними як мітки. Також запропоновано підхід, заснований на методі навчання без вчителя k-медоїдів, модифікований для використання лише розмічених даних на етапі обчислення медоїдів кластерів, комбінацію методу навчання з учителем k найближчих сусідів та без вчителя – k-середніх. При цьому алгоритм навчання використовує інформацію як про найближчі точки, так і про центри мас класів. Отримані результати демонструють, що навіть невеликий обсяг помічених даних дає змогу використовувати навчання з частковим підкріпленням, а запропоновані модифікації забезпечують підвищення точності і стійкості алгоритму, що продемонстровано під час експериментів. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2022-12-27 Article Article application/pdf http://journal.iasa.kpi.ua/article/view/239726 10.20535/SRIT.2308-8893.2022.4.03 System research and information technologies; No. 4 (2022); 34-43 Системные исследования и информационные технологии; № 4 (2022); 34-43 Системні дослідження та інформаційні технології; № 4 (2022); 34-43 2308-8893 1681-6048 en http://journal.iasa.kpi.ua/article/view/239726/270396
spellingShingle центр мас
кластеризація
функція відстані
медоід
найближчий сусід
навчання з частковим залученням вчителя
Lyubchyk, Leonid
Yamkovyi, Klym
Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_alt Comparative analysis of modified semi-supervised learning algorithms on a small amount of labeled data
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДИФИЦИРОВАННЫХ АЛГОРИТМОВ ОБУЧЕНИЯ С ЧАСТИЧНЫМ ПРИВЛЕЧЕНИЕМ УЧИТЕЛЯ НА МАЛОМ КОЛИЧЕСТВЕ РАЗ-МЕЧЕННЫХ ДАННЫХ
title_full Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_fullStr Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_full_unstemmed Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_short Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_sort порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
topic центр мас
кластеризація
функція відстані
медоід
найближчий сусід
навчання з частковим залученням вчителя
topic_facet центр мас
кластеризація
функція відстані
медоід
найближчий сусід
навчання з частковим залученням вчителя
center of mass
clustering
distance function
medoids
nearest neighbor
semi-supervised learning
url http://journal.iasa.kpi.ua/article/view/239726
work_keys_str_mv AT lyubchykleonid comparativeanalysisofmodifiedsemisupervisedlearningalgorithmsonasmallamountoflabeleddata
AT yamkovyiklym comparativeanalysisofmodifiedsemisupervisedlearningalgorithmsonasmallamountoflabeleddata
AT lyubchykleonid sravnitelʹnyjanalizmodificirovannyhalgoritmovobučeniâsčastičnymprivlečeniemučitelânamalomkoličestverazmečennyhdannyh
AT yamkovyiklym sravnitelʹnyjanalizmodificirovannyhalgoritmovobučeniâsčastičnymprivlečeniemučitelânamalomkoličestverazmečennyhdannyh
AT lyubchykleonid porívnâlʹnijanalízmodifíkovanihalgoritmívnavčannâzčastkovimzalučennâmučitelânamalíjkílʹkostírozmíčenihdanih
AT yamkovyiklym porívnâlʹnijanalízmodifíkovanihalgoritmívnavčannâzčastkovimzalučennâmučitelânamalíjkílʹkostírozmíčenihdanih