Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів

Розглянуто один із варіантів розв’язку задачі кластеризації на основі алгоритму к-середніх, який широко застосовується в багатьох сферах науки і техніки. Головними недоліками алгоритму к-середніх є залежність результатів кластеризації від вибору початкової конфігурації центроїдів (ініціалізації) та...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	Реєстрація, зберігання і обробка даних
Datum:	2012
Hauptverfasser:	Ткаченко, О.М., Біліченко, Н.О., Грійо-Тукало, О.Ф., Дзісь, О.В.
Format:	Artikel
Sprache:	Ukrainian
Veröffentlicht:	Інститут проблем реєстрації інформації НАН України 2012
Schlagworte:	Математичні методи обробки даних
Online Zugang:	https://nasplib.isofts.kiev.ua/handle/123456789/50557
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:	Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів / О.М. Ткаченко, Н.О. Біліченко, О.Ф. Грійо-Тукало, О.В. Дзісь // Реєстрація, зберігання і обробка даних. — 2012. — Т. 14, № 1. — С. 25-34. — Бібліогр.: 8 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine

id	nasplib_isofts_kiev_ua-123456789-50557
record_format	dspace
spelling	Ткаченко, О.М. Біліченко, Н.О. Грійо-Тукало, О.Ф. Дзісь, О.В. 2013-10-23T19:25:41Z 2013-10-23T19:25:41Z 2012 Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів / О.М. Ткаченко, Н.О. Біліченко, О.Ф. Грійо-Тукало, О.В. Дзісь // Реєстрація, зберігання і обробка даних. — 2012. — Т. 14, № 1. — С. 25-34. — Бібліогр.: 8 назв. — укр. 1560-9189 https://nasplib.isofts.kiev.ua/handle/123456789/50557 621.39 Розглянуто один із варіантів розв’язку задачі кластеризації на основі алгоритму к-середніх, який широко застосовується в багатьох сферах науки і техніки. Головними недоліками алгоритму к-середніх є залежність результатів кластеризації від вибору початкової конфігурації центроїдів (ініціалізації) та збіжність до локального мінімуму цільової функції. Запропонований в роботі вдосконалений метод к-середніх дозволяє отримати розв'язок, наближений до глобального мінімуму спотворення шляхом послідовного запуску к-середніх для 1,2,...,к центроїїдів. Значне прискорення роботи досягається за рахунок обчислення відстаней лише до активних центроїдів, а також зменшення кількості векторів-кандидатів на вибір місця початкового розташування нового центроїду. Перевага даного підходу суттєво зростає за великих обсягів даних і зі збільшенням розмірності. Запропонований алгоритм доцільно використовувати в задачах кластеризації мовленнєвих даних при створенні кодових книг. Рассмотрен один из вариантов решения задачи кластеризации на основе алгоритма к-средних, который широко применяется во многих областях науки и техники. Главными недостатками алгоритма к-средних являются зависимость результатов кластеризации от выбора начальной конфигурации центроидов (инициализации) и сходимость к локальному минимуму целевой функции. Предложенный в работе усовершенствованный метод к-средних позволяет получить решение, приближенное к глобальному минимуму искажения путем последовательного запуска к-средних для 1.2,...,к центроидов. Значительное ускорение работы достигается за счет вычисления расстояний только к активным центроидам, а также уменьшения количества векторов-кандидатов на выбор места первоначального расположения нового центроида. Преимущество данного подхода существенно возрастает при больших объемах данных и с увеличением размерности. Предложенный алгоритм целесообразно использовать в задачах кластеризации речевых данных при создании кодовых книг. A variant of the clustering problem solution based on k-means algorithm is considered. This algorithm is widely used in many fields of science and technology. The main drawbacks of k-means algorithm are the clustering results dependence on the choice of the initial configuration of centroids (initialization) and convergence to local minimum of the objective function. The proposed improved k-means provides a solution close to the global minimum distortion by the sequential k-means running for 1, 2,..., k centroids. A significant speed-up of operation is achieved by calculating the distances only to the active centroids and reducing the number of candidate vectors for the initial choice of the new centroid location. The advantage of this approach is more appreciable when a larger data set with higher dimension is used. The proposed algorithm should be used in the speech data clustering problems when creating code books. uk Інститут проблем реєстрації інформації НАН України Реєстрація, зберігання і обробка даних Математичні методи обробки даних Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів Метод кластеризации на основе последовательного запуска к-среднпх с вычислением расстояний до активных центроидов The Clustering Method Based on the Consequential Running of k-Means with Calculation of the Distances to the Active Centroids Article published earlier
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection	DSpace DC
title	Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів
spellingShingle	Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів Ткаченко, О.М. Біліченко, Н.О. Грійо-Тукало, О.Ф. Дзісь, О.В. Математичні методи обробки даних
title_short	Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів
title_full	Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів
title_fullStr	Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів
title_full_unstemmed	Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів
title_sort	метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів
author	Ткаченко, О.М. Біліченко, Н.О. Грійо-Тукало, О.Ф. Дзісь, О.В.
author_facet	Ткаченко, О.М. Біліченко, Н.О. Грійо-Тукало, О.Ф. Дзісь, О.В.
topic	Математичні методи обробки даних
topic_facet	Математичні методи обробки даних
publishDate	2012
language	Ukrainian
container_title	Реєстрація, зберігання і обробка даних
publisher	Інститут проблем реєстрації інформації НАН України
format	Article
title_alt	Метод кластеризации на основе последовательного запуска к-среднпх с вычислением расстояний до активных центроидов The Clustering Method Based on the Consequential Running of k-Means with Calculation of the Distances to the Active Centroids
description	Розглянуто один із варіантів розв’язку задачі кластеризації на основі алгоритму к-середніх, який широко застосовується в багатьох сферах науки і техніки. Головними недоліками алгоритму к-середніх є залежність результатів кластеризації від вибору початкової конфігурації центроїдів (ініціалізації) та збіжність до локального мінімуму цільової функції. Запропонований в роботі вдосконалений метод к-середніх дозволяє отримати розв'язок, наближений до глобального мінімуму спотворення шляхом послідовного запуску к-середніх для 1,2,...,к центроїїдів. Значне прискорення роботи досягається за рахунок обчислення відстаней лише до активних центроїдів, а також зменшення кількості векторів-кандидатів на вибір місця початкового розташування нового центроїду. Перевага даного підходу суттєво зростає за великих обсягів даних і зі збільшенням розмірності. Запропонований алгоритм доцільно використовувати в задачах кластеризації мовленнєвих даних при створенні кодових книг. Рассмотрен один из вариантов решения задачи кластеризации на основе алгоритма к-средних, который широко применяется во многих областях науки и техники. Главными недостатками алгоритма к-средних являются зависимость результатов кластеризации от выбора начальной конфигурации центроидов (инициализации) и сходимость к локальному минимуму целевой функции. Предложенный в работе усовершенствованный метод к-средних позволяет получить решение, приближенное к глобальному минимуму искажения путем последовательного запуска к-средних для 1.2,...,к центроидов. Значительное ускорение работы достигается за счет вычисления расстояний только к активным центроидам, а также уменьшения количества векторов-кандидатов на выбор места первоначального расположения нового центроида. Преимущество данного подхода существенно возрастает при больших объемах данных и с увеличением размерности. Предложенный алгоритм целесообразно использовать в задачах кластеризации речевых данных при создании кодовых книг. A variant of the clustering problem solution based on k-means algorithm is considered. This algorithm is widely used in many fields of science and technology. The main drawbacks of k-means algorithm are the clustering results dependence on the choice of the initial configuration of centroids (initialization) and convergence to local minimum of the objective function. The proposed improved k-means provides a solution close to the global minimum distortion by the sequential k-means running for 1, 2,..., k centroids. A significant speed-up of operation is achieved by calculating the distances only to the active centroids and reducing the number of candidate vectors for the initial choice of the new centroid location. The advantage of this approach is more appreciable when a larger data set with higher dimension is used. The proposed algorithm should be used in the speech data clustering problems when creating code books.
issn	1560-9189
url	https://nasplib.isofts.kiev.ua/handle/123456789/50557
citation_txt	Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів / О.М. Ткаченко, Н.О. Біліченко, О.Ф. Грійо-Тукало, О.В. Дзісь // Реєстрація, зберігання і обробка даних. — 2012. — Т. 14, № 1. — С. 25-34. — Бібліогр.: 8 назв. — укр.
work_keys_str_mv	AT tkačenkoom metodklasterizacíínaosnovíposlídovnogozapuskukseredníhzobčislennâmvídstaneidoaktivnihcentroídív AT bílíčenkono metodklasterizacíínaosnovíposlídovnogozapuskukseredníhzobčislennâmvídstaneidoaktivnihcentroídív AT gríiotukaloof metodklasterizacíínaosnovíposlídovnogozapuskukseredníhzobčislennâmvídstaneidoaktivnihcentroídív AT dzísʹov metodklasterizacíínaosnovíposlídovnogozapuskukseredníhzobčislennâmvídstaneidoaktivnihcentroídív AT tkačenkoom metodklasterizaciinaosnoveposledovatelʹnogozapuskaksrednphsvyčisleniemrasstoâniidoaktivnyhcentroidov AT bílíčenkono metodklasterizaciinaosnoveposledovatelʹnogozapuskaksrednphsvyčisleniemrasstoâniidoaktivnyhcentroidov AT gríiotukaloof metodklasterizaciinaosnoveposledovatelʹnogozapuskaksrednphsvyčisleniemrasstoâniidoaktivnyhcentroidov AT dzísʹov metodklasterizaciinaosnoveposledovatelʹnogozapuskaksrednphsvyčisleniemrasstoâniidoaktivnyhcentroidov AT tkačenkoom theclusteringmethodbasedontheconsequentialrunningofkmeanswithcalculationofthedistancestotheactivecentroids AT bílíčenkono theclusteringmethodbasedontheconsequentialrunningofkmeanswithcalculationofthedistancestotheactivecentroids AT gríiotukaloof theclusteringmethodbasedontheconsequentialrunningofkmeanswithcalculationofthedistancestotheactivecentroids AT dzísʹov theclusteringmethodbasedontheconsequentialrunningofkmeanswithcalculationofthedistancestotheactivecentroids
first_indexed	2025-12-07T15:58:11Z
last_indexed	2025-12-07T15:58:11Z
_version_	1850865710291484672

Метод кластеризації на основі послідовного запуску k-середніх з обчисленням відстаней до активних центроїдів

Institution

Ähnliche Einträge