ОЦІНКА ПОДІБНОСТІ ЧАСОВИХ РЯДІВ НА ОСНОВІ МОДЕЛЕЙ

Determining the measure of the distance between time series is the starting point for many data mining tasks such as clustering and classification. Clustering is the main method of teaching without a teacher, which is used to divide data into groups based on the internal and a priori unknown charact...

Full description

Saved in:
Bibliographic Details
Date:2025
Main Author: Knignitskaya, T.V.
Format: Article
Language:English
Published: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2025
Subjects:
Online Access:https://jais.net.ua/index.php/files/article/view/671
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Problems of Control and Informatics

Institution

Problems of Control and Informatics
id oai:ojs2.jais.net.ua:article-671
record_format ojs
institution Problems of Control and Informatics
baseUrl_str
datestamp_date 2025-10-09T15:01:41Z
collection OJS
language English
topic відстань між часовими рядами за моделями
кластеризація
кластер
часовий ряд
модель часового ряду
DTW
ERP
spellingShingle відстань між часовими рядами за моделями
кластеризація
кластер
часовий ряд
модель часового ряду
DTW
ERP
Knignitskaya, T.V.
ОЦІНКА ПОДІБНОСТІ ЧАСОВИХ РЯДІВ НА ОСНОВІ МОДЕЛЕЙ
topic_facet distance between time series by models
clustering
cluster
time series
time series model
DTW
ERP
відстань між часовими рядами за моделями
кластеризація
кластер
часовий ряд
модель часового ряду
DTW
ERP
format Article
author Knignitskaya, T.V.
author_facet Knignitskaya, T.V.
author_sort Knignitskaya, T.V.
title ОЦІНКА ПОДІБНОСТІ ЧАСОВИХ РЯДІВ НА ОСНОВІ МОДЕЛЕЙ
title_short ОЦІНКА ПОДІБНОСТІ ЧАСОВИХ РЯДІВ НА ОСНОВІ МОДЕЛЕЙ
title_full ОЦІНКА ПОДІБНОСТІ ЧАСОВИХ РЯДІВ НА ОСНОВІ МОДЕЛЕЙ
title_fullStr ОЦІНКА ПОДІБНОСТІ ЧАСОВИХ РЯДІВ НА ОСНОВІ МОДЕЛЕЙ
title_full_unstemmed ОЦІНКА ПОДІБНОСТІ ЧАСОВИХ РЯДІВ НА ОСНОВІ МОДЕЛЕЙ
title_sort оцінка подібності часових рядів на основі моделей
title_alt ESTIMATE OF TIME SERIES SIMILARITY BASED ON MODELS
description Determining the measure of the distance between time series is the starting point for many data mining tasks such as clustering and classification. Clustering is the main method of teaching without a teacher, which is used to divide data into groups based on the internal and a priori unknown characteristics inherent in the data. When dividing data into clusters, the need arises to select the similarity metric between objects. The paper describes the main existing algorithms for the “distance” searching between time series, which well describe this problem for small time series and under the absence of outliers. Outliers inherent in real processes lead to improper clustering, and, consequently, to wrong decisions making. It is proposed to consider the distance between time series in the form of the distance between models (ARIMA) of these time series. In the presence of a large number of outliers, classical methods linearly increase the distances between time series, while the distance proposed in the article according to the models behaves as a logarithmic function. It is shown that with an increase in the number of measurements, the relative errors for all classical methods remain almost unchanged. At the same time, the relative error for estimating the distance by the models is much smaller and decreases with an increase in the number of measurements. The main achievement of the article is the determination of the distance between time series, based on the concept of a model, and the comparison of this distance with the corresponding classical methods most commonly used. Using the Monte Carlo method, it has been shown that the proposed distance is more resistant to outliers and gives more accurate results for time series with a large number of observations. In addition, the complexity of the algorithm for calculating distances based on models is less than the analogous computational complexity of existing algorithms (DTW, ERP, Euclidean distance). There is no doubt that the use of models is one of the most convenient tools for studying the similarity of processes. In addition, for analysis taking into account this algorithm, it is convenient to use the averaged evolutions and the limiting evolutions in the diffusion approximation scheme. Also, due to the resistance to outliers of limiting evolutions, the entered distance can be used in clustering to build more noise-resistant clusters.
publisher V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
publishDate 2025
url https://jais.net.ua/index.php/files/article/view/671
work_keys_str_mv AT knignitskayatv estimateoftimeseriessimilaritybasedonmodels
AT knignitskayatv ocínkapodíbnostíčasovihrâdívnaosnovímodelej
first_indexed 2025-10-30T02:49:34Z
last_indexed 2025-10-30T02:49:34Z
_version_ 1847373410976399360
spelling oai:ojs2.jais.net.ua:article-6712025-10-09T15:01:41Z ESTIMATE OF TIME SERIES SIMILARITY BASED ON MODELS ОЦІНКА ПОДІБНОСТІ ЧАСОВИХ РЯДІВ НА ОСНОВІ МОДЕЛЕЙ Knignitskaya, T.V. distance between time series by models clustering cluster time series time series model DTW ERP відстань між часовими рядами за моделями кластеризація кластер часовий ряд модель часового ряду DTW ERP Determining the measure of the distance between time series is the starting point for many data mining tasks such as clustering and classification. Clustering is the main method of teaching without a teacher, which is used to divide data into groups based on the internal and a priori unknown characteristics inherent in the data. When dividing data into clusters, the need arises to select the similarity metric between objects. The paper describes the main existing algorithms for the “distance” searching between time series, which well describe this problem for small time series and under the absence of outliers. Outliers inherent in real processes lead to improper clustering, and, consequently, to wrong decisions making. It is proposed to consider the distance between time series in the form of the distance between models (ARIMA) of these time series. In the presence of a large number of outliers, classical methods linearly increase the distances between time series, while the distance proposed in the article according to the models behaves as a logarithmic function. It is shown that with an increase in the number of measurements, the relative errors for all classical methods remain almost unchanged. At the same time, the relative error for estimating the distance by the models is much smaller and decreases with an increase in the number of measurements. The main achievement of the article is the determination of the distance between time series, based on the concept of a model, and the comparison of this distance with the corresponding classical methods most commonly used. Using the Monte Carlo method, it has been shown that the proposed distance is more resistant to outliers and gives more accurate results for time series with a large number of observations. In addition, the complexity of the algorithm for calculating distances based on models is less than the analogous computational complexity of existing algorithms (DTW, ERP, Euclidean distance). There is no doubt that the use of models is one of the most convenient tools for studying the similarity of processes. In addition, for analysis taking into account this algorithm, it is convenient to use the averaged evolutions and the limiting evolutions in the diffusion approximation scheme. Also, due to the resistance to outliers of limiting evolutions, the entered distance can be used in clustering to build more noise-resistant clusters. Визначення міри відстані між часовими рядами є відправною точкою для багатьох завдань інтелектуального аналізу даних, таких як кластеризація та класифікація. Кластеризація є основним методом навчання без вчителя, який використовується для розбиття даних на групи на основі внутрішніх і апріорних невідомих характеристик, властивих даним. При розбитті даних на кластери виникає потреба правильного вибору метрики подібності між об’єктами. Описано основні існуючі алгоритми пошуку відстані між часовими рядами, які добре описують дану проблему для малих часових рядів та за відсутності викидів. Викиди, властиві реальним процесам, призводять до неправильної кластеризації, а отже, до прийняття неправильних рішень. Запропоновано розглянути відстань між часовими рядами у вигляді відстані між моделями (ARIMA) даних часових рядів. За наявності великої кількості викидів класичні методи лінійно збільшують відстані між часовими рядами, в той же час запропонована у статті відстань за моделями поводить себе як логарифмічна функція. Показано, що при зростанні кількості вимірювань відносні похибки для всіх класичних методів залишаються майже незмінними. Відносна похибка для оцінки відстані за моделями значно менша та спадає при зростанні кількості вимірювань. Основним досягненням статті є визначення відстані між часовими рядами, яка ґрунтується на понятті моделі, і порівняння цієї відстані з відповідними класичними найбільш вживаними методами. Використовуючи метод Монте–Карло, показано, що запропонована відстань більш стійка до викидів і дає більш точні результати для часових рядів з великою кількістю спостережень. Крім того, складність алгоритму обчислення відстані на основі моделей менша за аналогічну обчислювальну складність існуючих алгоритмів (DTW, ERP, Евкліда). Немає сумнівів, що використання моделей є одним з найбільш зручних інструментів дослідження подібності процесів. Крім того, для аналізу з врахуванням даного алгоритму зручно використовувати усереднені еволюції і граничні еволюції в схемі дифузійної апроксимації. Також за рахунок стійкості до викидів граничних еволюцій введену відстань можна використовувати при кластеризації для побудови більш стійких до шумів кластерів. V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2025-10-09 Article Article application/pdf https://jais.net.ua/index.php/files/article/view/671 10.1615/JAutomatInfScien.v51.i8.60 Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; Том 64 № 4 (2019): Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; 94-104 International Scientific Technical Journal "Problems of Control and Informatics; Том 64 № 4 (2019): International Scientific and Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 94-104 International Scientific Technical Journal "Problems of Control and Informatics"; Vol. 64 No. 4 (2019): International Scientific and Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 94-104 2786-6505 2786-6491 en https://jais.net.ua/index.php/files/article/view/671/738 https://creativecommons.org/licenses/by-nc-nd/4.0