Оценка сходства временных рядов на основе моделей
В настоящей работе рассмотрено расстояние между временными рядами, основанное не на данных, а на моделях временных рядов. С помощью метода Монте–Карло, показано, что данное расстояние более устойчиво к выбросам и дает более точные результаты для более длинных временных рядов (при больших T)....
Збережено в:
Дата: | 2019 |
---|---|
Автор: | |
Формат: | Стаття |
Мова: | Russian |
Опубліковано: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2019
|
Назва видання: | Проблемы управления и информатики |
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/180823 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Оценка сходства временных рядов на основе моделей / Т.В. Книгницкая // Проблемы управления и информатики. — 2019. — № 4. — С. 94-104. — Бібліогр.: 40 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-180823 |
---|---|
record_format |
dspace |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
topic |
Методы обработки и защиты информации Методы обработки и защиты информации |
spellingShingle |
Методы обработки и защиты информации Методы обработки и защиты информации Книгницкая, Т.В. Оценка сходства временных рядов на основе моделей Проблемы управления и информатики |
description |
В настоящей работе рассмотрено расстояние между временными рядами, основанное не на данных, а на моделях временных рядов. С помощью метода Монте–Карло, показано, что данное расстояние более устойчиво к выбросам и дает более точные результаты для более длинных временных рядов (при больших T). |
format |
Article |
author |
Книгницкая, Т.В. |
author_facet |
Книгницкая, Т.В. |
author_sort |
Книгницкая, Т.В. |
title |
Оценка сходства временных рядов на основе моделей |
title_short |
Оценка сходства временных рядов на основе моделей |
title_full |
Оценка сходства временных рядов на основе моделей |
title_fullStr |
Оценка сходства временных рядов на основе моделей |
title_full_unstemmed |
Оценка сходства временных рядов на основе моделей |
title_sort |
оценка сходства временных рядов на основе моделей |
publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
publishDate |
2019 |
topic_facet |
Методы обработки и защиты информации |
url |
http://dspace.nbuv.gov.ua/handle/123456789/180823 |
citation_txt |
Оценка сходства временных рядов на основе моделей / Т.В. Книгницкая // Проблемы управления и информатики. — 2019. — № 4. — С. 94-104. — Бібліогр.: 40 назв. — рос. |
series |
Проблемы управления и информатики |
work_keys_str_mv |
AT knignickaâtv ocenkashodstvavremennyhrâdovnaosnovemodelej |
first_indexed |
2023-10-18T22:50:56Z |
last_indexed |
2023-10-18T22:50:56Z |
_version_ |
1796156592385687552 |
spelling |
irk-123456789-1808232021-10-21T01:26:43Z Оценка сходства временных рядов на основе моделей Книгницкая, Т.В. Методы обработки и защиты информации В настоящей работе рассмотрено расстояние между временными рядами, основанное не на данных, а на моделях временных рядов. С помощью метода Монте–Карло, показано, что данное расстояние более устойчиво к выбросам и дает более точные результаты для более длинных временных рядов (при больших T). Визначення міри відстані між часовими рядами є відправною точкою для багатьох завдань інтелектуального аналізу даних, таких як кластеризація та класифікація. Кластеризація є основним методом навчання без вчителя, який використовується для розбиття даних на групи на основі внутрішніх і апріорних невідомих характеристик, властивих даним. При розбитті даних на кластери виникає потреба правильного вибору метрики подібності між об’єктами. Описано основні існуючі алгоритми пошуку відстані між часовими рядами, які добре описують дану проблему для малих часових рядів та за відсутності викидів. Викиди, властиві реальним процесам, призводять до неправильної кластеризації, а отже, до прийняття неправильних рішень. Запропоновано розглянути відстань між часовими рядами у вигляді відстані між моделями (ARIMA) даних часових рядів. За наявності великої кількості викидів класичні методи лінійно збільшують відстані між часовими рядами, в той же час запропонована у статті відстань за моделями поводить себе як логарифмічна функція. Показано, що при зростанні кількості вимірювань відносні похибки для всіх класичних методів залишаються майже незмінними. Відносна похибка для оцінки відстані за моделями значно менша та спадає при зростанні кількості вимірювань. Основним досягненням статті є визначення відстані між часовими рядами, яка ґрунтується на понятті моделі, і порівняння цієї відстані з відповідними класичними найбільш вживаними методами. Використовуючи метод Монте–Карло, показано, що запропонована відстань більш стійка до викидів і дає більш точні результати для часових рядів з великою кількістю спостережень. Крім того, складність алгоритму обчислення відстані на основі моделей менша за аналогічну обчислювальну складність існуючих алгоритмів (DTW, ERP, Евкліда). Немає сумнівів, що використання моделей є одним з найбільш зручних інструментів дослідження подібності процесів. Крім того, для аналізу з врахуванням даного алгоритму зручно використовувати усереднені еволюції і граничні еволюції в схемі дифузійної апроксимації. Також за рахунок стійкості до викидів граничних еволюцій введену відстань можна використовувати при кластеризації для побудови більш стійких до шумів кластерів. Determining the measure of the distance between time series is the starting point for many data mining tasks such as clustering and classification. Clustering is the main method of teaching without a teacher, which is used to divide data into groups based on the internal and a priori unknown characteristics inherent in the data. When dividing data into clusters, the need arises to select the similarity metric between objects. The paper describes the main existing algorithms for the “distance” searching between time series, which well describe this problem for small time series and under the absence of outliers. Outliers inherent in real processes lead to improper clustering, and, consequently, to wrong decisions making. It is proposed to consider the distance between time series in the form of the distance between models (ARIMA) of these time series. In the presence of a large number of outliers, classical methods linearly increase the distances between time series, while the distance proposed in the article according to the models behaves as a logarithmic function. It is shown that with an increase in the number of measurements, the relative errors for all classical methods remain almost unchanged. At the same time, the relative error for estimating the distance by the models is much smaller and decreases with an increase in the number of measurements. The main achievement of the article is the determination of the distance between time series, based on the concept of a model, and the comparison of this distance with the corresponding classical methods most commonly used. Using the Monte Carlo method, it has been shown that the proposed distance is more resistant to outliers and gives more accurate results for time series with a large number of observations. In addition, the complexity of the algorithm for calculating distances based on models is less than the analogous computational complexity of existing algorithms (DTW, ERP, Euclidean distance). There is no doubt that the use of models is one of the most convenient tools for studying the similarity of processes. In addition, for analysis taking into account this algorithm, it is convenient to use the averaged evolutions and the limiting evolutions in the diffusion approximation scheme. Also, due to the resistance to outliers of limiting evolutions, the entered distance can be used in clustering to build more noise-resistant clusters. 2019 Article Оценка сходства временных рядов на основе моделей / Т.В. Книгницкая // Проблемы управления и информатики. — 2019. — № 4. — С. 94-104. — Бібліогр.: 40 назв. — рос. 0572-2691 http://dspace.nbuv.gov.ua/handle/123456789/180823 519.2 ru Проблемы управления и информатики Інститут кібернетики ім. В.М. Глушкова НАН України |