Low frequency signal classification using clustering methods
The article considers the problem of low frequency signal classification, as sound or vibration pattern footprints may describe types of objects very well. In cases of a priori absence of object signal pattern information, the unsupervised learning methods based on clustering looks good enough for c...
Збережено в:
Дата: | 2024 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут програмних систем НАН України
2024
|
Теми: | |
Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/606 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Problems in programming |
Завантажити файл: |
Репозитарії
Problems in programmingid |
pp_isofts_kiev_ua-article-606 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/eb/05f9c99aa3b41a0bfa59ea4cdad79deb.pdf |
spelling |
pp_isofts_kiev_ua-article-6062024-04-27T16:29:39Z Low frequency signal classification using clustering methods Класифікація низькочастотних сигналів за допомогою методів кластеризаці Rahozin, D.V. Doroshenko, A.Yu. data classification; unsupervised learning; data clustering; sound processing UDC 681.3 класифікація даних; навчання без контролю; кластеризація даних; обробка звуку УДК 681.3 The article considers the problem of low frequency signal classification, as sound or vibration pattern footprints may describe types of objects very well. In cases of a priori absence of object signal pattern information, the unsupervised learning methods based on clustering looks good enough for classification, and outperform neural net-based methods in case of limited power envelope. We have used big real-world sound and vibration data set to check several clustering methods (K-Means, OPTICS) for classification without any a priori data and have got good enough results. The article considers data set preparations including primary signal processing and the parameters to select appropriate clustering algorithms, which depends on input data shape. There are several examples of data classification, also cascaded methods for data set improvement are considered. Finally, we provide a good and practical guide for exploring low frequency signals using clustering methods, which can be used for real world observations and analysis for open space and inside buildings.Prombles in programming 2024; 1: 48-56 У статті розглянуто методи класифікації сигналів звукового та інфразвукового діапазону за допомогою алгоритмів кластеризації у випадках, якщо присутня лише загальна апріорна інформація, наприклад, невідомі типі об’єктів, які генерують відповідні сигнали. Розглянуто підготовку даних звукового діапазону, особливості первинної обробки набору даних, параметри вибору алгоритму залежно від особливостей набору даних. Подано приклади кластеризації набору даних за допомогою алгоритму OPTICS, описано можливості каскадної обробки набору даних.Prombles in programming 2024; 1: 48-56 Інститут програмних систем НАН України 2024-04-01 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/606 10.15407/pp2024.01.048 PROBLEMS IN PROGRAMMING; No 1 (2024); 48-56 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2024); 48-56 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2024); 48-56 1727-4907 10.15407/pp2024.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/606/656 Copyright (c) 2024 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2024-04-27T16:29:39Z |
collection |
OJS |
language |
Ukrainian |
topic |
data classification unsupervised learning data clustering sound processing UDC 681.3 |
spellingShingle |
data classification unsupervised learning data clustering sound processing UDC 681.3 Rahozin, D.V. Doroshenko, A.Yu. Low frequency signal classification using clustering methods |
topic_facet |
data classification unsupervised learning data clustering sound processing UDC 681.3 класифікація даних навчання без контролю кластеризація даних обробка звуку УДК 681.3 |
format |
Article |
author |
Rahozin, D.V. Doroshenko, A.Yu. |
author_facet |
Rahozin, D.V. Doroshenko, A.Yu. |
author_sort |
Rahozin, D.V. |
title |
Low frequency signal classification using clustering methods |
title_short |
Low frequency signal classification using clustering methods |
title_full |
Low frequency signal classification using clustering methods |
title_fullStr |
Low frequency signal classification using clustering methods |
title_full_unstemmed |
Low frequency signal classification using clustering methods |
title_sort |
low frequency signal classification using clustering methods |
title_alt |
Класифікація низькочастотних сигналів за допомогою методів кластеризаці |
description |
The article considers the problem of low frequency signal classification, as sound or vibration pattern footprints may describe types of objects very well. In cases of a priori absence of object signal pattern information, the unsupervised learning methods based on clustering looks good enough for classification, and outperform neural net-based methods in case of limited power envelope. We have used big real-world sound and vibration data set to check several clustering methods (K-Means, OPTICS) for classification without any a priori data and have got good enough results. The article considers data set preparations including primary signal processing and the parameters to select appropriate clustering algorithms, which depends on input data shape. There are several examples of data classification, also cascaded methods for data set improvement are considered. Finally, we provide a good and practical guide for exploring low frequency signals using clustering methods, which can be used for real world observations and analysis for open space and inside buildings.Prombles in programming 2024; 1: 48-56 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2024 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/606 |
work_keys_str_mv |
AT rahozindv lowfrequencysignalclassificationusingclusteringmethods AT doroshenkoayu lowfrequencysignalclassificationusingclusteringmethods AT rahozindv klasifíkacíânizʹkočastotnihsignalívzadopomogoûmetodívklasterizací AT doroshenkoayu klasifíkacíânizʹkočastotnihsignalívzadopomogoûmetodívklasterizací |
first_indexed |
2024-09-16T04:08:10Z |
last_indexed |
2024-09-16T04:08:10Z |
_version_ |
1818568373253963776 |
fulltext |
Моделі та методи машинного навчання
48
© Д.В. Рагозін, А.Ю. Дорошенко, 2024
ISSN 1727-4907. Проблеми програмування. 2024. №1
УДК 681.3 http://doi.org/10.15407/pp2024.01.48
Д.В. Рагозін, А.Ю. Дорошенко
КЛАСИФІКАЦІЯ НИЗЬКОЧАСТОТНИХ СИГНАЛІВ
ЗА ДОПОМОГОЮ МЕТОДІВ КЛАСТЕРИЗАЦІЇ
У статті розглянуто методи класифікації сигналів звукового та інфразвукового діапазону за допомогою
алгоритмів кластеризації у випадках, коли присутня лише загальна апріорна інформація, наприклад,
невідомі типи об’єктів, які генерують відповідні сигнали. Розглянуто підготовку даних звукового діа-
пазону, особливості первинної обробки набору даних, параметри вибору алгоритму залежно від осо-
бливостей набору даних. Подано приклади кластеризації набору даних за допомогою алгоритму OP-
TICS, описано можливості каскадної обробки набору даних.
Ключові слова: класифікація даних, навчання без контролю, кластеризація даних, обробка звуку.
Вступ
Сучасні методи обробки сигналів ча-
сто зосереджені на застосуванні нейронних
мереж. Однак нейромережеві методи ма-
ють значний недолік – велику енергоєм-
ність, що у випадку достатньо довгого ана-
лізу є фактором, який обмежує застосу-
вання нейромереж. Також застосування пе-
вних типів нейромереж обмежено у разі не-
обхідності попереднього навчання нейро-
мережі. Тому для практичних застосувань
цікаво проаналізувати можливості застосу-
вання методів, альтернативних нейромере-
жам і оцінити їхню ефективність у вирі-
шенні задач класифікації сигналів низьких
частот. У статті ми розглянемо особливості
задач класифікації сигналів, особливості
обробки звукових сигналів, сучасні методи
аналізу сигналів, практичне застосування
методів і можливості подальшого їхнього
розвитку.
Обробка низькочастотних
сигналів
Зазначимо, що низькочастотні сиг-
нали не обмежуються електромагнітними
хвилями, і обробка низькочастотних елект-
ромагнітних хвиль є обмежено корисною,
оскільки для практичної передачі інформа-
ції в абсолютній більшості випадків вико-
ристовуються високі частоти. Звукові та ін-
фразвукові хвилі несуть у собі значну кіль-
кість інформації, яка може бути проаналізо-
вана в автоматичному режимі і в ощадли-
вому режимі споживання енергії. Останнє
важливо у разі автономної роботи датчиків,
які додатково можуть і не випромінювати
електромагнітну енергію.
Важливо, що на відміну від «до-
мену» електромагнітних хвиль, де маємо
апріорну інформацію щодо спектру сиг-
налу і певних сигнатур сигналу, апріорна
інформація щодо звукового сигналу зазви-
чай відсутня. Під сигнатурою тут ми розу-
міємо типові співвідношення потужностей
сигналу в піддіапазонах виділених частот і
їхню типову зміну з плином часу. Це дуже
грубе визначення, оскільки багато факторів
впливає на конкретні вимоги до аналізу
спектру. Детальніше з питаннями симуляції
сигнатур можна ознайомитися в [1], де роз-
глядається один із варіантів протоколу Wi-
Fi, який використовується як база для вели-
кого сімейства протоколів передачі даних.
Отож, під час аналізу сигналів електромаг-
нітного спектру ми знаємо з чим стикає-
мось, можемо проаналізувати нижні рівні
комунікацій у визначеннях моделі OSI [2] і
певним чином скористатися отриманою ін-
формацією. Наприклад, у практичній пло-
щині розпізнавання об’єктів або радіоелек-
тронної боротьби. Описаний аналіз елект-
ромагнітного спектру стає можливим, оскі-
льки використання діапазонів електромаг-
нітного спектру формалізоване. Однак у ви-
падку, коли об’єкт не випромінює електро-
магнітні хвилі (режим радіомовчання), не-
обхідно застосовувати інші методи. У зву-
ковому діапазоні така стандартизація немо-
жлива, окрім випадків штучного обме-
ження потужності генерації звука під час
роботи якогось обладнання. Тому після пе-
Моделі та методи машинного навчання
49
рвинного аналізу звукового спектру ми ма-
ємо скористатися одним із методів нав-
чання без контролю (англійською мовою
unsupervised learning), найбільш актуальні з
яких розглянуто в [3]. Зокрема, специфічні
для промислових завдань методи навчання
без контролю розглянуті в [4].
Нашою метою є класифікація
об’єктів, які створюють певну електромаг-
нітну або звукову картину до певних типів
за умови, що апріорно ми не знаємо, які у
нас типи об’єктів, чи з’являються у нас нові
об’єкти. Далі будемо також позначати таку
класифікацію терміном «кластеризація».
Розглянемо спочатку первинну об-
робку звукового сигналу, потім вторинну.
Тобто спочатку методи, які дозволяють ре-
дукувати розмірність даних з метою пода-
льшої ефективної обробки і кластеризації
редукованих даних.
Первинна обробка сигналу
Звісно, первинна обробка низьких
частот проводиться шляхом частотного
аналізу, але є декілька можливостей такого
аналізу. Практичні частоти для аналізу зву-
кової інформації починаються від 0.1 Гц і
закінчуються на 30 кГц (ультразвук). Таким
чином діапазон обробки складає до 18 ок-
тав (під октавою ми розуміємо діапазон ча-
стот від f до 2f Гц). Стандартизовано у про-
мисловій обробці потужність хвиль вимі-
рюється у частинах діапазону у 1/3 октави
(піддіапазонах). Для стандартного звуко-
вого діапазону 20 Гц - 20 кГц (10 октав), по-
тужність сигналу вимірюється у 30 піддіа-
пазонах у третю частину октави. Зазна-
чимо, що ця технологія вимірювання є
практичним спадком часів, коли частотний
аналіз виконувався за допомогою фільтрів
смуг сигналу шириною у третю частину ок-
тави на стандартизованих частотах. Зараз
обчислювальна потужність збільшилась і
дозволяє проводити Фур’є аналіз спектру,
як швидкий, так і звичайний, або їхню ком-
бінацію. Кінцевою метою аналізу є отри-
мання векторів pi = (p0, p1, …, pn), де pi є по-
тужністю хвиль для певного піддіапазону.
Послідовність таких векторів далі може ви-
користовуватися для класифікації.
Порівняно з електромагнітними хви-
лями, звуковий діапазон є важчим для ана-
лізу, оскільки велика кількість діапазонів
може мати сигнатури незалежних сигналів.
Потрібно зробити ремарку, що з
практичних міркувань необов’язково аналі-
зувати весь діапазон від 0.1 Гц до 30 кГц.
Звукові хвилі починаються з 5 Гц, вібрацію
практичніше вимірювати до 50 Гц, у підсу-
мку це залежить від типу вимірювань і вста-
новлення датчиків. Далі дискретне перетво-
рення Фур’є для певного сигналу дає нам
лише певне уявлення про сигнал, його ха-
рактерну потужність у діапазоні, оскільки
дискретне перетворення Фур’є вимірю-
ється для значень частоти, кратних частоті
дискретизації. Тобто, якщо перетворення
Фур’є дає нам амплітуду і фазу для частот
(f0, f1, f2, …, fn-1, fn), то різниця сусідніх час-
тот (fi – fi-1) завжди однакова. Проте у при-
родному середовищі практично ніколи не
зустрічаються частоти, які точно співпада-
ють з будь-яким fi, тому на вихідному гра-
фіку амплітуд частот ми бачимо не пікові
значення частоти, а дзвоноподібні хвилі
(див. рис. 1). Для точного вимірювання ча-
стоти сигналу можна використати дробове
перетворення Фур’є, яке може визначити
амплітуду і фазу для будь-якої частоти. Але
з міркувань обчислюваної потужності це
неефективно і практично неможливо без
попереднього аналізу сигналу. Тому піддіа-
пазони в третину октави 1) добре усередню-
ють сигнал; 2) розносять гармоніки сигналу
у різні піддіапазони. Далі на базі піддіапа-
зонів можливо проводити вторинну обро-
бку сигналу.
Рис. 1. Дзвоноподібний спектр сиг-
налу у порівнянні з сигналом, частота якого
співпадає з однією з частот сітки перетво-
рення Фур’є.
Моделі та методи машинного навчання
50
Вторинна обробка сигналу
Для вторинної обробки сигналу з n
піддіапазонами використовуємо вектор се-
редніх значень амплітуд для кожного підді-
апазону an = (a1, a2, …, an). Фазова інформа-
ція відкидається, бо для неї неможливо
знайти «середнє» значення. Оскільки сиг-
нал постійно змінюється, весь час спостере-
жень за сигналом має бути розбитий на пе-
вні характерні інтервали залежно від часу
протікання процесу, за яким ми спостеріга-
ємо. Наприклад, у разі прихованого спосте-
реження за рухом людей або техніки на до-
розі можна спостерігати за сигналом і ро-
бити усереднення протягом інтервалів 5-7
секунд. У випадку великих приміщень інте-
рвал може бути 15 секунд. Таким чином си-
гнал від спостережень є послідовність век-
торів { an }, яку вже можна класифікувати.
Як було зазначено вище, у нас немає
апріорної інформації про спектр сигналів,
які спостерігаються, тому ми мусимо зро-
бити певні припущення щодо вигляду кла-
сифікованого сигналу. На рис. 2 представ-
лені приклади наборів даних { a2 } (двови-
мірні) у поясненнях до пакету класифікації
Scikit [5], заради ясності зроблені лише
двовимірними. У більшості випадків ана-
лізу розмірність сигналу перевищує 10.
Рис 2. Різні типи наборів даних для
кластеризації (приклад з бібліотеки SciKit).
Згідно експериментальних даних, рі-
зні об’єкти (легкові автівки, вантажні, ва-
жка бронетехніка, пішоходи, тварини сере-
днього розміру, промислове обладнання,
побутові прибори) дають (інфра)звукову
картину певного сорту, яка локалізована в
певних частотах, тобто не дає шумоподіб-
них сигналів або сигналів у широкій смузі
частот. Так автор спостерігав сигнал від ге-
офона, спричинений рухом танка Т-64 на
швидкості 20 км/год на відстані у 50 м, і це
була синусоїда однієї частоти і практично
однакової амплітуди, яка на графіках з рис.
2 виглядатиме як крапки, сконцентровані
практично в одному місці. У підсумку за-
значимо, що отримані набори даних вигля-
датимуть як правий у верхньому ряду та як
середній у нижньому ряду на рис 2, що до-
зволяє оцінити, які властивості алгоритму
класифікації мають значення для подаль-
шого аналізу, а які – ні. Зазначимо, що у пе-
рвинному сигналі досить багато шуму і на-
бір даних переважно має сигнатури шумів,
і тут ми розглядаємо набір даних, вже очи-
щений від шуму, методи «очистки» від
шуму розглядаються нижче.
Отож, ми вважаємо, що кількість ти-
пів об’єктів, які генерують звукові хвилі,
обмежена (автівки, вантажівки, тяжка бро-
нетехніка, пішоходи, велосипедисти, мото-
цикли, тварини), також можуть бути інші
події (далекі або близькі різкі звуки), які на
рис. 2 мали б вигляд хаотично розташова-
них крапок. Останні мають класифікува-
тися окремо. Звісно, нейромережа могла б
акуратніше класифікувати події, але не зав-
жди є можливість залучити канал зв’язку
або обчислювальні потужності чи коректно
розробити нейромережу для всіх можливих
випадків.
На рис. 3 показана типова картина
звукових шумів з одного з випадків розгля-
нутих у [6]. Якщо придивлятися до лівої ча-
стини рисунку, ми побачимо на темному тлі
більш вертикальні світлі смуги, які позна-
чають відносно більшу спектральну щіль-
ність енергії сигналу на певних частотах, а
відносно перебігу часу (вертикальна вісь)
ми бачимо, що частотна картина зберіга-
ється у часі. Далі робиться підсумок енергії
по піддіапазонах, отримується вектор амп-
літуд an,, як описано вище, і результат пере-
дається до класифікатора. Виходячи з наяв-
них і описаних вище обмежень, ми класи-
фікуватимемо звуки за допомогою методів
кластеризації, а також опишемо особливо-
сті цих методів і далі наведемо приклади
кластеризацій.
Моделі та методи машинного навчання
51
Рис 3. Приклад картини шумів у ви-
падку декількох груп людей, які одночасно
розмовляють (горизонтальна вісь – частота,
вертикальна – час).
Методи класифікації
за допомогою кластеризації
Для подальших експериментів було
вирішено використовувати наявну алгорит-
мічну базу бібліотеки Scikit[5], яка на даний
момент має найбільший алгоритмічний до-
робок методів класифікації.
Одним із найперших і найпростіших
є метод K-means [7], який розподіляє точки
набору даних на визначену кількість клас-
терів. Але у більшості випадків метод є
дуже простим, має мінімальну параметри-
зацію, тому досить швидко були розроблені
покращені методи кластеризації. Розгля-
немо спочатку можливості параметризації
таких методів.
Кількість кластерів. У нашому ви-
падку досить часто виявляється, що ми не
знаємо кількість кластерів, тобто кількість
типів об’єктів, що будуть розрізнені в наборі
даних. Кількість кластерів задається або пе-
вним числом, що має наслідок подальшої
кластеризації об’єктів на більшу кількість
типів, або автоматично. Автоматична клас-
теризація вимагає більшу обчислювальну
потужність, оскільки дуже часто алгоритм
вибудовує навколо набору даних потужні
допоміжні структури даних. Кількість клас-
терів може задаватися неявно. Наприклад,
мінімальна дистанція між точками одного
кластеру (найпростіше), мінімальна кіль-
кість точок у кластері, або мінімально відно-
сна щільність даних у кластері відносно за-
гальної щільності даних. Окремо може зада-
ватися метрика аномалій, «зайвих» точок,
які не потрапляють у кластери, а вважа-
ються або за визначенням нечастими анома-
ліями, або похибками вимірів.
Масштабованість. Основними її
параметрами є кількість точок у наборі да-
них та кількість кластерів. Це впливає на
швидкодію алгоритму та обсяг пам’яті й
може бути фактором, який лімітує викори-
стання методу.
Типове використання. Є кластери-
зація загального призначення, є кластериза-
ції для невеликої (десяток) або великої (со-
тні) кількості кластерів. Вирізняються ме-
тоди, які краще працюють у випадку бага-
товимірних даних, оскільки використову-
ють структури даних для акселерації дос-
тупу до масиву точок, як-от KD-дерев [8].
Можливі обмеження на зв’язки між класте-
рами, різні умови для визначення аномалій,
введення ієрархії кластерів (що можливо за
використання тих же KD-дерев [8]), за-
дання різної щільності кластерів, індукти-
вне формування кластерів.
Метрика визначення кластерів.
Звичайна евклідова відстань між точками,
використання графів сусідів, лімітована су-
сідами метрика відстані між точками, відс-
тань типу Махаланобіс.
Перед тим, як перейти до найбільш
цікавих методів, підсумуємо й зробимо за-
уваження щодо параметризації. Звісно, ме-
тодів менше, ніж усіх комбінацій парамет-
рів кластеризації, оскільки виникнення но-
вих методів стимулювалося необхідністю
оптимізувати наявні методи для великих
наборів даних. Великі обсяги даних вимага-
ють швидкої індексації наявних даних,
тому певні методи виникли як результат ін-
теграції простих методів кластеризації та
програмних структур, що є акселераторами
доступу до даних, таких як, KD-дерево [8].
Останнє вирішує важливу задачу пошуку
сусідів точки у багатовимірному просторі з
логарифмічною складністю, а без наявності
KD-дерева пошук сусідів стає дуже доро-
гим за ресурсами завданням. У підсумку –
для вибору ефективного алгоритму класте-
ризації необхідно мати апріорну інформа-
цію щодо вхідних даних. Для звукового ді-
Моделі та методи машинного навчання
52
апазону вистачає тижня запису даних і по-
дальшого візуального аналізу.
Окремо зазначимо, що певна кіль-
кість алгоритмів має імплементації лише в
рамках бібліотек мовою Python, що може
викликати погіршення швидкодії від 3 до
10 разів. Є імплементації багатьох алгорит-
мів від приватних осіб, але, зважаючи на
складність внутрішніх структур даних, не
можна стверджувати, що такі алгоритми
відтестовані. Це накладає обмеження на об-
сяги даних, які можуть бути оброблені в ре-
альному часі. Зупинимося на декількох ал-
горитмах.
Найбільш простим алгоритмом є K-
means [7]. Оскільки історично він був роз-
роблений раніше за інших, він є найпрості-
шим і має найбільше недоліків. Основним
практичним недоліком є те, шо неможливо
відразу за апріорними даними встановити
необхідну кількість кластерів. У випадку,
коли кількості кластерів замало, декілька
типів об’єктів можуть бути віднесені до од-
ного кластеру – тобто ми їх не зможемо від-
різнити. А якщо кластерів забагато, об’єкти
одного типу будуть віднесені до різних кла-
стерів, що спотворює аналіз. Це показано
на рис. 7. Можна проаналізувати відстань
між отриманими кластерами і, якщо відс-
тань між геометричними центрами деяких
кластерів менша за середнє значення, – зме-
ншити кількість кластерів і перезапустити
кластеризацію. Але такий метод погано
працює у зворотньому напрямку – коли
кластерів замало. Ускладнена й евристика,
яка дозволяє зрозуміти, чи то дійсно мала
геометрична відстань між класами, чи то
така особливість набору даних. Ці обме-
ження привели до розробки більш доскона-
лих методів. Наприклад, mean-shift [9], де
параметризувалася необхідна щільність
кластерів та мінімальний об’єм простору
для формування кластеру. Кластеризація
уточнюється ітеративно, водночас зміню-
ється геометричний центр кластеру, тому
цей метод ускладнений для паралелизації
на відміну від K-means. Взагалі «покра-
щені» методи відрізняються підвищеним
споживанням пам’яті та обчислювальних
ресурсів.
Покращити кластеризацію намага-
лися за допомогою введення ієрархії клас-
терів [10], що може бути корисним, якщо
ми знаємо, що набір даних має ієрархічні
властивості – тобто різні типи об’єктів мо-
жуть генерувати дуже схожі спектри, але
це працює лише у незначній кількості ви-
падків.
Можна сказати, що метод
DBSCAN [11] має революційні відмінності
від [7],[9],[10] оскільки орієнтується на
щільність точок набору даних у геометрич-
ному просторі і кластеризує дані за принци-
пом знаходження областей простору з най-
більшою щільністю даних. Тобто вимагає
щоб для елемента даних на певній дистанції
ε від нього було не менше smin точок даних
(samples). Таке визначення дозволяє мати
кластери різної форми, не обов’язково опу-
клі. Якщо певні точки набору даних згідно
з обмеженнями smin і ε не можуть бути спів-
ставлені до певного кластеру, то вони вва-
жаються outliers або називатимемо їх ано-
маліями. Зазвичай аномалії розташовані в
областях простору, де немає великої щіль-
ності даних і з фізичної точки зору, – оскі-
льки ми розглядаємо сигнали – звичайно є
перешкодами. На рис. 4 – що взятий із ко-
ментарів до SciKit – аномалії зображено не-
великими чорними колами, їхній алгоритм
не зміг долучитися не до жодного з трьох
кластерів.
Рис. 4. Приклад кластеризації з аномаліями
Кількість аномалій регулюється ви-
щевказаними параметрами smin і ε, і кіль-
кість аномалій може бути регульована від
1% до 5% від загального обсягу даних. Така
параметризація важлива у випадках, коли
ми намагаємося класифікувати аномалії, і
Моделі та методи машинного навчання
53
подальша класифікація залежить від прави-
льного визначення аномалій.
Із недоліків алгоритму відмітимо до-
сить великий обсяг необхідної пам’яті. Роз-
виває ідеї DBSCAN алгоритм OPTICS [12],
який дозволяє мати кластери з різними ε, і
додає поняття досяжності, що фактично у
порівнянні з DBSCAN дозволяє брати для
кластерів не одне значення ε, а цілий інтер-
вал значень [εmin,εmax]. На додачу OPTICS
оптимізований щодо обсягу використаної
пам’яті.
Останнім із цікавих алгоритмів роз-
глянемо BIRCH [13], який може оперувати
даними, що не вміщуються в пам’яті. Клас-
теризація здійснюється на основі суб-клас-
терів, до яких намагаються віднести всі зна-
чення набору даних, а далі вже комбінувати
су-кластери для досягнення необхідної кі-
лькості кластерів.
Методи [7],[8],[9],[10],[11],[12],[13]
були розроблені для певних задач, для пев-
них обмежень (серед яких і обсяг пам’яті, і
швидкодія) і для певних апріорних знань
про вхідні дані. Зазначимо, що серед усіх
методів кластеризації неможливо виріз-
нити найкращі і найгірші, оскільки всі вони
орієнтовані на певні дані.
Якщо аналізувати наші апріорні дані
– звуковий або електромагнітний спектр, то
найбільш цікавим кандидатом виглядає ал-
горитм OPTICS [12], який ми далі викорис-
таємо для кластеризації.
Збір даних
Найпростішим варіантом збору да-
них є звичайний мікрофон і звичайний (офі-
сний) комп’ютер. Цього обладнання виста-
чає для запису звукових сигналів у діапа-
зоні 20Гц – 10кГц, також необхідний звуко-
вий редактор для запису звуку. Дещо біль-
ший діапазон частот буде за умови викори-
стання напівпрофесійних або скерованих
мікрофонів і підсилювача. У випадку вібра-
ційних хвиль можна використати геофони
(geophone), які продаються у маркетплей-
сах електроніки. Необхідним буде також пі-
дсилювач електричного сигналу, який
може видати сигнал на лінійний вхід звуко-
вої карти.
Для підготовки набору даних для по-
дальшої обробки із зроблених записів зву-
кового діапазону можна використати
Matlab або Python, оскільки ці середовища
програмування мають найбагатші бібліо-
теки обробки сигналів. Сигнал ділиться на
однакові інтервали (наприклад 10 секунд),
довжина інтервалу може змінюватися від-
носно типу об’єкту спостереження. Для ді-
лянок доріг може бути 10 с, для приміщень
або складів – 15-20 с. Отримані інтервали
сигналу обробляються за допомогою швид-
кого перетворення Фур’є (FFT), водночас
нам достатньо амплітудно-частотної харак-
теристики (АЧХ). Далі отримана АЧХ роз-
діляється на піддіапазони, у кожному підді-
апазоні амплітуди усереднюються до од-
ного значення амплітуди. Для кожного ін-
тервалу отримаємо вектор амплітуд an = (a1,
a2, …, an), який буде елементом набору да-
них. Для інтервалу у 10 секунд щодоби ма-
тимемо 8640 векторів, і це число впливає на
вибір метода кластеризації. Для аналізу до-
бових даних бажано мати набори даних, що
перекриваються у часі. У найпростішому
випадку можна дробити добовий набір да-
них на множини AD
A, AD
P, де D – умовний
номер доби, а A і P позначає першу і другу
половини доби. Далі для кластеризації мо-
жна формувати набори (AD
A, AD
P), (AD
P,
AD+1
A), (AD+1
A, AD+1
P), (AD+1
P, AD+2
A),… У
разі наявності обчислювальних потужнос-
тей та пам’яті можна формувати набори
(AD, AD+1), (AD+1, AD+2), (AD+2, AD+3), … або
навіть довші набори. Далі перейдемо до до-
слідів із кластеризації.
Результати кластеризації
Для дослідів із кластеризації був об-
раний метод OPTICS [12], згідно з розмірко-
вуваннями і обчисленнями обсягів набору
даних, які подані у статті вище. Використо-
вувалася бібліотека Scikit [5] для імплемен-
тацій методу OPTICS, довжина векторів на-
бору була від 10 до 20. Нижче для ілюстра-
тивних випадків використана довжина век-
тору в 10, оскільки більша довжина вектору
лише захаращує ілюстративні приклади. Го-
ризонтальна вісь показує середню частоту
піддіапазону, вертикальна вісь показує від-
носну потужність сигналу. Абсолютне зна-
Моделі та методи машинного навчання
54
чення потужності сигналу не має жодного
значення для методів кластеризації. На рис.
5 показаний результат кластеризації для од-
ного з вібраційних наборів даних.
Рис. 5. Приклад коректної кластеризації на
три кластери (OPTICS).
На рис. 5 ми бачимо що алгоритм ви-
значив 3 кластери. У першому кластері (0)
пік потужності зареєстрований на частоті
20 Гц і досить плавно падає до 50 Гц. Пік
другого кластеру (1) припадає на 16 Гц і шви-
дко спадає після 25 Гц. Третій кластер (2)
представлений високочастотним шумом. Ок-
ремо зазначимо, і це важливо, що на частотну
картину накладаються особливості мікро-
фона або поверхні, на якій стоїть геофон, у рі-
зних випадках вимірювань конкретні зна-
чення потужності можуть відрізнятися, але
якісна картина співвідношення потужностей
сигналу у кластерах залишається незмінною.
На наступному рисунку 6 показаний ще один
приклад роботи алгоритму. Перший кластер
(0) має пік на низьких частотах і поступово
спадає в області високих частот, другий кла-
стер (1) має пік в області 40 Гц, третій клас-
тер (2) має пік в області 16 Гц.
Рис. 6. Інший приклад коректної кластери-
зації для трьох кластерів.
На рис. 7 показаний один з перших
дослідів роботи з простішими алгоритмами
на базі K-means. На рисунку показаний при-
клад некоректної кластеризації.
Рис. 7. Приклад некоректної кластеризації
під час використання методу K-means.
Методу кластеризації, який орієнто-
ваний на наперед задане число кластерів,
було задано перебільшену кількість клас-
терів – 4. Реальна кількість кластерів (ви-
значена a posteriori) – 2. Таким чином ал-
горитм штучно «розтягнув» один із клас-
терів, у якого відносно більша кількість
елементів, на три кластери (0,2,3). У разі,
коли на цьому ж наборі даних алгоритмові
пропонується розподілити дані на два кла-
стери, лишаються кластери, наприклад,
тільки 1 і 3.
Із практичного боку маємо ще декі-
лька спостережень щодо підготовки даних
до кластеризації. По-перше, не обов’язково
мати діапазони в 1/3 октави, кластеризація
добре працює і у випадку ½ октави. Біль-
шість характерних шумів від об’єктів є си-
нусоїдальними сигналами небагатьох час-
тот, від 3 до 5, тому діапазон в 1/3 октави
можна вважати оптимальним. Важка тех-
ніка може давати синусоїду лине однієї ча-
стоти, можливо тому, що сильні вібрації пі-
двіски екранують інші частоти.
Маніпуляції з виділення піддіапазо-
нів «низької», «середньої» та «високої» ча-
стоти шляхом простого ділення піддіапазо-
нів на три групи, потім - з кластерізаціями
у таких підгрупах, не дають нам переваг пе-
ред прямим використанням кластеризації.
Такий висновок можна зробити як мінімум
з тих засад, що доволі важко пояснити фі-
зичний смисл такого вибору.
Моделі та методи машинного навчання
55
Алгоритми DBSCAN [11] та OP-
TICS [12], і не лише вони, дають нам також
елементи набору даних, позначені як «без
кластеру», або аномалії. Зазвичай це точки
набору даних, які знаходяться далеко від ге-
ометричного центру кластеру, максимальна
відстань залежить від описаних вище пара-
метрів алгоритмів. Зважаючи на фізичний
сенс набору даних, аномалії з більшими ам-
плітудами на високих частотах можуть з ве-
ликою вірогідністю вважатися шумом, а
аномалії на низьких частотах можуть бути
додатково розглянуті щодо їхніх джерел.
Каскадовані кластеризації
Для аналізу наборів даних необхідна
їхня правильна підготовка, оскільки, зале-
жно від фізичних особливостей середовища
(вібрації дороги і вібрації цеха дуже різні),
необхідно певним чином виділяти цікаві
нам набори даних,. Сучасні алгоритми кла-
стеризації, які можна знайти у [5], пропону-
ють як кластеризацію, так і виділення ано-
малій. І дуже часто цікаві для аналізу сиг-
нали на фоні первинного набору даних ви-
глядають аномаліями. Тому важливе визна-
чення каскадування кластеризацій, напри-
клад, на першому етапі виділення змістов-
них аномалій, а на другому етапі їхня клас-
теризація. На третьому етапі також мож-
лива кластеризація аномалій, що залиши-
лися після першої кластеризації. Конкретне
каскадування дуже сильно залежить від
об’єкта, аналіз якого ми проводимо, і конк-
ретні поглиблені схеми каскадування по-
винні розглядатися виключно для своєї пре-
дметної області.
Висновки
У статті розглянуто можливості,
найбільш цікаві алгоритми кластеризації і
приклади роботи з набором даних для ана-
лізу частотної характеристики сигналів
звукового діапазону. Зокрема, розглянуто
«живі» приклади аналізу сигналів вибра-
ними методами кластеризації для звуко-
вого і вібраційного діапазонів з пояснен-
ням результатів. У сучасному світі резуль-
тати таких аналізів використовуються для
спостереження за користуванням об’єкта-
ми і для аналізу об’єктів для провадження
певних видів промислової діяльності, для
яких необхідно регулювати режими шуму
і вібрацій.
References
1. F. Meneghello, N. Dal Fabbro, D. Garlisi, I.
Tinnirello, M. Rossi. A CSI Dataset for
Wireless Human Sensing on 80 MHz Wi-Fi
Channels. IEEE Communications Magazine,
2023.
https://doi.org/10.48550/arXiv.2305.03170
2. ISO/IEC 7498-1:1994 Information technology
— Open Systems Interconnection — Basic
Reference Model: The Basic Model. June
1999.
3. Liu, Y., Li, J. (2023). A Survey of Spectrum
Sensing Algorithms Based on Machine
Learning. // In Proc. Xiong, N., Li, M., Li, K.,
Xiao, Z., Liao, L., Wang, L. (eds) Advances in
Natural Computation, Fuzzy Systems and
Knowledge Discovery. ICNC-FSKD 2022.
Lecture Notes on Data Engineering and
Communications Technologies, vol 153.
Springer, Cham. https://doi.org/10.1007/978-
3-031-20738-9_97
4. M. Salehi, H. Mirzaei, D. Hendrycks, Y. Li, M.
H. Rohban, and M. Sabokrou, “A unified
survey on anomaly, novelty, open-set, and out
of-distribution detection: Solutions and future
challenges,” arXiv preprint arXiv:2110.14051,
2021. https://arxiv.org/pdf/2110.14051.pdf
5. J. Hao, T. Ho Machine Learning Made Easy: A
Review of Scikit-learn Package in Python
Programming Language. // Journal of
Educational and Behavioral Statistics. Vol 44,
Feb 2019.
Doi: 10.3102/1076998619832248.
6. N. Alamdari, N. Kehtarnavaz. A Real-Time
Smartphone App for Unsupervised Noise
Classification in Realistic Audio
Environments. // In Proc. IEEE Intl. Conf. on
Consumer Electronics (ICCE), Jan 2019. 1-5.
Doi: 10.1109/ICCE.2019.8662052.
7. D. Sculley. Web-scale k-means clustering. // In
Proc. of 19th Intl. Conf. on World Wide Web,
Apr. 2010. pp. 1177-1178. Doi:
10.1145/1772690.1772862.
8. J.L. Bentley. Multidimensional binary search
trees used for associative searching. //
Communications of the ACM. (1975) 18 (9):
pp. 509–517. doi:10.1145/361002.361007.
9. D. Comaniciu, P. Meer. Mean shift: a robust
approach toward feature space analysis // In
Proc. IEEE Trans. on Pattern Analysis and
Machine Intelligence, vol. 24, no. 5, pp. 603-
619, May 2002, doi: 10.1109/34.1000236.
Моделі та методи машинного навчання
56
10. J.H. Ward, Jr. Hierarchical Grouping to
Optimize an Objective Function, // In Journal
of the American Statistical Association, 1963,
vol 58, pp. 236–244.
11. M. Ester, H. P. Kriegel, J. Sander, X. Xu. A
Density-Based Algorithm for Discovering
Clusters in Large Spatial Databases with Noise
// In Proc. of the 2nd Inter. Conf. on
Knowledge Discovery and Data Mining, 1996,
pp. 226–231
12. M. Ankerst, M.M. Breunig, H.P. Kriegel, J.
Sander. OPTICS: ordering points to identify
the clustering structure. // In ACM Sigmod
Record, 1999, vol. 28, No. 2, pp. 49-60.
13. T. Zhang, R. Ramakrishnan, M. Livny.
BIRCH: An efficient data clustering method
for large databases. // In ACM Sigmod Record,
1996, vol. 25, issue 2, pp. 103-114.
Одержано: 07.02.2024
Про авторів:
Рагозін Дмитро Васильович,
старший науковий співробітник.
Кількість публікацій в українських
виданнях – більше 10.
Кількість зарубіжних публікацій –
більше 5.
https://orcid.org/0000-0002-8445-9921
Дорошенко Анатолій Юхимович,
доктор фізико-математичних наук,
професор, завідувач відділу теорії
комп’ютерних обчислень,
професор кафедри інформаційних
систем та технологій Національного
технічного університету України
«КПІ імені Ігоря Сікорського».
Кількість наукових публікацій
в українських виданнях – понад 200.
Кількість наукових публікацій
в зарубіжних виданнях – понад 90.
Індекс Хірша – 7.
http://orcid.org/0000-0002-8435-1451
Місце роботи авторів:
Інститут програмних систем
НАН України,
03187, м. Київ-187,
проспект Академіка Глушкова, 40.
Тел.: (044) 526 3559.
E-mail: dmytro.rahozin@gmail.com,
dmytro.rahozin@ukr.net
|