Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів
Розглядається задача багатокрокового прогнозування часових рядів. Представлені існуючі моделі рекурентних та нерекурентних нейронних мереж, що застосовуються для задач прогнозування. Описується спосіб навчання нейромереж методом розширеного фільтра Калмана з обчисленням похідних методом зворотного п...
Saved in:
| Published in: | Математичні машини і системи |
|---|---|
| Date: | 2012 |
| Main Author: | |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
Інститут проблем математичних машин і систем НАН України
2012
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/83774 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів / А.М. Чернодуб // Мат. машини і системи. — 2012. — № 4. — С. 41-51. — Бібліогр.: 9 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859850877388455936 |
|---|---|
| author | Чернодуб, А.М. |
| author_facet | Чернодуб, А.М. |
| citation_txt | Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів / А.М. Чернодуб // Мат. машини і системи. — 2012. — № 4. — С. 41-51. — Бібліогр.: 9 назв. — укр. |
| collection | DSpace DC |
| container_title | Математичні машини і системи |
| description | Розглядається задача багатокрокового прогнозування часових рядів. Представлені існуючі моделі рекурентних та нерекурентних нейронних мереж, що застосовуються для задач прогнозування. Описується спосіб навчання нейромереж методом розширеного фільтра Калмана з обчисленням похідних методом зворотного поширення в часі. Пропонується метод псевдорегуляризації для зменшення ефекту зникнення градієнтів, що приводить до підвищення якості прогнозування в багатокроковому випадку. Наводяться результати чисельних експериментів на прикладі прогнозування кількості сонячних плям за рік і хаотичного процесу Маккея-Гласса.
Рассматривается задача многошагового прогнозирования временных рядов. Представлены существующие модели рекуррентных и нерекуррентных нейронный сетей, которые применяются для задач прогнозирования. Описывается способ обучения нейросетей методом расширенного фильтра Калмана с вычислением производных методом обратного распространения во времени. Предлагается метод псевдорегуляризации для уменьшения эффекта исчезновения градиентов, что приводит к повышению качества прогнозирования в многошаговом случае. Приводятся результаты численных экспериментов на примере прогнозирования годового количества солнечных пятен и хаотического процесса Маккея-Гласса.
The problem of time series multi-step prediction is considered. The existing models of recurrent and nonrecurrent neural networks which are used for prediction problems were represented. Efficient training method of neural networks using Extended Kalman Filter and Backpropagation Through Time technique of dynamic derivatives calculation is described. Pseudoregularization method for vanishing gradients effect reducing that leads to prediction accuracy in muli-step case improvement is proposed. The results of numerical experiments on the example of yearly sunspots number and Chaotic Mackey-Glass Time Series predicting are presented.
|
| first_indexed | 2025-12-07T15:40:47Z |
| format | Article |
| fulltext |
© Чернодуб А.М., 2012 41
ISSN 1028-9763. Математичні машини і системи, 2012, № 4
УДК 681.513.7
А.М. ЧЕРНОДУБ
НАВЧАННЯ РЕКУРЕНТНИХ НЕЙРОННИХ МЕРЕЖ МЕТОДОМ
ПСЕВДОРЕГУЛЯРИЗАЦІЇ ДЛЯ БАГАТОКРОКОВОГО ПРОГНОЗУВАННЯ
ЧАСОВИХ РЯДІВ
Анотація. Розглядається задача багатокрокового прогнозування часових рядів. Представлені іс-
нуючі моделі рекурентних та нерекурентних нейронних мереж, що застосовуються для задач про-
гнозування. Описується спосіб навчання нейромереж методом розширеного фільтра Калмана з
обчисленням похідних методом зворотного поширення в часі. Пропонується метод псевдорегуля-
ризації для зменшення ефекту зникнення градієнтів, що приводить до підвищення якості прогнозу-
вання в багатокроковому випадку. Наводяться результати чисельних експериментів на прикладі
прогнозування кількості сонячних плям за рік і хаотичного процесу Маккея-Гласса.
Ключові слова: псевдорегуляризація, рекурентні нейромережі, зворотне поширення в часі, розши-
рений фільтр Калмана.
Аннотация. Рассматривается задача многошагового прогнозирования временных рядов. Пред-
ставлены существующие модели рекуррентных и нерекуррентных нейронный сетей, которые
применяются для задач прогнозирования. Описывается способ обучения нейросетей методом ра-
сширенного фильтра Калмана с вычислением производных методом обратного распространения
во времени. Предлагается метод псевдорегуляризации для уменьшения эффекта исчезновения гра-
диентов, что приводит к повышению качества прогнозирования в многошаговом случае. Приво-
дятся результаты численных экспериментов на примере прогнозирования годового количества
солнечных пятен и хаотического процесса Маккея-Гласса.
Ключевые слова: псевдорегуляризация, рекуррентные нейронные сети, обратное распространение
во времени, расширенный фильтр Калмана.
Abstract. The problem of time series multi-step prediction is considered. The existing models of recurrent
and nonrecurrent neural networks which are used for prediction problems were represented. Efficient
training method of neural networks using Extended Kalman Filter and Backpropagation Through Time
technique of dynamic derivatives calculation is described. Pseudoregularization method for vanishing
gradients effect reducing that leads to prediction accuracy in muli-step case improvement is proposed.
The results of numerical experiments on the example of yearly sunspots number and Chaotic Mackey-
Glass Time Series predicting are presented.
Keywords: Pseudoregularization, Recurrent Neural Networks, Backpropagation Through Time, Extended
Kalman Filter.
1. Вступ
Прогнозування часових рядів є актуальною науковою проблемою, що має безліч застосу-
вань у теорії управління, в економіці, медицині, фізиці та інших галузях. Нейромережеві
методи добре себе зарекомендували як засіб моделювання динамічних систем при невідо-
мій апріорі математичній моделі динамічної системи [1]. Нейронна мережа може бути на-
вчена на відомих прикладах реалізацій динамічного процесу і потім використовуватися
для прогнозування на нових даних.
Існують два базових підходи для надання нейронним мережам на базі багатошаро-
вих персептронів властивостей, необхідних для обробки динамічних даних: додавання лі-
ній затримок на вхід мережі та додавання рекурентних зв'язків до внутрішньої структури
нейронної мережі. В першому випадку, при використанні «методу часового вікна» (Time
Delay Neural Networks, Time-Window Neural Networks, Finite Impulse Response Neural
Networks, Time-Lagged Neural Networks, Focused Multilayer Perceptrons, Dynamic Multilayer
Perceptrons) [1–3], нейронна мережа отримує на вхід разом з поточним вхідним сигналом
42 ISSN 1028-9763. Математичні машини і системи, 2012, № 4
затримані в часі минулі значення вхідних сигналів. Навчання нейромережі виконується з
обчисленням похідних за відомим методом зворотного поширення (Backpropagation, BP) і
з застосуванням градієнтного методу оптимізації першого або другого порядку. Плюсами
цього підходу є його простота й технологічність: за нашими оцінками, зараз більш ніж в
90% випадків для прогнозування часових рядів використовується саме така схема. З іншо-
го боку, при застосуванні такої схеми кількість і порядок затримок часового вікна мають
бути встановлені апріорі. Якщо ці величини не будуть відповідати порядку динамічного
процесу, нейромережа буде погано навчатися або зовсім не навчиться. Іншим мінусом цьо-
го підходу є погана якість багатокрокових прогнозів, коли як вхідні дані для прогнозу на
новий крок використовуються власні прогнозні дані нейромережі, отримані для попередніх
кроків.
Другим базовим підходом введення динаміки в нейромережі прямого поширення є
додавання внутрішніх рекурентних зв'язків у приховані, вхідні або вихідні шари нейроме-
режі (Recurrent Multilayered Perceptrons, Simple Recurrent Neural Networks, NARX Neural
Networks) [1, 3]. Для визначення впливу минулих тактів на поточний результат вводиться
обчислення спеціальних динамічних похідних. Динамічні похідні належать до одного з
двох видів за способом обчислення: «рекурентне навчання в реальному часі» (Real-Time
Recurrent Learning, RTRL) [1, 4] або «зворотне поширення в часі» (Backpropagation Through
Time, BPTT) [1, 4, 5]. Як оптимізаційний метод для налаштування ваг нейромережі може
використовуватися, як і в першому випадку, будь-який градієнтний оптимізаційний алго-
ритм. Такі рекурентні мережі за своєю структурою більш відповідають динамічним проце-
сам, що моделюються, і тому краще показують себе в задачах керування і багатокрокового
прогнозування. Разом з тим навчання таких мереж є більш важким завданням через додат-
кові ступені вільності в таких мережах, на практиці процес навчання часто не сходиться.
Крім того, при розрахунках динамічних похідних у персептроно-подібних мережах має мі-
сце ефект зникнення градієнта (gradient vanishing) [1, 6], що додатково ускладнює для ал-
горитму навчання виявлення кореляцій між минулими входами і поточними цільовими ви-
ходами мережі.
Ми пропонуємо оригінальний підхід для навчання рекурентних нейромереж шля-
хом накладення додаткових обмежень на величину модуля градієнта при зворотному по-
ширенні в часі в цільову функцію оптимізації навчання нейромережі. Як функція оптимі-
зації використовується метод розширеного фільтра Калмана. Проводиться експеримента-
льне порівняння запропонованого методу навчання зі звичайним методом навчання зворо-
тного поширення в часі BPTT(h) для рекурентних нейромереж, а також багатошарових пе-
рсептронів з лінією затримок на прикладі багатокрокового прогнозування кількості плям
на сонці за рік (числа Вольфа) [7], а також хаотичного процесу Маккея-Гласса [7–8].
2. Багатошаровий персептрон з лінією затримок
Схема багатошарового персептрона з лінією затримок порядка N показана на рис. 1. Пер-
септрон містить нейрони з лінійною функцією активації для нейронів вхідного шару і сиг-
моїдальної функції активації для нейронів прихованого і вихідного шарів (у наших експе-
риментах ми використовували функції активації гіперболічного тангенса). Вагові значення
між шарами нейронів задаються матрицями )1(W й )2(W . Персептрон отримує на вхід )(kx
поточне значення часового ряду )(ky , а також затримані минулі значен-
ня )1( −ky , )2( −ky ,… , )( Nky − , які реалізуються за допомогою елементів затримки
1−z , 2−z … , Nz− , і за цими даними навчається робити прогноз наступного значення ˆ( 1)y k + .
Розрахунок вихідного значення нейромережі yɶ виконується за формулою
ISSN 1028-9763. Математичні машини і системи, 2012, № 4 43
),)((~ )1()2(∑ ∑=
j i
ijij xwfwgy (1)
де )1(w – ваги нейронів прихованого шару, )(⋅f – активаційні функції нейронів приховано-
го шару, )2(w – ваги нейронів вихідного шару, )(⋅g – активаційні функції нейронів вихід-
ного шару. На рис. 1 показано ней-
ромережу з п'ятьма нейронами у
прихованому шарі, який отримує
на вхід стан порядка N . Похідні
для навчання обчислюються зви-
чайним (статичним) методом зво-
ротного поширення. В нашій робо-
ті як градієнтний метод оптимізації
ми використовували метод глоба-
льного розширеного фільтра Кал-
мана (Global Extended Kalman
Filter, GEKF) [1, 8–9], тому, замість
градієнтів
2[ ( ) ]e k
w
∂
∂
, ми обчислює-
мо якобіани
w
y
∂
∂~
. Це робиться шля-
хом пропускання значення 1 на ко-
жному зворотному проході замість
пропускання поточної помилки на-
вчання )(ke , що приводить до
отримання якобіанів замість градіє-
нтів при тих же обчисленнях, оскі-
льки
2[ ( ) ]
2 ( )
e k y
e k
w w
∂ ∂=
∂ ∂
.
Для виконання прогнозуван-
ня на H кроків вперед проводиться
така ітеративна процедура:
1. Персептрон виконує про-
гноз на один крок вперед, отримує
оцінку наступної величини часового
ряду ˆ( 1)y k + .
2. На основі наявних реаль-
них минулих входів і отриманої оцінки формується новий вхідний вектор для нейромережі
[ ]ˆ( 1) ( 1) ( ) ... ( 1) .
T
x k y k y k y k N+ = + − +
3. Прогнозується нове значення ˆ( 2)y k + .
Кроки 2 – 3 виконуються, поки не буде отримана необхідна оцінка ˆ( )y k H+ .
На рис. 2 показано результати навчання багатошарового персептрона з лінією за-
тримок задачі прогнозування на один крок вперед на процесі Маккея-Гласса. Після кожної
епохи навчання нейромережа також тестувалася на здатність виконувати прогноз на
14=H кроків вперед.
Як випливає з графіків на рис. 2, якість однокрокового прогнозування прямо не
пов’язана з якістю багатокрокового прогнозування. При збільшенні кількості епох навчан-
Рис. 1. Схема багатошарового персептрона з линією
затримок на вході
Рис. 2. Залежність якості однокрокового та багатокро-
кового прогнозування від кількості епох навчання
44 ISSN 1028-9763. Математичні машини і системи, 2012, № 4
Рис. 4. Схема обчислення динамічних похідних методом зворотного поширення в часі
для рекурентної нейромережі NARX
ня якість однокрокового прогнозування монотонно зростає, а якість багатокрокового про-
гнозування має певний локальний мінімум.
3. Рекурентна нейронна мережа NARX
З метою підвищення якості багатокроко-
вого прогнозування використовують ре-
курентні нейронні мережі, що мають до-
даткові зворотні зв’язки та за рахунок
специфічного способу навчання дозво-
ляють розрахувати вплив власних похи-
бок нейромережі на якість багатокроко-
вого прогнозу.
Рекурентна нейронна мережа
NARX (Nonlinear AutoRegression with eX-
ternal inputs) [1, 3] (рис. 3) є модифікаці-
єю багатошарового персептрона з дода-
ванням зворотних зв'язків до вхідного
шару нейронів, реалізованих затримками
1−z . Розрахунки вихідного значення ме-
режі yɶ виконуються аналогічно (1), від-
мінність полягає тільки в тому, що в мат-
риці ваг прихованого шару )1(W тепер також зберігаються ваги для рекурентних зв'язків.
Головною відмінністю в навчанні рекурентної нейромережі NARX від багатошаро-
вого персептрона з лінією затримок на вході є використання динамічних похідних, що в
нашому випадку розраховуються методом усіченого зворотного поширення в часі BPTT(h)
замість статичних похідних, як для навчання багатошарового персептрона з лінією затри-
мок. Схема обчислення похідних під час зворотного проходу представлена на рис. 4. На
такті k , після обчислення вихідного значення ˆ( 1)y k + , мережа розгортається назад у часі
на глибину усікання h .
При цьому рекурентна мережа може бути представлена у вигляді багатошарового
персептрона прямого поширення з більшою кількістю шарів, де кожний шар відповідає
одному з минулих тактів 1−k , 2−k ,… , hk − . Похідні обчислюються методом зворотного
Рис. 3. Схема рекурентної нейромережі NARX.
Сірим кольором позначені вхідні нейрони для
рекурентних зв’язків
ISSN 1028-9763. Математичні машини і системи, 2012, № 4 45
поширення, який застосовується для отриманої розгорнутої в часі нейромережі прямого
розповсюдження. Локальні градієнти, що обчислюються у процесі процедури зворотного
поширення, визначаються такими співвідношеннями:
,)(' )1()2( += kOUT
jj
HID
j wkf δδ (2)
,)1('
1
)1( HID
i
K
i
ijj
IN
j wkf δδ ∑
=
−= (3)
,)1( IN
lN
lkOUT
+
+− = δδ
(4)
де )1(w – ваги нейронів прихованого шару, )(kf j – активаційна функція j -го нейрона при-
хованого шару на такті k , )2(w – ваги нейронів вихідного шару, HID
jδ – локальний градієнт
для j -го нейрона прихованого шару, IN
jδ – локальний градієнт для j -го нейрона вхідного
шару, Ll ≤≤1 , L – порядок лінії затримки для рекурентних зв’язків, )(nOUT
jδ – локальний
градієнт вихідного шару для n -го кроку розгортання у часі назад.
4. Навчання нейромереж методом розширеного фільтра Калмана з псевдорегуляри-
зацією
При обчисленні динамічних похідних методом BPTT(h) для персептроно-подібних нейро-
мереж значну роль відіграє ефект зникнення градієнта, що погіршує якість навчання ней-
ромереж для моделювання довготривалих залежностей. Зміст цього ефекту можна інтуїти-
вно зрозуміти, глянувши на формули обчислення локальних градієнтів (2)–(4). Абсолютне
значення кожного нового локального градієнта IN
jδ на практиці виходить менше, ніж по-
переднього градієнта HID
iδ , оскільки воно є добутком функцій по модулю менших числа 1 :
початкові градієнти OUTδ рівні або менші за 1 , ваги нейронної мережі )1(
ijw й )2(
iw не мо-
жуть бути більше 1 , оскільки це приводить до випадку перенавчання, похідні активаційних
функцій )(⋅f завжди менше 1 . Більш строгий доказ ефекту зникнення градієнта і дослі-
дження на цю тему містяться в [6].
У нашій роботі ми пропонуємо метод навчання нейромереж з оптимізацією локаль-
них градієнтів, названий нами «псевдорегуляризація». Суть псевдорегуляризації полягає в
мінімізації у процесі навчання нейромережі функціонала, що містить в собі функцію від
величин локальних градієнтів, наприклад, типу )(wQ :
,))(1()()(
1
2∑
=
−+=
K
j
IN
j wwewQ δλ
(5)
де )(we – середньоквадратична похибка моделювання динамічного процесу, IN
jδ – локаль-
ні градієнти (3), λ – задана апріорі константа псевдорегуляризації. Нашою метою є на-
вчання нейромереж динаміці деякого процесу з максимізацією абсолютних значень градіє-
нтів вхідних нейронів у середньому:
( )2
1
1
( ) .
K
IN
j
jD
k
N =
Ω = δ∑
(6)
При цьому враховується, що в реальних системах, внаслідок ефекту зникнення гра-
дієнта, 1)( <<wδ . У формулі (6) K – кількість нейронів у прихованому шарі, DN – кіль-
46 ISSN 1028-9763. Математичні машини і системи, 2012, № 4
кість елементів навчальної вибірки. На інші локальні градієнти (4) обмеження, аналогічні
другому доданку (5), не накладаються, оскільки нам невідомий ступінь впливу минулих
тактів роботи системи на поточний такт. Проте накладання таких обмежень можливо: як-
що це зробити, воно буде за змістом аналогічно апріорному визначенню часових затримок
у багатошарових мережах прямого поширення з лінією затримок на вході.
Другий доданок функціонала (5) може бути мінімізований з використанням звичайних
градієнтних методів. Для цього обчислимо похідні квадрата локального градієнта (2) по вагах
прихованих і вихідного шарів. Враховуючи, що )(kHID
jδ є функцією тільки від ваг вихідного
шару )2(w ,
( ) ,0)( 2
)1( =
∂
∂
k
w
HID
jδ
αβ
(7)
( )
( )
≠=
∂
∂
=−=
∂
∂
.,0)(
,,)1(')(2)(
2
)2(
)2(2
)2(
αδ
αδδδ
α
α
α
jk
w
jwkfkk
w
HID
j
OUT
j
HID
j
HID
j
(8)
Аналогічно, обчислимо похідні для квадрата локального градієнта (3) по вагах прихова-
ного і вихідного шарів:
( )
( )
≠=
∂
∂
=−=
∂
∂
,,0)(
,,)1(')(2)(
2
)1(
2
)1(
βδ
βδδδ
αβ
α
αβ
jk
w
jkfkk
w
IN
j
HID
j
IN
j
IN
j
(9)
( ) ( )2 (1)
(2) (2)
1
( ) 2 ( ) '( 1) ( ) .
K
IN IN HID
j j j ij i
i
k k f k w k
w w=α α
∂ ∂δ = δ − δ
∂ ∂∑ (10)
5. Навчання нейромереж методом розширеного фільтра Калмана
Фільтр Калмана є ефективним рекурсивним фільтром, який за рядом зашумлених і неповних
вимірів дозволяє оцінити внутрішній стан динамічної системи. Він застосовується в широкому
спектрі технічних пристроїв, від спідометрів автомобіля до радіоприймачів і радарів. Навчання
нейронних мереж є досить несподіваним застосуванням теорії фільтрації Калмана [1, 4, 9] і, ра-
зом з тим, дуже ефективним: з одного боку, якість такого навчання перебуває на рівні кращих
пакетних алгоритмів другого порядку, таких як метод Левенберга-Марквардта або квази-
ньютонівських методів [8], а з іншого – навчання проводиться в режимі он-лайн, що є актуаль-
ним у випадку вибірок даних великого обсягу і задач керування.
Навчання нейронної мережі методом розширеного фільтра Калмана розглядається
як спроба виконання оцінки дійсного стану деякої невідомої «ідеальної» нейромережі, що
забезпечує нульову нев’язку. Під станами в цьому випадку розглядаються значення ваг
нейромережі )(kw , а під нев’язкою – поточна помилка навчання )(ke . Цей динамічний
процес навчання може бути описаний парою рівнянь у просторі станів (11) і (12). Рівняння
стану (11) являють собою модель процесу, що представляє собою еволюцію вектора ваг
під впливом випадкового процесу )(kξ , який вважається білим шумом з нульовим матема-
тичним очікуванням і відомою діагональною коваріаційною матрицею Q :
).()()1( kkwkw ξ+=+ (11)
ISSN 1028-9763. Математичні машини і системи, 2012, № 4 47
Рівняння виходу (12) являє собою лінеарізовану модель нейромережі (1) на такті k ,
зашумлену випадковим процесом )(kζ , який вважається білим шумом з нульовим матема-
тичним очікуванням, і відомою діагональною коваріаційною матрицею R :
),(
))(),(),((
)( k
w
kxkvkwy
kh ζ+
∂
∂=
(12)
де )(kw – ваги нейромережі, )(kv – постсинаптичні потенціали нейронів, )(kx – вхідні
значення мережі. Обчислення миттєвих значень похідних
w
y
∂
∂
проводиться методом зворо-
тного поширення у випадку багатошарового персептрона з лінією затримок або методом
зворотного поширення в часі у випадку рекурентного персептрона. Помилка )(ke розрахо-
вується за формулою
),(~)()( kyktke −= (13)
де )(kt – цільове значення для нейромережі, ( )y kɶ – реальний вихід нейромережі, що роз-
раховується по (1).
Перед навчанням нейромережі виконується етап ініціалізації. Задаються коваріа-
ційні матриці шуму вимірювань IR η= і динамічного шуму навчання Q I= µ . Розмір мат-
риці R в нашому випадку дорівнює ww LL × , розмір матриці Q дорівнює ww NN × відповід-
но, де wL – кількість вихідних нейронів, wN – кількість вагових коефіцієнтів нейромережі.
Коэффіціент η є швидкістю навчання, у нас 0,001η = , коефіціент µ визначає шум вимі-
рювання, у нас 510−=µ . Також задаються одинична на етапі ініціалізації матриця коваріа-
ції P , що має розмір ww NN × , і нульова матриця вимірювань H , що має розмір ww NL × .
На такті k виконуються такі дії.
1) Виконується прямий прохід нейромережі, обчислюється вихід нейромережі ( )y kɶ
згідно з формулою (1).
2) Виконується зворотний прохід нейромережі: методом зворотного поширення об-
числюються якобіани
w
y
∂
∂~
. Формується багатокритеріальна матриця спостережень )(kH :
.
~
...
~~
)(
21
T
Nw
w
y
w
y
w
y
kH
∂
∂
∂
∂
∂
∂=
(14)
3) Формується матриця відхилень )(kE :
[ ]( ) ( ) .E k e k=
(15)
4) Обчислюються нові значення ваг нейромережі )1( +kw і матриці кореляції
)1( +kP за формулами (16)–(18):
,])()()([)()()( 1−+= RkHkPkHkHkPkK TT
(16)
,)()()()()1( QkPkHkKkPkP +−=+ (17)
).()()()1( kekKkwkw +=+
(18)
Дії 1 – 4 виконуються для всіх елементів навчальної вибірки.
48 ISSN 1028-9763. Математичні машини і системи, 2012, № 4
Рис. 5. Залежність величин локальних градієнтів
для вхідних нейронів від параметра λ
6. Навчання нейромереж з використанням псевдорегуляризації
Для максимізації величин локальних градієнтів для вхідних нейронів (6) ми пропонуємо
використовувати додатковий розширений
фільтр Калмана, що працює одночасно з
першим фільтром, але має іншу цільову
функцію оптимізації. Будемо вважати, що
виходом моделі динамічного процесу на-
вчання на кожному такті є величини
2)(kIN
jδ , Lj ,...,2,1= , які обчислюються під
час виконання зворотного проходу, L –
кількість рекурентних зв’язків нейроме-
режі. Відповідно, для додаткового виходу
розраховуються якобіани
w
kIN
j
∂
∂ ]))([( 2δ
,
Lj ,...,2,1= для формування матриці спо-
стережень Hɶ , а другий доданок функціо-
нала )(wQ формує матрицю відхилень Eɶ :
2 2 2
1 1 1
1 1 1
2 2 2
2 2 2
1 2
2 2 IN 2
1 2
[( ) ] [( ) ] [( ) ]
...
[( ) ] [( ) ] [( ) ]
...
( ) .
... ... ... ...
[( ) ] [( ) ] [( ) ]
...
w
w
TIN IN IN
IN IN IN
N
IN IND
L L L
N
w w w
w w wH k
w w w
∂ δ ∂ δ ∂ δλ λ λ ∂ ∂ ∂
∂ δ ∂ δ ∂ δλ λ λ
∂ ∂ ∂=
∂ δ ∂ δ ∂ δλ λ λ ∂ ∂ ∂
ɶ (19)
[ ] .))(1(...))(1())(1()(~ 22
2
2
1
TIN
L
ININ wwwkE δλδλδλ −−−= (20)
Корекція ваг нейромережі відбувається на кожному такті за формулами, аналогіч-
ними (16)–(18). На рис. 5 показано результати навчання рекурентних нейромереж на процесі
Маккея-Гласса при різних значеннях параметра λ .
7. Послідовності для прогнозування
Для проведення експериментів було взято два відомі приклади числових рядів, що викори-
стовуються для порівняння якості прогнозування різних алгоритмів: числа Вольфа і процес
Маккея-Гласса (рис. 6).
Числа Вольфа – це кількість плям на Сонці за рік, ці дані фіксувалися астрономами,
починаючи з 1700 року. В наших експериментах навчальна вибірка містить дані з 1700 по
1920 рік, а тестова вибірка – з 1921 по 1979 рік, як і в [7]. Другою числовою послідовністю
було взято процес Маккея-Гласса. Послідовність Маккея-Гласса задано рівнянням
,,...1,,
)(1
)1(
101 +=
+
+−=
−
−
+ ττ
τ
τ t
x
x
axbx
t
t
tt
ISSN 1028-9763. Математичні машини і системи, 2012, № 4 49
де 1≥τ – цілі числа. Для проведення експериментів була сгенерована послідовність з ви-
користанням таких значень параметрів: 0,2a = ; 0,1b = ; 17=τ , як в [7] і [8]. Перші 1000
значень сгенерованої послідовності були проігноровані, 500 наступних значень використа-
ні як навчальна вибірка, наступні 150 – використані як текстова вибірка.
Якість багатокрокового прогнозування оцінювалася за критерієм середньоквадра-
тичної помилки з обрієм, MSE(H), за формулою
1
2 2
1
1
ˆ( ) ( ) ,
H
k k
k
MSE H y t
H =
= < − >∑
(17)
де ˆky – прогнозні значення, kt – цільові значення, H – обрій прогнозування.
8. Експериментальні результати
Спочатку, для вирішення задачі прогнозування, було навчено 100 багатошарових персепт-
ронів з лінією затримок (MLP). Задача навчання для MLP ставилася фактично в такий спо-
сіб: за N відомими минулими значеннями послідовності ),,,( 1 Nkkk yyy −− ⋯ дати оцінку
1ˆky + наступного значення 1+ky , в наших експериментах 5=N . Кількість нейронів у прихо-
ваному шарі варіювалася від 3 до 8, навчання велося методом глобального розширеного
фільтра Калмана. У процесі тренування мережі навчалися протягом 50 епох на навчальній
послідовності і після кожної епохи перевірялися на якість багатокрокового прогнозування
на навчальній вибірці. Для чисел Вольфа обрій прогнозування становив 10=H , для про-
цесу Маккея-Гласса 14=H . Мережа, що показала кращий результат на тестовій послідов-
ності після 50 епох, тестувалася на тестовій вибірці. Цей результат вважається остаточним
і представлений у таблицях і на графіках.
Потім було навчено по 100 рекурентних нейромереж NARX, у наших експеримен-
тах 5=N і 5=L , з обчисленням динамічних похідних методом зворотного поширення в
часі. Кількість нейронів у прихованому шарі для цих мереж коливалася від 3 до 7, навчан-
ня велося також методом глобального розширеного фільтра Калмана протягом 50 епох.
Рис. 6. Числові ряди для навчання нейромереж: числа Вольфа (справа), процес Маккея-Гласса
50 ISSN 1028-9763. Математичні машини і системи, 2012, № 4
Рис. 7. Залежність помилки багатокрокового прогнозування від обрію
прогнозування
Нарешті було навчено по 100 рекурентних мереж протягом 50 епох з використан-
ням псевдорегуляризації з використанням додаткового розширеного фільтра Калмана, па-
раметра величини псевдорегуляризації 0,1λ = . Методи відбору мереж і тестування анало-
гічні. Результати представлені в табл. 1, 2 і на рис. 7.
Таблиця 1. Результати багатокрокового прогнозування чисел Вольфа
Назва підходу/H 1 2 3 4 5 6 10
MLP 0,0128 0,0250 0,0437 0,0589 0,0736 0,0874 0,1065
NARX Classic 0,0507 0,0520 0,0594 0,0664 0,0709 0,0764 0,0879
NARX Pseudoregu-
larization 0,0475 0,0489 0,0542 0,0581 0,0616 0,0653 0,0735
Таблиця 2. Результати багатокрокового прогнозування процесу Маккея-Гласса
Назва підходу/H 1 2 3 4 5 10 14
MLP 0,0007 0,0015 0,0030 0,0055 0,0090 0,0337 0,0526
NARX Classic 0,0010 0,0014 0,0033 0,0054 0,0086 0,0240 0,0323
NARX Pseudoregu-
larization 0,0012 0,0015 0,0032 0,0050 0,0079 0,0211 0,0289
9. Висновки
У роботі запропоновано новий метод навчання рекурентних нейромереж із застосуванням
псевдорегуляризації для зменшення ефекту зникнення градієнта. Було проведено експери-
ментальне дослідження пропонованого методу на прикладах числових послідовностей чи-
сел Вольфа і процесу Маккея-Гласса, що показало ефективність нового методу для багато-
крокового прогнозування часових рядів у порівнянні із традиційним навчанням рекурент-
них нейромереж методом розширеного фільтра Калмана. Використання псевдорегуляриза-
ції забезпечило зменшення помилки багатокрокового прогнозування для рекурентних ней-
ромереж в середньому на 10–30%.
ISSN 1028-9763. Математичні машини і системи, 2012, № 4 51
СПИСОК ЛІТЕРАТУРИ
1. Хайкин C. Нейронные сети: полный курс / Хайкин С.; пер. с англ. – [2-е изд., испр.]. – М.: Виль-
ямс, 2006. – 1104 c.
2. Gers F.A. Applying LSTM to Time Series Predictable Through Time-Window Approaches / F.A. Gers,
D. Eck, J. Schmidhuber // Proc. оf International Conference on Artificial Neural Networks. – Berlin, 2001.
– Р. 669 – 676.
3. Осовский C. Нейронные сети для обработки информации / Осовский С. – М.: Фінанси й статис-
тика, 2002. – 344 с.
4. Cernansky M. Simple recurrent network trained by RTRL and Extended Kalman Filter algorithms /
M. Cernansky, L. Benuskova // Neural Network World. – 2003. – N 13, Vol. 3. – Р. 223 – 234.
5. De Jesus O. Backpropagation: Algorithms for a Broad Class of Dynamic Networks / O. de Jesus,
M.T. Hagan // IEEE Transactions on Neural Networks. – 2007. – N 1, Vol. 18. – P. 14 – 27.
6. Hochreiter S. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies /
S. A Field Guide to Dynamical Recurrent Neural Networks / S. Hochreiter, Y. Bengio, P. Frasconi [et al.]
// IEEE Press. – 2001. – 421 p.
7. Bone R. Advanced Methods for Time Series Prediction Using Recurrent Neural Networks / R. Bone,
H. Cardot // Recurrent Neural Networks for Temporal Data Processing, Chapter 2, Intech. – Croatia. –
2011. – P. 15 – 36.
8. On the convergence of EKF-based parameters optimization for Neural Networks / Alessandri A., Cuneo
M., Pagnan S. [et al.] // Proc. of the 42nd IEEE Conference on Decision and Control. – Maui, Hawaii,
USA, 2001. – Vol. 6. – Р. 6181 – 6186.
9. Prokhorov D.V. Toyota Prius HEV Neurocontrol and Diagnostics / D.V. Prokhorov // Neural Networks.
– 2008. – N 21. – Р. 458 – 465.
Стаття надійшла до редакції 30.07.2012
|
| id | nasplib_isofts_kiev_ua-123456789-83774 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1028-9763 |
| language | Ukrainian |
| last_indexed | 2025-12-07T15:40:47Z |
| publishDate | 2012 |
| publisher | Інститут проблем математичних машин і систем НАН України |
| record_format | dspace |
| spelling | Чернодуб, А.М. 2015-06-23T08:32:05Z 2015-06-23T08:32:05Z 2012 Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів / А.М. Чернодуб // Мат. машини і системи. — 2012. — № 4. — С. 41-51. — Бібліогр.: 9 назв. — укр. 1028-9763 https://nasplib.isofts.kiev.ua/handle/123456789/83774 681.513.7 Розглядається задача багатокрокового прогнозування часових рядів. Представлені існуючі моделі рекурентних та нерекурентних нейронних мереж, що застосовуються для задач прогнозування. Описується спосіб навчання нейромереж методом розширеного фільтра Калмана з обчисленням похідних методом зворотного поширення в часі. Пропонується метод псевдорегуляризації для зменшення ефекту зникнення градієнтів, що приводить до підвищення якості прогнозування в багатокроковому випадку. Наводяться результати чисельних експериментів на прикладі прогнозування кількості сонячних плям за рік і хаотичного процесу Маккея-Гласса. Рассматривается задача многошагового прогнозирования временных рядов. Представлены существующие модели рекуррентных и нерекуррентных нейронный сетей, которые применяются для задач прогнозирования. Описывается способ обучения нейросетей методом расширенного фильтра Калмана с вычислением производных методом обратного распространения во времени. Предлагается метод псевдорегуляризации для уменьшения эффекта исчезновения градиентов, что приводит к повышению качества прогнозирования в многошаговом случае. Приводятся результаты численных экспериментов на примере прогнозирования годового количества солнечных пятен и хаотического процесса Маккея-Гласса. The problem of time series multi-step prediction is considered. The existing models of recurrent and nonrecurrent neural networks which are used for prediction problems were represented. Efficient training method of neural networks using Extended Kalman Filter and Backpropagation Through Time technique of dynamic derivatives calculation is described. Pseudoregularization method for vanishing gradients effect reducing that leads to prediction accuracy in muli-step case improvement is proposed. The results of numerical experiments on the example of yearly sunspots number and Chaotic Mackey-Glass Time Series predicting are presented. uk Інститут проблем математичних машин і систем НАН України Математичні машини і системи Обчислювальні системи Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів Обучение рекуррентных нейронных сетей методом псевдорегуляризации для многошагового прогнозирования временных рядов Recurrent neural networks training by pseudoregularization method for time series multi-step prediction Article published earlier |
| spellingShingle | Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів Чернодуб, А.М. Обчислювальні системи |
| title | Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів |
| title_alt | Обучение рекуррентных нейронных сетей методом псевдорегуляризации для многошагового прогнозирования временных рядов Recurrent neural networks training by pseudoregularization method for time series multi-step prediction |
| title_full | Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів |
| title_fullStr | Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів |
| title_full_unstemmed | Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів |
| title_short | Навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів |
| title_sort | навчання рекурентних нейронних мереж методом псевдорегуляризації для багатокрокового прогнозування часових рядів |
| topic | Обчислювальні системи |
| topic_facet | Обчислювальні системи |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/83774 |
| work_keys_str_mv | AT černodubam navčannârekurentnihneironnihmerežmetodompsevdoregulârizacíídlâbagatokrokovogoprognozuvannâčasovihrâdív AT černodubam obučenierekurrentnyhneironnyhseteimetodompsevdoregulârizaciidlâmnogošagovogoprognozirovaniâvremennyhrâdov AT černodubam recurrentneuralnetworkstrainingbypseudoregularizationmethodfortimeseriesmultistepprediction |