М-обучение радиально-базисных сетей с использованием асимметричных функций влияния

Розглянуто робастний підхід до навчання радіально-базисних мереж за наявності завад вимірювань, що мають несиметричні розподілення. Для мінімізації запропонованих асиметричних функціоналів використовуються алгоритми Гаусса–Ньютона і Левенберга–Марквардта. Оцінювання параметрів завад здійснюється за...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2012
Автори:	Руденко, О.Г., Бессонов, А.А.
Формат:	Стаття
Мова:	Russian
Опубліковано:	Інститут кібернетики ім. В.М. Глушкова НАН України 2012
Назва видання:	Проблемы управления и информатики
Теми:	Методы обработки информации
Онлайн доступ:	https://nasplib.isofts.kiev.ua/handle/123456789/207450
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:	М-обучение радиально-базисных сетей с использованием асимметричных функций влияния / О.Г. Руденко, А.А. Бессонов // Проблемы управления и информатики. — 2012. — № 1. — С. 79–93. — Бібліогр.: 28 назв. - рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine

id	irk-123456789-207450
record_format	dspace
spelling	irk-123456789-2074502025-10-08T00:16:14Z М-обучение радиально-базисных сетей с использованием асимметричных функций влияния М-навчання радіально-базисних мереж з використанням асиметричних функцій впливу M-Training of Radial Basis Networks Using Asymmetric Influence Functions Руденко, О.Г. Бессонов, А.А. Методы обработки информации Розглянуто робастний підхід до навчання радіально-базисних мереж за наявності завад вимірювань, що мають несиметричні розподілення. Для мінімізації запропонованих асиметричних функціоналів використовуються алгоритми Гаусса–Ньютона і Левенберга–Марквардта. Оцінювання параметрів завад здійснюється за допомогою алгоритму стохастичної апроксимації. Наведено результати моделювання, що підтверджують ефективність запропонованого підходу. A robust approach to training radial basis networks in the presence of noise measurements with asymmetric distributions is considered. To minimize the proposed asymmetric functionals, Gauss–Newton and Levenberg–Marquardt algorithms are used. The estimation of interference parameters is performed using a stochastic approximation algorithm. The simulation results confirm the effectiveness of the proposed approach. 2012 Article М-обучение радиально-базисных сетей с использованием асимметричных функций влияния / О.Г. Руденко, А.А. Бессонов // Проблемы управления и информатики. — 2012. — № 1. — С. 79–93. — Бібліогр.: 28 назв. - рос. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/207450 519.71 10.1615/JAutomatInfScien.v44.i2.50 ru Проблемы управления и информатики application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection	DSpace DC
language	Russian
topic	Методы обработки информации Методы обработки информации
spellingShingle	Методы обработки информации Методы обработки информации Руденко, О.Г. Бессонов, А.А. М-обучение радиально-базисных сетей с использованием асимметричных функций влияния Проблемы управления и информатики
description	Розглянуто робастний підхід до навчання радіально-базисних мереж за наявності завад вимірювань, що мають несиметричні розподілення. Для мінімізації запропонованих асиметричних функціоналів використовуються алгоритми Гаусса–Ньютона і Левенберга–Марквардта. Оцінювання параметрів завад здійснюється за допомогою алгоритму стохастичної апроксимації. Наведено результати моделювання, що підтверджують ефективність запропонованого підходу.
format	Article
author	Руденко, О.Г. Бессонов, А.А.
author_facet	Руденко, О.Г. Бессонов, А.А.
author_sort	Руденко, О.Г.
title	М-обучение радиально-базисных сетей с использованием асимметричных функций влияния
title_short	М-обучение радиально-базисных сетей с использованием асимметричных функций влияния
title_full	М-обучение радиально-базисных сетей с использованием асимметричных функций влияния
title_fullStr	М-обучение радиально-базисных сетей с использованием асимметричных функций влияния
title_full_unstemmed	М-обучение радиально-базисных сетей с использованием асимметричных функций влияния
title_sort	м-обучение радиально-базисных сетей с использованием асимметричных функций влияния
publisher	Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate	2012
topic_facet	Методы обработки информации
url	https://nasplib.isofts.kiev.ua/handle/123456789/207450
citation_txt	М-обучение радиально-базисных сетей с использованием асимметричных функций влияния / О.Г. Руденко, А.А. Бессонов // Проблемы управления и информатики. — 2012. — № 1. — С. 79–93. — Бібліогр.: 28 назв. - рос.
series	Проблемы управления и информатики
work_keys_str_mv	AT rudenkoog mobučenieradialʹnobazisnyhsetejsispolʹzovaniemasimmetričnyhfunkcijvliâniâ AT bessonovaa mobučenieradialʹnobazisnyhsetejsispolʹzovaniemasimmetričnyhfunkcijvliâniâ AT rudenkoog mnavčannâradíalʹnobazisnihmerežzvikoristannâmasimetričnihfunkcíjvplivu AT bessonovaa mnavčannâradíalʹnobazisnihmerežzvikoristannâmasimetričnihfunkcíjvplivu AT rudenkoog mtrainingofradialbasisnetworksusingasymmetricinfluencefunctions AT bessonovaa mtrainingofradialbasisnetworksusingasymmetricinfluencefunctions
first_indexed	2025-10-08T01:10:13Z
last_indexed	2025-10-09T01:05:38Z
_version_	1845464335391916032
fulltext	© О.Г. РУДЕНКО, А.А. БЕССОНОВ, 2012 Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 1 79 УДК 519.71 О.Г. Руденко, А.А. Бессонов М-ОБУЧЕНИЕ РАДИАЛЬНО-БАЗИСНЫХ СЕТЕЙ С ИСПОЛЬЗОВАНИЕМ АСИММЕТРИЧНЫХ ФУНКЦИЙ ВЛИЯНИЯ Введение. Многие задачи обработки информации либо сводятся к задаче ап- проксимации некоторой, в общем случае нелинейной функции (обработка сложных сигналов, идентификация, прогнозирование временнх последовательностей) ,)()(  xfxy (1) где x — вектор ,1M )(xf — неизвестная нелинейная функция,  — помеха; либо используют получаемые при этом результаты для решения более сложной задачи (управление нелинейными объектами, классификация, распознавание об- разов, обработка изображений и т.д.). Возможность аппроксимации со сколь угодно малой ошибкой любой непре- рывной функции )(xf искусственной нейронной сетью (ИНС) [1] обусловила до- статочно широкое распространение нейросетевого подхода для решения данной задачи. При этом аппроксимируемая функция представляется некоторой сетью, образованной нейронами, параметры которых определяются путем обучения сети на основании предъявления обучающих пар )},(),({ kykx ....,2,1k Вследствие простой топологии и наличия эффективных алгоритмов обучения предпочтение зачастую отдают радиально-базисным сетям (РБС), аппроксимирующим функцию )(xf следующим образом:    L i ii rxwrxwxf 0 T ),,(),()(ˆ (2) где w — вектор весов ;1L r — расстояние (радиальное); ),( rxi — базисная функция (БФ) i-го нейрона; L — количество нейронов. В классической РБС используется евклидово расстояние iiE xr  и гауссова БФ },5,0{exp)( 22  Eij rХx где  — радиус (дисперсия), i — центр базисных функций. Более эффективным в ряде случаев (и используемым в данной работе) является расстояние Махаланобиса ),()( 1T iiM xRxr   где ],[1 k ijrR  ,,1, Mji  Nk ,1 (М — размерность вектора х) — масштабирую- щая (ковариационная) матрица. Обучение ИНС заключается в определении вектора ее параметров  размер- ности 1N (весов, центров и радиусов) и сводится к минимизации некоторого функционала (критерия обучения) от ошибки аппроксимации ),(ˆ)()( kfkyke  вид которого зависит от статистических свойств помехи. Большинство известных в настоящее время алгоритмов обучения нейронных сетей основано на использовании жестких и труднопроверяемых условий, связан- ных с гипотезой нормальности закона распределения помех и обосновываемых ссылками на центральную предельную теорему, и представляет собой некоторые модификации метода наименьших квадратов (МНК). 80 ISSN 0572-2691 Следует отметить, что достаточно общей моделью засорения является модель Тьюки–Хьюбера [2] ),()()1()( 0  q (3) где )(0  — плотность соответствующего основного распределения, )(q — плотность засоряющего (произвольного распределения); ]1,0[ — параметр, характеризующий степень засорения основного распределения. При использовании модели (3) также обычно предполагается, что и )(0  , и )(q являются гауссовскими с нулевыми математическими ожиданиями и раз- ными дисперсиями. Однако во многих задачах обработки информации (интерпо- ляция, оценивание и моделирование связанных с пространственным распределе- нием признаков, наличием импульсных помех, имеющих длинные «хвосты» и т.д.) часто возникает необходимость учета асимметрии распределения исходных данных (и помех). Если для борьбы с помехами, имеющими длинные «хвосты» и нулевые матема- тические ожидания, достаточно эффективно применение неквадратичных критериев, то при наличии помех с асимметричными распределениями (все они имеют отличные от нуля математические ожидания) оценки, получаемые с помощью известных робаст- ных методов, использующих симметричные функции влияния, являются смещенными. Цель данной работы — развитие робастного подхода обучения ИНС, использу- ющего асимметричные функции влияния и позволяющего получить несмещенные оценки при наличии негауссовских помех, имеющих асимметричные распределения. М-обучение. Если информация о принадлежности помехи  некоторому определенному классу распределений известна, то путем минимизации оптималь- ного критерия, представляющего собой взятый с обратным знаком логарифм функции распределения помехи, можно получить оценку максимального правдо- подобия (М-оценку). Если же такой информации нет, то для оценивания искомого вектора параметров  следует применить какой-либо неквадратичный критерий, обеспечивающий робастность получаемой оценки. При выборе критерия )),(( 1 )( 1    ie K F K i K (4) обучение сводится к поиску оценки ),(minargˆ   KK F определяемой как реше- ние системы уравнений ,0 ),( )),(( )( )( 1          j K ij j ie ie F F (5) где )),((  ie — некоторая функция потерь; );,(ˆ)(),(  iyiyie  )),(( ie ),( )),((    ie ie — функция влияния. Введение весовой функции 1)()(  eee позволяет представить задачу ми- нимизации критерия (4) как задачу минимизации взвешенного квадратичного критерия ).,())((min 2 1   ieie K i Традиционные критерии М-обучения. Существует достаточно большое количество функционалов, обеспечивающих получение робастных М-оценок (см., например, [2–12]), однако наиболее распространенными являются комбинирован- ные функционалы, предложенные Хьюбером [2] и Хемпелем [3] и состоящие из квадратичного, обеспечивающего оптимальность оценок для гауссовского рас- пределения, и модульного, позволяющего получить более робастную к распреде- Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 1 81 лениям с тяжелыми «хвостами» (выбросами) оценку. Данные функционалы и их функции влияния , имеющие соответственно вид          ;, 2 ;, 2)( 2 2 1 ec c ec ce e e        ;,)(sign ;, )(1 ecec cee e        ;,0 ;,1 )(1 ec ce e        ;, ;,1 )(1 ec e c ce e (6)                              ;, 2 )( 2 ;, )( 2 )( 2 ;, 2 ;0, 2 )( 2 2 2 2 2 ed b dc b dec dc de b b dc b ceb b eb be e e                ;e,0 ;),(sign )( ;,)(sign ;0, )(2 d dece dc deb cebeb bee e              ;,0 ;, ;,0 ;0,1 )(2 ed dec dc b ceb be e                 ;,0 ;, )( )( ;, ;0,1 )(2 ed dec edc deb ceb e b be e (7) приведены на рис. 1. Обычно М-оценки описываются путем задания функции влияния , а не функции . Функция , предложенная Хьюбером, монотонная, а  — функция Хемпела, немонотонная. Как отмечается в [13], при наличии в распределении тя- желых хвостов, применение немонотонных -функций позволяет улучшить ре- зультаты оценивания. Эффективность применения этих функционалов зависит от того, насколько удачно выбраны входящие в них константы a, b, c и d, которые и определяют сте- пень помехоустойчивости. В указанных выше работах рекомендуется выбирать значения a из интервала ],2,[  где  — стандартное отклонение наблюдения х, а значения b, c и d задавать равными 1,5; 3,5 и 8 соответственно. Кроме функций (6), (7), достаточно эффективными являются, например, сле- дующие, также приведенные на рис. 1 [12]: ;coshln)(3        c e ce ;tanh)(3        c e e ; )( tanh1 1 ))(( 2 23              c ke c ke ; )( tanh )( 1 ))((3        c ke kce ke (8) ;)( 22 2 4 ec e e   ; )( 2 )( 222 2 4 ec ec e   ; ))(( )(62 ))(( 322 224 4 kec kecc ke    . ))(( 2 ))(( 222 2 4 kec c ke   (9) 82 ISSN 0572-2691 0 2 4 6 8 10 5 4 3 0 1 2 12 2 1 3 4 5 1(e) 5 4 3 0 1 2 2 1 3 4 5 5 4 3 2 1 0 1 2 3 5 4 1(e) 0 5 10 15 20 10 8 6 0 2 4 25 4 2 6 8 10 2(e) 10 8 6 0 2 4 4 2 6 8 10 4 3 2 1 0 1 2 3 4 2(e) 5 4 3 0 1 2 2 1 3 4 5 0 0,5 1 1,5 2 3 4 2,5 3,5 4,5 3(e) 5 4 3 0 1 2 2 1 3 4 5 – 1 – 0,8 – 0,6 0 1 – 0,4 – 0,2 0,2 0,4 0,6 0,8 3(e) 5 4 3 0 1 2 2 1 3 4 5 0 0,1 0,2 1 0,3 0,4 0,5 0,6 0,7 0,8 0,9 4(e) 5 4 3 0 1 2 2 1 3 4 5 – 0,8 – 0,6 0 – 0,4 – 0,2 0,2 0,4 0,6 0,8 4(e) Рис. 1 Классические робастные методы, минимизирующие как (6)–(9), так и осталь- ные неквадратичные функционалы, ориентированы на симметричность засорения, когда выбросы одинаково часто появляются как в области отрицательных, так и в области положительных значений. Указанные методы позволяют эффективно бороться с помехами, описываемы- ми моделью (3), когда основное и засоряющее распределения являются гауссовски- ми с нулевыми математическими ожиданиями и дисперсиями 2 1 и ,2 2 .2 2 2 1  В более общей ситуации произвольного вида засорения, например, когда гауссовское засоряющее распределение имеет ненулевое математическое ожида- Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 1 83 ние или когда засоряющее распределение является несимметричным (Релея, лог- нормальное, Гамма-распределение, Вейбулла–Гнеденко и др.), оценки, даваемые этими методами, будут смещенными. Необходимость учета асимметрии распре- делений обусловливает целесообразность выбора асимметричных функционалов. Асимметричные функционалы. Принципиально могут быть получены асим- метричные функционалы (АФ) различных видов. При этом базой для них служат соответствующие традиционные симметричные функционалы робастного М-обу- чения. Наличие информации о виде асимметричного распределения данных и по- мех служит основой для выбора параметров функционалов, оказывая значитель- ное влияние на вид АФ. На рис. 2, а приведена гистограмма помехи, описываемой моделью (3) с 1,0 и представляющей собой смесь нормальной помехи N(0; 0,6) и помехи с распределением Релея Ray (6), и соответствующие АФ Хемпеля (7) — рис. 2, б. На рис. 2, в, г представлены асимметричные модификации функционалов (8), (9) соответственно, полученные с помощью следующего выражения:      случае. противном вconst ;8,15,3если),( )( e e e i i 4 0 2 4 2 6 8 10 0 0,5 1 1,5 2 2,5 10 4 4 0 2 4 2 6 8 10 0 0,5 1 1,5 а б 4 0 2 4 2 6 8 10 0 0,5 1 1,5 2 2,5 2 4 0 2 4 2 6 8 10 0 0,2 1 0,4 0,8 0,6 в г Рис. 2 Возможен и другой, более общий, вид асимметричности функционалов, постро- енных на основе (6)–(9). Примеры таких функционалов, а также их первых, вторых производных и весовых функций приведены в табл. 1. В данной таблице вместо функции Хемпеля (7) показана ее модификация, полученная из (7) при dc  (по- добная ψ-функция использовалась в работе [14]). Коэффициент c задавался следую- щим образом:      случае. противном в 0; если, 2 1 c c c На всех рисунках кривая, обозначенная пунктиром, соответствует случаю ,21 cс  сплошной линией — .21 cс  84 ISSN 0572-2691 Таблица 1 Функционал Первая производная )(~ 1 e )(~ 1 e 4 0 2 4 2 6 8 10 0 10 15 25 20 8 6 10 5 30 35 40 4 0 2 4 2 6 8 10 0 – 4 8 6 10 2 – 2 – 6 4 6 )(~ 2 e )(~ 2 e 4 0 2 4 2 6 8 10 0 4 6 10 8 8 6 10 2 12 14 4 0 2 4 2 6 8 10 0 8 6 10 2 – 2 – 2,5 – 1 – 1,5 – 0,5 1,5 1 0,5 2,5 )(~ 3 e )(~ 3 e 4 0 2 4 2 6 8 10 0 8 6 10 2 1,5 1 0,5 2,5 4 3,5 3 4,5 4 0 2 4 2 6 8 10 0 8 6 10 – 1 – 0,8 1 0,8 – 0,6 – 0,4 – 0,2 0,2 0,6 0,4 )(~ 4 e )(~ 4 e 4 0 2 4 2 6 8 10 0 8 6 10 1 0,8 0,2 0,6 0,4 4 0 2 4 2 6 8 10 0 8 6 10 – 0,8 0,8 – 0,6 – 0,4 – 0,2 0,2 0,6 0,4 Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 1 85 Продолжение табл. 1 Вторая производная Весовая функция )(~ 1 e )(~ 1 e 4 0 2 4 2 6 8 10 0 8 6 10 – 0,2 1 0,2 1,2 0,4 0,6 0,8 4 0 2 4 2 6 8 10 0 8 6 10 – 1 – 1,5 – 0,5 1,5 1 0,5 )(~ 2 e )(~ 2 e 4 0 2 4 2 6 8 10 0 8 6 10 – 1 – 1,5 – 0,5 1,5 1 0,5 4 0 2 4 2 6 8 10 0 8 6 10 – 1 – 1,5 – 0,5 1,5 1 0,5 )(~ 3 e )(~ 3 e 4 0 2 4 2 6 8 10 0 8 6 10 1 0,8 0,2 0,6 0,4 4 0 2 4 2 6 8 10 0 8 6 10 1 0,8 0,2 0,6 0,4 )(~ 4 e )(~ 4 e 4 0 2 4 2 6 8 10 0 8 6 10 – 0,5 1,5 1 0,5 2 4 0 2 4 2 6 8 10 0 8 6 10 1 0,8 0,2 0,6 0,4 2 1,8 1,2 1,6 1,4 86 ISSN 0572-2691 Робастные алгоритмы обучения Гаусса–Ньютона и Левенберга–Марк- вардта. При фиксированном числе обучающих данных )](),([ iyix ,,1 Ki  off-line оценка вычисляется следующим образом: )).(ˆ()]([)()(ˆ)1(ˆ 1 iFiQiii KKKKK   (10) Здесь 1)]([ iQK — матрица усиления; )(iK — коэффициент обучения — некоторый параметр, влияющий на длительность процесса обучения. В настоящее время существует достаточно много робастных алгоритмов обу- чения РБС [7, 12, 15–18], однако наиболее эффективными являются алгоритмы Гаусса–Ньютона и Левенберга–Марквардта. Робастные алгоритмы Гаусса–Ньютона и Левенберга–Марквардта вытекают из (10) при выборе соответственно ,1)(  iK ))(ˆ()( 2 iFiQ KK  и )(iQK .))(ˆ(2 IiFK  Здесь    K i K ififie k iF 1 T2 )(ˆ)(ˆ)),(( 1 ))(ˆ( — матрица Гес- се; 0 — параметр регуляризации. Робастный метод Ньютона решения уравнения (4) рассматривается в ра- ботах [8, 19]. При обучении в режиме on-line на каждом такте поступления новой инфор- мации об обучающей паре },{ kk yx осуществляется коррекция оценки в соответ- ствии с формулой )).(ˆ()]([)()(ˆ)1(ˆ 1 kFkQkkk   (11) Более простую в вычислительном отношении рекуррентную форму алгорит- мов Гаусса–Ньютона и Левенберга–Марквардта, не требующую обращения на каждом такте матрицы )(kQ размерности ,NN  а осуществляющую ее рекур- рентный пересчет, можно получить, воспользовавшись леммой об обращении матриц. Если рекуррентный алгоритм Гаусса–Ньютона вида , )(ˆ)1()(ˆ))((1 ))(()(ˆ)1( )1(ˆ)(ˆ T kfkPkfke kekfkP kk    (12) )),(( )(ˆ)1()(ˆ))((1 )1()(ˆ)(ˆ)1( )1()( T T ke kfkPkfke kPkfkfkP kPkP     (13) где ..., )(ˆ ...,, )(ˆ , )(ˆ , )(ˆ , )(ˆ , )(ˆ )(ˆ 1 ,1 1 2,1 1 1,1110 Mr kf r kf r kfkf w kf w kf kf                  ; )(ˆ ...,, )(ˆ , )(ˆ , )(ˆ ...,, )(ˆ ..., T , 1 1,1 1 ,               N MM N NNMM r kf r kfkf w kf r kf ;1 )(ˆ 0    w kf );,,( )(ˆ iii i R w kf    x ; )(ˆ A i i i e A w kf       , )(ˆ A ij m iij m e r A w r kf       где ),()( 1T   xx RA можно получить достаточно просто [9, 12, 20–22], то наличие в обращаемой матрице )(kQ в алгоритме Левенберга–Марквардта слага- емого I несколько усложняет задачу. Для квадратичного функционала рекуррентный алгоритм Левенберга–Марк- вардта получен в [23] и применен для решения задачи нейросетевой нелинейной Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 1 87 адаптивной фильтрации в [24]. В этих работах используется аппроксимация I матрицей )(kIN размерности ,NN  все элементы которой равны нулю, за ис- ключением диагонального, )1mod( Nk -го, равного единице. В этом случае после N шагов имеем .)( 1 INkIN N Ni ik    Если воспользовать- ся данной аппроксимацией, то после несложных преобразований в окончательном виде рекуррентный робастный алгоритм Левенберга–Марквардта, минимизирую- щий произвольный критерий М-обучения, можно записать следующим образом: ));(()(ˆ)()(ˆ)1(ˆ kekfkPkk  (14) ),()1()(ˆ)()(ˆ)1()1()( T1 kkPkfkKkfkPkPkP   (15) где );()(ˆ)1()(ˆ)()( **T kkfkPkfkkK  )1mod( позиция . 0...10...0 )(ˆ )(ˆ; 0 01 )( T T 1                    Nk kf kf N k Как следует из (14), (15), в этом алгоритме также необходимо обращать мат- рицу ).(kK Однако размерность ее равна ,22 что значительно меньше размер- ности матрицы ).(kQ Начальное значение матрицы )0(P как в алгоритме (12), (13), так и в (14), (15), выбирается по аналогии с рекуррентным МНК (РМНК), т.е. ,)0( IP  где ,1 а начальная размерность единичной матрицы I задается ,DD где )1(1 2  MMD — количество настраиваемых параметров сети, содержащей один нейрон. Так как после введения в сеть нового, n-го, нейрона размерность )(kP увеличивается, то значения элементов матрицы )(kP сбрасываются и ини- циализируются заново, при этом D становится равным ),1(1 2  MMnD где n — текущее количество нейронов в сети. Достаточно часто в алгоритмах (12)–(15) вместо ))(( ke используют весо- вые функции )).(( ke Однако следует отметить, что как )),(( ke так и ))(( ke некоторых функционалов (см. табл. 1) при определенных значениях аргументов могут быть отрицательными, что приводит к неустойчивости алгоритмов обуче- ния. Поэтому в этих алгоритмах вместо величин ))(( ke и ))(( ke целесообраз- но использовать их модули ))(( ke и .))(( ke Оценивание параметров функционалов. Как следует из (7)–(10), пара- метры, входящие в выражение как для симметричных, так и для асимметричных функционалов, влияют на их вид и зависят от статистических свойств поме- хи ).(k При этом необходимо иметь в виду следующее. В случае нормального распределения оптимальные оценки, получаемые с помощью МНК, инвариант- ны по отношению к параметру масштаба .2  При М-оценивании вследствие не- однородности функции  получаемые оценки не сохраняют свойства инвари- антности. Для того чтобы свойство инвариантности масштаба выполнялось, в функционале (3) вместо ошибки ),( ie следует брать ,/)),((),(~ Smieie  где S — помехоустойчивая оценка параметра масштаба или мера рассеяния 88 ISSN 0572-2691 остаточных разностей (в случае нормального распределения S является оцен- кой ); m — математическое ожидание засоряющей помехи )(xq в модели (9), которое в общем случае отлично от нуля. При нулевом математическом ожидании помехи оценка параметра масштаба S используется в качестве константы c, входящей в рассмотренные вы- ше функционалы и функции влияния. Если обучение сети происходит в режиме off-line, то в качестве оценки S следует взять какую-либо MAD-оценку (Median of Absolute Deviations, медиана абсолютных отклонений), которая, как показано в [4], наиболее помехоустойчивая. При решении задач в режиме on-line естественным является рекуррентное оценивание параметров помехи. Помехоустойчивое оценивание параметра положения на основе алгоритма стохастической аппроксимации Роббинса–Монро для случая, когда множество распределений помехи принадлежит классу асимметричных -засоренных нор- мальных распределений (9), рассматривалось в работах [25, 26], а для распре- делений произвольного вида — в работе [27]. Такой подход весьма привлека- телен в вычислительном аспекте, так как оценки определяются с помощью простой рекуррентной формулы и не используют в явном виде информацию о наблюдениях, полученных ранее. Если распределение помехи асимметрично, то, как отмечалось выше, ненулевое математическое ожидание обусловливает смещение оценок, кото- рое может быть устранено лишь при наличии информации о виде распределе- ния. Если такой информации нет, можно использовать некоторую аппрокси- мацию распределения, например модель (3) с 01 m и .02 m При этом сле- дует иметь в виду, что основной целью аппроксимации скорее является не адекватное отображение свойств помехи, а компенсация возможного смеще- ния оценок. В этом случае оценивание данного параметра можно осуществить с помощью следующего алгоритма стохастической аппроксимации:                   ,случае противном в))1(ˆ)(( 1 )1(ˆ );1(3)( если)1(ˆ )(ˆ ,случае противном в))1(ˆ)(( 1 )1(ˆ );1(3)(если)1(ˆ )(ˆ 22 12 2 11 11 1 kmky k km kSke ,km km kmky k km kSke ,km km (16) где ]1,0( — некоторый коэффициент. При использовании модели засорения (9) необходимо также оценить величи- ны 2 1S и 2 2S и учесть эти оценки в алгоритме обучения. Если 2 1 и 2 2 не изме- няются во времени, такое оценивание также можно произвести методом стоха- стической аппроксимации:                 случае, противном в)1( ),1(3)(~если,))1()(~( )( 1 )1( )( случае, противном в)1( ),1(3)(~если,))1()(~( )( 1 )1( )( 2 2 1 2 2 2 2 2 22 2 2 1 1 2 1 2 1 2 12 1 kS kSke kSke kl kS kS kS kSke kSke kl kS kS (17) Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 1 89 где        случае. противном в1)1( ),1(3)(~если,0 )( );()( 2 1 2 21 kl kSke kl klkkl (18) Общая дисперсия помехи, вычисляемая по формуле       случае, противном в)( );1(3)(~если,)( )( 2 2 1 2 12 kS kSke kS kS (19) может использоваться как параметр взвешивания квадратичного функционала, т.е. ).()(5,0)),(~( 22 kSkeSke  В этом случае оценка, получаемая путем его ми- нимизации, будет более устойчивой. Имитационное моделирование. Эксперимент 1. Проводился сравнитель- ный анализ результатов аппроксимации функции )(2,02,0 443 816 sin725,0)( 212 2 2 1 21 kxx xx xx ky             (20) радиально-базисной сетью с 15-ю нейронами в скрытом слое, обученной с приме- нением алгоритмов (12)–(15) и с использованием производных )(ei и весовых функций )(ei ,4,1i на 50 тыс. обучающих парах. Здесь T 21 ],[ xxx — входной сигнал, компоненты которого представляли собой стационарные случайные последовательности с равномерным законом рас- пределения в интервале [–1, 1], генерируемые датчиком случайных чисел; )()()1()( 21 kqkqk  (21) — засоренная помеха )(),(;1,0( 21 kqkq — нормально распределенные помехи с дисперсиями ;6,01  62  и математическими ожиданиями 01 m и 62 m соответственно). В алгоритмах обучения использовались функционалы (6)–(9). Результаты экспериментов приведены в табл. 2. Здесь представлены значения среднеквадра- тичной ошибки (СКО), вычисленной после обучения сети для 2500 эталонных значений по формуле , 2500 ))(ˆ)(( 2500 1 2*     i iyiy (22) где *y — эталонное значение выходного сигнала при отсутствии помех измере- ний; ŷ — реальный выходной сигнал сетей. Таблица 2 Алгоритм Значение  для разных функционалов )(1 e )(~ 1 e )(2 e )(~ 2 e )(3 e )(~ 3 e )(4 e )(~ 4 e Левенберга– Марквардта )(e 3,1925 1,8514 4,5334 2,5431 4,9573 2,3699 2,3408 2,1393 )(e 2,5111 1,7123 3,3428 2,3968 5,1923 2,3864 3,0885 1,8163 Гаусса– Ньютона )(e 2,0644 1,7309 3,9032 2,9075 5,5626 2,8054 2,2850 2,1639 )(e 2,2883 1,8676 4,2834 2,6939 5,6984 2,8663 3,6532 1,9101 90 ISSN 0572-2691 Значения СКО (22) для квадратичного критерия обучения оказались равными: для алгоритма Гаусса–Ньютона 33,78; для алгоритма Левенберга–Марквардта 28,97 (в обоих случаях в алгоритмах обучения использовалась весовая функция ). В табл. 3 приведены результаты аппроксимации функции (20) радиально- базисной сетью, обученной с помощью алгоритма Гаусса–Ньютона, минимизи- рующего взвешенный квадратичный функционал )),(~( Ske и АФ ).),(~(4 Ske Здесь показаны также заданные параметры ,1 ,2 ,2m реальное количество выбросов L и полученные в процессе обучения их оценки: ,1S ,2S 2m̂ и .L̂ Таблица 3 Заданные параметры Полученные оценки Значение  для разных функционалов  ref 1 ref 2 2m L 1S 2S 2m̂ L̂  4 ~ 0,1 0,6 1,5 1 4882 0,6399 (0,6384) 2,3315 (1,1537) 2,4626 (3,2320) 2896 (4944) 3,3005 (2,6217) 1,6474 (1,6392) 3 5 5168 0,6344 (0,5994) 3,3840 (2,3243) 5,5819 (8,6127) 3704 (5085) 1,9878 (1,8434) 2,7888 (2,2881) 6 6 4919 0,6115 (0,5989) 6,9127 (4,6167) 6,2708 (13,2043) 4062 (5076) 1,8960 (2,0123) 1,7629 (2,1436) 12 9 4932 0,6086 (0,6005) 12,3464 (8,6636) 9,7411 (23,6266) 4510 (4908) 1,9973 (2,8050) 2,0761 (2,8718) 0,2 0,6 1,5 1 9945 0,7176 (1,0383) 2,0894 (1,7050) 2,8378 (4,2248) 5502 (2992) 6,8584 (17,2742) 3,0246 (5,8312) 3 5 10356 0,6803 (0,5974) 3,3120 (2,2409) 5,7387 (8,7293) 7196 (9960) 3,0984 (2,1305) 3,2308 (3,4510) 6 6 9992 0,6591 (0,5975) 6,8509 (4,1979) 6,7023 (13,3749) 7837 (9941) 1,7228 (2,2576) 2,4336 (4,9453) 12 9 10020 0,6233 (0,5936) 12,1381 (8,6200) 9,9726 (23,7478) 9011 (9861) 1,5640 (2,1448) 2,8418 (3,3868) При этом числа без скобок соответствуют тем же условиям засорения поме- хи, что и выше, а числа в скобках — случаю, когда нормально распределенная помеха засорена помехой, имеющей распределение Релея Ray (1,6). Наконец, в табл. 4 отражены результаты аппроксимации функции (20) той же РБС, обученной с помощью алгоритма Гаусса–Ньютона, использующего -функцию Хьюбера (6), при наличии помехи (21) с ,1,0 ),,(~)( 2 111 mNkq ),,(~)( 2 222 mNkq .0, 21 mm Как следует из результатов моделирования, использование обычного квадра- тичного функционала в алгоритмах обучения РБС при наличии негауссовских помех измерений нецелесообразно; в то же время применение асимметричных модификаций неквадратичных функционалов приводит к лучшим результатам. Таблица 4 Заданные параметры Полученные оценки Значение   1 2 1m 2m 1S 2S 1m̂ 2m̂ 1 ~ 0,1 0,6 1,5 0,25 1 0,4642 0,8829 0,1934 3,3337 2,4687 3 0,5 5 0,6132 3,6363 0,4993 6,6085 1,4707 6 0,75 6 0,6072 7,1325 0,7746 7,1782 2,0410 12 1 9 0,6069 12,8221 0,9953 9,7078 1,9737 0,2 0,6 1,5 0,25 1 0,7256 2,3261 0,1151 2,5300 2,0921 3 0,5 5 0,6708 3,3137 0,7734 7,1449 2,5811 6 0,75 6 0,6294 7,0955 0,5095 7,3940 1,8348 12 1 9 0,6157 13,1472 1,0533 9,7203 2,3019 Эксперимент 2. Решалась задача аппроксимации функции (20), где )(k — случайная помеха, распределенная по закону Релея с дисперсией 6,1 2,0053).( m Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 1 91 Параметры нейронной сети выбирались такие же, как и в предыдущем экспери- менте. Зашумленная поверхность, ее сечения и результаты аппроксимации пред- ставлены на рис. 3. Линией 1 обозначено сечение зашумленной поверхности, 2 — сечение поверхности, восстановленной без учета математического ожидания помехи, 3 — с учетом оценки математического ожидания помехи, полученной с помощью алгоритма (16) при 4,0 , 4 — сечение эталонной поверхности. На последнем шаге обучения сети оценка математического ожидания помехи равна 2,0078.ˆ m Так как в реальных системах информация в виде распределения помехи зача- стую неизвестна, в данном эксперименте использовалась аппроксимация распреде- ления Релея Ray (1,6) моделью Тьюки–Хьюбера (21), в которой и основное, и засо- ряющее распределения являются нормальными с ,1m .02 m В результате обуче- ния РБС были получены следующие параметры засоренной помехи: 0,9943,1 S 0,7529,2 S 2,0424,ˆ1 m 5,3030,ˆ 2 m которые и использовались для коррекции выходных сигналов сети. При этом СКО (22) аппроксимации функции (20) состави- ла 2,7704. Эксперимент 3. Проводилась аппроксимация функции, описываемой следу- ющим уравнением [28]: ).(1)4(sin)4(sin)( 2211 kxxxxky  (23) В данном эксперименте, как и в эксперименте 1, помеха )(k представляла со- бой смесь двух нормально распределенных помех )6,0;0(~)(1 Nkq и )6;1(~)(2 Nkq при .1,0 Гистограмма данной помехи представлена на рис. 4, а. Так как аппрок- симируемая поверхность достаточно сложная, количество нейронов в скрытом слое сети было увеличено до 150, а количество обучающих пар — до 150 тыс. На каждом шаге процесса обучения осуществлялась оценка параметров помехи с использованием алгоритмов (16)–(19). На последнем шаге обучения были получены следующие оценки: 0,6022; 1 S 6,3530; 2 S 0,0231ˆ1 m и 1,2539, ˆ2 m которые использовались для коррекции результатов. На рис. 4, б показана эталонная поверхность, описываемая уравнением (23), а на рис. 4, в — восстановленная с помощью нейронной сети. 0 – 0,2 1 0,8 0 1 2 6 7 0,6 0,4 0,2 – 0,4 – 0,6 – 0,8 – 1 3 4 5 1 3 2 4 0 – 0,5 1 0,5 – 1 0 – 2 2 4 6 8 – 1 – 0,5 0 1 0,5 0 – 0,2 1 0,8 0 1 2 6 7 0,6 0,4 0,2 – 0,4 – 0,6 – 0,8 – 1 3 4 5 1 3 2 4 0 – 0,2 1 0,8 0 1 2 6 7 0,6 0,4 0,2 – 0,4 – 0,6 – 0,8 – 1 3 4 5 1 3 2 4 Рис. 3 92 ISSN 0572-2691 30 0 20 10 0 2 4 10 4 20 30 10 6 8 0 1 – 1 0 – 2 2 4 – 1 – 0,5 0 1 0,5 – 4 2 2 1,5 а б 0 1 – 1 0 – 5 5 – 1 0 1 2 2 в Рис. 4 Как видно из результатов моделирования, асимметрия распределения помехи приводит к смещению оценок. Устранить нежелательный эффект можно путем оценивания математического ожидания помехи и последующей коррекции предъяв- ляемых сети желаемых выходных сигналов на величину этой оценки. Заключение. Наличие в используемых для обучения сетей сигналах помех, име- ющих асимметричные распределения, приводит к смещенным оценкам вектора пара- метров сети. Робастность свойств получаемых оценок обеспечивает в этом случае применение аcимметричных функционалов (функций влияния), а устранение смеще- ния достигается коррекцией этих оценок с использованием какой-либо помехоустой- чивой (MAD, стохастической аппроксимации) оценки параметров помехи. Если ин- формация о принадлежности помехи некоторому определенному классу распределе- ний известна, то задача существенно упрощается и параметры помехи могут быть оценены с любой требуемой степенью точности. При отсутствии такой информации можно воспользоваться моделью Хьюбера–Тьюки, т.е. аппроксимировать неизвестное распределение помехи двумя, например, нормальными распределениями с разными математическими ожиданиями и дисперсиями, оценки которых использовать затем при обучении сети. При этом следует иметь в виду, что цель такой аппроксимации — устранение смещения в получаемых оценках. О.Г. Руденко, О.О. Безсонов М-НАВЧАННЯ РАДІАЛЬНО-БАЗИСНИХ МЕРЕЖ З ВИКОРИСТАННЯМ АСИМЕТРИЧНИХ ФУНКЦІЙ ВПЛИВУ Розглянуто робастний підхід до навчання радіально-базисних мереж за наявності завад вимірювань, що мають несиметричні розподілення. Для мінімізації запропо- нованих асиметричних функціоналів використовуються алгоритми Гаусса–Нью- тона і Левенберга–Марквардта. Оцінювання параметрів завад здійснюється за до- помогою алгоритму стохастичної апроксимації. Наведено результати моделюван- ня, що підтверджують ефективність запропонованого підходу. O.G. Rudenko, А.А. Bezsonov M-TRAINING OF RADIAL BASIC NETWORKS USING ASYMMETRIC INFLUENCE FUNCTIONS We consider a robust approach to training of radial basis networks with the presence of noise measurements with asymmetric distribution. To minimize the proposed asymmetric Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 1 93 functionals Gauss–Newton and Levenberg–Marquardt algorithms are used. Estimation of the parameters of interference is determined using stochastic approximation algorithm. Simulation results confirm the effectiveness of the proposed approach. 1. Хайкин С. Нейронные сети: полный курс. — М. : Изд. дом «Вильямс», 2006. — 1104 с. 2. Хьюбер П. Робастность в статистике. — М. : Мир, 1984. — 304 с. 3. Hampel F.R. The influence curve and its role in robust estimation // J. Amer. Statist. Assoc. — 1974. — 69. — P. 383–393. 4. Hampel F.R., Ronchetti E.M., Rousseeuw P.J., Stahel W.A. Robust statistics. The approach based on influence functions. — N.Y. : John Wiley and Sons, 1986. — 526 p. 5. Andrews D.F. A robust method for multiple linear regression // Technometries. — 1974. — 16. — P. 523–531. 6. Mosteller F., Tukey J.W. Data analysis and regression: a second course in statistics. — Addison- Wesley, 1977. — 588 p. 7. Deng G. Sequential and adaptive learning algorithms for M-estimation // EURASIP J. Adv. in Signal Proc., 2008, ID 459586. 8. Хогг Р.В. Введение в помехоустойчивое оценивание // Устойчивые стохастические методы оценки данных. — М. : Машиностроение, 1984. — С. 12–25. 9. Смоляк С.А., Титаренко Б.П. Устойчивые методы оценивания. — М. : Статистика, 1980. — 208 с. 10. Цыпкин Я.З. Основы информационной теории идентификации. — М. : Наука, 1984. — 320 с. 11. Руденко О.Г., Бессонов А.А. Робастное обучение вейвлет-нейросетей // Международный научно-технический журнал «Проблемы управления и информатики». — 2010. — № 5. — С. 66–79. 12. Rudenko O., Bezsonov А. Function approximation using robust radial basis function networks // J. of Intelligent Learning Systems and Appl. — 2011. — 3. — P. 17–25. 13. Хьюбер П.Дж. Помехоустойчивое сглаживание // Устойчивые стохастические методы оценки данных. — М. : Машиностроение, 1984. — С. 36–46. 14. Allende H., Freery A.C., Galbiatis J., Pizarro L. M-estimators with asymmetrical influence func- tions: the 0 A distribution case // J. Statist. Comp. and Simulation. — 2006. — 76, N 11. — P. 941–956. 15. Chan S.-C., Zou Y.-X. A recursive least M-esimate algorithm for robust filtering in impulsive noise: fast algorithm and convergence performance analysis // IEEE Trans. Signal Proc. — 2004. — 52, — N 4. — P. 975–991. 16. Pham D.S., Zoubir A.M. A sequential algorithm for robust parameter estimation // IEEE Signal Proc. Letters. — 2005. — 12, N 1. — P. 21–24. 17. Ni J., Soug Q. Pruning based robust backpropagation training algorithm for RBF network training controller // Intelligent and Robotic Systems. — 2007. — 48, N 3. — P. 375–396. 18. Lee C.-C., Chiang Y.-C., Shin C.-Y., Tsai C.-L. Noisy time series prediction using M-estimator based robust radial basis function network with growing and pruning techniques // Expert Sys- tems with Appl. — 2008. — 36, N 3. — P. 4717–4724. 19. Аджи У.С., Тернер Р.Х. Применение методов помехоустойчивого оценивания в анализе данных о траекториях движения // Устойчивые стохастические методы оценки данных. — М. : Машиностроение, 1984. — С. 86–104. 20. O'Leary D.P. Robust regression computation using iteratively reweighted least squares // SIAM J. Matrix Anal. Appl. — 1990. — 11. — P. 466–468. 21. Madsen K., Nielsen H.B. Finite algorithms for robust linear regression // BIT. — 1990. — 30. — P. 682–699. 22. Antoch J., Ekblom H. Recursive robust regression: computational aspects and comparison // Comp. Statistics and Data Analysis. — 1995. — 19. — P. 115–234. 23. Ljung L., Söderström T. Theory and practice of recursive identification. — Cambridge, MA : MIT Press, 1983. — 529 p. 24. Ngia L.S.H., Sjöberg J. Efficient training of neural nets for nonlinear adaptive filtering using a re- cursive Levenberg–Marquardt algorithm // IEEE Trans. Signal Proc. — 2000. — 48, N 7. — P. 1915–1927. 25. Martin R.D. Robust estimation of signal amplitude // IEEE Trans. Inf. Theory. — 1972. — 18. — P. 596–606. 26. Martin R.D., Masreliez C.J. Robust estimation via stochastic approximation // Ibid. — 1975. — 21. — P. 263–271. 27. Ванде-Линде В.Д. Метод помехоустойчивого оценивания в задачах передачи сообщений // Устойчивые стохастические методы оценки данных. — М. : Машиностроение, 1984. — С. 147–164. 28. De Castro L.N., Von Zuben F.J. Learning and optimization using clonal selection principle // IEEE Trans. Evol. Comput. — 2002. — 6, N 3. — P. 239–251. Получено 15.02.2011 После доработки 07.05.2011

М-обучение радиально-базисных сетей с использованием асимметричных функций влияния

Репозитарії

Схожі ресурси