Многокритериальная оптимизация эволюционирующих сетей прямого распространения

Запропоновано використання багатокритерійного підходу до навчання нейронних мереж прямого розповсюдження, що еволюціонують. Розглянуто загальну структуру таких мереж. Проведено порівняльний аналіз одноцільового, скаляризованого багатокритерійного навчання та багатокритерійного навчання за Парето. Ім...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Datum:	2014
Hauptverfasser:	Руденко, О.Г., Бессонов, А.А.
Format:	Artikel
Sprache:	Russian
Veröffentlicht:	Інститут кібернетики ім. В.М. Глушкова НАН України 2014
Schriftenreihe:	Проблемы управления и информатики
Schlagworte:	Оптимальное управление и методы оптимизации
Online Zugang:	https://nasplib.isofts.kiev.ua/handle/123456789/207858
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:	Многокритериальная оптимизация эволюционирующих сетей прямого распространения / О.Г. Руденко, А.А. Бессонов // Проблемы управления и информатики. — 2014. — № 6. — С. 29-41. — Бібліогр.: 26 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine

id	nasplib_isofts_kiev_ua-123456789-207858
record_format	dspace
spelling	nasplib_isofts_kiev_ua-123456789-2078582025-10-15T00:03:59Z Многокритериальная оптимизация эволюционирующих сетей прямого распространения Багатокритеріальна оптимізація еволюціонуючих мереж прямого поширення Multiobjective optimization of evolving feedforward neural networks Руденко, О.Г. Бессонов, А.А. Оптимальное управление и методы оптимизации Запропоновано використання багатокритерійного підходу до навчання нейронних мереж прямого розповсюдження, що еволюціонують. Розглянуто загальну структуру таких мереж. Проведено порівняльний аналіз одноцільового, скаляризованого багатокритерійного навчання та багатокритерійного навчання за Парето. Імітаційне моделювання за наявністю завад вимірювань з різними законами розподілу підтвердило ефективність запропонованого підходу. It is proposed to utilize multicriteria approach to training evolutionary feedforward neural networks. The general structure of such neural networks is considered. A comparative analysis of single-objective, scalarized multiobjective learning and Paretobased multiobjective learning is performed. Simulation with the presence of noisy measurements with different distribution laws has confirmed the effectiveness of the suggested approach. 2014 Article Многокритериальная оптимизация эволюционирующих сетей прямого распространения / О.Г. Руденко, А.А. Бессонов // Проблемы управления и информатики. — 2014. — № 6. — С. 29-41. — Бібліогр.: 26 назв. — рос. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/207858 519.71 10.1615/JAutomatInfScien.v46.i11.20 ru Проблемы управления и информатики application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection	DSpace DC
language	Russian
topic	Оптимальное управление и методы оптимизации Оптимальное управление и методы оптимизации
spellingShingle	Оптимальное управление и методы оптимизации Оптимальное управление и методы оптимизации Руденко, О.Г. Бессонов, А.А. Многокритериальная оптимизация эволюционирующих сетей прямого распространения Проблемы управления и информатики
description	Запропоновано використання багатокритерійного підходу до навчання нейронних мереж прямого розповсюдження, що еволюціонують. Розглянуто загальну структуру таких мереж. Проведено порівняльний аналіз одноцільового, скаляризованого багатокритерійного навчання та багатокритерійного навчання за Парето. Імітаційне моделювання за наявністю завад вимірювань з різними законами розподілу підтвердило ефективність запропонованого підходу.
format	Article
author	Руденко, О.Г. Бессонов, А.А.
author_facet	Руденко, О.Г. Бессонов, А.А.
author_sort	Руденко, О.Г.
title	Многокритериальная оптимизация эволюционирующих сетей прямого распространения
title_short	Многокритериальная оптимизация эволюционирующих сетей прямого распространения
title_full	Многокритериальная оптимизация эволюционирующих сетей прямого распространения
title_fullStr	Многокритериальная оптимизация эволюционирующих сетей прямого распространения
title_full_unstemmed	Многокритериальная оптимизация эволюционирующих сетей прямого распространения
title_sort	многокритериальная оптимизация эволюционирующих сетей прямого распространения
publisher	Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate	2014
topic_facet	Оптимальное управление и методы оптимизации
url	https://nasplib.isofts.kiev.ua/handle/123456789/207858
citation_txt	Многокритериальная оптимизация эволюционирующих сетей прямого распространения / О.Г. Руденко, А.А. Бессонов // Проблемы управления и информатики. — 2014. — № 6. — С. 29-41. — Бібліогр.: 26 назв. — рос.
series	Проблемы управления и информатики
work_keys_str_mv	AT rudenkoog mnogokriterialʹnaâoptimizaciâévolûcioniruûŝihsetejprâmogorasprostraneniâ AT bessonovaa mnogokriterialʹnaâoptimizaciâévolûcioniruûŝihsetejprâmogorasprostraneniâ AT rudenkoog bagatokriteríalʹnaoptimízacíâevolûcíonuûčihmerežprâmogopoširennâ AT bessonovaa bagatokriteríalʹnaoptimízacíâevolûcíonuûčihmerežprâmogopoširennâ AT rudenkoog multiobjectiveoptimizationofevolvingfeedforwardneuralnetworks AT bessonovaa multiobjectiveoptimizationofevolvingfeedforwardneuralnetworks
first_indexed	2025-11-26T19:49:50Z
last_indexed	2025-11-26T19:49:50Z
_version_	1849883721872703488
fulltext	© О.Г. РУДЕНКО, А.А. БЕССОНОВ, 2014 Международный научно-технический журнал «Проблемы управления и информатики», 2014, № 6 29 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ И МЕТОДЫ ОПТИМИЗАЦИИ УДК 519.71 О.Г. Руденко, А.А. Бессонов МНОГОКРИТЕРИАЛЬНАЯ ОПТИМИЗАЦИЯ ЭВОЛЮЦИОНИРУЮЩИХ СЕТЕЙ ПРЯМОГО РАСПРОСТРАНЕНИЯ Введение Искусственные нейронные сети (ИНС) в последнее время находят все более широкое распространение: от систем идентификации, прогнозирования и управ- ления до распознавания (речи, образов), классификации, сжатия и кодирования информации и т.д. Среди ИНС в первую очередь следует отметить такие сети прямого распростра- нения, как многослойный персептрон (МП) и радиально-базисные сети (РБС), ис- пользующие соответственно аппроксимации нелинейного оператора f ( ) вида ,]]]]))([()[()[()(ˆ)(ˆ T 1 112T11T q qqqqq bbkxWffWfWfkfky    (1) ),(),,()(ˆ)(ˆ T 0 1 0 kWwcxwwkfky N i iiii    (2) где iW — вектор весовых параметров нейронов i-го слоя сети; ][ f — активаци- онная функция (АФ) i-го слоя; )(kx — вектор входных сигналов; bi — смещение i-го нейрона; )(k — вектор выбранных базисных функций (БФ); iic , — цент- ры и радиусы БФ соответственно; k — дискретное время. Выбор АФ (БФ) играет важную роль при построении ИНС, так как сущест- венно влияет на сложность вычислений, а для упрощения обычно предполагается, что активационные функции нейронов одинаковы и выбраны экспертом. Так в ка- честве f ( ) в МП обычно используют сигмоидальные АФ, например, ,)1()( 1 xexf (3) а в РБС в качестве БФ можно использовать функцию Гаусса, функцию «мекси- канская шляпа», функцию Лапласа и т.д. Применение ИНС требует решения задач структурной и параметрической оптимизации, соответствующих выбору оптимальной топологии сети и ее обуче- нию (настройке параметров, МП — весовые параметры и коэффициенты  в (3), в РБС — весовые параметры, центры базисных функций и их дисперсии). Традиционные методы определения структуры сети заключаются либо в по- следовательном ее усложнении путем ввода новых нейронов и новых связей меж- ду ними, либо в последовательном ее упрощении, начиная с некоторой достаточ- но сложной топологии. В отличие от задачи определения структуры, являющейся дискретной опти- мизационной (комбинаторной), поиск оптимальных параметров осуществляется в непрерывном пространстве с помощью классических методов оптимизации. 30 ISSN 0572-2691 Для обучения сетей прямого распространения с учителем применяются, как правило, алгоритмы, оптимизирующие некоторую целевую функцию. Однако традиционно учитывается лишь одна цель в качестве стоимостной функции либо несколько целей объединяются в одну скалярную функцию. Это главным образом обусловлено тем, что большинство обычных алгоритмов обучения одноцелевые, т.е. могут работать только со скалярными стоимостными функциями. Обычно в таких алгоритмах осуществляется поиск минимума функционала на некоторой выборке обучающих данных:    M i ie M eF 1 ,)),(( 1 )( θ (4) где )),(( θie — некоторая функция потерь, зависящая от вида закона распределе- ния присутствующей в измерениях помехи ; )(ˆ)()( iyiyie  — ошибка аппрок- симации; )(iy и )(ˆ iy — соответственно реальный и желаемый выходы ИНС; M — количество пар обучения в выборке. Минимизация ошибки обучения только на обучающих данных может при- вести к оверфитингу (переобучению) — явлению, когда получаемый алгоритм обучения слишком хорошо работает на обучающей выборке и плохо — на тесто- вой. Вследствие этого нейросетевая модель будет обладать плохими обобщаю- щими свойствами. Для предотвращения эффекта переобучения модели необходи- мо контролировать ее сложность путем перехода от функционала (4) к функцио- налу вида ,)(  eFf (5) где F — функция ошибки, например (4); Ω — мера сложности модели, например, количество свободных параметров модели; 0 — некоторый свободно выби- раемый параметр. Получаемый при этом алгоритм обучения способен оптимизи- ровать две цели, хотя функция цели (5) скалярная. Однако использование скаляризованных целевых функций для многоцелевой оптимизации имеет два основных недостатка: во-первых, нетривиальной является задача определения оптимального параметра ; во-вторых может быть получено только одно решение, которое в ряде случаев может быть неэффективным. Это особенно важно при наличии нескольких конфликтующих целей, приводящих к тому, что невозможно получить оптимальное решение, которое оптимизировало бы все цели одновременно. Так, уменьшение ошибки аппроксимации часто при- водит к увеличению сложности модели. Более мощным по сравнению с обучением на основе скалярной стоимостной функции является многоцелевое обучение на основе подхода Парето, когда ми- нимизируется векторная целевая функция, что обеспечивает получение некоторо- го количества парето-оптимальных решений. Так, скаляризованную двуцелевую проблему обучения (5) можно сформулировать как многокритериальную парето- оптимизацию следующим образом: ;},{min 21 ff (6) );(1 eFf  (7) .2 f (8) Наиболее часто в качестве 1f выбирается квадратичный функционал, а в ка- честве ,2f служащего для оценивания сложности нейросетевой модели, — сумма квадратов весов:    M i iw 1 2 (9) http://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC Международный научно-технический журнал «Проблемы управления и информатики», 2014, № 6 31 или сумма их абсолютных значений: , 1    M i iw (10) известные как регуляризатор Гаусса и Лапласа соответственно. Здесь ,iw ,,...,1 Mi  — веса нейросетевой модели; М — общее количество нейронов сети (для РБС) либо общее количество связей (для МП). Сравнивая скаляризованное многокритериальное обучение на основе (5) и мно- гокритериальное обучение по Парето (6), можно видеть, что, с одной стороны, при обучении по Парето нет проблемы выбора значения параметра  перед обу- чением, а с другой, после обучения возникает необходимость выбора одного или нескольких вариантов решения из полученного набора парето-оптимальных ре- шений в соответствии с предпочтениями пользователя и определении таким обра- зом наиболее приемлемого решения для рассматриваемой задачи. Дополнительным преимуществом обучения на основе подхода Парето является то, что мультиобъективизация (разбитие сложной задачи с одной целевой функцией на несколько подзадач и последующим поиском для каждой подзадачи решения и выбор оптимального решения) поможет алгоритму обучения избежать застревания в локальных экстремумах, повышая тем самым точность модели обучения. Поскольку получаемая нейросетевая модель, с одной стороны, должна быть достаточно простой и удобной для использования ее в прикладных задачах, а с другой, наиболее полно отражать свойства исследуемого объекта, ее качество определяется некоторым набором критериев, т.е. задача построения нейромодели многокритериальна. Задача многокритериальной оптимизации по Парето Задача многокритериальной оптимизации (МО) заключается в нахождении такого вектора решений, удовлетворяющего определенным ограничениям, кото- рый давал бы приемлемые значения для всех целевых функций [1–3]. Следова- тельно, существует множество целевых функций (вектор целей), которые оптими- зируются (минимизируются или максимизируются) одновременно. Так как цели зачастую вступают в противоречие одна с другой, то улучшение одной из них приводит к ухудшению другой, не существует единого оптимального решения, наилучшего относительно всех целевых функций. Вместо этого есть множество оптимальных решений задачи многоцелевой оптимизации, известное как парето- оптимальные решения, или фронт Парето. Понятие фронта Парето в области зна- чений целевых функций в задаче МО означает набор таких решений, которые, яв- ляясь недоминирующими по отношению один к другому, в то же время домини- руют над всеми остальными решениями в пространстве поиска. Таким образом, невозможно найти единое решение, которое превосходило бы все другие по от- ношению ко всем целям, т.е. переход между решениями, принадлежащими фрон- ту Парето, не может улучшить все цели одновременно. Поскольку в реальных задачах оптимизации обычно неизвестно, где нахо- дится глобальный фронт Парето, получаемые с помощью алгоритма недомини- рующие решения не обязательно являются парето-оптимальными. Однако полу- ченные многокритериальной оптимизацией недоминирующие решения часто ошибочно называют парето-оптимальными. Математически задачу многокритериальной оптимизации по Парето можно сформулировать следующим образом. Требуется найти такой вектор решений ,* nx который оптимизировал бы вектор целевых функций T 21 )](),...,(),([)( xxx kfffF x (11) 32 ISSN 0572-2691 при наличии m ограничений в виде неравенств ,,1,0)( migi x (12) и p ограничений в виде равенств ,,1,0)( pjh j x (13) где kF )(x — вектор целевых функций, каждая из которых должна быть оп- тимизирована (обычно полагают, что все целевые функции должны быть миними- зированы). При многокритериальной минимизации на основе подхода Парето использу- ется, как отмечалось выше, понятие доминирования. Вектор k nuuu  T 21 ],...,,[u доминирует над вектором k nvvv  T 21 ],...,,[v ( )vu  тогда и только тогда, когда },,...,2,1{ ki .:},...,2,1{ jjii vukjvu  Другими словами, существует, как минимум, одна компонента вектора ),( juu ко- торая меньше ,jv в то время как остальные компоненты вектора u больше либо равны соответствующим компонентам вектора v. Точка x ( — некоторая область пространства n , удовлетворяющая условиям (12), (13)) парето-оптимальна по отношению ко всем x тогда и только тогда, когда )()( xx FF  , т.е. решение x парето-оптимальное, если не может быть найдено никакое другое решение, которое доминировало бы над x . Для данной задачи МО введем следующие определения: множеством Парето  называется набор векторов x , для которого не существует такого вектора ,x для которого выполнялось бы условие )()( xx FF  x ; фронтом Парето PF называется такой набор векторов значений целевых функций kF )(x , который получен с помощью векторов из множества Парето, т.е. }.:))(),...,(),(()({ 21 *  xxxxx kfffFPF Для нахождения фронта Парето в задачах МО широко используются генети- ческие алгоритмы (ГА), так как их свойства наиболее подходят для таких типов задач [4–8]. Парето-эволюционирующие ИНС прямого распространения Попытки устранить недостатки традиционных методов синтеза и функцио- нирования ИНС привели к появлению нового класса сетей — эволюционирую- щих ИНС (ЭИНС), в которых изменение структуры сети, ее параметров и алго- ритмов обучения происходит без внешнего вмешательства [9–15]. При переходе от ИНС к ЭИНС для всех типов сетей используются общие эволюционные процедуры (инициализация популяции, оценка популяции, селек- ция, скрещивание, мутации), а различия заключаются лишь в способе кодирова- ния структуры и параметров той или иной ИНС в виде хромосомы. Эволюция в ЭИНС может касаться архитектуры сети, ее весов, вида и пара- метров АФ (БФ), алгоритма обучения (рис. 1) [9, 10, 13]. Среди эволюционных алгоритмов (ЭА), являющихся стохастическими и вклю- чающими эволюционное программирование, эволюционные стратегии, генетиче- ские алгоритмы, генетическое программирование, в частности, программирование с экспрессией генов, генетические алгоритмы (ГА) — одни из наиболее распро- страненных. Международный научно-технический журнал «Проблемы управления и информатики», 2014, № 6 33 ЭВОЛЮЦИЯ АРХИТЕКТУРЫ Оценка архитектуры Архитектура Фитнес ЭВОЛЮЦИЯ МОДЕЛИ ПОМЕХИ Оценка модели помехи Фитнес Модель помехи ЭВОЛЮЦИЯ АФ (БФ) Оценка АФ (БФ) Фитнес АФ (БФ) ЭВОЛЮЦИЯ ВЕСОВЫХ ПАРАМЕТРОВ Оценка весов Мутация и репродукция весов Мутация и репродукция АФ (БФ) Мутация и репродукция модели помехи Мутация и репродукция архитектуры Нейросетевая модель Фитнес Веса Рис. 1 ГА абстрагируют фундаментальные процессы дарвиновской эволюции: есте- ственного отбора и генетических изменений вследствие рекомбинации и мутации. Однако в последнее время широко применяются гибридные эволюционные алго- ритмы обучения, которые часто реализуют недарвиновские идеи, например эво- люцию Ламарка или эффект Болдуина, в которых обучение влияет на процесс эволюции [16, 17]. Так, в соответствии с теорией Ламарка характеристики особи, приобретаемые при жизни, передаются потомству, что отвергалось биологами, поскольку не существует механизма, который позволял бы приобретенные при- знаки записать в генетический код. Согласно эффекту Болдуина обучение помогает организмам адаптироваться генетически к изменениям в их окружении, а также косвенно закодировать эти приспособления генетически. Стратегия Ламарка имеет преимущество, заключающееся в ускорении и на- стройке поиска таким образом, что полученные с помощью ЭA неоптимальные (но близкие к оптимальному) решения будут находиться ближе к глобальному оп- тимуму. Существенным недостатком этой стратегии, ограничивающей ее исполь- зование, является сокращение разнообразия, вызванное тем, что некоторые особи, полученные в начале моделирования, в определенный момент начнут доминиро- вать в популяции и могут оставаться лучшими до конца моделирования, что оста- новит эволюцию. 34 ISSN 0572-2691 При использовании ГА для построения ЭИНС основными проблемами явля- ются выбор метода кодирования возможного решения и генетических операторов. В ГА каждая особь кодируется в виде строки (хромосомы), состоящей из генов, в которых хранится информация о соответствующих параметрах сети. Длина хромо- сомы постоянна, а популяция, состоящая из некоторого количества особей, подверга- ется процессу эволюции с использованием операций скрещивания и мутаций. Существуют, однако, ЭA, которые используют хромосомы переменной дли- ны (не имеют фиксированного числа генов), где каждый ген кодирует лишь часть решения, и кодирование не зависит от взаимного расположения генов (только от их значений). Целесообразность применения хромосом переменной длины в ос- новном зависит от области использования эволюционных вычислений (ЭВ). При использовании хромосом переменной длины для кодирования структуры МП их длину можно вычислить с помощью формулы .)(...)()( 211 ODHHDHHDIS n  Здесь I — число входов модели; jH — число активных нейронов j-го скрытого слоя; О — число выходов модели; n — число скрытых слоев; D — число допол- нительных генов, активирующих нейроны, кодирующих их смещения и вид ба- зисной функции. При наличии помех измерений длина хромосомы также может быть увеличена для хранения параметров фильтра помех. Если число нейронов в каждом скрытом слое ограничено и не может превы- шать некоторого количества ,maxH то максимальная длина хромосомы вычисля- ется с помощью формулы .)()()1()( maxmaxmaxmaxmax ODHDHHnHDIS  Длину хромосомы для РБФ можно определить следующим образом: 1,1)2(  DRHS где H — число активных нейронов шаблонного слоя; R — число входов модели; D — число дополнительных генов, отвечающих за активацию нейронов и вид их базисных функций. Максимальная длина хромосомы вычисляется соответственно формулой 1.1)2(max  DRHS В результате использования хромосом переменной длины возникают особи с особыми генетическими сегментами кода (интронами), которые не применяются для кодирования характеристик [18, 19]. Обычно интроны используются в ЭА в следующем виде: 1) как некодирующие биты, равномерно добавленные в генетический код (в этом случае интроны лишь заполняют пространство между активными генами хромосомы); 2) как нефункциональные части генетического кода, т.е. части решения, ко- торые фактически ничего не делают, тем самым не влияют на приспособленность хромосомы (обычно это происходит в генетическом программировании и в хро- мосомах, которые подвергаются циклу развития после своего рождения); 3) как апостериорно бесполезные части хромосомы, т.е. части генетического представления, которые не участвуют в вычислении ее приспособленности (как правило, это проявляется в некоторых видах конкуренто-обучаемых нейронных сетей, в которых только нейроны-победители в отличие от остальных нейронов, являющихся апостериорно бесполезными, влияют на результат работы сети). Международный научно-технический журнал «Проблемы управления и информатики», 2014, № 6 35 Интроны появляются и в других видах нейронных сетей, где их называют по- тенциально полезным мусором. Количество интронов в популяции контролируется специальными операто- рами, которые изменяют длину хромосомы и добавляют или удаляют интроны (экспериментальные результаты показывают, что добавление некоторого числа интронов в целом улучшает свойства ЭА), а также оператором селекции в зави- симости от числа интронов, значение фитнес-функции особи будет увеличиваться или уменьшаться. Обобщенный алгоритм оптимизации ГА для решения задачи МО во многом схож с алгоритмом, основанном на искусственных иммунных системах. Поэтому приведенный на рис. 2 обобщенный алгоритм включает эти два алгоритма, выделенные пунктирными линиями, и со- держит основные шаги. 1. Создание начальной популяции. 1.1. Инициализация хромосомы каждой особи. 1.2. Оценивание начальной популяции. 2. Этап эволюции — построение нового поколения. 2.1. Отбор (селекция) кандидатов на скрещивание (клонирование). 2.2. Скрещивание (клонирование). 2.3. Мутация. 2.4. Оценивание новой популяции (полученных клонов). 3. Построение фронта Парето на основе выбранных критериев обучения. 4. Выбор единственного решения из полученного набора оптимальных реше- ний с помощью некоторого информационного критерия после достижения крите- рия останова. Инициализация популяции Оценка начальной популяции Выбор модели Лучшая сеть найдена Следующее поколение Да Нет Критерий останова достигнут? Селекция особей для репродуцирования Скрещивание Мутации Оценка нового поколения Построение фронта Парето Элитарная группа Селекция особей для нового цикла Построение фронта Парето Мутации Клонирование Иммунный подход Подход на основе ГА Оценка полученных клонов Селекция лучших клонов в память Замещение особей основной популяции клонами из клеток памяти Замещение худших особей новыми случайными индивидуумами Рис. 2 36 ISSN 0572-2691 Рассмотрим алгоритм более подробно. В начале работы ГА случайным образом инициализируется популяция ,0P состоящая из N особей (ИНС): ,...,{ 210 HHP  }.,... NH Каждая особь в популяции при этом получает свое уникальное описа- ние, закодированное в хромосоме },,...,,{ 21 Ljjjj hhhH  которая состоит из L ге- нов, где ],[ maxmin wwhij  — значение i-го гена j-й хромосомы min(w — мини- мальное и maxw — максимальное допустимые значения соответственно). Отбор особей (селекция) основывается на использовании некоторой функции приспособленности (фитнес-функции), выбор которой существенно влияет на свойства получаемых решений. Фитнес-функция используется для оценивания степени соответствия нейросетевой модели реальной системе и обеспечения уст- ранения влияния незначительных (или зашумленных) измерений на качество по- лучаемого нейросетевого описания. На этапе оценки популяции с помощью алгоритмов МО и использования в них в качестве целей различных функций приспособленности (фитнес-функций) возможна фильтрация зашумленных сигналов, что обеспечивает робастность по- лучаемых оценок. Скрещивание (кроссовер) осуществляется после отбора родительских особей методом селекции. Кроссовер — основной генетический оператор, который осу- ществляет обмен генетической информацией между особями. По мнению некоторых авторов (см., например, [19]), использование кроссо- вера может вызывать негативные последствия при эволюции ИНС, так как этот оператор корректно работает со «строительными блоками», а в ИНС обычно не- ясно, что может быть определено как «строительный блок» из-за распределенного характера представления информации. Например, в МП информация распределя- ется между всеми весами сети, и при объединении частей двух родительских се- тей может случиться так, что характеристики их потомков начнут деградировать. В РБС-сетях информация не распределяется между всеми весами нейронной сети, и в этом случае оператор кроссовера весьма полезен и эффективен. В противном случае сети, в которых информация распределяется между их весами, как прави- ло, более компактны и имеют более высокую способность обобщения. В настоя- щее время, однако, не существует единого мнения о том, какие параметры сетей должны модифицироваться с помощью оператора кроссовера. В настоящей рабо- те предлагается применять данный оператор ко всем параметрам сети, включая и вид активационной функции. Мутация представляет собой генетический оператор, который изменяет одно или несколько значений генов в хромосоме. Следует отметить, что в ГА механизм мутаций — единственный способ внесения новой информации в хромосому осо- би. Это может вызвать совершенно новые значения генов, которые впоследствии могут быть добавлены в генофонд популяции. С их помощью ГА получает воз- можность найти лучшие решения. Мутация — важная часть генетического поиска и помогает предотвратить застревание популяции в локальных минимумах. Наиболее часто в ГА используется два способа мутации генов: 1) значение случайно выбранного гена хромосомы потомка заменяется на новое значение в диапазоне его допустимых значений; 2) к существующему значению гена при- бавляется некоторое случайное смещение. Однако при настройке РБС с помощью данных типов мутаций процесс обу- чения затягивается, так как настраиваемые параметры (веса связей, центры и дис- персии базисных функций), как уже отмечалось, разнородны и их значения лежат в различных диапазонах. В связи с этим возникает необходимость применения адаптивных мутаций, которые позволяют определить параметры мутации для каждого гена отдельно. В настоящее время наибольшее распространение получи- ли уменьшающаяся мутация Коши, адаптивные мутации Гаусса и Лапласа. Следующий шаг работы обобщенного алгоритма — построение фронта Па- рето — может быть записан следующим образом. Международный научно-технический журнал «Проблемы управления и информатики», 2014, № 6 37 1. Сгенерировать начальную обучающую выборку, состоящую из векторов входных переменных x . Вычислить векторы значений целевых функций )(xF для всех x. 2. Построить на основе обучающей выборки x и соответствующих зна- чений )(xF модели всех целевых функций ).(...,),(),( 21 xxx kfff 3. Определить на основе полученных моделей )(),...,(),( 21 xxx kfff  с по- мощью выбранного алгоритма парето-оптимальное множество PF решений за- дачи (1)–(3). 4. Вычислить в точках полученного множества решений PF точные значе- ния функций ).(...,),(),( 21 xxx kfff Если критерий останова (получена требуемая точность моделей и построен фронт Парето либо осуществлено максимально до- пустимое число итераций) не выполняется, то все полученные значения добавля- ются в обучающую выборку и происходит возврат к шагу 2, на котором уточня- ются модели целевых функций. Наконец, последний шаг работы алгоритма — выбор оптимального решения из фронта Парето — наиболее важный этап всей процедуры оптимизации ИНС. Так как фронтом Парето обычно представлен широкий набор возможных опти- мальных решений, окончательный выбор модели должен быть достаточно точным и робастным. Для нахождения модели нейросети, которая наилучшим образом балансирует ошибку модели и ее сложности для предотвращения чрезмерного недо- или пере- обучения. Наиболее целесообразным представляется использование информации об ошибке обучения, сложности и параметрах модели, полученной при построе- нии самого фронта Парето, т.е. использование некоторого информационного кри- терия [20–22]. Следует отметить, что абсолютные значения таких критериев не имеют смысла, они указывают только на относительный порядок сравниваемых моделей. Считается, что минимум информационного критерия соответствует лучшей (оп- тимальной) сложности модели, и чем меньше значение, тем лучше модель. Кроме того, использование информационных критериев обеспечивает ограниче- ние ненужного увеличения размера модели, приводящего к ее вырождению [20–25]. Моделирование Достаточно сложной задачей, требующей отдельного исследования, является задача тестирования алгоритмов многокритериальной оптимизации. Тестовые функции должны обладать рядом свойств, позволяющих с высокой точностью оценить эффективность разработанного алгоритма. В работе [26] предложена об- щая схема построения таких тестовых функций. Идея метода — составить из не- которых базисных функций более сложные тестовые функции с хаотически рас- положенными глобальными оптимумами и несколькими случайно расположен- ными локальными оптимумами. Составная тестовая функция при таком подходе вычисляется по формуле ,)))((()( 1 old bbMooxfwxF n i iiiiiii    (14) где iw — вес каждой функции ),(xfi вычисляемый следующим образом: , 2 )( exp 2 1 2 old              i D k ikikk i D oox w       ).))(max(1( ),max( если, n i ii i ww www w После вычисления всех весов осуществляется их нормализация ,/ˆ 1    n i iii www где n — число базисных функций; 2 i — радиус i-й базисной функции; i — па- раметр, используемый для масштабирования функций; io определяет положение 38 ISSN 0572-2691 локальных и глобального минимумов; ib определяет, какой из оптимумов будет глобальным (наименьшее значение ib соответствует глобальному оптимуму); D — размерность x; M — ортогональная матрица поворота для каждой ).(xfi С помощью параметров io и ib глобальный оптимум может быть располо- жен в любой заранее заданной точке. В данной работе в качестве базисной использована сферическая функция: .]100,100[,)( 1 2 D D i i xxxf    (15) Согласно сказанному выше для сравнительного анализа различных алгорит- мов многокритериального обучения (одноцелевое, скаляризованное много- критериальное и многокритериальное, основанное на подходе Парето) использо- валась функция двух переменных ),,( 21 xxF которая задавалась следующим обра- зом: n  10, D  2: 1021 ...,,, fff : сферические функции ];1,,1,1[...,,, 1021  ];05,005,032/532/505,005,010102,02,0[ . 10 01    M График функции ),( 21 xxF приведен на рис. 3, а. На рис. 3, б показана по- верхность, зашумленная помехой  с нормальным распределением (  0,6) при наличии «выбросов» также с нормальным распределением (  12,0). Полученные при аппроксимации данной функции фронты Парето для двухслойного МП и РБС показаны на рис. 4 а, б соответственно. Квадратиками обведены оптимальные сети, выбранные из фронта Парето с помощью информационного критерия Акаике. Оп- тимальный МП содержал семь нейронов в первом скрытом слое и пять — во вто- ром, а оптимальная РБС-сеть состояла из десяти нейронов шаблонного слоя. На рис. 5 показана поверхность, восстановленная с помощью РБС. Все результаты ап- проксимации заданной функции с помощью разных подходов к обучению при на- личии помех измерений с различными законами распределения сведены в таблицу. Здесь даны значения ошибок обучения для оптимальных МП и РБС. В скобках при- ведено число нейронов соответствующих сетей для каждого случая. Для МП первое число соответствует количеству нейронов в первом слое, а второе — во втором. x2 0 2 4 2 4 0 2 4 2 4 x1 F(x1, x2) 0 0,2 0,4 0,6 0,8 1 а x2 0 0,4 0,8 0,4 0,8 0 0,5 1 0,5 1 x1 F(x1, x2)   40 20 0 20 40 б Рис. 3 Международный научно-технический журнал «Проблемы управления и информатики», 2014, № 6 39  N 5 10 15 20 42,6 42,7 42,8 42,9 43 43,1 43,2 43,3 43,4 а  N 0 2 4 6 42,6 42,7 42,8 42,9 43 43,1 43,2 43,3 43,4 8 10 12 14 43,5 43,6 б Рис. 4 x2 0 0,4 1 x1 ),( ~ 21 xxF 0 0,2 0,4 0,6 0,8 1 0,8 0,4 0,8 0 0,5 1 0,5 Рис. 5 Таблица Вид обучения Тип сети Ошибка обучения Тип помехи Без помехи Нормальный Лапласа Одноцелевое Персептрон 3,5989 (9–8) 69,5837 (10–9) 66,6294 (11–7) РБФ 5,2894 (18) 74,1397 (20) 68,2867 (18) Скаляризованное Персептрон 2,8479 (8–6) 50,1750 (9–9) 52,0112 (10–8) РБФ 4,9475 (15) 48,9896 (17) 49,4150 (18) По Парето Персептрон 2,3454 (6–4) 43,02 (7–5) 35,6755 (7–7) РБФ 3,1502 (12) 43,1405 (8) 46,8705 (11) 40 ISSN 0572-2691 Заключение Использование в ЭИНС двух форм адаптации: эволюции и обучения, позво- ляющих изменять структуру сети, ее параметры и алгоритмы обучения без внеш- него вмешательства, способствует тому, что данные сети наиболее приспособле- ны для работы в нестационарных условиях и при наличии неопределенности от- носительно свойств исследуемого объекта и условий его функционирования. Так как задача получения оптимальной топологии сети и ее параметров мно- гокритериальна, для ее решения следует применять эволюционные методы, что обусловлено главным образом их параллельным или популяционным подходом к поиску решений, позволяющим устранить многие трудности и недостатки клас- сических методов решения задач МО. Результаты моделирования свидетельствуют о том, что наиболее эффектив- ным при этом является алгоритм, основанный на подходе Парето. О.Г. Руденко, О.О. Безсонов БАГАТОКРИТЕРІЙНА ОПТИМІЗАЦІЯ ЕВОЛЮЦІОНУЮЧИХ МЕРЕЖ ПРЯМОГО РОЗПОВСЮДЖЕННЯ Запропоновано використання багатокритерійного підходу до навчання нейрон- них мереж прямого розповсюдження, що еволюціонують. Розглянуто загальну структуру таких мереж. Проведено порівняльний аналіз одноцільового, скаля- ризованого багатокритерійного навчання та багатокритерійного навчання за Парето. Імітаційне моделювання за наявністю завад вимірювань з різними за- конами розподілу підтвердило ефективність запропонованого підходу. O.G. Rudenko, A.A. Bezsonov MULTIOBJECTIVE OPTIMIZATION OF EVOLVING FEEDFORWARD NEURAL NETWORKS It is proposed to utilize multicriteria approach to training evolutionary feedforward neural networks. The general structure of such neural networks is considered. A com- parative analysis of single-objective, scalarized multiobjective learning and Pareto- based multiobjective learning is performed. Simulation with the presence of noisy measurements with different distribution laws has confirmed the effectiveness of the suggested approach. 1. Кини Р.Л., Райфа Х. Принятие решений при многих критериях: предпочтения и замещения. — М. : Радио и связь, 1981. — 560 с. 2. Ногин В.Д. Принятие решений в многокритериальной среде: количественный подход. — М. : ФИЗМАТЛИТ, 2002. — 144 с. 3. Подиновский В.В., Ногин В.Д. Парето-оптимальные решения многокритериальных задач. — М. : ФИЗМАТЛИТ, 2007. — 256 с. 4. Holland J. Adaptation in natural and artificial systems. — 2nd edn. — Cambridge : MIT Press, 1992. — 228 р. 5. Zitzler E., Thiele L. An evolutionary algorithm for multiobjective optimization: The strength Pa- reto approach // Techn. Rep. 43. Comput. Engin. and Networks Labor. (TIK), Swiss Federal Insti- tute of Technology (ETH) Zurich, Gloriastrasse 35, CH-8092 Zurich, Switzerland, 1998. — 40 p. 6. Zitzler E., Thiele L. Multiobjective evolutionary algorithms: a comparative case study and the strength Pareto approach // IEEE Trans. on Evolutionary Computation. — 1999. — 3, N 4. — P. 257–271. Международный научно-технический журнал «Проблемы управления и информатики», 2014, № 6 41 7. Coello Coello C.A., Christiansen A.D. Multi-objective optimization of trusses using genetic algo- rithms // Computers & Structures. — 2000. — 75. — P. 647–660. 8. Eickhoff R., Rückert U. Pareto-optimal noise and approximation properties of RBF networks // Proc. of ICANN, 2006. — 1. — P. 993–1002. 9. Yao X. Evolving artificial neural networks // Proc. of the IEEE. — 1999. — 87, N 9. — P. 1423–1447. 10. Yao X., Lin Y. A new evolutionary system for evolving artificial neural networks // IEEE Trans. on Neural Networks. — 1997. — 3. — P. 694–713. 11. Rudenko O.G., Bezsonov O.O. Robust neuroevolutionary identification of nonlinear nonstationary objects // Cybernetics and Systems Analysis. — 2014. — 50, N 1. — P. 17–30. 12. Rudenko O.G., Bezsonov O.O., Rudenko S.O. Robust identification of nonlinear objects with the help of an evolving radial basis network // Ibid. — 2013. — 49, N 2. — P. 173–182. 13. Rudenko O.G., Bezsonov O.O. Identification of nonlinear nonstationary objects using evolving radial basis network // Journal of Automat. and Inform. Sci. — 2012. — 44, N 8. — P. 11–21. 14. Rivas V.M., Castillo P.A., Merelo J.J. Evolving RBF neural networks // Proc. of the 6th Intern. Work-Conf. on Artificial and Natural Neural Networks : Connectionist Models of Neurons, Learning Processes and Artificial Intelligence. — Part I. — London : Springer-Verlag. — 2001. — P. 506–513. 15. Quasem S.N., Shamsuddin S.M., Zain A.M. Multi-objective hybrid evolutionary algorithms for ra- dial-basis function neural network design // Knowledge-Based Systems. — 2012. — 27. — P. 475–497. 16. Whitley D., Gordon Y.S., Mathias K. Lamarkian evolution, the Baldwin effect and function opti- mization // Proc. of the Parallel Problem Solving from Nature. — Berlin : Springer-Verlag, 1994. — P. 6–15. 17. Girand-Carrier Ch. Unifying learning with evolution through Baldwinian Evolution and Lamarkism: A case study // Proc. Symposium on Comp. Intel. and Learning (CoIL-2000). — Chios, Greece. — 2000. — P. 36–41. 18. Wu A.S., Lindsay R.K. Empirical studies of the genetic algorithm with non coding segments // Evolutionary Comput. — 1995. — 3, N 2. — P. 121–147. 19. Castellano J.G., Castillo P.A., Merelo J.J. Scrapping or recycling: the role of chromosome length-altering operators in genetic algorithms // Techn. Rep. GeNeura Group. Department of Ar- chitecture and Computer Technology. University of Granada. — 2001. — 19 p. 20. Akaike H.A. A new look at statistical model identification // IEEE Trans. on Automat. Contr. — 1974. — 19. — P. 716–723. 21. Schwarz G. Estimating the dimension of model // Ann. Statist. — 1978. — 6. — P. 461–464. 22. Hannan E.J., Quinn B.G. The determination of the order of an autoregression // J. of the Royal Statist. Soc. — 1979. — 41. — P. 190–195. 23. Artificial neural networks design using evolutionary algorithms / P.A. Castillo, M.G. Arenas, J.J. Castillo-Valdivieso, J.J. Merelo, A. Prieto, G. Romero // Advances in Soft Comput. — Lon- don : Springer-Verlag, 2003. — P. 43–52. 24. Rudenko O.G., Bezsonov O.O. Robust training of radial basis networks // Cybernetics and Sys- tems Analysis. — 2011. — 47, N 6. — P. 863–870. 25. Rudenko O., Bezsonov O. Function approximation using robust radial basis function networks // J. of Intelligent Learning Systems and Applications. — 2011. — 3. — P. 17–25. 26. Liang J.J., Suganthan P.N., Deb K. Novel composition test functions for numerical global optimi- zation // Proc. IEEE Swarm Intel. Symp. — Pasadena, USA, 2005. — P. 68–75. Получено 17.02.2014 Статья представлена к публикации акад. НАН Украины А.В. Палагиным. http://link.springer.com/search?facet-author=%22O.+G.+Rudenko%22 http://link.springer.com/search?facet-author=%22O.+O.+Bezsonov%22 http://link.springer.com/journal/10559 http://link.springer.com/search?facet-author=%22O.+G.+Rudenko%22 http://link.springer.com/search?facet-author=%22O.+O.+Bezsonov%22 http://link.springer.com/search?facet-author=%22S.+O.+Rudenko%22 http://link.springer.com/journal/10559 http://link.springer.com/search?facet-author=%22O.+G.+Rudenko%22 http://link.springer.com/search?facet-author=%22O.+O.+Bezsonov%22 http://link.springer.com/search?facet-author=%22O.+G.+Rudenko%22 http://link.springer.com/search?facet-author=%22O.+O.+Bezsonov%22 http://link.springer.com/journal/10559 http://link.springer.com/journal/10559

Многокритериальная оптимизация эволюционирующих сетей прямого распространения

Institution

Ähnliche Einträge