Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА

Представлено поліноміальний ітераційний алгоритм, що реалізує техніку робастного параметричного і структурного оцінювання в рамках ідеології МГУА. Дворівнева структура нейромережі з контролем складності моделі забезпечує обчислювальну стабільність алгоритму МГУА-PNN. Наведено обчислювальний експерим...

Full description

Saved in:
Bibliographic Details
Date:2008
Main Author: Аксенова, Т.И.
Format: Article
Language:Russian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2008
Series:Проблемы управления и информатики
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/209120
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА / Т.И. Аксенова // Проблемы управления и информатики. — 2008. — № 2. — С. 42-52. — Бібліогр.: 11 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-209120
record_format dspace
spelling nasplib_isofts_kiev_ua-123456789-2091202025-11-15T01:00:43Z Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА Робастне моделювання за даними спостережень із застосуванням поліноміального ітераційного алгоритму МГУА Robust modeling from experimental data using polynomial iterative GMDH algorithm Аксенова, Т.И. Развитие и исследование алгоритмов МГУА Представлено поліноміальний ітераційний алгоритм, що реалізує техніку робастного параметричного і структурного оцінювання в рамках ідеології МГУА. Дворівнева структура нейромережі з контролем складності моделі забезпечує обчислювальну стабільність алгоритму МГУА-PNN. Наведено обчислювальний експеримент, що демонструє параметричну і структурну стійкість до грубих помилок спостережень, а також приклади розв’язання задач моделювання у фармакології та медицині. Polynomial iterative algorithm for robust parameter and structure estimation within the framework of the GMDH technique is presented. A two-level neural network structure with the controlled model complexity improves the computational stability of the GMDH-PNN algorithm. Computational experiments demonstrating the parametrical and structural robustness in presence of outliers as well as examples of applications in pharmacology and medicine are provided. 2008 Article Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА / Т.И. Аксенова // Проблемы управления и информатики. — 2008. — № 2. — С. 42-52. — Бібліогр.: 11 назв. — рос. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/209120 621.513 10.1615/JAutomatInfScien.v40.i3.30 ru Проблемы управления и информатики application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Развитие и исследование алгоритмов МГУА
Развитие и исследование алгоритмов МГУА
spellingShingle Развитие и исследование алгоритмов МГУА
Развитие и исследование алгоритмов МГУА
Аксенова, Т.И.
Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА
Проблемы управления и информатики
description Представлено поліноміальний ітераційний алгоритм, що реалізує техніку робастного параметричного і структурного оцінювання в рамках ідеології МГУА. Дворівнева структура нейромережі з контролем складності моделі забезпечує обчислювальну стабільність алгоритму МГУА-PNN. Наведено обчислювальний експеримент, що демонструє параметричну і структурну стійкість до грубих помилок спостережень, а також приклади розв’язання задач моделювання у фармакології та медицині.
format Article
author Аксенова, Т.И.
author_facet Аксенова, Т.И.
author_sort Аксенова, Т.И.
title Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА
title_short Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА
title_full Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА
title_fullStr Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА
title_full_unstemmed Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА
title_sort робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма мгуа
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2008
topic_facet Развитие и исследование алгоритмов МГУА
url https://nasplib.isofts.kiev.ua/handle/123456789/209120
citation_txt Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА / Т.И. Аксенова // Проблемы управления и информатики. — 2008. — № 2. — С. 42-52. — Бібліогр.: 11 назв. — рос.
series Проблемы управления и информатики
work_keys_str_mv AT aksenovati robastnoemodelirovaniepodannymnablûdenijsprimeneniempolinomialʹnogoiteracionnogoalgoritmamgua
AT aksenovati robastnemodelûvannâzadanimispostereženʹízzastosuvannâmpolínomíalʹnogoíteracíjnogoalgoritmumgua
AT aksenovati robustmodelingfromexperimentaldatausingpolynomialiterativegmdhalgorithm
first_indexed 2025-11-24T05:17:33Z
last_indexed 2025-11-24T05:17:33Z
_version_ 1849647644717088768
fulltext © Т.И. АКСЕНОВА, 2008 42 ISSN 0572-2691 РАЗВИТИЕ И ИССЛЕДОВАНИЕ АЛГОРИТМОВ МГУА УДК 621.513 Т.И. Аксенова РОБАСТНОЕ МОДЕЛИРОВАНИЕ ПО ДАННЫМ НАБЛЮДЕНИЙ С ПРИМЕНЕНИЕМ ПОЛИНОМИАЛЬНОГО ИТЕРАЦИОННОГО АЛГОРИТМА МГУА Введение Метод группового учета аргументов (МГУА) [1] является эффективным средством восстановления зависимостей по экспериментальным данным, осу- ществляет одновременный синтез структуры модели и оценку ее параметров. Се- мейство итерационных алгоритмов МГУА (многорядный итерационный алго- ритм, МИА МГУА) заслуженно пользуется известностью благодаря эффективно- сти при моделировании сложных систем, особенно систем большой размерности. Итерационные алгоритмы МГУА могут быть формализованы в виде итерацион- ной процедуры [2]. Такая формализация опирается на понятие структуры модели, определенное как параметрическое семейство. Задача поиска наилучшей модели формулирутся как задача оптимизации в классе линейных по параметру структур, определенном с помощью заданного линейного по параметру преобразования. В полиномиальных итерационных алгоритмах МГУА используются линейные или полиномиальные функции преобразования. Другая общепринятая формали- зация итерационных алгоритмов МГУА в виде искусственной нейронной сети ис- пользуется в данной статье в силу большей иллюстративности. Мы будем интер- претировать итерационный алгоритм МГУА как искусственную нейросеть типа feed forward, перцептрон, передаточные функции которого — полиномы невысо- кого порядка, имеющие небольшое количество входов и один выход. Их коэффи- циенты определяются на основе регрессионной техники. В статье представлен полиномиальный итерационный алгоритм МГУА, реа- лизующий робастную к грубым ошибкам наблюдений структурную и параметри- ческую идентификацию модели. Представлена двухуровневая структура нейросе- ти с контролем сложности модели (число членов и порядок полинома), которая обеспечивает вычислительную стабильность алгоритма (алгоритм МГУА-PNN, Polynomial Neural Network). Реализована техника робастного параметрического и структурного оценивания в рамках идеологии МГУА [3, 4]. Вычислительный экс- перимент демонстрирует успешное структурное и параметрическое восстановле- ние М-регрессии при увеличивающейся дисперсии грубых ошибок. Приведены примеры решения задач восстановления зависимостей в фармакологии (создание новых лекарственных препаратов на основе прогнозирования их эффективности) и в медицине. 1. Постановка задачи Рассматривается стандартная задача восстановления множественной регрес- сии по экспериментальным данным. Наблюдается вектор T 21 ),,,( mxxx =x не- Проблемы управления и информатики, 2008, № 2 43 зависимых переменных, а также зависимая переменная y. Ставится задача отыска- ния полиномиальной зависимости ,)( ζ+= xfy оптимальной в смысле некоторого критерия регулярности (CR) по результатам наблюдений вектора независимых пе- ременных ,}{ ,1 nii == xX ,)(: ζXYYζ += E образующих матрицу ,),,( TTT 1 nxxX = а также вектора наблюдений переменной: .),,,(: T 21 nyyyy =Y Задача включа- ет в себя поиск структуры модели (вид полинома) и оценку ее параметров. Задача рассматривается при наличии грубых ошибок наблюдений. А именно, предполагается, что случайные величины ,,,1, nii =ζ определенные как эле- менты вектора ,)(: ζXYYζ += E являются независимыми и одинаково распре- деленными с плотностью распределения, определяемой моделью грубых ошибок ),()()1()( iii hP ξδ+ξϕδ−=ξ .))((1 iii b i yEy x− σ =ξ (1) Здесь )(ξϕ — плотность нормального распределения ;)1,0(N )(ξh и δ — плот- ность и уровень грубых ошибок соответственно; 2 bσ — дисперсия базового рас- пределения. В соответствии с этой моделью )1( δ− часть случайных величин iξ распределена нормально в соответствии с распределением ).,0( bN σ Остальная часть следует распределению грубых ошибок. Плотность распределения )(ξh симметрична относительно оси y. Например грубые ошибки следуют нормально- му распределению ).,0( outlierσN При этом 2 outlierσ существенно превышает дис- персию базового распределения .2 bσ Известно, что традиционно используемый для оценки параметров, в том чис- ле и в МИА МГУА, метод наименьших квадратов (МНК) чувствителен к наруше- нию предположения о нормальности. В случае распределений с тяжелыми хво- стами, например (1), его эффективность резко падает [5]. Для задачи оценивания параметров линейной регрессии в этом случае предложены и исследованы методы робастной параметрической идентификации с использованием неквадратичной функции ошибки, из которых наиболее известными являются М-оценки Хубе- ра [5]. Предложены также робастные варианты критериев выбора моделей и ста- тистических критериев качества. В данной работе предлагается использовать принципы робастного оценивания в рамках полиномиального итерационного ал- горитма МГУА, который совмещает таким образом преимущества МГУА и ро- бастного оценивания и позволяют решать задачу идентификации модели при наличии грубых ошибок в исходных данных. 2. Методы В качестве базового итерационного алгоритма МГУА использован алгоритм МГУА-PNN, представленный в [3, 4]. Он включает в себя принципы, предложен- ные в [2], а также двухуровневую структуру нейросети, основанную на контроле сложности. Подробнее алгоритм представлен ниже. В качестве методов рабастного оценивания использованы М-оценки [5] и ос- нованные на них критерии выбора модели, оценки качества модели и оценки зна- чимости коэффициентов регрессии. М-оценки параметров множественной регрес- сии i p j jiji fy ξ+β= ∑ =1 получаются в результате минимизации функционала min,])/([ 1 →σ+σρ∑ = b n i bi hr (2) 44 ISSN 0572-2691 где ; 1 ∑ = β−= p j jijii fyr .0>h Минимизация осуществляется по вектору парамет- ров T 21 ),,,( mβββ= β и .bσ Функция )(⋅ρ определяет свойства оценок пара- метров. Для всякой неотрицательной, симметричной, дважды дифференцируемой выпуклой ),(⋅ρ 0)0( =ρ оценки, найденные как решение задачи (2), являются не- смещенными, состоятельными и имеют асимптотически нормальное распределе- ние. Определить вид функции )(⋅ρ можно, минимизировав дисперсию оценок в некоторых предположениях о грубых ошибках. Наиболее известный результат — подход Хубера, где )(⋅ρ выбирается таким образом, чтобы минимизировать дис- персию при наиболее неблагоприятном распределении грубых ошибок     >− ≤ =ρ , при(1/2) , при)2/1( )( 2 2 CzCzC Czz z (3) где константа C определяется интенсивностью грубых ошибок из соотношения .)2/(exp)2/2()2/(exp2/2)1/(1 2 0 2 CCdzz C −π+−π=δ− ∫ (4) В такой постановке задачи оптимальная функция не зависит от конкретного вида распределения грубых ошибок, а только от их интенсивности δ, которую можно рассматривать как относительную долю грубых ошибок во всей совокуп- ности. В качестве константы 0>h в (2) используется, например, величина, обес- печивающая несмещенную оценку параметров в случае нормально распределен- ных грубых ошибок [6]. Другие весовые функции )(⋅ρ также широко применяют- ся для получения М-оценок. Для численной оптимизации (2) использован итерационный алгоритм, применимый для весовой функции произвольного ви- да [7]. Зафиксированная весовая функция используется в дальнейшем при вычис- лении всех критериев — выбора модели, оценки качества модели и значимости коэффициентов. В целом робастный полиномиальный итерационный алгоритма (робастный PNN-МГУА) может быть представлен следующим образом. 1. Расширенный вектор входных переменных — ,),,,,,( T 2121 ++= mmm xxxxx x ,11 =+mx ,02 =+mx доступен на каждом слое нейронной сети. 2. Полиномиальная передаточная функция вида ,,,1,,,),,( mkjiwbwawwwwg kjikji =+= (5) использует триплет входных переменных ),,,( kji www которые являются выход- ными сигналами предыдущего слоя или принадлежат вектору входных перемен- ных. Использование дополнительных переменных 0,1 21 == ++ mm xx вводит в рассмотрение нейроны с одним и двумя входами, а также линейные и полиноми- альные преобразования, в том числе со свободным членом. 3. Геделевская схема кодирования [2] использована для преобразования ре- зультирующей нейросети в параметрическую форму полиномиальной модели. Напомним, что геделевская схема кодирования ставит каждой переменной ix в соответствие простое число .iq Таким образом каждый одночлен r r k i k i k i xxx  2 2 1 1 Проблемы управления и информатики, 2008, № 2 45 получает в качестве кода число .2 2 1 1 r r k i k i k ii qqqG = Весь полином кодируется век- тором геделевских кодов. Для приведения подобных членов полинома достаточно проверить наличие совподающих элементов геделевского вектора. Полином ко- дируется единственным образом и может быть раскодирован с помощью разло- жения на простые множители. Геделевские коды не являются единственно воз- можными и принципиальными для МГУА-PNN. 4. Фиксированное число лучших моделей передается на следующий слой в соответствии с критерием (или критериями). 5. Отличительной чертой МГУА-PNN является структура нейросети, осно- ванная на контроле сложности. Геделевские коды выходных сигналов каждого слоя предоставляют информацию о сложности текущей модели. Под сложностью понимается вектор ,),( Tcpowcomplexity = (6) где c — число слагаемых (одночленов), а pow — максимальная степень одночле- нов. Таким образом второй элемент вектора сложности, число одночленов, равен числу ненулевых элементов геделевского вектора. Для вычисления первого эле- мента используется тот факт, что степень суммы — это максимальная степень суммиремых полиномов, а степенью произведения является сумма степеней. В частности, в случае использования преобразования (5) pow вычисляется по формуле )}.()(),(max{)),,(( kjikji wpowwpowwpowwwwgpow += (7) Аналогично степень текущего полинома можно вычислить для любой другой полиномиальной ).(⋅g Отметим, что вместо геделевской любая другая схема ко- дирования, предоставляющая информацию о сложности в смысле (6), может ис- пользоваться в МГУА-PNN. Информация о сложности текущей модели позволяет производить поиск мо- дели в класе полиномов iP заданной сложности ),,( cpG ,)( pPpow i < .)( cPc i < Такая возможность использована при организации двухуровневой нейросети. А имен- но, на верхнем уровне реализуется схема комбинаторного алгоритма МГУА — последовательный поиск наилучшей модели в классе полиномов ),( cpowG за- данной сложности: ),,1( ... )2,1( )1,1()1,1( maxcGGGcpowG ⇒⇒⇒=== ).,( ... )2,( )1,( ),,2( )2,2( )1,2()1,2( maxmaxmaxmax max cpowGpowGpowG cGGGcpowG ⇒⇒⇒ ⇒⇒⇒===   Для поиска лучшей модели в классе ),( jiG используется полиномиальный итерационный алгоритм, определенный выше в (1)–(4). В качестве критерия ис- пользуется «внутренний» критерий остаточной суммы квадратов (RSS). Для пере- хода ),1,( ),( +⇒ jiGjiG а также для сравнения моделей используются «внеш- ние» критерии выбора модели. Критерии описаны ниже в п. 7. Общая схема алго- ритма показана на рис. 1. В случае использования МНК к каждому из блоков поиска лучшей модели в классе ),( jiG применимы результаты исследования внутренней сходимости ал- горитмов МГУА [2]. Если каждый из блоков обеспечивает сходимость к МНК- оценкам соответствующей регрессии, то алгоритм в целом приведет в асимтотике 46 ISSN 0572-2691 к результатам полного перебора, осуществленного на основе применения соответ- ствующих критериев выбора моделей. Таким образом, алгоритм объединяет пре- имущества итерационного и комбинаторного алгоритмов МГУА. 6. В (5) параметры оцениваются с помощью регрессионной техники. В част- ности, в робастном алгоритме использованы М-оценки параметров (2). Реализован спектр возможных функций весов [8]. x1 CRlocal → min ... xn «Внутренняя» сходимость c = 1, pow = 1 c = 2, pow = 1 c = 3, pow = 1 «Внутренняя» сходимость CRlocal → min CRlocal → min x1 ... xn x1 ... xn • • • Рис. 1 7. Робастные аналоги критериев, в том числе основанные на разбиении вы- борки данных на обучающую A и проверочную B, использованы для восстановле- ния М-регрессии. В качестве «внутреннего» использован робастный критерий RSS .)ˆ/( ˆ RSS 2 bi Ai b r cn σρ − σ = ∑ ∈ (8) Для выбора лучшей М-регрессии мы привлекали робастные критерии выбора модели. Предложены и исследованы робастные информационные критерии. Например, робастный вариант критерия Акаике имеет вид [8] .)ˆ/(2AICR 1 cr b n i i α+σρ= ∑ = (9) Следуя традициям МГУА, мы использовали критерии выбора модели, осно- ванные на разбиении выборки данных ,BAX ∪= в частности робастный крите- рий регулярности ),ˆ/(ˆAR 2 Ai Bi A r σρσ= ∑ ∈ где ,ˆ 1 ∑ = β−= c j jijii fyr вектор парамет- ров, причем ,)ˆ,,ˆ,ˆ(ˆ T 21 cA βββ=β  и Aσ̂ оцениваются на A. 8. Робастные критерии качества модели [8] вычисляются на любом из под- множеств :,, XBAZ = , )ˆ/)ˆ(( )ˆ/()ˆ/)ˆ(( 2 ∑ ∑∑ σµ−ρ σρ−σµ−ρ = Z AAi Z Ai Z AAi Z y ry R ,)ˆ/(ˆ2 2 ∑ σρσ= Z AiAZ rD (10) где Aµ̂ — робастная оценка среднего, Aσ̂ — оценка bσ на A. 9. Робастный вариант критерия Фишера (ρ-критерий) и робастный 2 nR ис- пользуются для выявления незначимых членов результирующей модели. Крите- рии разработаны в [6] для проверки канонической гипотезы 0:0 =βiH для моде- ли шума с грубыми ошибками (1). Проблемы управления и информатики, 2008, № 2 47 10. Остатки ir результирующей модели позволяют детектировать грубые ошибки [8]:     σ≤ = случае.противномв1 ,ˆесли,0 bi kr outlier (11) Таким образом, разработанный алгоритм объединяет преимущества итераци- онного и комбинаторного алгоритмов МГУА и дает возможность применить из- вестные инструменты робастного регрессионного ангализа в рамках МГУА. От- метим, что теоретические и численные исследования внутренней сходимости МИА МГУА проведены при условии использования МНК. Для тестирования структурной и параметрической сходимости алгоритма МГУА-PNN с М-оценка- ми проделаны вычислительные эксперименты, представленные ниже. 3. Результаты тестирования на искусственных данных Для вычислительного эксперимента использованы вектор независимых пере- менных T 521 ),,,( xxx =x и полином четвертой степени ,0,10,10 3 51 ξ+⋅⋅+= xxy (12) который ранее использовался для тестирования итерационных алгоритмов МГУА. Число наблюдений выбрано .15=n Соответствующая матрица наблюдений =X ]155)[( ×= ijx получена согласно равномерному распределению на интервале ].10,1[ Для вычисления выходной переменной двадцать реализаций случайной величины ξ были получены в соответствии с моделью (1) для каждой комбинации парамет- ров: a) ,10=σb ;0=δ b) ,10=σb ,2,0=δ ;1000out =σ c) ,10=σb ,2,0=δ ;2000out =σ d) ,10=σb ,2,0=δ .3000out =σ Здесь в качестве распределения грубых ошибок )(ξh используется нормальное распределение, .2 out 2 σ=σ Уро- вень грубых ошибок принят 2,0=δ и рассматривается как вероятность появления грубых ошибок. Пример результатов численного моделирования для параметров ,10=σb ,2,0=δ 3000out =σ приведен на рис. 2. Три грубые ошибки среди двадцати наблюдений успешно детектированы, восстановлена истинная структура модели, параметр, соответствующий одночлену четвертой степени, восстановлен с точно- стью до третьего знака в случае применения робастного МГУА-PNN (см. рис. 2, a). Структура модели утеряна в случае использования МНК (см. рис. 2, б). Реальные данные М од ел ьн ы е да нн ы е 3 51 )(99,02,12 xxy += Реальные данные М од ел ьн ы е да нн ы е 4 51 2 5 2 4 )(17,0)(6,17)(3,14 xxxxy +⋅= а б Рис. 2 48 ISSN 0572-2691 Для демонстрации результатов структурного моделирования для одночле- нов модели (12) вычислялся структурный индекс: ,1=StrInd если одночлен представлен в модели, и 0=StrInd в противном случае. Так же были проиндек- сированы значимые и незначимые в соответствии с ρ-критерием избыточные члены уравнения. Средние значения структурных индексов для одночленов моде- ли ,0,10,10 3 51 ξ+⋅⋅+= xxy а также посторонних значимых и незначимых членов для каждой серии из двадцати экспериментов представлены в табл. 1. Таблица 1 Вид одночлена МНК, 0=δ RPNN, 2,0=δ PNN с МНК, 2,0=δ 0=σb 10=σb 10=σb 10=σb 1000out =σ 2000out =σ 3000out =σ 1000out =σ 2000out =σ 3000out =σ константа 1 0,76 0,47 0,53 0,47 0,07 0,21 0,07 3 51 xx ⋅ 1 1 1 1 1 0,8 0,5 0,33 избы- точ- ный незна- чимый 0 0,65 0,6 0,53 0,6 0,4 0,64 0,33 значи- мый 0 0 0 0 0 1,33 0,71 1,6 Робастный PNN (RPNN) демонстрирует стабильные результаты структурного синтеза независимо от дисперсии грубых ошибок. Основной член 3 51 xx ⋅ детекти- рован во всех без исключения случаях. Ни в одном из экспериментов не зафикси- рованы значимые дополнительные члены. PNN с МНК теряет в половине случае структуру модели уже при .2000out =σ В табл. 2 приведены результаты, характеризующие качество оценки парамет- ров алгоритмами PNN. Для вычисления среднего и дисперсии оценки параметра соответствующего одночлена использованы те вычислительные эксперименты, где одночлен успешно детектирован и представлен в результирующей модели. Приведены также полученные оценки дисперсии базового распределения .bσ Таблица 2 Вид одночлена Точные значе- ния МНК, 0=δ 10=σb RPNN, 2,0=δ PNN с МНК, 2,0=δ 10=σb 10=σb σout = 1000 σout = 2000 σout = 3000 σout = 1000 σout = 2000 σout = 3000 конс- танта средняя 10,0 11,69 10,86 10,54 10,53 687,00 127,50 247,29 диспер- сия — 2,59 1,96 1,90 1,88 — 1041,41 — 3 51 xx ⋅ средняя 1,0 0,997 0,9996 0,9992 0,9996 1,0541 1,1104 1,0673 диспер- сия — 0,004 0,003 0,003 0,003 0,1516 0,6058 0,2412 bσ средняя 10,0 8,25 14,50 12,53 13,21 304,62 537,20 785219 диспер- сия 1,99 6,93 4,90 5,64 197,60 261,58 758152,26 Точность оценок коэффициентов с использованием RPNN не падает при уве- личении дисперсии грубых ошибок )3000 ,2000 ,1000 ,2,0( =σ=δ по сравнению с оценками, полученными по МНК в отсутствии грубых ошибок ).0( =δ Свобод- ный член оценивается с точностью до первого знака, а коэффициент одночлена 3 51 xx ⋅ — с точностью до четвертого знака после запятой независимо от диспер- сии грубых ошибок. Качество оценивания параметров, которое обеспечивает PNN с МНК при наличии грубых ошибок, значительно ниже. Табл. 3 представляет качество аппроксимации незашумленных, точных дан- ных модельными. Проблемы управления и информатики, 2008, № 2 49 ∑ −= ,)(1 2 exactmod yy n MSD . )( )()( 2 exactexact 2 exactmod 2 exactexact2 ∑ ∑ ∑ µ− −−µ− = y yyy R (13) Здесь ,0,10,10 3 51exact xxy ⋅⋅+= exactµ — соответствующее среднее значение. Независимо от возрастающей дисперсии шума, RPNN позволил восстановить не- наблюдаемые незашумленные данные с хорошей точностью, коэффициент корре- ляции (13) равен единице с точностью до четвертого знака. Таблица 3 Вид критерия МНК, 0=δ RPNN, 2,0=δ PNN с МНК, 2,0=δ 10=σb 10=σb 10=σb 1000out =σ 2000out =σ 3000out =σ 1000out =σ 2000out =σ 3000out =σ MSD средняя 5,49 6,13 5,83 5,96 272,43 447,79 711,28 диспер- сия 1,82 3,08 2,97 3,12 139,11 159,32 309,02 2R средняя 0,99996 0,99995 0,99996 0,99995 0,915 0,789 0,586 диспер- сия 0,00002 0,00004 0,00004 0,00004 0,073 0,164 0,340 Таким образом, в рамках проведенного вычислительного эксперимента ро- бастный МГУА-PNN демонстрирует параметрическую и в большинстве случаев структурную сходимость. Использование М-оценок параметров переходной функции (5) и робастных критериев обеспечивает устойчивое к грубым ошибкам оценивание параметров результирующей регрессионной модели и восстановление ее структуры. Алгоритм позволяет также детектировать грубые ошибки наблюде- ний и обеспечивает их фильтрацию. 4. Примеры применения МГУА-PNN в медицине и фармакологии 4.1. Компьютерное конструирование лекарственных препаратов. RPNN используется наряду с другими средствами для компьютерного конструирования новых лекарственных препаратов (отделение фармакологии, Медицинская школа Роберт Вуд Джонсон, США) [3, 9, 10]. Прогнозирование активности возможных лекарственных препаратов позволяет существенно сократить сроки и уменьшить стоимость их разработки. Для такого исследования используется группа молекул известных лекарственных препаратов, имеющих сходный лечебный эфект. Одной из основных характеристик является форма молекулы. Поэтому для компьютер- ного моделирования используется пространство признаков, кодирующее электри- ческое поле молекулы и другие ее характеристики. Построенная модель активно- сти используется затем для поиска перспективных веществ в существующих базах данных. В группу препаратов, используемую для моделирования, попадают также молекулы, которые не соответствуют основной модели. Эти наблюдения могут рассматриваться как грубые ошибки. Простой пример применения RPNN в зада- чах компьютерного конструирования лекарственных препаратов приводится в [3]. Для изучения представлена группа из 18 молекул (Polychlorinated hydrocarbons (PCBs)). Каждая молекула характеризовалась по восьми параметрам (Electron- Topological Indices) и ее активностью. Все множество наблюдений Х было разбито на обучающую A и тестовую C подвыборки. Ввиду небольшого объема данных проверочная выборка не создавалась. Таким образом, выборка С не задействова- лась в процессе моделирования и использовалась только для оценки точности прогноза. Был проведен эксперимент для изучения стабильности алгоритма. Объ- 50 ISSN 0572-2691 ем обучающей выборки уменьшался последовательно с 16 молекул до 7, в то вре- мя как объем тестовой выборки увеличивался от 2 молекул до 9. Для сравнения лучшая линейная регрессия строилась с помощью эволюционного алгоритма, ис- пользующего МНК и информационный критерий Акаике (MLRA EA). Результаты представлены в табл. 4. Так как грубые ошибки не были обнаружены в выборке данных, для оценки точности моделирования в таблице приводятся величины RMSD и ,2R вычисленные традиционным образом на тестовой выборке C: ,)()/1(RMSD 2 expmod∑ −= C CC yyn , )( )()( 2 exp 2 expmod 2 exp2 ∑ ∑ ∑ µ− −−µ− = y yyy RC где µ — среднее значение. Таблица 4 Объем А )( An Объем С )( Cn RPNN MLRA EA Модель CRMSD 2 CR CRMSD 2 CR 0,18 == CA nn 14 2 7 9,51,132023,0 xxxy −+−= — — — — 2,16 == CA nn 14 2 7 9,50,131023,0 xxxy −+−= 0,93 — 1,06 — 3,15 == CA nn 14 2 7 8,58,130024,0 xxxy −+−= 1,47 0,976 2,78 0,909 4,14 == CA nn 14 2 7 9,51,133036,0 xxxy −+−= 3,90 0,792 11,55 0,128 5,13 == CA nn 14 2 7 9,53,133036,0 xxxy −+−= 3,59 0,840 6,03 0,247 6,12 == CA nn 14 2 7 9,58,133038,0 xxxy −+−= 5,19 0,625 8,80 0,048 7,11 == CA nn 14 2 7 9,58,133041,0 xxxy −+−= 5,09 0,877 8,91 0,131 … 11,7 == CA nn 14 2 7 9,57,133043,0 xxxy −+−= 4,3 0,899 — — В ходе вычислительного эксперимен- та RPNN продемонстрировал высокую вычислительную устойчивость. Одна и та же модель с небольшими вариациями в коэффициентах была найдена во всех слу- чаях. Точность прогноза ухудшилась не- значительно даже в экспериментах, где обучающая выборка содержала меньше молекул, чем тестовая, 7 и 9 соответ- ственно (рис. 3). Качество модели, полу- ченной с помощью MLRA EA, резко пада- ет, если обучающая выборка содержит менее 14 молекул. Приведенный пример реального мо- делирования, однако, не самый типичный. Часто задачи прогнозирования активности лекарственных препаратов имеют зна- чительно более высокую размерность (до 5 тыс.) при обучающей выборке, вклю- чающей несколько десятков образцов. 4.2. Моделирование болезни Паркинсона. RPNN применялся для изучения зависимости между симптомами болезни Паркинсона разной степени тяжести и наблюдаемыми характерными типами нейронной активности мозга пациентов [4]. Запись нейронной активности в субталамическом ядре 15-ти пациентов осу- ществлялась во время хирургических операций (госпиталь Университета Жозефа 80 100 120 Тестовое множество Обучающее множество 140 80 100 120 140 Рис. 3 Проблемы управления и информатики, 2008, № 2 51 Фурье, Гренобль, Франция) по имплантации электродов в субталамическое ядро для высокочастотной стимуляции, имеющей целью лечение болезни Паркинсо- на. Множество параметров, описывающих состояние пациента [11], получено в результате нейрологического обследования. Оно включает в себя тремор покоя (rest tremor — RT) и движения (action tremor — AT), регидность (RG), акинезию (AK). Каждый симптом оценивался по единой шкале, принятой в нейрологии. Нейронная активность более тысячи нейронов была проанализирована [11] для того, чтобы определить процент нейронов, демонстрирующих различные типы нейронной активности для каждого пациента. А именно, осциляции в характер- ной полосе [1–2 Гц], [4–6 Гц] и [8–12 Гц], процент синхронно действующих нейронов (Syn), процент нейронов, для которых наблюдается пачечная активность (bursting — Bst) —перемежающиеся периоды молчания и высокой активности нейронов. Использован в качестве параметра также средний показатель активно- сти нейрона (firing rate — FR). Моделирование позволило выявить зависимость симптомов заболевания и типов наблюдаемой электрической нейронной активно- сти. Схема найденных зависимостей приведена на рис. 4. Результаты получены с использованием PNN Discovery Client 1.3, www.pnn.com.ua. Проведенный анализ дает дополнительные возможности для изучения функционирования отделов моз- га, связанных с моторной деятельностью, и, в частности, для изучения механиз- мов развития болезни Паркинсона и методов ее лечения с помощью высокоча- стотной электрической стимуляции. RT AT RG AK Bst FR Syn 8–12 4–6 Рис. 4 Заключение В рамках итерационного алгоритма МГУА реализована техника робастного параметрического и структурного оценивания. Предложенная структура алгорит- ма обеспечивает вычислительную устойчивость и позволяет объединить преиму- щества итерационного и комбинаторного алгоритмов МГУА. В ходе вычисли- тельного эксперимента показано, что использование М-оценок параметров пере- ходной функции и робастных критериев обеспечивает устойчивое к грубым ошибкам оценивание параметров результирующей модели и восстановление ее структуры алгоритмом МГУА-PNN. На модельном примере алгоритм обеспечил как параметрическую, так и структурную сходимость к истиной модели (полином четвертого порядка) независимо от нарастающей дисперсии грубых ошибок, ко- торые составили 20 % выборки данных. Алгоритм позволил также детектировать грубые ошибки в данных наблюдений и восстановить с хорошей точностью неза- шумленные данные. Результаты настоящей публикации могут использоваться для аналитического исследования внутренней сходимости алгоритма в случае приме- нения М-оценок, которая обеспечивает также структурную сходимость в случае МГУА-PNN. Интересным и перспективным представляется также дальнейшее внедрение современных средств прикладной статистики в технологию МГУА. http://www.pnn.com.ua/ 52 ISSN 0572-2691 Т.І. Аксьонова РОБАСТНЕ МОДЕЛЮВАННЯ ЗА ДАНИМИ СПОСТЕРЕЖЕНЬ ІЗ ЗАСТОСУВАННЯМ ПОЛІНОМІАЛЬНОГО ІТЕРАЦІЙНОГО АЛГОРИТМУ МГУА Представлено поліноміальний ітераційний алгоритм, що реалізує техніку ро- бастного параметричного і структурного оцінювання в рамках ідеології МГУА. Дворівнева структура нейромережі з контролем складності моделі забезпечує обчислювальну стабільність алгоритму МГУА-PNN. Наведено обчислювальний експеримент, що демонструє параметричну і структурну стійкість до грубих помилок спостережень, а також приклади розв’язання задач моделювання у фармакології та медицині. T.I. Aksenova ROBUST MODELING FROM EXPERIMENTAL DATA USING POLYNOMIAL ITERATIVE GMDH ALGORITHM Polynomial iterative algorithm for robust parameter and structure estimation within the framework of the GMDH technique is presented. A two-level neural network structure with the controlled model complexity improves the computational stability of the GMDH-PNN algorithm. Computational experiments demonstrating the para- metrical and structural robustness in presence of outliers as well as examples of applications in pharmacology and medicine are provided. 1. Ивахненко А.Г., Степашко В.С. Помехоустойчивость моделирования. — Киев : Наук. дум- ка, 1985. — 216 с. 2. Ивахненко А.Г., Юрачковский Ю.П. Моделирование сложных систем по эксперименталь- ным данным. — М. : Радио и связь, 1987. — 120 с. 3. Aksenova T.I., Volkovych V.V., Tetko I.V. Robust polynomial neural networks in quantative struc- ture activity relationship studies // SAMS. — 2003. — 43. — P. 1331–1341. 4. Aksenova T., Volkovich V., Villa A.E.P. Robust structural modeling and outlier detection with GMDH-type polynomial neural networks // LNCS. — 2005. — 3697. — P. 881–886. 5. Хьюбер П. Робастность в статистике. — М. : Мир, 1984. — 304 с. 6. Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. Подход на ос- нове функций влияния. — М. : Мир, 1989. — 512 с. 7. Вучков И., Бояджиева Л. Солакова Е. Прикладной линейный регрессионный анализ. — М. : Финансы и статистика, 1987. — 239 с. 8. Robust regression and outlier detection with the ROBUSTREG Procedure Colin Chen, SUGI Proceedings, 2002. 9. Aksenova T.I, Tetko I.V., Volkovich V.V. GMDH-type neural network in quantative-structure ac- tivity relationship studies on the Internet // Modelling and simulation 2001(ESM2001), 15th European Simulation Multiconference, Prague. — P. 685–689 10. The polynomial neural network (PNN) : Applications in environmental and toxicological studies / T.I. Aksenova, I.V. Tetko, V.V. Volkovich, S. Puri, J.A. Chickos, W.J. Welsh // Issues and Ap- plications in Toxicology and Risk Assessment, April 2001, Fairborn, Ohio — P. 92. 11. Unsupervised spike sorting of extracellular electrophysiological recording in subthalamic nucleus parkinsonian patients / O.K. Chibirova, T.I. Aksenova, A.-L. Benabid, S. Chabardes, S. Larouche, J. Rouat, A.E.P. Villa // Biosystems. — 2005. — 79. — P. 59–171. Получено 25.12.2007 http://www2.sas.com/proceedings/sugi27/p265-27.pdf Введение 1. Постановка задачи 2. Методы 3. Результаты тестирования на искусственных данных 4. Примеры применения МГУА-PNN в медицине и фармакологии Заключение