Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА
Представлено поліноміальний ітераційний алгоритм, що реалізує техніку робастного параметричного і структурного оцінювання в рамках ідеології МГУА. Дворівнева структура нейромережі з контролем складності моделі забезпечує обчислювальну стабільність алгоритму МГУА-PNN. Наведено обчислювальний експерим...
Saved in:
| Date: | 2008 |
|---|---|
| Main Author: | |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2008
|
| Series: | Проблемы управления и информатики |
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/209120 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА / Т.И. Аксенова // Проблемы управления и информатики. — 2008. — № 2. — С. 42-52. — Бібліогр.: 11 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-209120 |
|---|---|
| record_format |
dspace |
| spelling |
nasplib_isofts_kiev_ua-123456789-2091202025-11-15T01:00:43Z Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА Робастне моделювання за даними спостережень із застосуванням поліноміального ітераційного алгоритму МГУА Robust modeling from experimental data using polynomial iterative GMDH algorithm Аксенова, Т.И. Развитие и исследование алгоритмов МГУА Представлено поліноміальний ітераційний алгоритм, що реалізує техніку робастного параметричного і структурного оцінювання в рамках ідеології МГУА. Дворівнева структура нейромережі з контролем складності моделі забезпечує обчислювальну стабільність алгоритму МГУА-PNN. Наведено обчислювальний експеримент, що демонструє параметричну і структурну стійкість до грубих помилок спостережень, а також приклади розв’язання задач моделювання у фармакології та медицині. Polynomial iterative algorithm for robust parameter and structure estimation within the framework of the GMDH technique is presented. A two-level neural network structure with the controlled model complexity improves the computational stability of the GMDH-PNN algorithm. Computational experiments demonstrating the parametrical and structural robustness in presence of outliers as well as examples of applications in pharmacology and medicine are provided. 2008 Article Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА / Т.И. Аксенова // Проблемы управления и информатики. — 2008. — № 2. — С. 42-52. — Бібліогр.: 11 назв. — рос. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/209120 621.513 10.1615/JAutomatInfScien.v40.i3.30 ru Проблемы управления и информатики application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| language |
Russian |
| topic |
Развитие и исследование алгоритмов МГУА Развитие и исследование алгоритмов МГУА |
| spellingShingle |
Развитие и исследование алгоритмов МГУА Развитие и исследование алгоритмов МГУА Аксенова, Т.И. Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА Проблемы управления и информатики |
| description |
Представлено поліноміальний ітераційний алгоритм, що реалізує техніку робастного параметричного і структурного оцінювання в рамках ідеології МГУА. Дворівнева структура нейромережі з контролем складності моделі забезпечує обчислювальну стабільність алгоритму МГУА-PNN. Наведено обчислювальний експеримент, що демонструє параметричну і структурну стійкість до грубих помилок спостережень, а також приклади розв’язання задач моделювання у фармакології та медицині. |
| format |
Article |
| author |
Аксенова, Т.И. |
| author_facet |
Аксенова, Т.И. |
| author_sort |
Аксенова, Т.И. |
| title |
Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА |
| title_short |
Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА |
| title_full |
Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА |
| title_fullStr |
Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА |
| title_full_unstemmed |
Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА |
| title_sort |
робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма мгуа |
| publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
| publishDate |
2008 |
| topic_facet |
Развитие и исследование алгоритмов МГУА |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/209120 |
| citation_txt |
Робастное моделирование по данным наблюдений с применением полиномиального итерационного алгоритма МГУА / Т.И. Аксенова // Проблемы управления и информатики. — 2008. — № 2. — С. 42-52. — Бібліогр.: 11 назв. — рос. |
| series |
Проблемы управления и информатики |
| work_keys_str_mv |
AT aksenovati robastnoemodelirovaniepodannymnablûdenijsprimeneniempolinomialʹnogoiteracionnogoalgoritmamgua AT aksenovati robastnemodelûvannâzadanimispostereženʹízzastosuvannâmpolínomíalʹnogoíteracíjnogoalgoritmumgua AT aksenovati robustmodelingfromexperimentaldatausingpolynomialiterativegmdhalgorithm |
| first_indexed |
2025-11-24T05:17:33Z |
| last_indexed |
2025-11-24T05:17:33Z |
| _version_ |
1849647644717088768 |
| fulltext |
© Т.И. АКСЕНОВА, 2008
42 ISSN 0572-2691
РАЗВИТИЕ И ИССЛЕДОВАНИЕ АЛГОРИТМОВ МГУА
УДК 621.513
Т.И. Аксенова
РОБАСТНОЕ МОДЕЛИРОВАНИЕ
ПО ДАННЫМ НАБЛЮДЕНИЙ
С ПРИМЕНЕНИЕМ ПОЛИНОМИАЛЬНОГО
ИТЕРАЦИОННОГО АЛГОРИТМА МГУА
Введение
Метод группового учета аргументов (МГУА) [1] является эффективным
средством восстановления зависимостей по экспериментальным данным, осу-
ществляет одновременный синтез структуры модели и оценку ее параметров. Се-
мейство итерационных алгоритмов МГУА (многорядный итерационный алго-
ритм, МИА МГУА) заслуженно пользуется известностью благодаря эффективно-
сти при моделировании сложных систем, особенно систем большой размерности.
Итерационные алгоритмы МГУА могут быть формализованы в виде итерацион-
ной процедуры [2]. Такая формализация опирается на понятие структуры модели,
определенное как параметрическое семейство. Задача поиска наилучшей модели
формулирутся как задача оптимизации в классе линейных по параметру структур,
определенном с помощью заданного линейного по параметру преобразования.
В полиномиальных итерационных алгоритмах МГУА используются линейные
или полиномиальные функции преобразования. Другая общепринятая формали-
зация итерационных алгоритмов МГУА в виде искусственной нейронной сети ис-
пользуется в данной статье в силу большей иллюстративности. Мы будем интер-
претировать итерационный алгоритм МГУА как искусственную нейросеть типа
feed forward, перцептрон, передаточные функции которого — полиномы невысо-
кого порядка, имеющие небольшое количество входов и один выход. Их коэффи-
циенты определяются на основе регрессионной техники.
В статье представлен полиномиальный итерационный алгоритм МГУА, реа-
лизующий робастную к грубым ошибкам наблюдений структурную и параметри-
ческую идентификацию модели. Представлена двухуровневая структура нейросе-
ти с контролем сложности модели (число членов и порядок полинома), которая
обеспечивает вычислительную стабильность алгоритма (алгоритм МГУА-PNN,
Polynomial Neural Network). Реализована техника робастного параметрического и
структурного оценивания в рамках идеологии МГУА [3, 4]. Вычислительный экс-
перимент демонстрирует успешное структурное и параметрическое восстановле-
ние М-регрессии при увеличивающейся дисперсии грубых ошибок. Приведены
примеры решения задач восстановления зависимостей в фармакологии (создание
новых лекарственных препаратов на основе прогнозирования их эффективности)
и в медицине.
1. Постановка задачи
Рассматривается стандартная задача восстановления множественной регрес-
сии по экспериментальным данным. Наблюдается вектор T
21 ),,,( mxxx =x не-
Проблемы управления и информатики, 2008, № 2 43
зависимых переменных, а также зависимая переменная y. Ставится задача отыска-
ния полиномиальной зависимости ,)( ζ+= xfy оптимальной в смысле некоторого
критерия регулярности (CR) по результатам наблюдений вектора независимых пе-
ременных ,}{ ,1 nii == xX ,)(: ζXYYζ += E образующих матрицу ,),,( TTT
1 nxxX =
а также вектора наблюдений переменной: .),,,(: T
21 nyyyy =Y Задача включа-
ет в себя поиск структуры модели (вид полинома) и оценку ее параметров.
Задача рассматривается при наличии грубых ошибок наблюдений. А именно,
предполагается, что случайные величины ,,,1, nii =ζ определенные как эле-
менты вектора ,)(: ζXYYζ += E являются независимыми и одинаково распре-
деленными с плотностью распределения, определяемой моделью грубых ошибок
),()()1()( iii hP ξδ+ξϕδ−=ξ .))((1
iii
b
i yEy x−
σ
=ξ (1)
Здесь )(ξϕ — плотность нормального распределения ;)1,0(N )(ξh и δ — плот-
ность и уровень грубых ошибок соответственно; 2
bσ — дисперсия базового рас-
пределения. В соответствии с этой моделью )1( δ− часть случайных величин iξ
распределена нормально в соответствии с распределением ).,0( bN σ Остальная
часть следует распределению грубых ошибок. Плотность распределения )(ξh
симметрична относительно оси y. Например грубые ошибки следуют нормально-
му распределению ).,0( outlierσN При этом 2
outlierσ существенно превышает дис-
персию базового распределения .2
bσ
Известно, что традиционно используемый для оценки параметров, в том чис-
ле и в МИА МГУА, метод наименьших квадратов (МНК) чувствителен к наруше-
нию предположения о нормальности. В случае распределений с тяжелыми хво-
стами, например (1), его эффективность резко падает [5]. Для задачи оценивания
параметров линейной регрессии в этом случае предложены и исследованы методы
робастной параметрической идентификации с использованием неквадратичной
функции ошибки, из которых наиболее известными являются М-оценки Хубе-
ра [5]. Предложены также робастные варианты критериев выбора моделей и ста-
тистических критериев качества. В данной работе предлагается использовать
принципы робастного оценивания в рамках полиномиального итерационного ал-
горитма МГУА, который совмещает таким образом преимущества МГУА и ро-
бастного оценивания и позволяют решать задачу идентификации модели при
наличии грубых ошибок в исходных данных.
2. Методы
В качестве базового итерационного алгоритма МГУА использован алгоритм
МГУА-PNN, представленный в [3, 4]. Он включает в себя принципы, предложен-
ные в [2], а также двухуровневую структуру нейросети, основанную на контроле
сложности. Подробнее алгоритм представлен ниже.
В качестве методов рабастного оценивания использованы М-оценки [5] и ос-
нованные на них критерии выбора модели, оценки качества модели и оценки зна-
чимости коэффициентов регрессии. М-оценки параметров множественной регрес-
сии i
p
j
jiji fy ξ+β= ∑
=1
получаются в результате минимизации функционала
min,])/([
1
→σ+σρ∑
=
b
n
i
bi hr (2)
44 ISSN 0572-2691
где ;
1
∑
=
β−=
p
j
jijii fyr .0>h Минимизация осуществляется по вектору парамет-
ров T
21 ),,,( mβββ= β и .bσ Функция )(⋅ρ определяет свойства оценок пара-
метров. Для всякой неотрицательной, симметричной, дважды дифференцируемой
выпуклой ),(⋅ρ 0)0( =ρ оценки, найденные как решение задачи (2), являются не-
смещенными, состоятельными и имеют асимптотически нормальное распределе-
ние. Определить вид функции )(⋅ρ можно, минимизировав дисперсию оценок в
некоторых предположениях о грубых ошибках. Наиболее известный результат —
подход Хубера, где )(⋅ρ выбирается таким образом, чтобы минимизировать дис-
персию при наиболее неблагоприятном распределении грубых ошибок
>−
≤
=ρ
, при(1/2)
, при)2/1(
)( 2
2
CzCzC
Czz
z (3)
где константа C определяется интенсивностью грубых ошибок из соотношения
.)2/(exp)2/2()2/(exp2/2)1/(1 2
0
2 CCdzz
C
−π+−π=δ− ∫ (4)
В такой постановке задачи оптимальная функция не зависит от конкретного
вида распределения грубых ошибок, а только от их интенсивности δ, которую
можно рассматривать как относительную долю грубых ошибок во всей совокуп-
ности. В качестве константы 0>h в (2) используется, например, величина, обес-
печивающая несмещенную оценку параметров в случае нормально распределен-
ных грубых ошибок [6]. Другие весовые функции )(⋅ρ также широко применяют-
ся для получения М-оценок. Для численной оптимизации (2) использован
итерационный алгоритм, применимый для весовой функции произвольного ви-
да [7]. Зафиксированная весовая функция используется в дальнейшем при вычис-
лении всех критериев — выбора модели, оценки качества модели и значимости
коэффициентов.
В целом робастный полиномиальный итерационный алгоритма (робастный
PNN-МГУА) может быть представлен следующим образом.
1. Расширенный вектор входных переменных —
,),,,,,( T
2121 ++= mmm xxxxx x ,11 =+mx ,02 =+mx
доступен на каждом слое нейронной сети.
2. Полиномиальная передаточная функция вида
,,,1,,,),,( mkjiwbwawwwwg kjikji =+= (5)
использует триплет входных переменных ),,,( kji www которые являются выход-
ными сигналами предыдущего слоя или принадлежат вектору входных перемен-
ных. Использование дополнительных переменных 0,1 21 == ++ mm xx вводит в
рассмотрение нейроны с одним и двумя входами, а также линейные и полиноми-
альные преобразования, в том числе со свободным членом.
3. Геделевская схема кодирования [2] использована для преобразования ре-
зультирующей нейросети в параметрическую форму полиномиальной модели.
Напомним, что геделевская схема кодирования ставит каждой переменной ix в
соответствие простое число .iq Таким образом каждый одночлен r
r
k
i
k
i
k
i xxx
2
2
1
1
Проблемы управления и информатики, 2008, № 2 45
получает в качестве кода число .2
2
1
1
r
r
k
i
k
i
k
ii qqqG = Весь полином кодируется век-
тором геделевских кодов. Для приведения подобных членов полинома достаточно
проверить наличие совподающих элементов геделевского вектора. Полином ко-
дируется единственным образом и может быть раскодирован с помощью разло-
жения на простые множители. Геделевские коды не являются единственно воз-
можными и принципиальными для МГУА-PNN.
4. Фиксированное число лучших моделей передается на следующий слой в
соответствии с критерием (или критериями).
5. Отличительной чертой МГУА-PNN является структура нейросети, осно-
ванная на контроле сложности. Геделевские коды выходных сигналов каждого
слоя предоставляют информацию о сложности текущей модели. Под сложностью
понимается вектор
,),( Tcpowcomplexity = (6)
где c — число слагаемых (одночленов), а pow — максимальная степень одночле-
нов. Таким образом второй элемент вектора сложности, число одночленов, равен
числу ненулевых элементов геделевского вектора. Для вычисления первого эле-
мента используется тот факт, что степень суммы — это максимальная степень
суммиремых полиномов, а степенью произведения является сумма степеней.
В частности, в случае использования преобразования (5) pow вычисляется по
формуле
)}.()(),(max{)),,(( kjikji wpowwpowwpowwwwgpow += (7)
Аналогично степень текущего полинома можно вычислить для любой другой
полиномиальной ).(⋅g Отметим, что вместо геделевской любая другая схема ко-
дирования, предоставляющая информацию о сложности в смысле (6), может ис-
пользоваться в МГУА-PNN.
Информация о сложности текущей модели позволяет производить поиск мо-
дели в класе полиномов iP заданной сложности ),,( cpG ,)( pPpow i < .)( cPc i <
Такая возможность использована при организации двухуровневой нейросети. А имен-
но, на верхнем уровне реализуется схема комбинаторного алгоритма МГУА —
последовательный поиск наилучшей модели в классе полиномов ),( cpowG за-
данной сложности:
),,1( ... )2,1( )1,1()1,1( maxcGGGcpowG ⇒⇒⇒===
).,( ... )2,( )1,(
),,2( )2,2( )1,2()1,2(
maxmaxmaxmax
max
cpowGpowGpowG
cGGGcpowG
⇒⇒⇒
⇒⇒⇒===
Для поиска лучшей модели в классе ),( jiG используется полиномиальный
итерационный алгоритм, определенный выше в (1)–(4). В качестве критерия ис-
пользуется «внутренний» критерий остаточной суммы квадратов (RSS). Для пере-
хода ),1,( ),( +⇒ jiGjiG а также для сравнения моделей используются «внеш-
ние» критерии выбора модели. Критерии описаны ниже в п. 7. Общая схема алго-
ритма показана на рис. 1.
В случае использования МНК к каждому из блоков поиска лучшей модели в
классе ),( jiG применимы результаты исследования внутренней сходимости ал-
горитмов МГУА [2]. Если каждый из блоков обеспечивает сходимость к МНК-
оценкам соответствующей регрессии, то алгоритм в целом приведет в асимтотике
46 ISSN 0572-2691
к результатам полного перебора, осуществленного на основе применения соответ-
ствующих критериев выбора моделей. Таким образом, алгоритм объединяет пре-
имущества итерационного и комбинаторного алгоритмов МГУА.
6. В (5) параметры оцениваются с помощью регрессионной техники. В част-
ности, в робастном алгоритме использованы М-оценки параметров (2). Реализован
спектр возможных функций весов [8].
x1
CRlocal → min
...
xn
«Внутренняя» сходимость
c = 1, pow = 1 c = 2, pow = 1 c = 3, pow = 1
«Внутренняя» сходимость
CRlocal → min CRlocal → min
x1
...
xn
x1
...
xn
• • •
Рис. 1
7. Робастные аналоги критериев, в том числе основанные на разбиении вы-
борки данных на обучающую A и проверочную B, использованы для восстановле-
ния М-регрессии. В качестве «внутреннего» использован робастный критерий RSS
.)ˆ/(
ˆ
RSS
2
bi
Ai
b r
cn
σρ
−
σ
= ∑
∈
(8)
Для выбора лучшей М-регрессии мы привлекали робастные критерии выбора
модели. Предложены и исследованы робастные информационные критерии.
Например, робастный вариант критерия Акаике имеет вид [8]
.)ˆ/(2AICR
1
cr b
n
i
i α+σρ= ∑
=
(9)
Следуя традициям МГУА, мы использовали критерии выбора модели, осно-
ванные на разбиении выборки данных ,BAX ∪= в частности робастный крите-
рий регулярности ),ˆ/(ˆAR 2
Ai
Bi
A r σρσ= ∑
∈
где ,ˆ
1
∑
=
β−=
c
j
jijii fyr вектор парамет-
ров, причем ,)ˆ,,ˆ,ˆ(ˆ T
21 cA βββ=β и Aσ̂ оцениваются на A.
8. Робастные критерии качества модели [8] вычисляются на любом из под-
множеств :,, XBAZ =
,
)ˆ/)ˆ((
)ˆ/()ˆ/)ˆ((
2
∑
∑∑
σµ−ρ
σρ−σµ−ρ
=
Z
AAi
Z
Ai
Z
AAi
Z y
ry
R ,)ˆ/(ˆ2 2 ∑ σρσ=
Z
AiAZ rD (10)
где Aµ̂ — робастная оценка среднего, Aσ̂ — оценка bσ на A.
9. Робастный вариант критерия Фишера (ρ-критерий) и робастный 2
nR ис-
пользуются для выявления незначимых членов результирующей модели. Крите-
рии разработаны в [6] для проверки канонической гипотезы 0:0 =βiH для моде-
ли шума с грубыми ошибками (1).
Проблемы управления и информатики, 2008, № 2 47
10. Остатки ir результирующей модели позволяют детектировать грубые
ошибки [8]:
σ≤
=
случае.противномв1
,ˆесли,0 bi kr
outlier (11)
Таким образом, разработанный алгоритм объединяет преимущества итераци-
онного и комбинаторного алгоритмов МГУА и дает возможность применить из-
вестные инструменты робастного регрессионного ангализа в рамках МГУА. От-
метим, что теоретические и численные исследования внутренней сходимости
МИА МГУА проведены при условии использования МНК. Для тестирования
структурной и параметрической сходимости алгоритма МГУА-PNN с М-оценка-
ми проделаны вычислительные эксперименты, представленные ниже.
3. Результаты тестирования на искусственных данных
Для вычислительного эксперимента использованы вектор независимых пере-
менных T
521 ),,,( xxx =x и полином четвертой степени
,0,10,10 3
51 ξ+⋅⋅+= xxy (12)
который ранее использовался для тестирования итерационных алгоритмов МГУА.
Число наблюдений выбрано .15=n Соответствующая матрица наблюдений =X
]155)[( ×= ijx получена согласно равномерному распределению на интервале ].10,1[
Для вычисления выходной переменной двадцать реализаций случайной величины ξ
были получены в соответствии с моделью (1) для каждой комбинации парамет-
ров: a) ,10=σb ;0=δ b) ,10=σb ,2,0=δ ;1000out =σ c) ,10=σb ,2,0=δ
;2000out =σ d) ,10=σb ,2,0=δ .3000out =σ Здесь в качестве распределения
грубых ошибок )(ξh используется нормальное распределение, .2
out
2 σ=σ Уро-
вень грубых ошибок принят 2,0=δ и рассматривается как вероятность появления
грубых ошибок.
Пример результатов численного моделирования для параметров ,10=σb
,2,0=δ 3000out =σ приведен на рис. 2. Три грубые ошибки среди двадцати
наблюдений успешно детектированы, восстановлена истинная структура модели,
параметр, соответствующий одночлену четвертой степени, восстановлен с точно-
стью до третьего знака в случае применения робастного МГУА-PNN (см. рис. 2, a).
Структура модели утеряна в случае использования МНК (см. рис. 2, б).
Реальные данные
М
од
ел
ьн
ы
е
да
нн
ы
е
3
51 )(99,02,12 xxy +=
Реальные данные
М
од
ел
ьн
ы
е
да
нн
ы
е
4
51
2
5
2
4 )(17,0)(6,17)(3,14 xxxxy +⋅=
а б
Рис. 2
48 ISSN 0572-2691
Для демонстрации результатов структурного моделирования для одночле-
нов модели (12) вычислялся структурный индекс: ,1=StrInd если одночлен
представлен в модели, и 0=StrInd в противном случае. Так же были проиндек-
сированы значимые и незначимые в соответствии с ρ-критерием избыточные
члены уравнения. Средние значения структурных индексов для одночленов моде-
ли ,0,10,10 3
51 ξ+⋅⋅+= xxy а также посторонних значимых и незначимых членов
для каждой серии из двадцати экспериментов представлены в табл. 1.
Таблица 1
Вид
одночлена
МНК, 0=δ RPNN, 2,0=δ PNN с МНК, 2,0=δ
0=σb 10=σb
10=σb 10=σb
1000out =σ 2000out =σ 3000out =σ 1000out =σ 2000out =σ 3000out =σ
константа 1 0,76 0,47 0,53 0,47 0,07 0,21 0,07
3
51 xx ⋅ 1 1 1 1 1 0,8 0,5 0,33
избы-
точ-
ный
незна-
чимый 0 0,65 0,6 0,53 0,6 0,4 0,64 0,33
значи-
мый 0 0 0 0 0 1,33 0,71 1,6
Робастный PNN (RPNN) демонстрирует стабильные результаты структурного
синтеза независимо от дисперсии грубых ошибок. Основной член 3
51 xx ⋅ детекти-
рован во всех без исключения случаях. Ни в одном из экспериментов не зафикси-
рованы значимые дополнительные члены. PNN с МНК теряет в половине случае
структуру модели уже при .2000out =σ
В табл. 2 приведены результаты, характеризующие качество оценки парамет-
ров алгоритмами PNN. Для вычисления среднего и дисперсии оценки параметра
соответствующего одночлена использованы те вычислительные эксперименты,
где одночлен успешно детектирован и представлен в результирующей модели.
Приведены также полученные оценки дисперсии базового распределения .bσ
Таблица 2
Вид
одночлена
Точные
значе-
ния
МНК,
0=δ
10=σb
RPNN, 2,0=δ PNN с МНК, 2,0=δ
10=σb 10=σb
σout = 1000 σout = 2000 σout = 3000 σout = 1000 σout = 2000 σout = 3000
конс-
танта
средняя 10,0 11,69 10,86 10,54 10,53 687,00 127,50 247,29
диспер-
сия — 2,59 1,96 1,90 1,88 — 1041,41 —
3
51 xx ⋅
средняя 1,0 0,997 0,9996 0,9992 0,9996 1,0541 1,1104 1,0673
диспер-
сия — 0,004 0,003 0,003 0,003 0,1516 0,6058 0,2412
bσ
средняя 10,0 8,25 14,50 12,53 13,21 304,62 537,20 785219
диспер-
сия 1,99 6,93 4,90 5,64 197,60 261,58 758152,26
Точность оценок коэффициентов с использованием RPNN не падает при уве-
личении дисперсии грубых ошибок )3000 ,2000 ,1000 ,2,0( =σ=δ по сравнению с
оценками, полученными по МНК в отсутствии грубых ошибок ).0( =δ Свобод-
ный член оценивается с точностью до первого знака, а коэффициент одночлена
3
51 xx ⋅ — с точностью до четвертого знака после запятой независимо от диспер-
сии грубых ошибок. Качество оценивания параметров, которое обеспечивает PNN
с МНК при наличии грубых ошибок, значительно ниже.
Табл. 3 представляет качество аппроксимации незашумленных, точных дан-
ных модельными.
Проблемы управления и информатики, 2008, № 2 49
∑ −= ,)(1 2
exactmod yy
n
MSD
.
)(
)()(
2
exactexact
2
exactmod
2
exactexact2
∑
∑ ∑
µ−
−−µ−
=
y
yyy
R (13)
Здесь ,0,10,10 3
51exact xxy ⋅⋅+= exactµ — соответствующее среднее значение.
Независимо от возрастающей дисперсии шума, RPNN позволил восстановить не-
наблюдаемые незашумленные данные с хорошей точностью, коэффициент корре-
ляции (13) равен единице с точностью до четвертого знака.
Таблица 3
Вид
критерия
МНК,
0=δ RPNN, 2,0=δ PNN с МНК, 2,0=δ
10=σb
10=σb 10=σb
1000out =σ 2000out =σ 3000out =σ 1000out =σ 2000out =σ 3000out =σ
MSD
средняя 5,49 6,13 5,83 5,96 272,43 447,79 711,28
диспер-
сия 1,82 3,08 2,97 3,12 139,11 159,32 309,02
2R
средняя 0,99996 0,99995 0,99996 0,99995 0,915 0,789 0,586
диспер-
сия 0,00002 0,00004 0,00004 0,00004 0,073 0,164 0,340
Таким образом, в рамках проведенного вычислительного эксперимента ро-
бастный МГУА-PNN демонстрирует параметрическую и в большинстве случаев
структурную сходимость. Использование М-оценок параметров переходной
функции (5) и робастных критериев обеспечивает устойчивое к грубым ошибкам
оценивание параметров результирующей регрессионной модели и восстановление
ее структуры. Алгоритм позволяет также детектировать грубые ошибки наблюде-
ний и обеспечивает их фильтрацию.
4. Примеры применения МГУА-PNN в медицине и фармакологии
4.1. Компьютерное конструирование лекарственных препаратов. RPNN
используется наряду с другими средствами для компьютерного конструирования
новых лекарственных препаратов (отделение фармакологии, Медицинская школа
Роберт Вуд Джонсон, США) [3, 9, 10]. Прогнозирование активности возможных
лекарственных препаратов позволяет существенно сократить сроки и уменьшить
стоимость их разработки. Для такого исследования используется группа молекул
известных лекарственных препаратов, имеющих сходный лечебный эфект. Одной
из основных характеристик является форма молекулы. Поэтому для компьютер-
ного моделирования используется пространство признаков, кодирующее электри-
ческое поле молекулы и другие ее характеристики. Построенная модель активно-
сти используется затем для поиска перспективных веществ в существующих базах
данных. В группу препаратов, используемую для моделирования, попадают также
молекулы, которые не соответствуют основной модели. Эти наблюдения могут
рассматриваться как грубые ошибки. Простой пример применения RPNN в зада-
чах компьютерного конструирования лекарственных препаратов приводится в [3].
Для изучения представлена группа из 18 молекул (Polychlorinated hydrocarbons
(PCBs)). Каждая молекула характеризовалась по восьми параметрам (Electron-
Topological Indices) и ее активностью. Все множество наблюдений Х было разбито
на обучающую A и тестовую C подвыборки. Ввиду небольшого объема данных
проверочная выборка не создавалась. Таким образом, выборка С не задействова-
лась в процессе моделирования и использовалась только для оценки точности
прогноза. Был проведен эксперимент для изучения стабильности алгоритма. Объ-
50 ISSN 0572-2691
ем обучающей выборки уменьшался последовательно с 16 молекул до 7, в то вре-
мя как объем тестовой выборки увеличивался от 2 молекул до 9. Для сравнения
лучшая линейная регрессия строилась с помощью эволюционного алгоритма, ис-
пользующего МНК и информационный критерий Акаике (MLRA EA). Результаты
представлены в табл. 4. Так как грубые ошибки не были обнаружены в выборке
данных, для оценки точности моделирования в таблице приводятся величины
RMSD и ,2R вычисленные традиционным образом на тестовой выборке C:
,)()/1(RMSD 2
expmod∑ −=
C
CC yyn
,
)(
)()(
2
exp
2
expmod
2
exp2
∑
∑ ∑
µ−
−−µ−
=
y
yyy
RC
где µ — среднее значение.
Таблица 4
Объем А )( An
Объем С )( Cn
RPNN MLRA EA
Модель CRMSD 2
CR
CRMSD 2
CR
0,18 == CA nn
14
2
7 9,51,132023,0 xxxy −+−= — — — —
2,16 == CA nn 14
2
7 9,50,131023,0 xxxy −+−= 0,93 — 1,06 —
3,15 == CA nn
14
2
7 8,58,130024,0 xxxy −+−= 1,47 0,976 2,78 0,909
4,14 == CA nn
14
2
7 9,51,133036,0 xxxy −+−= 3,90 0,792 11,55 0,128
5,13 == CA nn
14
2
7 9,53,133036,0 xxxy −+−= 3,59 0,840 6,03 0,247
6,12 == CA nn
14
2
7 9,58,133038,0 xxxy −+−= 5,19 0,625 8,80 0,048
7,11 == CA nn
14
2
7 9,58,133041,0 xxxy −+−= 5,09 0,877 8,91 0,131
…
11,7 == CA nn
14
2
7 9,57,133043,0 xxxy −+−= 4,3 0,899 — —
В ходе вычислительного эксперимен-
та RPNN продемонстрировал высокую
вычислительную устойчивость. Одна и та
же модель с небольшими вариациями в
коэффициентах была найдена во всех слу-
чаях. Точность прогноза ухудшилась не-
значительно даже в экспериментах, где
обучающая выборка содержала меньше
молекул, чем тестовая, 7 и 9 соответ-
ственно (рис. 3). Качество модели, полу-
ченной с помощью MLRA EA, резко пада-
ет, если обучающая выборка содержит
менее 14 молекул.
Приведенный пример реального мо-
делирования, однако, не самый типичный.
Часто задачи прогнозирования активности лекарственных препаратов имеют зна-
чительно более высокую размерность (до 5 тыс.) при обучающей выборке, вклю-
чающей несколько десятков образцов.
4.2. Моделирование болезни Паркинсона. RPNN применялся для изучения
зависимости между симптомами болезни Паркинсона разной степени тяжести и
наблюдаемыми характерными типами нейронной активности мозга пациентов [4].
Запись нейронной активности в субталамическом ядре 15-ти пациентов осу-
ществлялась во время хирургических операций (госпиталь Университета Жозефа
80 100 120
Тестовое множество
Обучающее множество
140
80
100
120
140
Рис. 3
Проблемы управления и информатики, 2008, № 2 51
Фурье, Гренобль, Франция) по имплантации электродов в субталамическое ядро
для высокочастотной стимуляции, имеющей целью лечение болезни Паркинсо-
на. Множество параметров, описывающих состояние пациента [11], получено в
результате нейрологического обследования. Оно включает в себя тремор покоя
(rest tremor — RT) и движения (action tremor — AT), регидность (RG), акинезию
(AK). Каждый симптом оценивался по единой шкале, принятой в нейрологии.
Нейронная активность более тысячи нейронов была проанализирована [11] для
того, чтобы определить процент нейронов, демонстрирующих различные типы
нейронной активности для каждого пациента. А именно, осциляции в характер-
ной полосе [1–2 Гц], [4–6 Гц] и [8–12 Гц], процент синхронно действующих
нейронов (Syn), процент нейронов, для которых наблюдается пачечная активность
(bursting — Bst) —перемежающиеся периоды молчания и высокой активности
нейронов. Использован в качестве параметра также средний показатель активно-
сти нейрона (firing rate — FR). Моделирование позволило выявить зависимость
симптомов заболевания и типов наблюдаемой электрической нейронной активно-
сти. Схема найденных зависимостей приведена на рис. 4. Результаты получены с
использованием PNN Discovery Client 1.3, www.pnn.com.ua. Проведенный анализ
дает дополнительные возможности для изучения функционирования отделов моз-
га, связанных с моторной деятельностью, и, в частности, для изучения механиз-
мов развития болезни Паркинсона и методов ее лечения с помощью высокоча-
стотной электрической стимуляции.
RT AT RG AK
Bst FR
Syn
8–12
4–6
Рис. 4
Заключение
В рамках итерационного алгоритма МГУА реализована техника робастного
параметрического и структурного оценивания. Предложенная структура алгорит-
ма обеспечивает вычислительную устойчивость и позволяет объединить преиму-
щества итерационного и комбинаторного алгоритмов МГУА. В ходе вычисли-
тельного эксперимента показано, что использование М-оценок параметров пере-
ходной функции и робастных критериев обеспечивает устойчивое к грубым
ошибкам оценивание параметров результирующей модели и восстановление ее
структуры алгоритмом МГУА-PNN. На модельном примере алгоритм обеспечил
как параметрическую, так и структурную сходимость к истиной модели (полином
четвертого порядка) независимо от нарастающей дисперсии грубых ошибок, ко-
торые составили 20 % выборки данных. Алгоритм позволил также детектировать
грубые ошибки в данных наблюдений и восстановить с хорошей точностью неза-
шумленные данные. Результаты настоящей публикации могут использоваться для
аналитического исследования внутренней сходимости алгоритма в случае приме-
нения М-оценок, которая обеспечивает также структурную сходимость в случае
МГУА-PNN. Интересным и перспективным представляется также дальнейшее
внедрение современных средств прикладной статистики в технологию МГУА.
http://www.pnn.com.ua/
52 ISSN 0572-2691
Т.І. Аксьонова
РОБАСТНЕ МОДЕЛЮВАННЯ
ЗА ДАНИМИ СПОСТЕРЕЖЕНЬ
ІЗ ЗАСТОСУВАННЯМ ПОЛІНОМІАЛЬНОГО
ІТЕРАЦІЙНОГО АЛГОРИТМУ МГУА
Представлено поліноміальний ітераційний алгоритм, що реалізує техніку ро-
бастного параметричного і структурного оцінювання в рамках ідеології МГУА.
Дворівнева структура нейромережі з контролем складності моделі забезпечує
обчислювальну стабільність алгоритму МГУА-PNN. Наведено обчислювальний
експеримент, що демонструє параметричну і структурну стійкість до грубих
помилок спостережень, а також приклади розв’язання задач моделювання у
фармакології та медицині.
T.I. Aksenova
ROBUST MODELING FROM EXPERIMENTAL
DATA USING POLYNOMIAL ITERATIVE
GMDH ALGORITHM
Polynomial iterative algorithm for robust parameter and structure estimation within
the framework of the GMDH technique is presented. A two-level neural network
structure with the controlled model complexity improves the computational stability
of the GMDH-PNN algorithm. Computational experiments demonstrating the para-
metrical and structural robustness in presence of outliers as well as examples of
applications in pharmacology and medicine are provided.
1. Ивахненко А.Г., Степашко В.С. Помехоустойчивость моделирования. — Киев : Наук. дум-
ка, 1985. — 216 с.
2. Ивахненко А.Г., Юрачковский Ю.П. Моделирование сложных систем по эксперименталь-
ным данным. — М. : Радио и связь, 1987. — 120 с.
3. Aksenova T.I., Volkovych V.V., Tetko I.V. Robust polynomial neural networks in quantative struc-
ture activity relationship studies // SAMS. — 2003. — 43. — P. 1331–1341.
4. Aksenova T., Volkovich V., Villa A.E.P. Robust structural modeling and outlier detection with
GMDH-type polynomial neural networks // LNCS. — 2005. — 3697. — P. 881–886.
5. Хьюбер П. Робастность в статистике. — М. : Мир, 1984. — 304 с.
6. Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. Подход на ос-
нове функций влияния. — М. : Мир, 1989. — 512 с.
7. Вучков И., Бояджиева Л. Солакова Е. Прикладной линейный регрессионный анализ. —
М. : Финансы и статистика, 1987. — 239 с.
8. Robust regression and outlier detection with the ROBUSTREG Procedure Colin Chen, SUGI
Proceedings, 2002.
9. Aksenova T.I, Tetko I.V., Volkovich V.V. GMDH-type neural network in quantative-structure ac-
tivity relationship studies on the Internet // Modelling and simulation 2001(ESM2001),
15th European Simulation Multiconference, Prague. — P. 685–689
10. The polynomial neural network (PNN) : Applications in environmental and toxicological studies /
T.I. Aksenova, I.V. Tetko, V.V. Volkovich, S. Puri, J.A. Chickos, W.J. Welsh // Issues and Ap-
plications in Toxicology and Risk Assessment, April 2001, Fairborn, Ohio — P. 92.
11. Unsupervised spike sorting of extracellular electrophysiological recording in subthalamic nucleus
parkinsonian patients / O.K. Chibirova, T.I. Aksenova, A.-L. Benabid, S. Chabardes, S. Larouche,
J. Rouat, A.E.P. Villa // Biosystems. — 2005. — 79. — P. 59–171.
Получено 25.12.2007
http://www2.sas.com/proceedings/sugi27/p265-27.pdf
Введение
1. Постановка задачи
2. Методы
3. Результаты тестирования на искусственных данных
4. Примеры применения МГУА-PNN в медицине и фармакологии
Заключение
|