Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов

Досліджується обґрунтованість спільного застосування способу розбиття даних і критерію зовнішнього доповнення при пошуці найбільш точних моделей. Описано розбиття для всіх співвідношень розмірів вихідних матриць. Досліджуються зовнішні критерії МГУА, теоретично обґрунтовується їх застосування для пе...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Проблемы управления и информатики
Datum:2015
1. Verfasser: Кондрашова, Н.В.
Format: Artikel
Sprache:Russian
Veröffentlicht: Інститут кібернетики ім. В.М. Глушкова НАН України 2015
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/208029
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов / Н.В. Кондрашова // Проблемы управления и информатики. — 2015. — № 5. — С. 20-33. — Бібліогр.: 17 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-208029
record_format dspace
spelling Кондрашова, Н.В.
2025-10-18T10:02:34Z
2015
Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов / Н.В. Кондрашова // Проблемы управления и информатики. — 2015. — № 5. — С. 20-33. — Бібліогр.: 17 назв. — рос.
0572-2691
https://nasplib.isofts.kiev.ua/handle/123456789/208029
621.513
10.1615/JAutomatInfScien.v47.i10.50
Досліджується обґрунтованість спільного застосування способу розбиття даних і критерію зовнішнього доповнення при пошуці найбільш точних моделей. Описано розбиття для всіх співвідношень розмірів вихідних матриць. Досліджуються зовнішні критерії МГУА, теоретично обґрунтовується їх застосування для певного виду оптимальних способів розбиття вибірки. Теоретично доказано і підтверджено у чисельному експерименті, що критерій незміщеності параметрів, якщо виконані умови пропорційності даних, не є «адекватним» шуму при мінімізації критерію розбиття, а лише при його максимізації.
We investigate the validity of the joint application of the data partitioning method and criterion of external additions in finding the most accurate models. Quasi-optimal partitions for all ratios of sizes of the initial matrices are described. GMDH external criteria are comprehensively investigated. Their use in certain types of optimal ways of partitioning the sample is theoretically justified. If the condition of proportionality of data is satisfied, the theoretical substantiation and confirmation in numerical experiments were obtained that the criterion of parameters unbiased ness, is not "adequate" to noise while minimizing the criterion of the sample division, it takes place only when it is maximized.
ru
Інститут кібернетики ім. В.М. Глушкова НАН України
Проблемы управления и информатики
Методы идентификации и адаптивного управления
Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов
Узгодження зовнішнього критерію і способу розбиття вибірки при розв'язанні задачі структурно-параметричної ідентифікації методом групового урахування аргументів
Matching of external criterion and method of sample partitioning for solving problem of structural-parametric identification by group method of data handling
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов
spellingShingle Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов
Кондрашова, Н.В.
Методы идентификации и адаптивного управления
title_short Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов
title_full Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов
title_fullStr Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов
title_full_unstemmed Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов
title_sort согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов
author Кондрашова, Н.В.
author_facet Кондрашова, Н.В.
topic Методы идентификации и адаптивного управления
topic_facet Методы идентификации и адаптивного управления
publishDate 2015
language Russian
container_title Проблемы управления и информатики
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
format Article
title_alt Узгодження зовнішнього критерію і способу розбиття вибірки при розв'язанні задачі структурно-параметричної ідентифікації методом групового урахування аргументів
Matching of external criterion and method of sample partitioning for solving problem of structural-parametric identification by group method of data handling
description Досліджується обґрунтованість спільного застосування способу розбиття даних і критерію зовнішнього доповнення при пошуці найбільш точних моделей. Описано розбиття для всіх співвідношень розмірів вихідних матриць. Досліджуються зовнішні критерії МГУА, теоретично обґрунтовується їх застосування для певного виду оптимальних способів розбиття вибірки. Теоретично доказано і підтверджено у чисельному експерименті, що критерій незміщеності параметрів, якщо виконані умови пропорційності даних, не є «адекватним» шуму при мінімізації критерію розбиття, а лише при його максимізації. We investigate the validity of the joint application of the data partitioning method and criterion of external additions in finding the most accurate models. Quasi-optimal partitions for all ratios of sizes of the initial matrices are described. GMDH external criteria are comprehensively investigated. Their use in certain types of optimal ways of partitioning the sample is theoretically justified. If the condition of proportionality of data is satisfied, the theoretical substantiation and confirmation in numerical experiments were obtained that the criterion of parameters unbiased ness, is not "adequate" to noise while minimizing the criterion of the sample division, it takes place only when it is maximized.
issn 0572-2691
url https://nasplib.isofts.kiev.ua/handle/123456789/208029
citation_txt Согласование внешнего критерия и способа разбиения выборки при решении задачи структурно-параметрической идентификации методом группового учета аргументов / Н.В. Кондрашова // Проблемы управления и информатики. — 2015. — № 5. — С. 20-33. — Бібліогр.: 17 назв. — рос.
work_keys_str_mv AT kondrašovanv soglasovanievnešnegokriteriâisposobarazbieniâvyborkiprirešeniizadačistrukturnoparametričeskoiidentifikaciimetodomgruppovogoučetaargumentov
AT kondrašovanv uzgodžennâzovníšnʹogokriteríûísposoburozbittâvibírkiprirozvâzannízadačístrukturnoparametričnoíídentifíkacíímetodomgrupovogourahuvannâargumentív
AT kondrašovanv matchingofexternalcriterionandmethodofsamplepartitioningforsolvingproblemofstructuralparametricidentificationbygroupmethodofdatahandling
first_indexed 2025-11-26T00:42:34Z
last_indexed 2025-11-26T00:42:34Z
_version_ 1850600759334273024
fulltext © Н.В. КОНДРАШОВА, 2015 20 ISSN 0572-2691 МЕТОДЫ ИДЕНТИФИКАЦИИ И АДАПТИВНОГО УПРАВЛЕНИЯ УДК 621.513 Н.В. Кондрашова СОГЛАСОВАНИЕ ВНЕШНЕГО КРИТЕРИЯ И СПОСОБА РАЗБИЕНИЯ ВЫБОРКИ ПРИ РЕШЕНИИ ЗАДАЧИ СТРУКТУРНО-ПАРАМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ МЕТОДОМ ГРУППОВОГО УЧЕТА АРГУМЕНТОВ Введение Детальному изучению проблемы разбиения выборки посвящено не очень много работ, что свидетельствует как о трудности ее анализа, так и о том, что при наличии некоторого опыта применения алгоритмов метода группового учета аргументов (МГУА) исследователи на практике обычно используют простые вычислительно малозатратные способы разбиения. При этом они учитывают специфику таких задач моделирования: идентификация, классификация, вычис- лительное доказательство или прогнозирование. Например, если необходимо аппроксимировать или классифицировать данные, то используют разбиение «по дисперсии»; если построить модель прогноза, применяют разбиение по хро- нологии; если протестировать модель или статистически обосновать скорость сходимости итерационного алгоритма МГУА, применяют случайное многократное разбиение, а результат моделирования усредняют. Есть резон в случайном разбиении также при построении статических моделей объекта, поскольку считается, что все уравнения связи в так называемой системе условных уравнений равновероятно могут быть отнесены как к обучающей А, так и к проверочной В выборке. Обычно исходную выборку W разбивают в следующем соотношении числа точек наблю- дения: ,1:1: BA nn если при этом вычисляется критерий несмещенности ,~2 biasn поскольку обе выборки используются единообразно. Если в качестве внешнего критерия CR используется критерий регулярности ,|ABAR то отношение ,1:2: BA nn эта эвристика связана с тем, что выборки имеют неодинаковое назначение. Вопрос о том, чем обосновано последнее соотношение, естественен. На наш взгляд, задача разбиения заслуживает углубленного изучения. Задача о разбиении исходной выборки W на А и В по величине «дисперсий» [1] появилась после опубликования [2], которая способствовала ее обоснованию. В одной из поздних работ [3] А.Г. Ивахненко сформулировал двумерный аналог задачи разбиения строк матрицы (Х у): задачу о выделении «ядра» — об оптималь- ном размере «скользящего окна» в виде квадратной матрицы входных переменных X. Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 5 21 Далее рассмотрим только один вид разбиения выборки — разбиение по строкам наблюдений. Одно наблюдение эквивалентно строке значений переменных исходной матрицы, относящихся к одному моменту времени, одному паттерну или объекту. В [4] предложено не ограничиваться разделением ранжированных точек наблюдений «по дисперсии», а выполнить полный перебор всех возможных со- ставов множеств А и В (при условии пА = пВ), для того чтобы найти множество мо- делей, в котором критерий минимума смещения параметров достигает наибольшего значения .~ max 2 biasn Выписан алгоритм последовательной «переброски» точек из обучающей в проверочную выборку. После каждой «переброски» в процессе перебора моделей вычислялись приближенные значения параметров f  и критерия несмещенности. После этого выбиралась та модель ),,( ff   X для которой .min~ max 2 biasn Работа [5] также была важна, так как содержала общую постановку задачи о наилучшем разбиении при использовании любого из множества применявшихся в то время внешних критериев. В ней лучшим считается разбиение, максимизирующее вероятность выбора «истинной» структуры модели, при которой достигается наименьшее значение функционала канонической формы внешнего критерия. Для реализации разбиения был предложен алгоритм построения поточечной функции распределения, обусловленной наличием шума, для конкретного внешнего критерия и каждого варианта разбиения. Идеи, предложенные в двух последних работах, не получили широкого вне- дрения вследствие проблематичности их реализации на практике, так как в первой для каждого разбиения в полном переборе находится лучшая модель; во второй находится разбиение, максимизирующее вероятность получения «истинной» мо- дели, из перебираемого множества вариантов разбиения. Кроме того, результат ощутимого увеличения точности и достоверности восстановления «истинной» структуры («истинного» сигнала) при значительном уровне шума не был получен. В [6] предложено ρ 2 -пропорциональное разбиение выборки, связанное с мини- мизацией среднеквадратической ошибки моделирования на всей выборке. В данной работе рассматривается также ρ-пропорциональное разбиение выборки. В связи с этим следует упомянуть работы [7, 8] о разбиении выборки в условиях модели- рования при активном и повторном эксперименте. 1. Постановка задачи И все же, при любом способе разбиений на А и В получаемая модель под- строена под разбиение, и для долгосрочного и среднесрочного прогнозирования реальных процессов она, как правило, не годится. Ее следует проверять на точках, не участвовавших ни в определении параметров, ни в определении структуры, т.е. на новой выборке С. В задаче моделирования возникает новый вопрос: как наилучшим образом разбить W на А, В и С ? Если точек мало, то, во-первых, можно, случайно разбив все множество W на )( BA и С, перебрать все возможные разбиения на А и В и найти модель )),(,(minarg )( * GQsQ fs fCRf s    Xy (1) сложности ,*s где оценки параметров определяют как )),(,(minarg fGsGG fQR s G   Xy  , (2) здесь  — множество функций заданного класса структур моделей (полино- миальных, разностных и т.д.). Ограничимся линейной по параметрам моделью, 22 ISSN 0572-2691 в которой сложность s равна числу оцениваемых параметров, стоящих при различных аргументах, вычисленных с использованием )(sf — набора из s функций класса . s — s-мерное множество действительных чисел. Если множество Q = В, то множество G = А и, наоборот, если Q = В, то G = А ; Q  G = . Во-вторых, можно многократно повторить случайное разбиение W на )( BA и С, а результат усреднить. Поскольку множество С получено случайным разбие- нием, то на этом можно закончить бесконечную цепочку последовательных раз- биений. Так как в конечном итоге необходима единственная модель, то получен- ная и проверенная таким способом модель равновероятно имеет такие же характери- стики точности на С, как и модели других случайных разбиений W на )( BA и С, где  CBA )( Ø. В выражении (2) QR() — функционал качества решения задачи оценивания параметров, для которого при заданной структуре модели используется метод наименьших квадратов (МНК). Поскольку и на обучающей, и на проверочной подвыборках — это ошибка одной и той же модели, естественно потребовать, чтобы разбиение минимизировало ошибку, вычисленную на всей выборке. К это- му требованию прилагаются условия, накладываемые на аддитивный шум выходного сигнала у: он имеет нулевое математическое ожидание и конечную дисперсию 2 . При поиске сложности структуры модели возможны три случая соотношений сложности модели (количества аргументов) s и числа наблюдений n: 1) ,sn  2) sn  и 3) .sn  Исходя из этих предпосылок, получено  2 -пропорциональное разбиение выборки для матриц BA XX , полностолбцового ранга k=s: ,T2T BBBAA XXXX  ,dimdim BA XX  ,, snsn BA  ,BA nn  ,0 ms  (3) где s — число столбцов матриц (число переменных в усложняющихся моделях); ρВ ≠ 0 — некоторое число; размерность информационных матриц: BBXX Tdim ;dim T mmAA  XX m — максимальное число аргументов (число столбцов). Для матриц BA XX , полнострочного ранга ( nk  ) с количеством строк ,sn  чтобы найти их  2 -пропорциональность, запишем множество соотношений .0,,),,min(,dimdim,~ T2T msnnsnnnn BABABABBBAA  XXXXXX (4) Если известна одна из подвыборок, например обучающая, спланировав экспе- римент, можно создать проверочную выборку согласно соотношению ХА = ρВХВ, ρВ ≠ 0, BA XX dimdim  , snnk BA  ms 0 . (5) Вариант, когда одна из матриц BA XX , полностолбцового, а другая пол- нострочного ранга, не рассматривается, так как при nk  он сводится к (4). Случай повторного эксперимента ρВ=1 является частным случаем (5). Определение 1. ρ-оптимальными разбиениями выборки будем называть те раз- биения, которые получаются в результате оптимизации функционалов, содержащих ρ-пропорциональные и ρ 2 -пропорциональные зависимости данных подвыборок. В задачах с эмпирическими данными соотношения (3)–(5), как правило, не вы- полняются. Поэтому поиск квазиоптимальных разбиений ,* * или * осуществля- ется минимизацией нормы разности в каждой из трех пар информационных матриц: Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 5 23  для переопределенных матриц  BA XX , ,min T2T ,1,0 *    BBBAA L XXXX   ,dimdim  BA XX  ;snn BA  (6)  недоопределенных матриц ,~min T2T ,1,0 *    BBBAA L XXXX ,dimdim   BA XX ;snn BA  (7)  полностью определенных матриц ,min ,1,0 *    BBA XX ,dimdim   BA XX ,snn BA  (8) где  — некоторая матричная норма, не обязательно квадратичная. Поскольку аффинные преобразования данных не изменяют результата опти- мизации разбиения [9], то пропорциональной зависимости данных (6), (7) или (8), которая является разновидностью аффинного преобразования (гомотетией), переносом начала координат можно добиться того, что будет выполняться .0B Естественно, из условий минимума (6), (7) или (8) не следует, что при некоторой исходной матрице данных об объекте будет гарантировано найдена его «истинная» модель. Отметим, что при разбиении выборки в соответствии с (6) число ,An а значит, и соотношение ,: BA nn так же, как и наборы точек наблюдений, принадлежащие выборкам А и В, получаются автоматически, а при разбиении в соответствии с (7) и (8) — только наборы точек, поскольку в этом случае рассмат- риваются матрицы, у которых k =s =пА = пВ, и, естественно, выполняется соотно- шение .1:1: BA nn В [10] квадратичный критерий CR предложено представлять в компактной форме, как ,)()( T yDy ssCR CR где )(sCRD — симметрическая неотрицательно определенная матрица канонической формы квадратичного критерия ,CR выра- жающаяся через единичную матрицу I и матрицу полностолбцового ранга .)( T1T GGGQQG XXXXP  В качестве матриц с индексами Q, G могут быть матри- ца WX и ее части AX и ,BX соответствующие выборкам А и В. В [5, 10, 11] по- лучены матрицы канонических форм основных квадратичных критериев МГУА. Известные алгоритмы МГУА, моделирующие объекты и процессы, не учитывают важность разбиения данных и способа формирования подвыборок при выборе критерия селекции. Обоснованность совместного применения способа разбиения данных и критерия внешнего дополнения при поиске наиболее точных моделей важна для правильного формирования правила останова в итерационных алгоритмах МГУА. Это обоснование в литературе о МГУА вообще не рассматривалось. В упомянутой работе [4] в численном эксперименте показано, что наилучшее разбие- ние выборки рекомендуется искать при максимизации критерия несмещенности. В данной работе этот внешний критерий всесторонне исследуется и теоретически обосновываются условия его применения при определенного вида ρ-оптимальных способах разбиения выборки. 2. ρ-оптимальное разбиение выборки для отбора моделей по минимуму критерия регулярности В [6] доказано, что для получения оптимального разбиения выборки, при котором на подвыборках А и В обеспечивается неизменность структуры s и минимум критерия  20 Mmin)( sGG s G sJ yy   , ,, BAG  W=AB (9) 24 ISSN 0572-2691 среднеквадратической ошибки отклонения выхода модели ,AsGsG   Xy усредненной по всем реализациям аддитивного шума в выходной переменной, необходимо создать или соблюдать условие ρ 2 -пропорциональности информа- ционных матриц. Обозначение М[·] используется для символа математического ожидания; 0 Gy — выход «истинной» модели; при этом выборкой G может быть любая из подвыборок А или В. Запись 2  используется для обозначения квадратичной нормы, например, 22 1 T2 ... nyy  yyy . Поскольку среднее значение критерия регулярности )(AR является оценкой теоретической дисперсии ошибки модели ),(sJB то разбиение, удовлетворяющее ρ 2 -пропорциональности данных, в пределе по множеству усреднений результатов численных экспериментов справедливо и для него, с точки зрения неизменности сложности структуры, ),,(minarg),(minarg* BAsBBAs JARs XXXX  где *s — сложность оптимальной структуры при разбиении, удовлетворяющем (3). Предполагается некоррелированность различных реализаций шума между собой и с полезным сигналом, нулевое математическое ожидание и конечная дисперсия. Таким образом, при выборе моделей по минимуму критерия регулярности следует минимизировать критерии нормы квазиоптимального разбиения либо в силу большого перебора (6)–(8) применять менее эффективное «подобное по дисперсии» разбиение. Соотношение между квазиоптимальным и разбиением «по дисперсии» описано в [12]. При наиболее простом случае оценки параметров с помощью квадратных матриц ХА и ХВ примем условие их одинаковой размерности, тогда аналогом условия (3) будет условие (5) ρ-пропорциональности. Размерность матриц ХА и ХВ полного ранга k = s равна ss или, что то же, ,nn где число столбцов .nnns BA  Исследуем критерий регулярности ARB|A (s) при условии ρ-пропорциональности данных и наличия аддитивного шума в выходной переменной .))(( 20102 | AAABBBABBABAR   yXXyXy  (10) Операция поиска минимума по параметру s везде подразумевается, если не указывается другая. Здесь и далее опускаем ее и индекс s, чтобы упростить вывод формул. Сгруппируем регулярные и случайные компоненты. Усредним критерий по множеству реализаций шума и по множеству структур одинаковой сложности (равного числа аргументов и разных наборов), если шум не коррели- рован с полезным сигналом: .]))(([M ])([M || 21 2021010 | v AB b ABAABB ABBAABBAABBAB ARAR AR     XX XyXXyXXy Очевидно, что структурная составляющая b ABAR | является строго ниспадающей функцией при увеличении числа s. Рассмотрим «шумовую» составляющую .)(])()()(2 M[]))(())((M[ 2221T1TT1 T1T1 | BABAABABABAAB BBAABBAABB v AB tr AR     IXXXXXX XXXX (11) Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 5 25 При получении данного выражения использовано: условие некоррелированно- сти различных реализаций шума между собой ;0)cov( T  BA равенство 11   ABB XX при подстановке в выражение ,)()( 1T1T AABABA   XXXX а также условие невырожденности матрицы ).0(det1  AA XX Если дисперсии выборок А и В одинаковы, ,222 BA  то из (11) получим v BAAR | . 1 1 1 1 2 2 2 2                       ns BB Случайная составляющая является функ- цией, линейно возрастающей как от сложности структуры, так и от числа точек, поскольку s=n= .BA nn  Отсюда видно, что критерий регулярности является «адекватным» критерием. Определение 2. «Адекватным» называется такой критерий, который с ростом дисперсии шума имеет глобальный минимум, сдвигающийся в сторону все более простых, не равных нулю структур. Аналогичный результат может быть получен для математического ожидания критерия регулярности при ρ 2 -пропорциональном разбиении выборки. Случайная составляющая при равенстве дисперсий на выборках А и В, а также для матрицы ХА полностолбцового ранга при использовании равенства 1T21T )()(   BBBAA XXXX имеет вид ),)(tr1()](tr 22T22 | BAABABAAB v BAAR  PPP где  T( AAAA XXP ,) T1 AA XX  .dim AAAA nn P Аналогично случайная составляющая для матрицы полнострочного ранга, если оценки параметров на А вычисляются через псевдообращение матрицы ХА, имеет вид  2 | B v BAAR ,))(tr1(])(tr T2T2 BABABABAA HHHH  где матрица .)( 1TT  AAABBA XXXXH Выводы об адекватности критерия справедливы и для ρ 2 -пропорционального разбиения, а также в случае, близком к нему — квазиоптимального разбиения. 2s ns 1 s 5 1 3 2 4 Рис. 1 На рис. 1 показано изменение критерия регулярности и его составляю- щих в зависимости от сложности структуры моделей при квазиоптимальном разбиении, где 1 — структурная составляющая; 2 — шумовая составляющая 2 1 ; 3 — шумовая составляющая 2 2 ; 4 — );,( 2 2 sAR  5 — ),,( 2 1 sAR  где .2 1 2 2  Важным является то, что во всех случаях указанных разбиений и некоррели- рованном шуме при увеличении сложности структуры s или числа наблюдений n 26 ISSN 0572-2691 достигается один минимум критерия регулярности. Квазиоптимальное разбиение есть результат минимизации нормы рассогласования ρ 2 -пропорциональной зави- симости информационных матриц. На рис. 1 показан сдвиг сложности структур, соответствующий минимуму критерия регулярности (сплошная жирная линия), в сторону более простых ( 12 ss  ) при увеличении дисперсии шума ( 2 1 2 2  ), а также строго ниспадающий характер структурной составляющей и линейное возрастание при постоянной дисперсии шумовых составляющих в зависимости от числа s. Этот рисунок иллюстрирует «адекватность» критерия регулярности. Чем больше дисперсия шума, тем проще оптимальная модель. Структурная составляющая равна нулю при .ns  В данном случае для модели со сложностью структуры ,1s при ,2 1 2  положение минимума критерия регулярности не изменилось по сравнению с минимумом его структурной составляющей. Здесь возможны два случая: 1) в матрице входных переменных Х, кроме «истинных», присутствуют «неистинные» (случайные) аргументы, ;0sm  2) в матрице Х присутствуют только «истинные» аргументы, т.е. .0sm Тогда в первом случае при уровне шума 2 1 2  модель со структурой 1s является переусложненной, т.е. ,0 1 ss  так как случайный аргумент на входе имеет корреляцию с выходным сигналом, во втором найдена точная модель, а помеха на выходе отфильтрована (см. рис.1). При дальнейшем увеличении дисперсии шума ( 2 2 2  ) в первом случае модель со структурой 2s ближе по сложности, чем со структурой 1s , к структуре «истинной» модели, если ,0 2 ss  и равна ей при .0 2 ss  Во втором случае, когда присутствуют только «истинные» аргументы, метод и алгоритм, его реализующий, находят, что точнее будет более простая, чем со структурой ,0s адекватная шуму модель, у которой 2s .0s 3. Влияние на адекватность критериев несмещенности ρ-оптимальных разбиений выборки Любой усредненный критерий, для которого найдена матрица канонической формы, при диагональной матрице шума с дисперсией const22  W представля- ется в виде ,)()()(tr)()()](M[)( 20T0 vb CRCR sCRsCRsssCRsCR  DyDy где в случае матриц полностолбцового ранга ,)( )(CRWWWCR s PID  а полностроч- ного ранга — ,)( )(CRWWWCR s HID  ,)(dim WWWCR nns  ID WI — единичная матрица; bsCR )( — структурная составляющая; vsCR )( — шумовая составляющая. В данной работе в качестве примера подробно рассмотрен критерий, который нельзя представить в канонической форме, поскольку такая форма не найдена. 3.1. Отличительные особенности критериев несмещенности. Известно четыре разновидности критерия несмещенности. Критерий несмещенности параметров (минимума смещения коэффициен- тов) [13] имеет вид ,)( 22 )1( BsAsbias sn   ,1dimdim  sBsAs  (12) Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 5 27 где МНК-оценки векторов параметров As  и Bs  определяются для каждой модели по своим выборкам в зависимости от выполнения следующих условий. Пусть k — ранг матрицы GsX размера .snG  Из [14] известно, что оценивание параметров осуществляется по-разному для матриц:  полностолбцового ранга k=s, когда столбцы линейно независимы, при snG  оценки имеют вид ;)( T1T GGsGsGsGs yXXX   ;,1,)dim( T msssGG XX (13)  полнострочного ранга ,Gnk  когда строки линейно независимы и ,snG  оценки получают через обращение псевдообратной матрицы, как ;)( 1TT GGsGsGsGs yXXX   (14)  квадратных, если и столбцы, и строки линейно независимы (что верно для невырожденных матриц), оценки параметров определяются как GsGsGs yX 1)(   , ( snGs  ), (15) где выборкой G может быть А или В. Другая более распространенная форма этого критерия — критерий несме- щенности решений — имеет вид [15] .)()()()( 222 )2( BsAsWsBsWAsWbias sn   Xyy (16) При его вычислении ограничение на равенство сложности структур на выборках А и В сохраняется, нет ограничения на равенство объемов выборок, т.е. может быть BA nn  и оценки Wy  (·) вычисляются по данным XW всей выборки W. Критерии несмещенности (12) и (16) оперируют нормой отклонения оценок параметров на двух подвыборках А и В, А  В =W, А  В =. Абсолютно помехоустойчивый критерий [16] имеет вид ).()( ))()(())()(()( TT T2 )3( WsBsWsWsAsWs WsWBsWAsWWsWbias sn     XX yyyy Его минимизация приводит к максимальной близости оценок коэффициентов модели, полученных на трех выборках: A, B и W. Название (не вполне удачное) связано с тем, что шумовая составляющая критерия линейно зависит от величины дисперсии σ 2 , сложности модели s и не зависит от разбиения исходной матрицы только в случае σ 2 = const, в противном случае (если 22 BA  ) можно показать, что критерий зависит от разбиения. Критерий несмещенности ошибок [17], не являясь квадратичной нормой, имеет вид .|)()(| )()4( sARsARsn BWAWbias  (17) Минимальные значения достигаются при их монотонном изменении с ростом сложности моделей s, когда под модулем меняется знак разности критериев регулярности, вычисленных на всей выборке по оценкам выборок А и В. 28 ISSN 0572-2691 Для критериев несмещенности параметров )(2 )1( snbias вида (12) и несмещенности ошибок )()4( snbias вида (17) не получены канонические формы, но любой внешний критерий, в том числе и усредненный критерий несмещенности, можно записать ).()( 2 )( 2 )( 2 )( snsnn v ibias b ibiasibias  (18) Проанализируем усредненные формы критерия несмещенности параметров с точки зрения «адекватности» критерия при различных способах формирования подвыборок данных. Исследуем составляющие критерия (12) при условии, что будут выполняться: а) ρ 2 -пропорциональность; в) ρ-пропорциональность данных и лучшая модель будет получена при ρ-оптимальном разбиении выборки. 3.2. Критерий несмещенности параметров модели при ρ-оптимальном разбиении. При условии а) ρ 2 -пропорциональности (3) и того, что AX и BX являются матрицами полностолбцового ранга, этот критерий имеет вид .)()()( )()()()( 2T2T1T2T1T2T 1T2T1TT1T2 )1( BBsBAAsAsAsBBsAsAsBAAs AsAsBBsBsBsAAsAsAsbias sn yXyXXXyXXXyX XXyXXXyXXX     (19) Если матрицы AX и BX являются матрицами полнострочного ранга, то кри- терий несмещенности параметров можно преобразовать к виду   21TT1TT2 )1( )()()( BBsBsBsAAsAsAsbias sn yXXXyXXX ;)(~)( 21TT21TT BAsAsBsBAAsAsAs yXXXyXXX   При условии б) ρ-пропорциональности данных рассмотрим случай, когда выполняется условие ХА = ρВ ХВ, т.е. s = пА = пВ. Критерий несмещенности (19) при условии, что ,)()( 11   AsBBs XX перепишем в виде .)()())()()( 212112 )1( BBAAsBBsAAsbias sn yyXyXyX   (20) Найдем математическое ожидание (20) при условии некоррелированности сигнала с шумом и усреднении по множеству реализаций шума, если WWW  0 yy . В результате получим .)()()]()[()(M)( 2 )1( 2 )1( 20012 )1( v bias b biasBBABBAAsbias snsnsn   yyX Если матрица AsX содержит только «истинные» аргументы, то при ,0ssm  ввиду того, что ,000  BsAs будет обеспечено равенство нулю структурной составляющей, т.е. ,0 2 00  BsAs так как будут выполнены равенства ,, 0 0 0 0  BB o AA o XyXy где 0 — вектор параметров «истинной» модели. При неполном составе «истинных» аргументов на входе ( 0sm  ) выполняется ,0 BsAs .0 2  BsAs Если ,22 BA  то шумовая составляющая равна .)(tr)(])()([tr)()( 1T2221T12222 )1(   AsAsBBAAsAsBBA v bias sn XXXX Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 5 29 Она зависит от суммы дисперсий в подвыборках А и В, и если дисперсии равны ),( 222  BA то 2 имеет коэффициент (1+ 2 B ), который для конкретной выборки const.)1(1 2  B След матрицы   1T1T1 )(tr])([tr AsAsAsAs XXXX 21T ~/)(tr BBsBs   XX при выполнении (4) и увеличении размера матрицы ss или, что то же, nn растет. Шумовая составляющая для пропорциональных под- выборок с ростом сложности s и числа наблюдений n растет. Таким образом, критерий несмещенности параметров при минимизации критерия разбиения и ρ-пропорциональности данных подвыборок не является «адекватным» критерием, поскольку, при его минимизации (квазиоптимизации) выбирается тривиальная модель минимальной (нулевой) структуры. Вернемся к а) ρ 2 -пропорциональности данных. Проанализируем (19) для матриц полностолбцового ранга .])()([)()( 20T20T1T2 )1( BBBsBAAAsAsAsbias sn   yXyXXX Усредняя помеху по множеству реализаций шума и множеству моделей, имеющих одинаковую сложность структуры, получаем ,)()()(tr)(tr })(])([{M})( ])([{M])[( )(M])[()(M)( 2 )1( 2 )1( T24T22 T1T2TT1T2T1T TT1T22T2T 1T20T20T1T2 )1( v bias b biasABABBBAAAAABsAs BBsAsAsBBBsAsAsBAAsAsAs AAsAsAsBsAsBBsBAAs AsAsBBsBAAsAsAsbias snsn sn        VVVV XXXXXXXXX XXXXX XXyXyXXX .dim,)(,dim,)( T1TT1T BABBsAsAsABAAAAsAsAsAA nsns   VXXXVVXXXV Если дисперсия на выборках А и В одинакова ,222 BA  то шумовая составляющая имеет вид ].)(tr)(tr[)( T4T22 )1( ABABBAAAA v bias sn VVVV  При выводе использовалось свойство некоррелированности различных реализаций шума между собой и с полезным сигналом. Усредненная структурная составляющая b bias sn )(2 )1( имеет такой же вид , 2 BsAs  как и в случае ρ-пропорциональности данных, но значения параметров, вычисленные с помощью формул (13) или (14), отличаются от вычисленных по квадратным матрицам (15). Чтобы разницы коэффициентов на различных выборках при одних и тех же пере- менных, и одном и том же значении s не были равны нулю, необходимо, чтобы выборки были максимально неподобны между собой. Поэтому если применяется критерий несмещенности, то необходимо строить модели по данным максимально различающихся (неподобных) выборок. Например, в качестве критерия разбиения использовать не минимум нормы (3), а ее максимум: ,maxarg T2T ,1,0 * 2    BBBAA LB XXXX   (21) где * — наилучшее разбиение, либо для получения разбиения лучшего *l использовать «неподобные по дисперсии» подвыборки А и В: 30 ISSN 0572-2691 ,]) ~~ (tr) ~~ (tr[maxarg) ~~~~ (trmaxarg TT ,1 TT ,1 * BlBlAlAl Ll BlBlAlAl Ll dd l XXXXXXXX   (22) где для вычисления «дисперсий» используются диагональные элементы инфор- мационных матриц, элементы которых центрированы как ,,1,~ mjxxx jjjjj  а jx — средние значения аргументов, ,,1 mj  вычисляются по данным столбцов матриц ХАl и ХВl. Индекс l обозначает набор строк при переборе содержания матриц ХАl и того, что ),( T Bl T Al T Wl XXX  BA =. Когда присутствует все множество «истинных» аргументов и матрицы AsX и BsX являются матрицами полного ранга, то при достижении 0ss  и snsn BA  , норма ошибок векторов параметров 0 2002  BABsAs  (так как 0 BsAs  ). При ,0ss  т.е. при неполном составе «истинных» аргументов на входе ( 0sm  ), выполняется .0 BsAs С ростом числа «истинных» аргументов в модели немонотонно изменяющаяся норма приближается к нулю: .0 2  BsAs Шумовая составляющая матриц полнострочного ранга имеет вид ,)(tr)(tr)(tr)(tr)( 1T21T2T2T22 )1(   BsBsBAsAsABBBBBAAAAA v bias sn XXXXUUUU а при равенстве дисперсий на А и В ])(tr)(tr[)( 1T1T22 )1(   BsBsAsAs v bias sn XXXX монотонно растет с ростом сложности структуры модели. Здесь ,)( 1TT  GsGsGsGG XXXU ,dim GGG ns U где матрица G может быть А или В. С учетом (4), из которого вытекает ,)()(~ 1T1T2   BsBsAsAsB XXXX получаем .)(tr)1()( 1T222 )1(  AsAsB v bias sn XX При ρ 2 -пропорциональности данных, матрицах AsX и BsX полного ранга (s ≤ nA , s ≤ пВ ) минимум критерия несмещенности параметров с увеличением дисперсии шума соответствует тривиальной модели при всех рассмотренных соотношениях размеров матриц. При максимально неподобных выборках и увеличении шума в данных геометрическое место минимумов критерия сдвигается в сторону более простых моделей ,0* ss  однако минимумы с увеличением s и ростом σ 2 могут перемещаться в разных направлениях (рис. 2 и рис. 3). Таким образом, в целом, помимо влияния уровня и степени корреляции шума в данных, критерий несмещенности параметров, если выполнены условия пропорциональ- ности данных, не является «адекватным» критерием, а является таковым при мак- симизации ρ-оптимального разбиения (21) или (22). * 2s ns 1 s 1 * 1s 2 3 5 4 Рис. 2 Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 5 31 На рис. 2 показано изменение критерия несмещенности параметров и его составляющих в зависимости от сложности структуры моделей и дисперсии шума при ρ-оптимальном разбиении данных. Сдвиг сложности структур, соответствующий минимуму критерия несмещенности (сплошные линии), в сторону более простых структур ( 1 * 2 * 1 sss  ) при увеличении дисперсии шума, где 1 — структурная составляющая; 2 — шумовая составляющая 2 1 ; 3 — шумовая составляющая 2 2 ; 4 — );,( 2 1 2 )1( snbias  5 — ),,( 2 2 2 )1( snbias  .2 1 2 2  Показано линейное возрастание шумовых составляющих в зависимости от числа s при постоянной дисперсии. Усредненная структурная составляющая равна нулю при отсутствии шума и близка к нулю при одинаковом уровне шума во всех рассмотренных случаях соотношений размеров матриц, по данным которых оцениваются параметры модели. В иллюстрируемом примере минимум критерия несмещенности для модели со сложностью структуры ,* 1s имеющей шум в данных с дисперсией ,2 2 2 1  расположен левее положения ,* 2s соответствующего большей дисперсии шума. Положение минимумов может поменяться при увеличении σ 2 из-за произвольного характера изменения структурной составляющей при неодновременном скачке сложности на подвыборках с разной дисперсией, причем оптимальная структура, отвечающая меньшему уровню шума, может иметь большее значение критерия и быть более сложной и, наоборот. В отличие от качественного характера зависи- мостей, представленных на рис. 2, рис. 3, иллюстрирует результаты численного эксперимента. Здесь показано изменение минимума критерия с увеличением уровня шума в обеих частях выборки при поиске оптимальной структуры, если существует разница уровня шума на подвыборках А и В. Показаны такие зависи- мости при разнице уровней шума 10 % и 20 %. Чем больше эта разница, тем более плавно изменяется зависимость значений критерия от уровня шума. При нулевом уровне шума в выборке А и превышении шума на 10 % в выборке В выбирается «истинная» структура модели (s =11), а при превышении шума на 20 % тоже выбирается «истинная» структура, но значения параметров при этом имеют значительное отклонение от «истинных», так как величина критерия возросла приблизительно в 10 раз. Если шум в данных на подвыборке А составляет 30 % от диапазона изменения хj, а на В — 40 % (разница между ними также 10 %), то минимум критерия достигается для моделей сложности (s = 10) при увеличении критерия более, чем на два порядка и т.д. Заметим, что при этом не выбирается три- виальная модель с нулевой структурой. 2,5 2 1 1,5 70 0,5 50 30 0 10 11s 7s 10s 7s 0 20 11s 10s 6s 6s y z x       1 2 3 4 5 6 7 8 9   Рис. 3 32 ISSN 0572-2691 На рис. 3 показано изменение минимума критерия несмещенности параметров, соответствующего оптимальной модели, при увеличении уровня шума в А и В для двух значений разницы уровней между выборками А и В (двух мер «неподобия по дисперсии»), где ось 0х — уровень шума, %; ось 0y — разница уровней шума на А и В, %; ось 0z — ).lg( 2 )1(biasn Пределы изменения этого логарифма: 1 — область 0–0,5; 2 — 0,5–1; 3 = 7 — 1–1,5; 6 = 8 = 4 — 1,5–2; 5 = 9 — 2–2,5. Заключение Доказано, что критерий регулярности адекватен шуму при ρ-пропорциональности данных, квазиоптимальности их разбиения или «подобном по дисперсии разбиении». Доказано и подтверждено в численном эксперименте, что критерий несмещен- ности параметров при квазиоптимальном разбиении в общем случае не является «адекватным» шуму, так как выбирает тривиальную модель, что необходимо учитывать при формировании правила останова в алгоритмах МГУА. При выборе моделей по минимуму критерия несмещенности параметров следует избегать квадратичной и линейной пропорциональности данных, ква- зиоптимального разбиения и производить «подобное по дисперсии» разбиение, а применять, например, максимум разности ρ-оптимального разбиения информа- ционных матриц либо «неподобное по дисперсии» разбиение. Н.В. Кондрашова УЗГОДЖЕННЯ ЗОВНІШНЬОГО КРИТЕРІЮ І СПОСОБУ РОЗБИТТЯ ВИБІРКИ ПРИ РОЗВ’ЯЗАННІ ЗАДАЧІ СТРУКТУРНО-ПАРАМЕТРИЧНОЇ ІДЕНТИФІКАЦІЇ МЕТОДОМ ГРУППОВОГО УРАХУВАННЯ АРГУМЕНТІВ Досліджується обґрунтованість спільного застосування способу розбиття даних і критерію зовнішнього доповнення при пошуці найбільш точних моделей. Описано розбиття для всіх співвідношень розмірів вихідних матриць. Досліджуються зовнішні критерії МГУА, теоретично обґрунтовується їх застосування для певного виду оптимальних способів розбиття вибірки. Теоретично доказано і підтверджено у чисельному експерименті, що критерій незміщеності параметрів, якщо виконані умови пропорційності даних, не є «адекватним» шуму при мінімізації критерію ро- збиття, а лише при його максимізації. N.V. Kondrashova MATCHING OF EXTERNAL CRITERION AND METHOD OF SAMPLE PARTITIONING FOR SOLVING PROBLEM OF STRUCTURAL- PARAMETRIC IDENTIFICATION BY GROUP METHOD OF DATA HANDLING We investigate the validity of the joint application of the data partitioning method and criterion of external additions in finding the most accurate models. Quasi-optimal partitions for all ratios of sizes of the initial matrices are described. GMDH external criteria are comprehensively investigated. Their use in certain types of optimal ways of partitioning the sample is theoretically justified. If the condition of proportionality of data is satisfied, the theoretical substantiation and confirmation in numerical experiments were obtained that the criterion of parameters unbiased ness, is not "adequate" to noise while minimizing the criterion of the sample division, it takes place only when it is maximized. Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 5 33 1. Ивахненко А.Г. Системы эвристической самоорганизации в технической кибернетике. — Киев: Техніка, 1971. — 372 с. 2. Павлов О.А. Критерiй ранжування для порогового самовiдбору змiнних в алгоритмах МГУА // Автоматика.. — 1969. — № 4. — C. 89–91. 3. Ivakhnenko A.G., Savchenko E.A., Ivakhnenko G.A. Discrete optimization of square data samples as the first stage of the optimization of a discriminant or predictive model // Pattern Recognition and Image Analysis. — 2004. — 14. — Р. 489–494. 4. Висоцький В.М. Про найкращий поділ вихідних даних в алгоритмах МГУА // Автоматика. — 1976. — № 3. — C. 71–74. 5. Юрачковский Ю.П., Грошков А.Н. Оптимальное разбиение исходных данных на обучаю- щую и проверочную последовательности на основе анализа функции распределения кри- терия // Там же. — 1980. — № 2. — С. 5–9. 6. Степашко В.С. Структурная идентификация прогнозирующих моделей в условиях плани- руемого эксперимента // Там же. — 1992. — № 1. — С. 26–35. 7. Сарычев А.П. Решение проблемы разбиения в МГУА при расчете критерия регулярности в условиях активного эксперимента // Там же. — 1989. — № 4. — С. 19–27. 8. Сарычев А.П. Определение J-оптимального множества регрессоров по повторным выбор- кам наблюдений // Там же. — 1993. — № 3. — С. 58–66. 9. Степашко В.С., Кондрашова Н.В. Оценивание трансформации геометрических фигур. — Праці Міжнародного семінару з індуктивного моделювання (МСІМ–2005). Київ, 2005. — Київ: МННЦ IТС, 2005. — С. 294–301. 10. Юрачковский Ю.П., Грошков А.Н. Применение канонических форм внешних критериев для исследования их свойств // Автоматика. — 1979. — № 3. — С. 85–89 11. Ивахненко А.Г., Юрачковский Ю.П. Моделирование сложных систем по эксперименталь- ным данным. — М.: Радио и связь, 1987. — 120 с. 12. Степашко В.С., Кондрашова Н.В. Анализ проблемы разбиения выборки для алгоритмов МГУА // Кибернетика и вычисл. техника. — 2002. — Вып. 136. — С. 3–15. 13. Ивахненко А.Г. Долгосрочное прогнозирование и управление сложными системами — Киев: Технiка, 1975. — 312 с. 14. Гантмахер Ф.Р. Теория матриц: 3-е изд. — М.: Наука, 1967. — 575 р. 15. Светальский Б.К. Алгоритм и программа моделирования сложных систем по критерию несмещенности и баланса переменных для системного многократного дифференциального прогноза и управления // Прямой синтез математических моделей сложных объектов при небольшом числе экспериментальных данных. — Киев: Наук. думка, 1974. — С. 42–44. 16. Ивахненко А.Г., Высоцкий В.Н., Ивахненко Н.А. Основные разновидности критерия минимума смещения модели и исследование их помехоустойчивости // Автоматика. — 1978. — № 1. — С. 32–53. 17. Ivakhnenko A.G., Ivakhnenko G.A., Savchenko E.A. GMDH algorithm for optimal model choice by the external error criterion with the extension of definition by model bias and its applications to the committees and Neural Networks // Pattern Recognition and Image Analysis. — 2002. — 12, N 4. — Р. 347–353. Получено 10.12.2014 После доработки 26.03.2015