Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА

Розбиття вибірки і критерії для вибору кращого розбиття є важливими елементами в алгоритмах МГУА. Розглянуто ефективність розбиття вибірки в задачах апроксимації, екстраполяції та прогнозування. Головну увагу приділено квазіоптимальному способу розбиття, який в комбінації з іншими способами здатний...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Проблемы управления и информатики
Datum:2008
1. Verfasser: Кондрашова, Н.В.
Format: Artikel
Sprache:Russisch
Veröffentlicht: Інститут кібернетики ім. В.М. Глушкова НАН України 2008
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/209121
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА / Н.В. Кондрашова // Проблемы управления и информатики. — 2008. — № 2. — С. 53-64. — Бібліогр.: 15 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859994710142091264
author Кондрашова, Н.В.
author_facet Кондрашова, Н.В.
citation_txt Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА / Н.В. Кондрашова // Проблемы управления и информатики. — 2008. — № 2. — С. 53-64. — Бібліогр.: 15 назв. — рос.
collection DSpace DC
container_title Проблемы управления и информатики
description Розбиття вибірки і критерії для вибору кращого розбиття є важливими елементами в алгоритмах МГУА. Розглянуто ефективність розбиття вибірки в задачах апроксимації, екстраполяції та прогнозування. Головну увагу приділено квазіоптимальному способу розбиття, який в комбінації з іншими способами здатний збільшити точність екстраполяції та прогнозування. Найбільша точність моделей досягається при поєднанні квазіоптимального розбиття і адаптивного прогнозу. Наявність декількох способів розбиття дозволяє обрати відповідну технологію для кожної задачі з огляду на особливості об'єкта. Sample division and a criterion for choice of the best division are important elements in GMDH algorithms. Sample divisions efficiency in the tasks of approximation, extrapolation and forecasting is considered. The main attention is devoted to quasioptimal sample division method which enables to enhance the extrapolation and forecasting accuracy in combination with other methods. The best model accuracy is reached at the quasi-optimal sample division and the adaptive forecast. Some set of sample division methods allows to choose a proper technology for every task taking into account the object features.
first_indexed 2025-12-07T16:33:46Z
format Article
fulltext © Н.В. КОНДРАШОВА, 2008 Проблемы управления и информатики, 2008, № 2 53 УДК 621.513 Н.В. Кондрашова ИССЛЕДОВАНИЕ ВЛИЯНИЯ РАЗБИЕНИЯ ВЫБОРКИ ДАННЫХ НА ТОЧНОСТЬ МОДЕЛИРОВАНИЯ ПО АЛГОРИТМАМ МГУА Способы разбиения выборок на две части перечислены в монографии [1]. В алгоритмах МГУА кроме произвольного разбиения упорядоченных во времени данных используется способ разбиения точек наблюдения по величине разброса («дисперсии») переменных [2]. Среди более поздних можно отметить следующие работы: в [3] исследуется разбиение выборки, максимизирующее чувствитель- ность критерия несмещенности; в [4] определено оптимальное разбиение вы- борки при известной функции распределения внешнего критерия; в [5] получено оптимальное и предложено квазиоптимальное разбиение выборки, минимизи- рующее дисперсию ошибки модели оптимальной сложности. Задача разбиения выборки на две подвыборки напрямую связана с задачей подобия двух геометри- ческих фигур [6]. В работах [7, 8] предложена самоорганизация моделей по квадратным вы- боркам данных с выделением оптимального ядра подвыборок (под «оптимальным ядром» понимается состав строк и столбцов, определяемых по минимуму внешне- го критерия смещения). В данной работе анализируются применяемые в настоящее время способы разбиения и исследуется возможность увеличения точности моделей за счет раз- биения выборки. Постановка задачи Выборка W, или таблица исходных данных, имеет два основных параметра: информация об M переменных в столбцах представлена N точками наблюдения переменных в строках таблицы. Эти два основных параметра не фиксированные, т.е. одной исходной таблице может соответствовать множество производных таб- лиц. Количество столбцов может быть дополнено целесообразными (возможны- ми) функциональными преобразованиями исходных переменных; кроме того, в случае малого количества точек наблюдения количество столбцов может быть увеличено, например, за счет линейной комбинации имеющихся строк. При опти- мизации ядра определяется оптимальный набор как переменных (столбцов) ,Ss ∈λ так и точек наблюдения (строк) ,Ρpn ∈ где λs — сложность (структура) модели, np — состав множества точек наблюдения (набор строк) подвыборки; λ, n — соответственно количество столбцов и строк; S, P — соответственно мно- жества возможных структур моделей и наборов точек наблюдения в подвыборках. Задача состоит в следующем: нужно разбить первоначальную выборку =W DBA ∪∪= на обучающую A, проверочную В и экзаменационную D подвыборки ,( ∅≠D ,∅=∩ BA ,∅=∩ DA )∅=∩ DB так, чтобы достичь максимального качества модели. С целью учета особенностей задач аппроксимации, экстраполяции и прогно- зирования по МГУА будем различать технологии разбиения выборки при постро- ении экстраполирующих, прогнозирующих и аппроксимирующих моделей. Для прогнозирующих и экстраполирующих моделей необходимо разбить только ра- бочую BAU ∪= подвыборку на обучающую A и проверочную В, так как экза- менационная подвыборка D — это последние по времени замеры переменных (точки наблюдений за пределами рабочей подвыборки данных). 54 ISSN 0572-2691 На рис. 1 представлены примеры схем однократного (а) и многократного (б, в, г) разбиений выборок и подвыборок. Частные случаи однократного разби- ения: • при разбиении W, когда ;∅=D • при небольших выборках W в задачах экстраполирования и прогнозирова- ния, когда в подвыборку ∅≠D входят последние по времени или граничные с рабочей подвыборкой значения, а остальные точки наблюдений распределяются по подвыборкам А и В тем или иным способом. Разбиения выборок можно описать схематично для случаев, когда ∅=D )и( BAW ⇒ и ,∅≠D например: однократное разбиение ;и, DBAW ⇒ дву- кратное разбиение — сначала ,и DUW ⇒ затем ;и BAU ⇒ многократные раз- биения: параллельное ,и vv DUW ⇒ затем ,и vvv BAU ⇒ ,,1 Vv = и последова- тельное ,и 11 DUW ⇒ затем ,и vvv BAU ⇒ ,и 11 ++⇒ vvv DUD ,1,1 −= Vv где V — общее количество разбиваемых выборок и подвыборок. Одна из возможных схем последовательного многократного разбиения представлена на рис. 1, в. Мно- гократное разбиение выборки применяется тогда, когда все множество значений переменных в точках наблюдения значимо [9]. A B D W U D W A B а б Dν W A1 B1 U1 D1 Uv … … Av Bv W A1 B1 U1 D1 U2 D2 … A2 B2 в г Рис. 1 В результате разбиений на подвыборках vA и ,,1, VvBv = определяются мо- дели, которые во всех точках наблюдений должны удовлетворять заданной экс- пертом точности. Виды разбиений Независимо от схемы, разбиения выборки в алгоритмах МГУА могут быть произвольными, упорядоченными по параметру (например, по времени) или по- лученными в соответствии с критерием. Поскольку в результате разбиения точки наблюдения могут быть переставлены в подвыборках в любом порядке, важное значение имеет независимость векторов наблюдения. Под вектором наблюдения в определенной точке понимается совокупность предположительно связанных между собой признаков (переменных) объекта в данной точке. Например, если объект динамический, то значение какой-либо переменной в определенный мо- мент времени может быть зависимым от значения этой же переменной в преды- дущие моменты. Векторы наблюдения формируются, как правило, с учетом физи- ческих свойств объекта или процесса, особенностей имеющейся о нем базы дан- ных и тесно связаны с выбором класса моделей. Совокупность векторов наблюдения может переформатировать исходную выборку (таблицу) данных. Для Проблемы управления и информатики, 2008, № 2 55 приведенного примера модели динамики число связанных переменных в векторе наблюдения может изменяться, при увеличении этого числа количество несвязан- ных векторов точек наблюдения уменьшится. Вид переформатированной таблицы следует учитывать при разбиении выборки, поскольку он влияет на результат раз- биения. Критерии разбиения выборки, используемые в настоящее время, можно условно разделить на две группы: • для объектов или процессов, относительно которых предполагается неиз- менность моментных характеристик (конечного набора моментов) или скрытое подобие частей выборки (например, если динамический объект стационарный); • для объектов или процессов, моментные характеристики которых изменя- ются (к примеру, если динамический объект или процесс нестационарный). Укажем виды разбиений, оптимальных по какому-либо критерию: 1) диспер- сионное; 2) ρ-квадратичное. Разбиение выборки по дисперсии связано с моментными характеристиками вида ),,,(σ,])(,,)([σ 22 1 222 11 2 NNN σσ=Μ−ΜΜ−Μ=  xxxx ,1 1 ni M i n x M ∑ = =Μx ,,1,)( 1 1)( 2 1 2 Nnx M nin M i nn =Μ− − =Μ−Μ ∑ = xxx где ,,1,2 Nnn =σ — дисперсия переменных n-й точки наблюдения; )(⋅Μ — сим- вол математического ожидания; Nxx ,,1  — векторы переменных в различных точках замера; nx — n-я строка )1(dim Mn ×=x матрицы исходных данных Х ).(dim MN ×=X Второе, ρ-квадратичное разбиение выборки связано с информационными мат- рицами — матричными моментными характеристиками: ,χ T iii XX= ,2,1=i где iX — подматрицы полного ранга, однозначно определяемые двумя подвыборка- ми, ,dim Mnii ×=X 1n и )( 12 nNn −= — количество строк соответственно первой и второй подматрицы. Это разбиение называется ρ2-пропорциональным квазиоптимальным разбие- нием [5], поскольку минимизирует норму разности двух ρ2-пропорционально за- висимых информационных матриц. Квазиоптимальное разбиение следует отли- чать от ρ2-пропорционального оптимального разбиения, которое возможно только при планировании эксперимента и выполнении равенства .1 T 1 2 12 T 2 XXXX ρ= Подобное по дисперсии (ПД) разбиение определяется как оптимальный набор точек наблюдения в подвыборках (строк в подматрицах) ,minarg),( 2 , \ 2 , ,1 , min *     σ−σ    = ∑∑ ΩΩ∈Ω⊂Ω∈= σ σ    nn L vv vnvNnvNvnn nNp xx ,,1 Vv = и минимизирует рассогласование суммарных дисперсий подвыборок; здесь v определяет порядковый номер подвыборки, которая разбивается на две части с количеством наблюдений vn и ),( vv nN − ,)2( min NNm v <<+ minm — мини- мальное количество переменных в модели; V — максимальное количество разби- 56 ISSN 0572-2691 ваемых подвыборок; v v n NCL =σ — количество вариантов разбиения при заданном соотношении размеров подвыборок vn и );( vv nN − vNΩ — множество n-х век- торов переменных наблюдения vNn ≤≤1 в разбиваемой v-й подвыборке; vNΩ и ΩΩ / vN — множества точек наблюдения в двух подвыборках, на которые разби- вается v-я подвыборка. Традиционно применяемое в алгоритмах МГУА ПД-раз- биение представляет собой один из вариантов минимизации такой нормы рассо- гласования для одной выборки ).,,1( 1 Av nnNNV ∆∆ === Вторая группа разбиений — для нестационарных объектов, она максимизи- рует рассогласование моментных характеристик. Неподобное по дисперсии (НД) разбиение имеет следующий вид: ,maxarg),( 2 , \ 2 , ,1 , max *     σ−σ    = ∑∑ ΩΩ∈Ω⊂Ω∈= σ σ    nn L vv vnvNnvNvnn nNp xx .,1 Vv = Традиционное в алгоритмах МГУА НД-разбиение определяется без перебора вариантов путем разделения ранжированной выборки, так как при этом выполня- ется равенство         σ′−σ′=    σ−σ    ∑∑∑∑ +==ΩΩ∈Ω⊂Ω∈= σ N nn n n n nnn L A A AnNnNAnn 1 2 1 2 \ 2 , 2 , ,1 maxarg xx   и ,,,1 1 Av nnNNV === ∆ 1=σL при заданном единственном значении точки раз- дела (длине обучающей выборки) .An Размещение точки наблюдения в подвы- борках А и В определяется в зависимости от того, какой из двух сумм ранжиро- ванных по возрастанию значений дисперсий ,,1,2 Nnn =σ′ она принадлежит. Предложенное в [5] ρ2-пропорциональное («квазиоптимальное») разбие- ние для пассивного эксперимента минимизирует норму разности информацион- ных матриц (подматриц) и имеет вид .,1,minarg)( 21 2 ,1,0min, 2 * VvNp vv L v v =χ−χ= ρ =≠ρ      (1) Неподобное ρ-квадратичное разбиение v-й подвыборки (аналог НД-разбие- ния) имеет вид ,maxarg)( 21 2 ,1,0 max, 2 *      vv L v v Np χ−χρ= =≠ρ .,1 Vv = (2) Количество вариантов разбиений при заданных пределах изменения разме- ров одной из подвыборок vv nn maxmin , равно суммарному количеству сочетаний, ; max min ∑ = = v v v n nn n Nv CL при этом необходимо выполнение условия ,1minmin +≥ vv mn minm — минимальное количество переменных в моделях МГУА. Подвыборкой максимальной длины служит обучающая подвыборка А, по которой определя- ются m параметров модели, .maxmaxminmin Mmmmmm vv ≤≤≤≤≤ Аналогично .1maxmax +≥ vv mn Общее количество неповторяющихся разбиений v-й подвыборки Проблемы управления и информатики, 2008, № 2 57 ,12 1 2/ 1 −== − = ∑ v v v N N i i Nv CL .,1 Vv = (3) Результат любого разбиения для дальнейшего определения оптимального набора переменных (оптимальной сложности модели) представляется на входе алгоритма МГУА в виде последовательной записи первой и второй подвыборок, причем порядок размещения множества векторов наблюдений в каждой из под- выборок произвольный: ],[ *T 2 *T 1 *T vvv XXX = ,dim ** 1 Mnvv ×=X .)(dim ** 2 MnN vvv ×−=X Критерии поиска разбиений В [5, 9] для вычисления нормы ⋅ ρ2-пропорциональных квазиоптимальных разбиений (1) предложен наименее вычислительно затратный критерий ,)/()(minmin minmaxminmax ,1,1   ρ+ρρ−ρ= == vv LL H (4) где ,max ;,1, max ij jiMji ρ=ρ >=  ij jiMji ρ=ρ >= ;,1, min min  (здесь и далее в данном разделе индекс v опущен), MijMiijijij ,,,1,/ 21 ==χχ=ρ .02 ≠χ∀ ij (5) В [10] для вычисления нормы (1), если ,02 =χ∃ ij предлагается использовать критерий   ijkrkrij lkjiRLL C E vv 21212,1,1 1minmin χχ−χχ= ∑ == ,,,, 2121 ijkrkrij χχχχ∀ ,,1,,, Mrkji = .2/)1( += MMR Приведем пример критерия E для :2=M .][ 3 1 122221222121112221222111112121122111 χχ−χχ+χχ−χχ+χχ−χχ=E Критерии H и E ρ-независимы тогда, когда выполняется тождество 2 2 1 χρ≡χ либо более жесткое условие 21 XX ρ= (так как при этом требуется ).21 nn = При минимизации (4), ,maxmin ρ→ρ→ρ норма (1) также стремится к нулю, крите- рий (4) — к ρ-независимости (нет необходимости оценивать значение ).2ρ Для поиска неподобного ρ-квадратичного разбиения применение критерия (4) стано- вится проблематичным, поскольку возникает задача оценивания значения 2ρ при максимизации нормы (2). В этом случае можно применять критерий Е, который так же, как и критерий H, равен нулю только в случае ρ2-пропорциональности матриц ,2,1, =χ ii при этом норма (1) равна нулю. При максимизации крите- рия Е норма (2) также максимизируется, в этом случае нет необходимости оцени- вать значение .2ρ Алгоритмы поиска разбиений Как было отмечено, задача поиска оптимального разбиения NP-полная. В ал- горитме полного перебора (ПП) генерируются варианты разбиений, количество которых определяется по формуле (3) и представляет собой показательную функ- 58 ISSN 0572-2691 цию от количества точек наблюдения ,,1, VvNv = в разбиваемой подвыборке. Добавление одной точки наблюдения в выборку данных увеличивает время поис- ка разбиения вдвое. Отметим, что в задаче последовательного многократного раз- биения, схема которого представлена на рис. 1, г, для количества вариантов раз- биений выполняется условие .2222 1111 321 −−−− +++> vNNNN  Поскольку ,,,, 21)1(2221221221111 vvvv nnnNnnnNnnNN +==+==+== − ∆∆∆  то .,2,1 VvNN vv =>− Будем говорить о разбиении выборки, максимальной по количеству точек наблюдения (далее обозначаемому N). Кратко опишем два алгоритма для сокращения времени поиска квазиопти- мального разбиения [11] без ухудшения результата алгоритма ПП. В двухэтапном алгоритме на первом этапе отбирается ограниченное число vLF << лучших разбиений с использованием при вычислении информационных матриц только диагональных членов .,1, Miii =ρ На втором этапе осуществляет- ся полный перебор с учетом всех элементов (5) матриц для F выбранных лучших разбиений первого этапа. С ростом количества точек наблюдения для того, чтобы не потерять глобального оптимума критерия (4), число F должно быть увеличено настолько, чтобы время поиска оптимального разбиения по данному алгоритмому превысило время работы алгоритма ПП. Опираясь на некоторые численные при- меры построения вариантов разбиений, можно сказать, что двухэтапный алгоритм дает незначительный выигрыш по времени только для ,20≤N а для 30≥N дан- ный алгоритм применять не следует. Применимость алгоритма при 3020 ≤≤ N проблематична. Второй алгоритм усеченного перебора — комбинаторно-селекционный. В этом алгоритме на каждом этапе добавляется одна точка наблюдения из числа отсутствующих в подмножестве точек, отобранных на предыдущих этапах. Чтобы далеко не отклониться от глобального минимума, алгоритм должен иметь возрас- тающую от этапа к этапу свободу выбора F. Поскольку разбиение определяется по алгоритму, подобному описанному в [12] многоэтапному комбинаторно-селек- ционному алгоритму МГУА, то количество вариантов разбиений в зависимости от количества точек наблюдения при постоянном значении F изменяется по сте- пенному закону. Поэтому комбинаторно-селекционный алгоритм при N ≥ 30 может относительно быстро найти решение, соответствующее локальному ми- нимуму (4). Сравнение квазиоптимального и традиционных способов разбиения выборок Воспользуемся некоторыми результатами, изложенными в [13–15]. В качестве традиционных рассмотрим ПД-, НД-разбиения и разбиение упо- рядоченных по времени точек наблюдения. Для задачи аппроксимации исходные данные получены на таком тестовом примере: ,T iiiy ξ+θ= x ),,( 21 iii xx=x ,1θdim ×= M .,1,2 NiM == Проблемы управления и информатики, 2008, № 2 59 Для данной выборки выполняются условия ,0)( =ξΜ i ;)(D 2σ=ξi для ее ча- стей — ,21 XX ρ= , 2 dim MN i ×=X где N — четное. Статическая линейная модель имеет вид ,T iiy xθ=   ),,,,( 10 T Mθθθ=θ    ).,,,1( 1 T iMii xx =x (6) Эта модель восстанавливается по данным, для которых .1 2 dimdim ,][][][][,][][ 21 2 T 2 2 1 T 121 ×== ρ≠ρ≠ Nyy yXyXyXyXyXyX  (7) Для разбиения выборки W на А и В при ∅=D использовалась таблица дан- ных, строки которой — независимые друг от друга наблюдения. В результате по- лучено, что если для информационных матриц входных переменных выполняется условие ρ-пропорциональности подвыборок и количество точек соответствующих подвыборок для всех разбиений совпадает, то структура и параметры модели МГУА не зависят от способа разбиения. Влияние на структуру модели рассмотрено при различных помехах (стан- дартных отклонениях 1,01 =σ и ).12 =σ Для всей выборки условие ρ-пропорцио- нальности подвыборок (см. соотношение (8)) не выполняется, т.е. соответствую- щее разбиение квазиоптимальное. На рис. 2 видно, что при увеличении стандартного отклонения σ аддитивной помехи в выходных данных в 10 раз коэффициент различимости k двух лучших структур моделей для оптимального разбиения уменьшается с 10 до 4,3, (модели различимы), а для других разбиений — до 1 (модели неразличимы). Значение k определяется отношением значений внешнего критерия для двух лучших по МГУА структур. Таким образом, некоторое преимущество имеет квазиоптималь- ное разбиение, которое обеспечивает бóльшую помехоустойчивость определения структуры модели. 0 2 4 6 8 10 12 Уровень неразличимости модели К оэ фф иц ие нт р аз ли чи мо ст и k Оптимальное ПД-разбиение НД-разбиение — σ1 = 0,1; — σ2 = 1 Рис. 2 В задаче экстраполяции бюджетных доходов Украины на девять месяцев впе- ред рабочая подвыборка разбивается на обучающую и проверочную AU ⇒( и B). От предыдущей эта задача отличается наличием экзаменационной подвыборки ),( ∅≠D для которой используются последние по времени девять наблюдений переменных ).9( =Dn Модели статики вида (6) для различных разбиений, по- строенные по таблице данных (N = 47, М = 21) и отобранные по внешнему крите- рию на подвыборке В, используются в неизменном виде при вычислении экстра- 60 ISSN 0572-2691 полированных значений бюджетных доходов по данным экзаменационной выбор- ки D. Традиционные способы разбиения выборки и квазиоптимального разбиения могут помочь существенно повысить точность моделей. Визуализация результа- тов помогает оперативно выбрать модели, необходимые для повышения точности экстраполяции. Модели, полученные после разбиения выборки квазиоптимальным и тради- ционными способами, представлены на рис. 3. Модели квазиоптимального разби- ения и наиболее различающихся по дисперсии НД-разбиений, будучи верхней и нижней оценкой реального процесса (рис. 4), в наибольшей мере отражают тен- денцию изменения доходов бюджета. Результаты разбиения по этим моделям ис- пользованы для получения усредненной модели экстраполяции. 0 20 40 60 80 100 120 140 160 180 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 Месяцы Д ох од б ю дж ет а, м лр д гр н. Табличное Последовательное Квазиоптимальное ПД НД Рис. 3 Ошибка моделей на точках экзаменационной подвыборки вычисляется по формуле (рис. 5) ,3,1,/)( 2 1 2 1 =−= ∑∑ == ryyyJ i n i ii n i r D r D  (8) r — индекс сравниваемых моделей. 0 20 40 60 80 100 120 140 160 39 40 41 42 43 44 45 46 47 Д ох од б ю дж ет а, м лр д гр н. Табличное Усредненная модель Квазиоптимальное НД Месяцы Рис. 4 Проблемы управления и информатики, 2008, № 2 61 0 0,002 0,004 0,006 0,008 0,01 0,012 0,014 0,016 0,018 0,02 1 2 3 О ш иб ка J r — Усредненный результат по моделям квазиоптимального и НД-разбиений — Модель квазиоптимального разбиения — Модель НД-разбиения 1 2 3 Рис. 5 Рассмотрим результаты построения динамических моделей, когда вектор наблюдений формируется из таблицы исходных данных путем последовательного отбора необходимых значимых входных переменных, ввиду ограничения на ве- личину М в комбинаторном алгоритме МГУА. В примере прогнозирования изме- нения индекса инфляции рабочая подвыборка разбивается на обучающую и про- верочную AU ⇒( и B), так как для экзаменационной подвыборки выбраны три последние резко изменяющиеся во времени записи переменных ,18( =N ,6=M ).3=Dn Традиционно линейная по параметрам )ˆ,,ˆ(ˆ 1 T Mθθ=θ  разностная модель для построения динамики прогноза переменных зависит от значимых переменных в предыдущие моменты времени: ,,,,1 ),,,,,,,,( 2,51,32,1,6,1 LnnNnNknL YxxxxxFY DBAUD kkkkkkLk −−−=== = −−−+   θ (9) где UN — количество точек в рабочей подвыборке. При увеличении количества зависимых последовательных во времени значе- ний выходной переменной (шагов прогнозирования L) размерность вектора наблюдений (количество столбцов) увеличивается, таблица, соответствующая ис- ходной выборке, укорачивается. Вследствие этого теряются значения вблизи точ- ки прогнозирования по модели вида (9), что, в свою очередь, ведет к снижению точности прогноза. При прогнозировании резко изменяющихся процессов важно не терять зна- чения вблизи точки отдаленного прогноза. На каждом шаге таблица переформа- тируется, так как количество зависимых переменных растет за счет переменных вблизи точки отдаленного прогноза. И хотя количество столбцов в подматрицах увеличивается, количество строк остается неизменным const( =UN при увеличе- нии M). На рис. 6 показано последовательное включение прогнозируемых значе- ний в модель адаптивного прогноза (пополнение рабочей подвыборки значениями ,   +kY ).,1,3 Lk ==  t Прогноз 1-й шаг прогнозирования 2-й шаг прогнозирования Y1 Y2 Y3 4Y  5Y  LkY +  … Рис. 6 Семейство моделей c адаптивным прогнозом имеет вид 62 ISSN 0572-2691 ),,,,,,,,( 2,51,32,1,6,1 kkkkkkLk YxxxxxFY −−−+ =   θ ;1=L ),,,,,,,,,,,( 112,51,32,1,6,1 −++−−−+ = LkkkkkkkkLk YYYxxxxxFY      θ (10) ,;,,2 DUD nNNknL −===  где UN = const, const=−−= DBA nnNn — количество точек наблюдения рабо- чей и обучающей выборок ).,1,,1( DnLL == Из сравнения графиков, приведенных на рис. 7 (изменение ошибки прогно- зирования в зависимости от разбиения для моделей с адаптивным прогнозом) и рис. 8 (без адаптивного прогноза), видно, что для значительного повышения точ- ности прогнозирования важно наличие не только квазиоптимального разбиения, но и адаптивного прогноза. Для примеров, представленных на этих графиках, главное отличие состоит в виде разностных моделей (неадаптивный прогноз (9), адаптивный прогноз (10)), размере рабочих таблиц и после разбиения — в составе обучающей и проверочной подвыборок. -2,5 -2 -1,5 -1 -0,5 0 0,5 1 2 3 4 вид разбиения −2,5 −2 −1,5 −1 −1,5 0 0,5 Lo gJ r Вид разбиения 1 2 3 4 1 — Квазиоптимальное 2 — ПД 3 — НД 4 — Последовательное Рис. 7 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 1 2 3 4 вид разбиения −0,4 −0,2 0 0,2 0,4 0,6 Lo gJ r Вид разбиения 1 2 3 4 1 — Квазиоптимальное 2 — ПД 3 — НД 4 — Последовательное −0,6 −0,8 Рис. 8 Значения индекса инфляции и его адаптивный прогноз на 3 шага в зависимо- сти от способа разбиения данных иллюстрирует рис. 9. На основании этих данных очевидно, что прогнозирование по разностным уравнениям адаптивного прогноза, полученным с применением квазиоптимального разбиения, наиболее точное. Проблемы управления и информатики, 2008, № 2 63 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0,02 0,04 0,06 0,08 0,1 П ри ро ст , % Месяцы 1 2 3 4 Табличное ПД Квазиоптимальное Последовательное 0 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0,12 0,14 0,16 НД Рис. 9 Выводы Наличие множества способов разбиений выборки позволяет для каждой за- дачи выбрать свою технологию разбиения с учетом особенностей объекта моде- лирования и сопоставить ее с альтернативными. Кроме того: 1) в задаче аппроксимации 2ρ -пропорциональное разбиение имеет преиму- щество при выявлении правильности структуры модели; 2) квазиоптимальное разбиение данных дает возможность увеличить точ- ность экстраполяции и прогнозирования моделей МГУА; 3) комбинация моделей квазиоптимального и традиционных способов разби- ения выборки может существенно повысить точность моделей для экстраполяции переменных; 4) при прогнозировании для значительного повышения точности важно наличие адаптивного прогноза. Н.В. Кондрашова ДОСЛІДЖЕННЯ ВПЛИВУ РОЗБИТТЯ ВИБІРКИ ДАНИХ НА ТОЧНІСТЬ МОДЕЛЮВАННЯ ЗА АЛГОРИТМАМИ МГУА Розбиття вибірки і критерії для вибору кращого розбиття є важливими елемен- тами в алгоритмах МГУА. Розглянуто ефективність розбиття вибірки в задачах апроксимації, екстраполяції та прогнозування. Головну увагу приділено квазіо- птимальному способу розбиття, який в комбінації з іншими способами здатний збільшити точність екстраполяції та прогнозування. Найбільша точність моде- лей досягається при поєднанні квазіоптимального розбиття і адаптивного про- гнозу. Наявність декількох способів розбиття дозволяє обрати відповідну тех- нологію для кожної задачі з огляду на особливості об'єкта. 64 ISSN 0572-2691 N.V. Kondrashova STUDY OF THE INFLUENCE OF DATA SAMPLE DIVISION ON MODELING ACCURACY BY GMDH ALGORITHMS Sample division and a criterion for choice of the best division are important elements in GMDH algorithms. Sample divisions efficiency in the tasks of approximation, ex- trapolation and forecasting is considered. The main attention is devoted to quasi- optimal sample division method which enables to enhance the extrapolation and forecasting accuracy in combination with other methods. The best model accuracy is reached at the quasi-optimal sample division and the adaptive forecast. Some set of sample division methods allows to choose a proper technology for every task taking into account the object features. 1. Ивахненко А.Г. Долгосрочное прогнозирование и управление сложными системами. — Ки- ев : Технiка, 1975. — 312 с. 2. Павлов О.А. Критерій ранжування для порогового самовiдбору змінних в алгоритмах МГВА // Автоматика. — 1969. — № 4. — C. 89–91. 3. Висоцький В.М. Про найкращий поділ вихідних даних в алгоритмах МГВА // Там же. — 1976. — № 3. — C. 71–74. 4. Юрачковский Ю.П., Грошков А.Н. Оптимальное разбиение исходных данных на обучаю- щую и проверочную последовательности на основе анализа функции распределения крите- рия // Там же. — 1980. — № 2. — С. 5–9. 5. Ст епашко В.С. Структурная идентификация прогнозирующих моделей в условиях плани- руемого эксперимента // Там же. — 1992. — № 1. — С. 26–35. 6. Степашко В.С., Кондрашова Н.В. Оценивание трансформации геометрических фигур // Пр. Міжнародного семінару з індуктивного моделювання МСІМ-2005. Київ, 11–14 липня 2005 р. — Київ : МННЦ ІТС, 2005. — С. 294–301. 7. Ivakhnenko A.G., Savchenko E.A., Ivakhnenko G.A. Pattern recognition and prediction of random processes by the GMDH combinatorial algorithm with extension according to model bias // Pat- tern Recognition and Image Analysis. — 2003. — 14, N 3. — P. 349–360. 8. Ivakhnenko A.G., Savchenko E.A., Ivakhnenko G.A. Discrete optimization of square data samples as the first stage of the optimization of a discriminant or predictive model // Ibid. — 2004. — 15, N 3. — P. 489–494. 9. Kondrashova N., Pavlov A., Pavlov Ya. Optimization of forecasting models for testing blood samples by estimation of tiol-disulfide diagrams // Proc. оf II International workshop on inductive modeling IWIM-2007. — Prague : CTU in Prague, 2007. — P. 160–164. 10. Степашко В.С., Кондрашова Н.В. Анализ проблемы разбиения выборки для алгоритмов МГУА // Кибернетика и вычисл. техника. — 2002. — Вып. 136. — С. 3–15. 11. Степашко В.С., Кондрашова Н.В. Исследование способов генерации вариантов разбиения выборки в алгоритмах МГУА // Пр. І Міжнародної конференції з індуктивного моделюван- ня. Львів, 20–25 травня 2002. Т. 1, ч. 1. — Львів : ДНДІІІ, 2002. — С. 90–94. 12. Степашко В.С., Костенко Ю.В. Комбинаторно-селекционный алгоритм последовательного поиска модели оптимальной сложности // Там же. — С. 72–76. 13. Кондрашова Н.В. Влияние способа разбиения выборки в алгоритмах МГУА на точность прогнозирования // Управляющие системы и машины. — 2003. — № 2. — С. 128–133. 14. Кондрашова Н.В. Оптимизация разбиения выборки в алгоритмах МГУА как средство по- вышения точности моделирования // Пр. Міжнародного семінару з індуктивного моделю- вання МСІМ-2005. Київ, 11–14 липня 2005 р. — Київ : МННЦ ІТС, 2005. — С. 196–203. 15. Kondrashova N. Influence of sample division on the quality of modeling and forecasting of real processes // Proc. оf II International workshop on inductive modeling IWIM-2007. — Prague : CTU in Prague, 2007. — P. 156–159. Получено 21.12.2007 Постановка задачи Виды разбиений Критерии поиска разбиений Алгоритмы поиска разбиений Сравнение квазиоптимального и традиционных способов разбиения выборок Выводы
id nasplib_isofts_kiev_ua-123456789-209121
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0572-2691
language Russian
last_indexed 2025-12-07T16:33:46Z
publishDate 2008
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
record_format dspace
spelling Кондрашова, Н.В.
2025-11-14T10:29:59Z
2008
Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА / Н.В. Кондрашова // Проблемы управления и информатики. — 2008. — № 2. — С. 53-64. — Бібліогр.: 15 назв. — рос.
0572-2691
https://nasplib.isofts.kiev.ua/handle/123456789/209121
621.513
10.1615/JAutomatInfScien.v40.i3.40
Розбиття вибірки і критерії для вибору кращого розбиття є важливими елементами в алгоритмах МГУА. Розглянуто ефективність розбиття вибірки в задачах апроксимації, екстраполяції та прогнозування. Головну увагу приділено квазіоптимальному способу розбиття, який в комбінації з іншими способами здатний збільшити точність екстраполяції та прогнозування. Найбільша точність моделей досягається при поєднанні квазіоптимального розбиття і адаптивного прогнозу. Наявність декількох способів розбиття дозволяє обрати відповідну технологію для кожної задачі з огляду на особливості об'єкта.
Sample division and a criterion for choice of the best division are important elements in GMDH algorithms. Sample divisions efficiency in the tasks of approximation, extrapolation and forecasting is considered. The main attention is devoted to quasioptimal sample division method which enables to enhance the extrapolation and forecasting accuracy in combination with other methods. The best model accuracy is reached at the quasi-optimal sample division and the adaptive forecast. Some set of sample division methods allows to choose a proper technology for every task taking into account the object features.
ru
Інститут кібернетики ім. В.М. Глушкова НАН України
Проблемы управления и информатики
Развитие и исследование алгоритмов МГУА
Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА
Дослідження впливу розбиття вибірки даних на точність моделювання за алгоритмами МГУА
Study of the influence of data sample division on modeling accuracy by GMDH algorithms
Article
published earlier
spellingShingle Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА
Кондрашова, Н.В.
Развитие и исследование алгоритмов МГУА
title Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА
title_alt Дослідження впливу розбиття вибірки даних на точність моделювання за алгоритмами МГУА
Study of the influence of data sample division on modeling accuracy by GMDH algorithms
title_full Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА
title_fullStr Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА
title_full_unstemmed Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА
title_short Исследование влияния разбиения выборки данных на точность моделирования по алгоритмам МГУА
title_sort исследование влияния разбиения выборки данных на точность моделирования по алгоритмам мгуа
topic Развитие и исследование алгоритмов МГУА
topic_facet Развитие и исследование алгоритмов МГУА
url https://nasplib.isofts.kiev.ua/handle/123456789/209121
work_keys_str_mv AT kondrašovanv issledovanievliâniârazbieniâvyborkidannyhnatočnostʹmodelirovaniâpoalgoritmammgua
AT kondrašovanv doslídžennâvplivurozbittâvibírkidanihnatočnístʹmodelûvannâzaalgoritmamimgua
AT kondrašovanv studyoftheinfluenceofdatasampledivisiononmodelingaccuracybygmdhalgorithms