Системный подход к построению регрессионной модели по временным рядам

Описывается модифицированный подход к построению математических моделей разнообразных процессов. Сформулированы понятия структуры модели, которая разрешает выбрать надлежащую структуру модели в процессе ее построения. Описанный подход был успешно испытан на ряде примеров построения эконометрических...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Системні дослідження та інформаційні технології
Datum:2002
Hauptverfasser: Бидюк, П.И., Баклан, И.В., Рифа, В.Н.
Format: Artikel
Sprache:Russisch
Veröffentlicht: Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України 2002
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/50236
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Системный подход к построению регрессионной модели по временным рядам / П.И. Бидюк, И.В. Баклан, В.Н. Рифа // Систем. дослідж. та інформ. технології. — 2002. — № 3. — С. 114-131. — Бібліогр.: 5 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860010120690270208
author Бидюк, П.И.
Баклан, И.В.
Рифа, В.Н.
author_facet Бидюк, П.И.
Баклан, И.В.
Рифа, В.Н.
citation_txt Системный подход к построению регрессионной модели по временным рядам / П.И. Бидюк, И.В. Баклан, В.Н. Рифа // Систем. дослідж. та інформ. технології. — 2002. — № 3. — С. 114-131. — Бібліогр.: 5 назв. — рос.
collection DSpace DC
container_title Системні дослідження та інформаційні технології
description Описывается модифицированный подход к построению математических моделей разнообразных процессов. Сформулированы понятия структуры модели, которая разрешает выбрать надлежащую структуру модели в процессе ее построения. Описанный подход был успешно испытан на ряде примеров построения эконометрических моделей. Пропонується модифікований підхід до побудови математичних моделей різноманітних процесів. Сформульовано поняття структури моделі, що дозволяє вибрати належну структуру моделі в процесі її побудови. Пропонується розділити процес побудови моделі на наступні п’ять етапів: аналіз процесу, встановлення факту присутності нелінійностей, вибір структур моделей-кандидатів, вибір методу оцінювання параметрів та оцінювання параметрів вибраних кандидатів та вибір кращої моделі за допомогою множини статистичних параметрів. Запропонований підхід був успішно випробуваний на ряді прикладів побудови економетричних моделей. A modified approach to mathematical models building of various processes using time series is proposed. The notion of model structure that allows to properly select a specific structure in the process of model construction is formulated. It is proposed to split the process of model construction in the following five steps: process analysis, detection of non-linearity, selection of model structure for possible candidates, selection of parameter estimation methods and estimation of the candidates, and selection of the best fit model using a set of statistics. The approach proposed has been tested successfully on a set of examples of econometric model building.
first_indexed 2025-12-07T16:41:31Z
format Article
fulltext © П.И. Бидюк, И.В. Баклан, В.Н. Рифа, 2002 114 ISSN 1681–6048 System Research & Information Technologies, 2002, 3 УДК 62-50 СИСТЕМНЫЙ ПОДХОД К ПОСТРОЕНИЮ РЕГРЕССИОННОЙ МОДЕЛИ ПО ВРЕМЕННЫМ РЯДАМ П.И. БИДЮК, И.В. БАКЛАН, В.Н. РИФА Описывается модифицированный подход к построению математических моделей разнообразных процессов. Сформулированы понятия структуры модели, которая разрешает выбрать надлежащую структуру модели в процессе ее построения. Описанный подход был успешно испытан на ряде примеров построения эконометрических моделей. Известны методики построения моделей типа авторегрессии со скользящим средним (АРСС), АРСС с эндогенными переменными (АРССЭ) или АРСС с интегрированным скользящим средним (АРИСС) [1–3]. Однако в представленных методиках понятие структуры модели представлено нечетко, а также недостаточно внимания уделяется определению нелинейностей модели. Предлагаемый ниже системный подход может быть использован при построении линейных моделей, а также моделей с нелинейностями относительно переменных (псевдолинейные модели). Хотя модели, нелинейные относительно параметров, здесь не рассматриваются, отдельные элементы предлагаемой методики могут быть применены также при построении моделей и такого класса. В соответствии с предлагаемым подходом построение модели по временным рядам состоит из пяти следующих этапов: 1. Выполнить анализ процесса (процессов), для которого строится модель на основании измерений входных и выходных переменных, представленных соответствующими временными рядами. 2. Выполнить анализ имеющихся временных рядов на возможное присутствие нелинейностей с помощью ряда критериев. 3. Выбрать структуры моделей-кандидатов. Для этого необходимо выполнить следующее: вычислить и выполнить анализ корреляционной матрицы для временных рядов зависимой и независимых переменных с целью определения экзогенных переменных, которые необходимо включить в модель; вычислить автокорреляционную и частную автокорреляционную функцию для зависимой переменной с целью выбора порядка авторегрес- сионной части модели. 4. Выбрать метод (методы) для оценивания коэффициентов (параметров) моделей-кандидатов и оценить их параметры. 5. Выбрать лучшую (адекватную) модель из полученного на четвертом этапе множества кандидатов, используя для этой цели набор статистических параметров. П.И. Бидюк, И.В. Баклан, В.Н. Рифа Системні дослідження та інформаційні технології, 2002, 3 115 СТРУКТУРА МОДЕЛИ Прежде чем перейти к рассмотрению конкретных этапов построения модели, рассмотрим понятие структуры математической модели, которое будет использоваться в дальнейшем. Понятие структуры модели включает в себя следующее: 1. Порядок модели. Это порядок дифференциального, разностного или иного уравнения, используемого для описания динамики процесса или объекта. Например, стохастическое разностное авторегрессионное (АР) уравнение второго порядка имеет вид )()2()1()( 210 kkyakyaaky ε+−+−+= . То есть, порядок этого разностного уравнения определяется числом задержанных во времени значений переменной, используемых в правой части уравнения. Стохастическим оно называется потому, что в правой части присутствует случайная переменная )(kε , назначение которой рассмотрим далее. Следует отметить, что введение случайной составляющей обязательно требует описания ее основных (предполагаемых или известных точно) статистических характеристик, таких как математическое ожидание, дисперсия, автокорреляционная функция и коррелированность с эндогенной переменной. 2. Размерность модели. Она определяется числом уравнений, используемых для описания объекта или процесса. Процесс, описываемый одним уравнением, называют одномерным или скалярным. Процесс, который описывают двумя и более уравнениями, называют многомерным. Удобным является представление в пространстве состояний. При этом размерность модели соответствует размерности вектора состояния процесса (объекта). 3. Наличие нелинейностей и их характер. Определить наличие нелинейностей — не всегда простая задача. Так, для механических и некоторых других систем наличие нелинейностей можно определить путем предварительного изучения законов, закономерностей и особенностей их функционирования. Например, известно, что для механических систем характерными являются нелинейности типа «люфт», «трение», билинейности, а для электрических — гистерезис. При построении регрессионных моделей чаще всего встречаются нелинейности относительно переменных и нелинейности относительно параметров. Примером нелинейности относительно переменных может быть распространенная полиномиальная стохастическая регрессия вида )()()()()( 3 3 2 210 kkxakxakxaaky ε++++= . Коэффициенты этого уравнения можно оценивать обычным методом наименьших квадратов (МНК) при надлежащем построении матрицы измерений [4]. Еще одним примером может быть логистическое уравнение )()1()1()( 2 kkyakyaky ε+−−−= , Системный подход к построению регрессионной модели по временным рядам ISSN 1681–6048 System Research & Information Technologies, 2002, 3 116 которое описывает нелинейные процессы при 40 ≤< a и )1,0()0( ∈y . В предельном случае (при 4=a ) это уравнение описывает хаотический процесс. Нелинейность по параметрам обусловлена наличием в модели произве- дений коэффициентов, например, в виде )())(exp()()( 2210 kkbxakxaaaky ε+−++= . Коэффициенты (параметры) такой модели невозможно оценить с помощью обычного МНК, поэтому для решения этой задачи используют нелинейный МНК, метод максимального правдоподобия или другие методы нелинейного оценивания. 4. Время запаздывания реакции на выходе объекта по отношению к входному сигналу. Запаздывание по входу, если оно известно, достаточно легко учитывается как в непрерывных, так и в дискретных моделях. Для дискретной модели в виде разностного уравнения )()()1()( 210 kdkxakyaaky ε+−+−+= время запаздывания d представляет собой целое число, равное количеству периодов дискретизации измерений, на которое выходной сигнал запаздывает относительно входного, т.е. [ ]sTd /int τ= , где τ — величина запаздывания в непрерывном времени; sT — период дискретизации измерений. Длительность периода дискретизации измерений зависит от динамики конкретного процесса и может изменяться в пределах от нескольких микросекунд для физико-технических системах до одного года в макроэкономике. 5. Возмущения, действующие на процесс, и способ их учета. Под возмущениями понимают входные воздействия процесса, которые оказывают, как правило, отрицательное влияние на его протекание, и не используются как управляющие. Возмущения делят на детерминированные и стохастические, а учитываются они в аддитивной или мультипликативной форме. Выше мы привели разностные уравнения, в которые возмущение )(kε входит в аддитивной форме. Пример мультипликативной формы: )]1()[()( 10 −+= khkkh ααυ , где )(kυ — мультипликативное возмущение. Введение случайной составляющей в модель обусловлено следующими основными причинами: присутствие неконтролируемых внешних возмущений, введение в модель излишних объясняющих переменных или, наоборот, отсутствие в модели необходимых объясняющих переменных, влияние методических и вычислительных погрешностей. Выбор структуры модели, адекватной процессу, — задача весьма не простая и решается, как правило, итеративно. Первоначально структуру модели оценивают приблизительно на основании анализа известной информации о процессе, исследования закономерностей его протекания, анализа корреляционных функций, визуального анализа данных. При этом целесообразно выбирать несколько наиболее вероятных структур П.И. Бидюк, И.В. Баклан, В.Н. Рифа Системні дослідження та інформаційні технології, 2002, 3 117 (кандидатов). Затем определяют оценки параметров моделей-кандидатов и выбирают лучшую из них, используя соответствующие статистические характеристики моделей. Если ни одна из моделей-кандидатов не может считаться адекватной, то необходимо исследовать на информативность экспериментальные данные, которые могут быть недостаточно информативными для оценивания модели. В таком случае может потребоваться повторный или дополнительный сбор экспериментальных данных. АНАЛИЗ ПРОЦЕССА На этом этапе необходимо воспользоваться всей имеющейся информацией о процессе с целью определения числа его входов и выходов; логических взаимосвязей между переменными; возможного присутствия нелинейностей и их характера; определения типа возмущений, действующих на процесс; определения присутствия запаздывания на качественном и, возможно, количественном уровнях; приблизительного определения порядка процесса. В случае исследования экономических процессов необходимо установить имеется ли влияние сезонных эффектов, присутствует ли тренд (на качественном уровне); возможно, что возникнет необходимость выдвинуть гипотезу о существовании случайного тренда; есть ли участки временных рядов с существенно различающимися уровнями колебаний (присутствие гетероскедастичности); оценить необходимость использования гипотезы относительно коинтегрированности переменных. В результате анализа процесса необходимо в общем виде постулировать структуру математической модели, которая будет использоваться в дальнейшем для описания его поведения. Например, если выдвигается гипотеза о существовании гетероскедастичности, то необходимо выбрать возможный класс моделей для ее описания. То же самое касается присутствия коинтегрированности переменных или случайного тренда. ОПРЕДЕЛЕНИЕ НАЛИЧИЯ НЕЛИНЕЙНОСТЕЙ Для решения этой задачи можно пользоваться различными критериями. Однако при этом необходимо знать их возможности. Покажем на простом примере, что применение линейных ковариационных функций не всегда приводит к положительным результатам. Пусть при определении структуры модели не были учтены некоторые объясняющие переменные и в результате коррелированные остатки описываются следующим уравнением: )()1()1()( kekekuck +−−=ξ , (1) где )(ke — белый гауссовский шум; ,0)]([,0)]([ == kuEkeE 0)]()([ =kukeE , то есть, переменные )(ke и )(ku некоррелированны и имеют нулевое среднее; c — масштабный коэффициент. Можно показать, что нормированная автокорреляционная функция остатков и нормированная Системный подход к построению регрессионной модели по временным рядам ISSN 1681–6048 System Research & Information Technologies, 2002, 3 118 функция взаимной корреляции между входным сигналом )(ku и остатками имеют вид τττδτ ξξξ ∀=Φ=Φ ,0)(),()( u . (2) Однако из уравнения (1) следует, что )(kξ — коррелированная последовательность, что будет вносить смещение в оценки параметров модели. Таким образом, в общем случае линейные корреляционные методы не позволяют определить факт присутствия нелинейных эффектов и их влияние на процесс. Для того чтобы оценить тип связи между входом и выходом (связь линейная или нелинейная) можно воспользоваться спектральной функцией высокого порядка вида )/()()( ),( 2 jiji ji ij SSS S X ωωωω ωω ωωω ω = , (3) где ),( jiS ωωω — биспектральная плотность мощности; )( iS ωω — спектральная плотность мощности временного ряда. При ,0),( =jiS ωωω ji ωω ,∀ процесс будет линейным и третий момент входного сигнала 03 =µ . Однако, если ,const=ijX то процесс линейный, но 03 ≠µ . Такой подход к определению присутствия нелинейностей имеет два недостатка. Во-первых, оценивание спектральной плотности мощности требует применения специальной предварительной обработки сигналов в виде применения временных окон, усреднения, цифровой фильтрации и т.п. Во-вторых, он не всегда может быть использован при решении задач идентификации систем, поскольку не позволяет получить оценки параметров модели в явном виде. Кроме того, при решении этих же задач не всегда есть возможность получить измерения входного сигнала или же информативный входной сигнал определяют искусственно в виде специально генерируемых последовательностей, которые не всегда можно подавать на вход объекта вследствие особенностей его функционирования. Что касается экономических процессов, то в этом случае, как правило, нельзя поставить эксперимент с процессом. Поэтому используют только те статистические данные, которые можно реально собрать в процессе исследования. В общем случае при идентификации систем используются тремя типами сигналов: входным, выходным и возмущением. При этом входной управляющий сигнал считают независимым от возмущения. В результате оказывается невозможным выяснение некоторых типов связей. Возможно использование также дисперсинного метода определения присутствия нелинейностей, который основан на применении следующей функции: 2 1)(21)()(21 )]]([)](|)([[),( 112 tzEtutzEEtt tztztuzu −=Ψ , (4) вычисляемой с помощью достаточно сложного интегрального уравнения, если известны соответствующие плотности распределения вероятностей сигналов, которые не всегда можно определить. П.И. Бидюк, И.В. Баклан, В.Н. Рифа Системні дослідження та інформаційні технології, 2002, 3 119 В связи с вышесказанным для обнаружения нелинейностей представляется целесообразным использовать более простые корреляционные процедуры. Пусть система представлена в аналитической форме с помощью рядов Вольтерра: ∑ ∫ ∫ ∞ = +∞ ∞− = +−Π= 1 ,...,121 )()(),...,,(...)( k ininn tedtuhtz τττττ . (6) Используя операторное представление, запишем это уравнение в виде ∑∑ ∞ = ∞ = +=+=+= 11 ),())(()()]([)()]([)( n n n n n tetuHtetuHtetuHtz (7) где квадратные скобки указывают на то, что H — оператор для )(tu , а круглые скобки — на фактическую зависимость. В дальнейшем будем полагать, что случайные сигналы, встречающиеся в процессе идентификации, являются эргодическими, то есть средние значения по ансамблю могут быть преобразованы в средние по времени с помощью некоторой выборочной функции. Рассмотрим чувствительность модели Вольтерра второго порядка к входному сигналу btu +)( . В данном случае выходной сигнал определяется так: =++++= )(])([])([)( 21 tebtuHbtuHtz ).())(2)(())(( 2 221 tebtbutuHbtuH +++++= Если вычесть среднее с выходной величины, то получим )())()(2)(())(()( 22 21 tetutubtuHtuHtz ′+−++=′ , (8) где штрихом обозначен процесс с нулевым средним. Модель (8) включает зависимость от )(22 tuu =σ и от b , поэтому она будет давать правильный прогноз только в том случае, когда входной сигнал имеет такую же характеристику. Таким образом, чувствительность модели к входному сигналу зависит от ее типа, то есть, от ее структуры. Для того чтобы выходной сигнал не зависел от дисперсии входного, вычтем из последнего уравнения среднее при 0)( =tu , то есть ).(...][][)( 21 tebHbHtzb +++= В результате получим следующую зависимость: )(...))(2)(())(()()()( 2 21 tetubtuHtuHtztztz bb ′++++=−=′ . (9) Из (8) и (9) следует, что )()( tztzb = тогда и только тогда, когда объект линейный. Таким образом, последнее равенство можно использовать как простой тест на присутствие нелинейности. Системный подход к построению регрессионной модели по временным рядам ISSN 1681–6048 System Research & Information Technologies, 2002, 3 120 Задачу обнаружения нелинейностей сформулируем следующим образом: требуется установить необходимость применения нелинейной модели для описания конкретной выборки данных. Для решения задачи будем пользоваться корреляционными функциями. Пусть входной сигнал )(tu и шум )(te — независимые процессы с нулевым средним и пусть все моменты с нечетными степенями для этих сигналов равны нулю, а для входного сигнала существуют все моменты с четными степенями. Рассмотрим корреляционную функцию )(2 τ zz ′′ Φ , где )(tz ′ — отклик системы на входной сигнал btu +)( после удаления из него среднего значения. Согласно определению, корреляционная функция ]))()(([)( 2 2 tztzE zz ′+′=Φ ′′ ττ , (10) где ∫ +++−=+′ 1111 ))()(()( τττττ dbtuhtz ∫∫ +++++−++−+ ).(...))(()((),( 2121212 τττττττττ teddbtubtuh (11) После замены переменных в уравнении (10) получим ∫ ++−=+′ 1111 )()()( τττττ duthtz ∫∫ ++++−+−+ ...))()()()((),( 212121212 ττττττττττ ddbubuuutth ∫∫ +′+++−+−− )(...)()(),( 2121212 τττττττττ tedduutth . (12) С учетом (7) последнее уравнение запишем в виде −++=+′ ))((2))(())(()( 2 2 21 tubHtuHtuHtz ττττ ).(...))(( 2 2 ττ +′++− tetuH (13) Теперь функция (10) принимает вид =′+′=Φ ′′ ]))()(([)( 2 2 tztzE zz ττ [ ] = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ +′+ +−+++−++ ×′++−+++−++ )](... ...333()2()([ )(...333()2()( 2223 3 22 21 22223 3 22 21 τ τττ te ububbuuHubuuHuH teububbuuHubuuHuH E −+++−++= 2234 31 223 21 2 11 33)((2)2)((2))({[( ubbuuHHuubuuHHuHHE П.И. Бидюк, И.В. Баклан, В.Н. Рифа Системні дослідження та інформаційні технології, 2002, 3 121 +−++×′++− )2()([)](...)3 22 21 22 ubuuHuHteuub ττ )]}(...)333( 2223 3 ττ +′++−+++ teububbuuH . (14) Выполним анализ корреляционной функции )(2 τ zz ′′ Φ . Рассмотрим отдельно каждый член уравнения (14) с учетом того, что все нечетные моменты входного сигнала равны нулю, а четные — присутствуют. В результате получаем 0)])([()]())([( 3 1111 2 11 == uHHHEuHuHHE ττ . (15) =−+ )]2())([( 22 2 2 11 ubuuHuHHE τ 0)]2)([( 2234 211 ≠−+= uubuuHHHE τ . (16) =−++ )]333()([( 2223 3 2 11 ububbuuHuHHE τ 0)]333)([( 223245 311 ≠−++= uububbuuHHHE τ . (17) =−+ )]()2)(2[( 1 223 21 uHuubuuHHE τ 0)]2)(2[( 2234 121 ≠−+= uubuuHHHE τ . (18) По аналогии можно показать, что все остальные члены (за исключением тех, что содержат сигнал ошибки )(te ) также не равняются нулю и влияют на значение корреляционной функции. Нулевые функции имеют вид 0)]())([( 2 11 =+′ τteuHHE , ,0)]()2)(2[( 223 21 =+′−+ τteuubuuHHE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0)]()[( 2 =+′′ τteeE . Из приведенного анализа следует ττ ∀=Φ ′′ ,0)(2zz (19) тогда и только тогда, когда объект линейный, то есть 0,...,, 32 =nHHH . Таким образом, объект будет содержать нелинейности, когда 0)(2 ≠Φ ′′ τ zz . Системный подход к построению регрессионной модели по временным рядам ISSN 1681–6048 System Research & Information Technologies, 2002, 3 122 Гипотеза относительно равенства нулю третьего момента входного сигнала выполняется при возбуждении объекта равномерно распределенным гауссовским шумом и другими случайными процессами. Она проверяется с помощью следующей ковариационной функции: 2111 ,)],()()([ ττττ ∀++ tututuE . Присутствие во входном сигнале постоянной b способствует обнаружению нелинейностей системы, которые влияют на величину )(2 τ zz ′′ Φ . Если положить 0=b , то третий член разложения (16)–(19) будет равняться нулю и с помощью функции )(2 τ zz ′′ Φ будет невозможно определить нелинейности нечетного порядка. При наличии измерений величины )(tzb′ результат, подобный (20), можно получить также для функции )(2 τ bbzz ′′ Φ . Кроме рассмотренных подходов к определению наличия нелинейностей при построении регрессионных моделей можно воспользоваться более простыми тестами. Например, статистикой [4] ∑∑ ∑ == = − − − − = in j iij k i k i iii yy kn yyn k F 1 2 1 1 2 )(1 )( 2 1 , где k — число групп данных; in — число измерений в группе; n — общее число измерений. Фактически, данная статистика представляет собой следующее отношение: среднихгрупповыхотзначенийОтклонение регрессиипрямойотзначенийсреднихОтклонение y(k) F = . Если статистика F с knk −=−= 21 ,2 νν степенями свободы достигает или превосходит уровень значимости, то гипотезу о линейности нужно отбросить. Недостатком этого метода является то, что для его использования необходимо иметь не менее трех реализаций процесса, что возможно далеко не всегда. ВЫБОР СТРУКТУРЫ МОДЕЛЕЙ-КАНДИДАТОВ Коэффициент корреляции, а в общем случае корреляционная функция, позволяют установить наличие связи между эндогенными (зависимыми) и экзогенными (независимыми) переменными. Корреляция может быть линейная или нелинейная в зависимости от типа зависимости, фактически существующей между переменными. В большинстве практических случаев рассматривают линейную корреляцию (взаимосвязь), однако более глубокий анализ требует привлечения для исследования процессов нелинейных П.И. Бидюк, И.В. Баклан, В.Н. Рифа Системні дослідження та інформаційні технології, 2002, 3 123 зависимостей. Сложную нелинейную зависимость можно упростить, но знать о ее существовании необходимо для того, чтобы построить адекватную модель процесса. Корреляционная матрица позволяет установить факт наличия связи между указанными переменными. Рассмотрим корреляционную матрицу размерности 33× , которая строится для трех переменных zyx ,, : ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = zzxzyz zxxxyx zyxyyy rrr rrr rrr R , (20) где zxxzzyyzxyyx rrrrrr === ,, . Пусть y — зависимая переменная, а zx, — технологические параметры, которые предположительно влияют на y . То есть, мы определяем наличие зависимости вида ),( zxfy = , которая может быть представлена в форме регрессии переменной y на независимые переменные zx, : )()()()( 210 kkzakxaaky ε+++= , (21) где k — дискретное время (например, в секундах, минутах, часах, днях, неделях, месяцах и т.д.); )(kε — случайная переменная, причины введения которой в модель следующие: наличие случайных возмущений, неучтенные регрессоры, избыточные регрессоры и ошибки вычислений. Зачастую считают, что совокупное влияние всех указанных факторов можно с некоторым допущением описать случайной переменной )(kε . Поскольку она не измеряется, то оценить ее значение (ошибку модели или остаток) можно только после оценивания коэффициентов модели, то есть )()(ˆ)()( kykykek −=≈ε , где )(ˆ ky — оценка переменной )(ky , полученная по модели; )(ky — измерение. Для вычисления элементов матрицы R необходимо иметь синхронные по времени выборки значений всех трех переменных zxy ,, . Формула для расчета коэффициентов корреляции имеет вид [ ][ ]{ } yx N k yx ykyxkx N r σσ ∑ = −− = 1 )()( 1 . (22) Системный подход к построению регрессионной модели по временным рядам ISSN 1681–6048 System Research & Information Technologies, 2002, 3 124 Здесь yx, — средние выборочные значения переменных yx, ; yx σσ , — стандартные отклонения этих переменных, то есть 2/1 1 22 ])([ 1 1 ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ − − == ∑ = N k yy yky N σσ , где N — число измерений переменной y . Коэффициенты корреляции показывают степень взаимосвязи между переменными. Очевидно, что прежде чем формально вычислять коэффициенты корреляции, необходимо выполнить анализ процесса и определить присутствие (или отсутствие) логической связи между переменными. Это позволяет ввести в рассмотрение только те переменные, которые действительно влияют на зависимую. Очевидно, что для правильного выбора переменных необходимо достаточно глубоко знать моделируемый процесс (для решения этой задачи введен первый этап). На основании значений коэффициентов корреляции принимается решение о включении их в уравнение регрессии: )()()()( 210 kkzbkxbaky ε+++= , которое может быть представлено в общем виде как множественная регрессия: )()(...)()()()( 3322110 kkxakxakxakxaaky pp ε++++++= . (23) Известно, что между коэффициентами регрессии 21, bb и коэффи- циентами корреляции yzyx rr , существует однозначная взаимосвязь. Уравнение (23) представляет собой множественную линейную регрессию p -го порядка, хотя зачастую приходится применять более сложные нелинейные модели. Характерным представителем нелинейной по переменным регрессии является полиномиальная регрессия произвольного порядка. Для определения необходимости включения в уравнение регрессии авторегрессионной составляющей необходимо вычислить и исследовать выборочную автокорреляционную и частную автокорреляционную функцию переменной )(ky . Уравнение с авторегрессионной составляющей имеет вид )()()2()1()( 21210 kzbkxbkyakyaaky ++−+−+= , (24) то есть, в уравнение регрессии добавлена авторегрессионная (АР) составляющая второго порядка. Порядок авторегрессии определяется с помощью автокорреляционной функции. Число коэффициентов авто- корреляционной функции, которые отличны от нуля в статистическом смысле, и будет составлять порядок авторегрессии. Коэффициенты автокорреляционной функции вычисляют по формуле П.И. Бидюк, И.В. Баклан, В.Н. Рифа Системні дослідження та інформаційні технології, 2002, 3 125 [ ][ ]{ } , )()( 1)( 2 1 )()( y N sk skykyy yskyyky N rsr σ ∑ += − −−− == ,...3,2,1=s , (25) где 2 yσ — выборочная дисперсия переменной )(ky . Число коэффициентов АКФ, отличных от нуля в статистическом смысле, указывает на порядок авторегрессионной части модели. Уточнить порядок авторегрессионной составляющей позволяет частная автокорреляционная функция (ЧАКФ), которая вычисляется в соответствии с выражениями: )1(11 r=Φ , 2 1 2 12 22 1 r rr − − =Φ ; ∑ ∑ − = − − = −− Φ− Φ− =Φ 1 1 ,1 1 1 ,1 1 s j jjs s j jsjss ss r rr . (26) ЧАКФ четче отражает порядок АР-модели благодаря отсутствию влияния промежуточных коэффициентов корреляции на выбранные значения переменной, то есть, коэффициент 11Φ характеризует степень взаимосвязи между стоящими рядом (по времени) значениями переменной, а 22Φ — взаимосвязь между значениями переменной, отстоящими на расстоянии двух периодов дискретизации. Значения коэффициентов выборочной (то есть, вычисленной по выборке экспериментальных данных) частной автокорреляционной функции можно приближенно определить по экспериментальным данным следующим образом. Коэффициент 11a модели )()1()( 11 kkyaky ε+−= можно поставить в соответствие коэффициенту ЧАКФ 1111 Φ≈a , а коэффициент 22a модели )()2()( 22 kkyaky ε+−= приблизительно равняется коэффициенту 22Φ . Коэффициенты 2211, aa оценивают, например, методом наименьших квадратов. Когда мы говорим, что значения коэффициентов автокорреляционной функции должны быть отличными от нуля в статистическом смысле, это означает, что существует некоторое выражение, позволяющее установить или опровергнуть этот факт. Одним из общепринятых подходов к определению того факта, что коэффициенты АКФ существенно отличны от нуля в статистическом смысле, есть вычисление статистического параметра (или просто статистики) Льюнга-Бокса )( krQ , который вычисляется по формуле [3, 5]: ∑ = −+= s k kk kNrNNrQ 1 2 )/()2()( , Системный подход к построению регрессионной модели по временным рядам ISSN 1681–6048 System Research & Information Technologies, 2002, 3 126 где N — длина выборки данных переменной, для которой найдены значения автокорреляционной функции kr ; s — число коэффициентов АКФ, исследуемых на существенное отличие от нуля (как правило выбирают 4Ns ≈ . Третий этап заканчивается выбором структур нескольких моделей- кандидатов, коэффициенты которых будут оцениваться на следующем этапе. ОЦЕНИВАНИЕ КОЭФФИЦИЕНТОВ МОДЕЛЕЙ-КАНДИДАТОВ Вычисляем оценки коэффициентов моделей-кандидатов, которые различаются своей структурой. Например, можно выбрать авторегрессионную часть (модель) первого, второго и третьего порядков. Можно рассмотреть модели, включающие по отдельности объясняющие переменные, а также модели, содержащие все объясняющие переменные вместе. Наиболее распростра- ненными методами оценивания параметров модели являются следующие: метод наименьших квадратов (МНК) и его модификации; метод максимального правдоподобия (ММП); метод вспомогательной переменной (МВП); нелинейный метод наименьших квадратов (НМНК) и их рекурсивные версии. Для получения несмещенных оценок вектора параметров θ регрессионной модели с помощью метода наименьших квадратов необходимо выполнить следующие условия: а) )(kε — некоррелированная последовательность случайных чисел с нулевым средним, то есть 0)]([ =kE ε , ⎪⎩ ⎪ ⎨ ⎧ ≠ = == .,0 ;,)]()([)](cov[ 2 jk jkjkEk εσεεε б) последовательности )(kε и )(ky не должны быть коррелированны между собой. ВЫБОР ЛУЧШЕЙ МОДЕЛИ ИЗ МНОЖЕСТВА ПОЛУЧЕННЫХ КАНДИДАТОВ Выбираем лучшую линейную или псевдолинейную модель с помощью множества статистических параметров. Они позволяют оценить по отдельности значимость коэффициентов математической модели в статистическом смысле, определить интегральную ошибку модели по отношению к исходному временному ряду, установить наличие корреляции между значениями ошибки модели (напоминаем, что они должны быть не коррелированными), а также определить степень адекватности модели физическому процессу в целом. В это множество входят следующие статистические параметры. 1. Статистика Стьюдента. Значимость каждого коэффициента регрессии в статистическом смысле определяют с помощью t -статистики (статистика Стьюдента), которая, как правило, вычисляется всеми пакетами статистических программ по формуле: П.И. Бидюк, И.В. Баклан, В.Н. Рифа Системні дослідження та інформаційні технології, 2002, 3 127 a a SE aa t 0ˆ − = , где â — оценка коэффициента, полученная с помощью пакета; 0a — нуль- гипотеза в отношении значения этого коэффициента (обычно 00 =a ); aSE — стандартная ошибка оценки коэффициента, которая вычисляется пакетом. Очевидно, что чем меньше значение стандартной ошибки, тем лучшей является оценка коэффициента для модели. Для определения значимости коэффициента необходимо знать длину выборки N , число оцениваемых параметров p и задаться уровнем значимости α (обычно задаются %5%,1 == αα или %10=α ). Уровень значимости, равный 5%, означает, что при оценивании регрессии мы допускаем, что ошибочное принятие решения о значимости оценок возможно в 5% случаев. Эти параметры позволяют выбрать по таблицам значение крt . Если кркр ttt a <<− , то нуль-гипотеза о незначимости коэффициента принимается; в противном случае она отвергается и коэффициент считается значимым. Поскольку значение статистики at обратно пропорционально стандартной ошибке aSE , то чем большим будет значение at , тем более высокой будет значимость конкретного коэффициента. 2. Коэффициент детерминации 2R . В качестве меры информативности временного ряда часто используют его дисперсию. Коэффициент 2R — это отношение дисперсии той части временного ряда основной переменной, которая описывается полученным уравнением, к выборочной дисперсии этой переменной, )var( )ˆvar(2 y yR = . Очевидно, что для адекватной модели коэффициент детерминации должен стремиться к единице, то есть 12 →R . 3. Сумма квадратов ошибок модели ∑ )(2 ke , то есть 2 1 ])()(ˆ[∑ = −= N k kykySSE , где, например, )(ˆ)(ˆ)2(ˆˆ)1(ˆˆˆ)(ˆ 21210 kzbkxbkyakyaaky ++−+−+= ; )(ky — измерения; N — длина выборки. Очевидно, что из возможных кандидатов необходимо выбирать ту модель, для которой ∑ )(2 ke принимает минимальное значение. Системный подход к построению регрессионной модели по временным рядам ISSN 1681–6048 System Research & Information Technologies, 2002, 3 128 4. Информационный критерий Акайке (AIC). Этот критерий учитывает сумму квадратов ошибок, число измерений N и число оцени- ваемых параметров p : pkeNAIC N k 2)(ln 1 2 + ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ = ∑ = , где p — число оцененных параметров. Очевидно, что для лучшей модели критерий имеет меньшее значение, поскольку он зависит от суммы квадратов ошибок (СКО). Однако кроме СКО данный критерий учитывает длину выборки и число оцениваемых параметров, что делает его более информативным. 5. Критерий Байеса–Шварца (BSC). Данный критерий похож на пре- дыдущий, однако он учитывает дополнительно длину выборки с помощью члена )ln(N : )ln()(ln 1 2 NpkeNBSC N k + ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ = ∑ = . Его используют при длинных выборках измерительных данных. 6. Статистика Дарбина-Уотсона (Durbin-Watson). Статистика Дарбина-Уотсона вычисляется по формуле: ρ22−=DW , где ρ — коэффициент корреляции между значениями случайной переменной )()( kek ≈ε , )]1()([)](cov[ −== kekeEkeρ . Этот параметр позволяет определить степень коррелированности ошибок модели. При полном отсутствии корре- ляции между ошибками 2=DW , то есть это наиболее приемлемое значение данного параметра. 7. Статистика Фишера F определяет степень адекватности модели в целом. Для адекватной модели выполняется условие: крFF > , где значение крF определяется по таблице аналогично t -статистике; значение F пропорционально )1/( 22 RR − , где 2R — коэффициент детерминации. Таким образом, большему значению F соответствует более адекватная модель. ПРИМЕР ПОСТРОЕНИЯ МОДЕЛИ Рассмотренную выше методику проиллюстрируем при построении модели процесса на основе выборки данных из 120 измерений. Для предварительной оценки порядка авторегрессионной модели были вычислены автокорре- ляционная и частная автокорреляционная функции. В результате исследования АКФ и ЧАКФ установлено следующее: П.И. Бидюк, И.В. Баклан, В.Н. Рифа Системні дослідження та інформаційні технології, 2002, 3 129 1. АКФ и ЧАКФ быстро сходятся к нулевым значениям. 2. Теоретическая АКФ процесса скользящего среднего порядка q , то есть СС )(q спадает к нулю при значении запаздывания q , а теоретическая АКФ процесса АР(1) спадает к нулю геометрически. В соответствии со значениями АКФ процесс может иметь порядок 6–8, что мало соответствует действительности. 3. Коэффициенты ЧАКФ имели такие значения: ;609,01,1 =Φ =Φ 2,2 252,0= . В целом из анализа ЧАКФ можно сделать вывод, что порядок авторегрессии может принимать значения 1 или 2. С другой стороны, анализ АКФ свидетельствует о том, что модель может быть АР(2) или же содержать компоненты авторегрессии и скользящего среднего. 4. Небольшой выброс АКФ при значении запаздывания 4 и увеличенное значение ЧАКФ при том же значении запаздывания свидетельствуют о существовании влияния входной переменной, задержанной на 4 периода дискретизации измерений. Из сказанного следует, что для математического описания процесса необходимо воспользоваться моделью АРСС(1,1) или АР(2). Возможно понадобиться введение времени запаздывания, равного 4. В табл. 1 приведены варианты оценивания нескольких возможных структур регрессионной модели. Т а б л и ц а 1 . Варианты оценивания регрессионной модели 0,1 == qp 02 == qp 1,1 == qp 4,1,1 == qp 2,1 == qp a0 0,011 (4,14) 0,011 (3,31) 0,012 (2,63) 0,011 (2,76) 0,012 (2,62) a1 0,618 (8,54) 0,456 (5,11) 0,887 (14,9) 0,791 (9,21) 0,887 (13,2) a2 0,258 (2,89) 1β -0,484 (-4,22) -0,409 (-3,62) -0,483 (-4,19) 2β -0,002 (-0,019) 4β 0,315 (3,36) RSS 0,0156 0,0145 0,0141 0,0134 0,0141 AIC -503,3 -506,1 -513,1 -518,2 -511,1 BSC -497,7 -497,7 -504,7 -507,0 -499,9 Q (12) 23,6(0,08) 11,7(0,302) 11,7(0,301) 4,8(0,898) 11,7(0,301) Q (24) 28,6(0,157) 15,6(0,833) 15,4(0,842) 9,3(0,991) 22,6(0,749) Q (30) 40,1(0,082) 22,8(0,742) 22,7(0,749) 14,8(0,972) 22,6(0,749) Примечание. В скобках указана t -статистика для оценок каждого коэффициента. При этом за нулевую гипотезу принято, что оценки равняются нулю. RSS (residual square sum) — сумма квадратов остатков (ошибок модели). )(nQ -статистика Льюнга–Бокса для автокорреляции n остатков оцениваемой модели. Для 122 измерений основной переменной .304/ ≈N В скобках приведен уровень значимости. Системный подход к построению регрессионной модели по временным рядам ISSN 1681–6048 System Research & Information Technologies, 2002, 3 130 ВЫВОДЫ 1. Оценка модели АР(1) подтверждает результаты предварительного анализа. Статистика Люнга–Бокса для 12 задержанных значений остатков имеет значение 23,6, а поэтому можно отклонить нуль-гипотезу, что 0=Q на уровне значимости 1%. Это свидетельствует о присутствии существенной последовательной корреляции между ошибками модели. Таким образом, модель АР(1) не может быть использована для математического описания использованного временного ряда. 2. Из табл. 1 видно, что модель АР(2) имеет лучшие статистические характеристики по сравнению с моделью АР(1). Оценки коэффициентов модели )258,0ˆ,456,0ˆ( 21 == aa существенно отличаются от нуля на уровне 1%, а корни характеристического уравнения находятся внутри окружности единичного радиуса. Значение Q -статистики свидетельствует о том, что автокорреляция между ошибками является статистически несущественной, то есть, нуль-гипотеза 0=Q подтверждается. Критерий AIC имеет меньшее значение для модели АР(2). В целом модель АР(2) лучше аппроксимирует ряд чем АР(1). 3. Модель АРКС(1,1) имеет лучшие статистические показатели чем АР(2). Значение t -статистики для оценок коэффициентов (14,9 и -4,22) свидетельствуют о высоком качестве оценок. Оценка 887,0ˆ1 =a положительная и блика к единице, а Q -статистика свидетельствует, что автокорреляция остатков не имеет статистической значимости. Критерии AIC и BSC также показывают более высокое качество модели АРКС(1,1) по сравнению с АР(2). 4. Для того чтобы выявить присутствие запаздывания на 4 периода дискретизации, в пробную модель скользящего среднего введен дополнительный член с задержкой 4. То есть, пробная модель имела вид )4()1()()1()( 4110 −+−++−+= kkkkyaaky εβεβε . Отметим, что именно член )4(4 −kεβ лучше описывает эффект запаздывания (при его наличии) чем авторегрессионный член )4(4 −kya . Член скользящего среднего точнее описывает такие эффекты чем авторегрессионный. Все коэффициенты модели АРКС(1,(1,4)) имеют значительную статистическую значимость с t -статистиками, равными 9,21; -3,62 и 3,36 соответственно. Все значения Q -статистики весьма незначительны, что свидетельствует о том, что автокорреляция остатков статистически близка нулю. Критерии AIC и BSC также поддерживают преимущество модели АРКС(1, (1, 4)). 5. Для коэффициента 2β̂ в последней рассмотренной пробной модели АРСС(1, 2) t -статистика имеет достаточно низкое значение, что дает основания для исключения этой модели из дальнейшего рассмотрения. Следующим шагом исследования данного процесса может быть тестирование временного ряда на гетероскедастичность, то есть, определение стационарности дисперсии ряда. П.И. Бидюк, И.В. Баклан, В.Н. Рифа Системні дослідження та інформаційні технології, 2002, 3 131 ЛИТЕРАТУРА 1. Бокс Дж., Дженкинс Г. Анализ временных рядов. Т. 1, 2. — М.: 1974. — 406 с. 2. Ивахненко А.Г., Степашко В.С. Помехоустойчивость моделирования. — К.: Наук. думка, 1984. — 295 с. 3. Enders W. Applied econometric time series. — New York: Wiley and Sons, 1994. — 433 p. 4. Закс Б. Статистическое оценивание. — М.: Статистика, 1976. — 598 с. 5. Бідюк П.І., Половцев О.В. Аналіз та моделювання економічних процесів перехідного періоду. — К: ПЛАБ-75, 1999. — 230 с. Поступила 16.08.2002
id nasplib_isofts_kiev_ua-123456789-50236
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1681–6048
language Russian
last_indexed 2025-12-07T16:41:31Z
publishDate 2002
publisher Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
record_format dspace
spelling Бидюк, П.И.
Баклан, И.В.
Рифа, В.Н.
2013-10-07T22:25:39Z
2013-10-07T22:25:39Z
2002
Системный подход к построению регрессионной модели по временным рядам / П.И. Бидюк, И.В. Баклан, В.Н. Рифа // Систем. дослідж. та інформ. технології. — 2002. — № 3. — С. 114-131. — Бібліогр.: 5 назв. — рос.
1681–6048
https://nasplib.isofts.kiev.ua/handle/123456789/50236
62-50
Описывается модифицированный подход к построению математических моделей разнообразных процессов. Сформулированы понятия структуры модели, которая разрешает выбрать надлежащую структуру модели в процессе ее построения. Описанный подход был успешно испытан на ряде примеров построения эконометрических моделей.
Пропонується модифікований підхід до побудови математичних моделей різноманітних процесів. Сформульовано поняття структури моделі, що дозволяє вибрати належну структуру моделі в процесі її побудови. Пропонується розділити процес побудови моделі на наступні п’ять етапів: аналіз процесу, встановлення факту присутності нелінійностей, вибір структур моделей-кандидатів, вибір методу оцінювання параметрів та оцінювання параметрів вибраних кандидатів та вибір кращої моделі за допомогою множини статистичних параметрів. Запропонований підхід був успішно випробуваний на ряді прикладів побудови економетричних моделей.
A modified approach to mathematical models building of various processes using time series is proposed. The notion of model structure that allows to properly select a specific structure in the process of model construction is formulated. It is proposed to split the process of model construction in the following five steps: process analysis, detection of non-linearity, selection of model structure for possible candidates, selection of parameter estimation methods and estimation of the candidates, and selection of the best fit model using a set of statistics. The approach proposed has been tested successfully on a set of examples of econometric model building.
ru
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
Системні дослідження та інформаційні технології
Математичні методи, моделі, проблеми і технології дослідження складних систем
Системный подход к построению регрессионной модели по временным рядам
Системний підхід до побудови регресійної моделі на часових рядах
System approach to construction of regression models on time series
Article
published earlier
spellingShingle Системный подход к построению регрессионной модели по временным рядам
Бидюк, П.И.
Баклан, И.В.
Рифа, В.Н.
Математичні методи, моделі, проблеми і технології дослідження складних систем
title Системный подход к построению регрессионной модели по временным рядам
title_alt Системний підхід до побудови регресійної моделі на часових рядах
System approach to construction of regression models on time series
title_full Системный подход к построению регрессионной модели по временным рядам
title_fullStr Системный подход к построению регрессионной модели по временным рядам
title_full_unstemmed Системный подход к построению регрессионной модели по временным рядам
title_short Системный подход к построению регрессионной модели по временным рядам
title_sort системный подход к построению регрессионной модели по временным рядам
topic Математичні методи, моделі, проблеми і технології дослідження складних систем
topic_facet Математичні методи, моделі, проблеми і технології дослідження складних систем
url https://nasplib.isofts.kiev.ua/handle/123456789/50236
work_keys_str_mv AT bidûkpi sistemnyipodhodkpostroeniûregressionnoimodelipovremennymrâdam
AT baklaniv sistemnyipodhodkpostroeniûregressionnoimodelipovremennymrâdam
AT rifavn sistemnyipodhodkpostroeniûregressionnoimodelipovremennymrâdam
AT bidûkpi sistemniipídhíddopobudoviregresíinoímodelínačasovihrâdah
AT baklaniv sistemniipídhíddopobudoviregresíinoímodelínačasovihrâdah
AT rifavn sistemniipídhíddopobudoviregresíinoímodelínačasovihrâdah
AT bidûkpi systemapproachtoconstructionofregressionmodelsontimeseries
AT baklaniv systemapproachtoconstructionofregressionmodelsontimeseries
AT rifavn systemapproachtoconstructionofregressionmodelsontimeseries