Адаптивне керування славкокерованими марковськими та напівмарковськими моделями в дискретному часі

A Bayesian approach to Markov decision process problem [1] under stochastic uncertainty, when unknown transition probabilities are weakly disturbed with disturbances dependent on a decision strategy only is investigated. Observed decision process is assumed to be stationary in discrete time with fin...

Full description

Saved in:
Bibliographic Details
Date:2019
Main Author: Andreev, N. V.
Format: Article
Language:Ukrainian
Published: The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2019
Online Access:https://journal.iasa.kpi.ua/article/view/174306
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:System research and information technologies
Download file: Pdf

Institution

System research and information technologies
_version_ 1867334384219062272
author Andreev, N. V.
author_facet Andreev, N. V.
author_institution_txt_mv [ { "author": "N. V. Andreev", "institution": null } ]
author_sort Andreev, N. V.
baseUrl_str http://journal.iasa.kpi.ua/oai
collection OJS
datestamp_date 2019-07-26T17:25:36Z
description A Bayesian approach to Markov decision process problem [1] under stochastic uncertainty, when unknown transition probabilities are weakly disturbed with disturbances dependent on a decision strategy only is investigated. Observed decision process is assumed to be stationary in discrete time with finite, countable or measurable phase state is based on separation principle of assessment and optimization problems.
first_indexed 2025-07-17T10:25:54Z
format Article
fulltext © М.В. Андрєєв, 2003 92 ISSN 1681–6048 System Research & Information Technologies, 2003, № 2 TIДC НОВІ МЕТОДИ В СИСТЕМНОМУ АНАЛІЗІ, ІНФОРМАТИЦІ ТА ТЕОРІЇ ПРИЙНЯТТЯ РІШЕНЬ УДК 519.857.3: (519.24+62.50) АДАПТИВНЕ КЕРУВАННЯ СЛАБКОКЕРОВАНИМИ МАРКОВСЬКИМИ ТА НАПІВМАРКОВСЬКИМИ МОДЕЛЯМИ В ДИСКРЕТНОМУ ЧАСІ М.В. АНДРЄЄВ Досліджується байєсів підхід до проблеми марковських процесів рішень [1] в умовах стохастичної невизначеності, коли невідомі перехідні ймовірності сла- бко збурені, і тільки збурення залежать від стратегії рішень. Процес рішень припускається стаціонарним, розглядається в дискретному часі з скінченним, зчисленним або вимірним фазовим простором і ґрунтується на принципі роз- ділення задач оцінювання та оптимізації. ВСТУП Процеси, що відбуваються в природі, житті, сферах людської діяльності ха- рактеризуються певною стійкістю, коли йдеться про природу, та деяким усталеним режимом функціонування, якщо маються на увазі процеси, які є результатом людської діяльності. Як приклади наведемо процеси фотосин- тезу, що протікають звичайно у природних умовах, процеси функціонування технічних пристроїв або систем (в нормальних умовах їх експлуатації), еко- номічні та фінансові процеси вирівнювання попиту та пропонування в рин- кових умовах, тощо. Природа більшості із наведених процесів носить стохастичний харак- тер, і еволюцію кожного процесу із цієї більшості можна описати матрицею перехідних ймовірностей 0P у випадку, коли процес характеризується мар- ковською властивістю, яка символічно виражається у незалежності в еволю- ційному плані майбутнього від минулого при відомому теперішньому стані процесу. Такі поняття як стійкість процесу або усталений режим функціону- вання системи, що описується цим процесом, накладає деякі умови на мат- рицю 0P , зокрема, вимагається наявність існування у неї стаціонарного або ергодичного розподілу 0ρ . Однак на такий процес можуть впливати деякі зовнішні фактори, що призводять до збурення матриці 0P . Будь-яку стратегію збурень можна оха- рактеризувати деякою стаціонарною нерандомізованою стратегією f , якій відповідає матриця збурень .1 fP Будемо вважати, що марковський процес, Адаптивне керування слабкокерованими марковськими та напівмарковськими моделями … Системні дослідження та інформаційні технології, 2003, № 2 93 який розглядається, є слабкокерованим, якщо його еволюція описується ма- трицею ймовірностей переходу ff PPP 10 εε −= , (1) де ε — малий параметр, тобто 10 ≤≤ ε . Звідси випливає, що слабкокерований процес описується матрицею fPε (1), яка обумовлена малим збуренням fP1ε матриці 0P , що задає незбуре- ний некерований процес. Щодо інтерпретацій матриць fPε та fP1 в (1), то на прикладі технічної системи обслуговування матриця fPε характеризує потенційну можливість виходу системи із ладу — можливість її неполадки [2], а матриця збурень fP1 , що відповідає стратегії f , характеризує план або обсяг профілактич- них та ремонтних заходів, необхідних для нормального функціонування си- стеми. Інші інтерпретації процесів, що описуються матрицями 0P , fP1 та fPε можна знайти в роботах [3, 4]. Будь-якій стратегії керування можна надати ціну (оцінку) або охарак- теризувати її деяким функціоналом якості. Наша задача полягає в тому, щоб знайти оптимальну стратегію, тобто таку стратегію, якій можна дати най- вищу оцінку або охарактеризувати її екстремальними значеннями функціо- нала якості. З огляду на задання слабкокерованого процесу формулою (1) та наяв- ності деякого функціонала якості стратегії керування слід зазначити, що відповідна стратегії f ціна fu задовольняє деяке лінійне функціональне рів- няння, а ціна *u оптимальної стратегії *f задовольняє нелінійне рівняння оптимальності типу Беллмана. Щодо практичного використання задання (1), то, як правило, в цьому заданні матриці 0P і fP1 є невідомими, і в зв’язку з цим першочерговою задачею постає статистична задача ідентифікації елементів матриць 0P і fP1 на основі неспостережуваної але оцінюваної реалізації незбуреного процесу X , що відповідає матриці 0P , та спостережуваної реалізації проце- су fyε , динаміка якого описується матрицею fPε , що відповідає стратегії керування f . Оскільки завдяки стратегії керування f збуреним процесом забезпечу- ється відповідна з точки зору критерію «витримування» усталеного режиму функціонування, який задається ідентифікованою оцінкою матриці 0P , яка описує динаміку реального незбуреного процесу, то ця стратегія уже наразі за визначенням є стратегією адаптивного керування. Таким чином, з точки зору статистичного аналізу, ми маємо справу з двохкомпонентною послідо- вністю з неповною інформацією або частково спостережуваною марковсь- М.В. Андрєєв ISSN 1681–6048 System Research & Information Technologies, 2003, № 2 94 кою послідовністю ),( fyx , яку за допомогою підходу, викладеного в роботі [5], можна звести до двохкомпонентної послідовності з повною інформаці- єю або до повністю спостережуваної узагальненої марковської послідовнос- ті ),( ff yv . Для оцінки елементів матриць 0P та fPε використовується підхід, ана- логічний тому, суть якого стосовно керованих марковських гауссових по- слідовностей викладена в роботі [6]. Цей підхід характеризується двома ета- пами: на першому — перевіряється низка статистичних гіпотез щодо адекватної приналежності спостережуваних реалізацій реальних процесів у дискретному часі до марковських гауссових послідовностей, на другому — оцінюються функції перехідних ймовірностей для цих послідовностей. Щодо задання (1) динаміка процесу x у фазовому просторі X опису- ється матрицею 0P , а динаміка процесу fy у фазовому просторі Y опису- ється матрицею fPε . ЗВЕДЕННЯ КЕРОВАНИХ МАРКОВСЬКИХ ПОСЛІДОВНОСТЕЙ З НЕПОВНОЮ ІНФОРМАЦІЄЮ ДО КЕРОВАНИХ МАРКОВСЬКИХ ПОСЛІДОВНОСТЕЙ З ПОВНОЮ ІНФОРМАЦІЄЮ За кожною послідовністю з неповною інформацією будується деяка послі- довність з повною інформацією так, щоб оцінки відповідних стратегій спів- падали. Ідея полягає в тому, що вводяться нові фазові простори станів, розгля- даючи як стан в момент t всю суттєву для подальшого керування інформа- цію, якою ми володіємо в цей час. У початковий момент m ця інформація описується спостережуваним станом my і заздалегідь заданим апріорним розподілом mv для неспостережуваного стану mx . У будь-який момент mt > її природно описати парою tt yv , де tv — апостеріорний розподіл ймовірностей для стану tx , обчислений з урахуванням всієї історії }{ my , яку спостерігали до цього моменту. Розглядається випадок, коли простори tt YX , — скінченні. Тоді ймові- рність траєкторії f nnn f mmm f mmm yxayxayxal ..., 111 +++= за початковим розпо- ділом µ і довільної стаціонарної рандомізованої стратегії π визначається як ( ) ( ) ( ) ( ) ,...... ...)()( 11111 1111 nnnnnnmmmmn mmmmmmmmm axyxPyavayva axyxPyvayxlP −−−++ ++++= π πµπ µ (2) де розподіл mv обчислюється за формулою ( ) ( ) ( )∑ ∈ == mXz m mm mmmm yz yx yxvv ,µ µ . (3) Адаптивне керування слабкокерованими марковськими та напівмарковськими моделями … Системні дослідження та інформаційні технології, 2003, № 2 95 Якщо знаменник дорівнює 0, то можна прийняти за ( )mm yv ⋅ будь-яку ймовірносну міру на mX , наприклад, раз і назавжди вибрану міру 0 mv . Побудова допоміжної послідовності з повною інформацією починаєть- ся з вибору просторів станів tY ~ . Покладають ttt NYY ×= ~ , де tN — сукуп- ність всіх ймовірносних мір на множині tX (із tN приймають значення розподіли tv ). Керування у новій послідовності залишаються такими, якими були і раніше. Одне і те ж керування ta можливе тепер при різних станах 111 ~ −−− = ttt yvy , що відрізняються розподілами 1−tv . Щоб задати нову перехідну функцію p~ , необхідно співставити кожній парі tt av 1− розподіл ймовірностей у просторі tt NY × . Вихідна перехідна фу- нкція задає розподіл у просторі tt YX × як функцію від tt ax 1− . Зафіксуємо tt av 1− . Природно співставити цій парі розподіл у просторі tt YX × , що ви- значається формулою ( ) ( ) ( )1111 11 ~ −−−− ∑ −− = tt Nv tttttttt xvaxyxpavyxp tt . (4) За теоремою множення ймовірносних розподілів цей розподіл подаєть- ся у вигляді добутку розподілу в tX на розподіл у tY ( ) ( ) ( )tttttttttttt avypyavxvavyxp 111 ~~ −−− = . (5) Тут перший множник має вигляд ( ) ( ) ( )ttt tttt ttttt avyp avyxp yavxv 1 1 1 ~ ~ − − − = , (6) а другий ( ) ( )∑ ∈ −− = tt Yx ttttttt avyxpavyp 11 ~ . (7) Якщо знаменник (6) перетворюється в 0, то за tv приймається фіксова- на міра 0 tv на tX . Формула (6) визначає відображення tt vy → , і тим самим задається розподіл у просторі tt NY × , якщо при цьому приймається для дру- гої компоненти розподіл (7) і вважається, що перша компонента є функцією другої за формулою (6). Таким чином визначається ймовірносний розподіл у просторі ttt YNY ~ =× , який залежить від tt av 1− , тобто перехідна функція p~ з tt Av ×−1 в tY ~ . Ймовірносний розподіл tv має бути апостеріорним розподілом tx для керованих марковських послідовностей з неповною інформацією ( )πyx, , тобто розподіл tv у (6) є апостеріорним розподілом tx з урахуванням усіх М.В. Андрєєв ISSN 1681–6048 System Research & Information Technologies, 2003, № 2 96 спостережень )( πy , здійснених до моменту t . Іншими словами, має вико- нуватись формула { }== ++ ttmmmtt yayayxPv ...11 π µ ( ) ( )∑ ∈ ++ ++= tYz tttmmm tttmmm zxaxaxP yxaxaxP ... ... 11 11 π µ π µ . (8) При mt = це вірно за формулою (3), при mt > перевіряється за індук- цією формулами (2) та (4) — (7). Оскільки ймовірносна міра tv на x виражається через ty , яка індуку- ється матрицею fPε в заданні (1), то в подальшому для простоти викладок марковську послідовність з повною інформацією позначатимемо через { }0, ≥= nxx n ε ε . Слабкокеровані марковські та напівмарковські моделі з дискретним часом в умовах повної інформації Розглянемо слабкокеровані марковські та напівмарковські системи з скін- ченним, зчисленним або вимірним фазовим простором станів (ФПС) E та компактним простором керувань або рішень A . Математичними моделями цих систем є слабкокеровані марковські та напівмарковські процеси в дис- кретному часі. Нехай F — компактна множина марковських стаціонарних нерандомі- зованих стратегій f , які представляють собою у загальному випадку функ- ції, що відображають E в A . Для стратегії f вводяться поняття слабкоке- рованої марковської моделі (СКММ), яка задається набором ( )ff rPAE ,,, ε , де fPε — матриця ймовірностей переходу вигляду (1), причому { }ErkpP kr ∈= ,;0 0 — матриця ймовірностей переходу незбуреного ланцюга Маркова; { }ErkpP kf xr f ∈= ,;)(,1 1 — матриця збурень, елементи якої зале- жать від керувань; { }Ekrr kf k f ∈= ;)( — вектор або функція однокрокового доходу, індукованого СКММ, що відповідає стратегії f . Набір ( )ff rPAE ,,, ε характеризує також слабкокеровану напівмарков- ську модель (СКНММ) в дискретному часі, або, що те ж саме, слабкокеро- вану модель марковського відновлення (СКММВ), яка описується слабкоке- рованим процесом марковського відновлення з доходом (ПМВД). При цьому fPε — матриця ймовірностей переходу (МЙП) вкладеного ланцюга Маркова (ВЛМ), а fr — функція однокрокового доходу, що відповідає стратегії f . Таким чином, набір ( )ff rPAE ,,, ε задає СКНММ в дискретно- му часі або, що те ж саме, СКММВ. Адаптивне керування слабкокерованими марковськими та напівмарковськими моделями … Системні дослідження та інформаційні технології, 2003, № 2 97 Подання матриці fPε у вигляді різниці стохастичної матриці 0P та ма- триці збурень fP1 , помноженої на малий параметр ε у формулі (1), дозво- ляє розглянути два типи моделей: 1) моделі зі станом поглинання у випадку, коли 011 >fP (1 — одиниця в E або вектор з одиничними компонентами розмірності E ), та напівстохастичною збуреною матрицею fPε ; 2) моделі без станів поглинання, коли 011 =fP . При цьому в першому випадку крите- рій якості керування (або ціна стратегії) визначається середнім значенням адитивного функціонала, заданого на траєкторіях моделі на відрізку часу [ ]ετ,0 , де ετ — момент поглинання (попадання в стан поглинання), в той час, як у другому випадку розглядається неадитивний функціонал на траєк- торіях моделі, яка функціонує на нескінченному інтервалі часу. Ясно, що для існування адитивного та неадитивного функціоналів доводиться вимага- ти, щоб елементи fPAE ε,, та fr , які характеризують відповідні моделі, задовольняли певні умови. АДИТИВНИЙ КРИТЕРІЙ. СЛАБКОКЕРОВАНІ МОДЕЛІ З МАЛОЮ ЙМОВІРНІСТЮ ПОГЛИНАННЯ Розглянемо випадок, коли в поданні матриці fPε (1) матриця збурень fP1 задовольняє умові 011 >fP , де 1 — вектор з одиничними компонентами розмірності E , і матриця fPε є напівстохастичною, тобто для СКМП з ймовірністю більшою нуля існує стан поглинання. Слабкокеровані марковські послідовності з малою ймовірністю погли- нання Слабкокерована марковська послідовність (СКМП) { }0,, ≥nax nn ε із скінчен- ним або зчисленним ФПС }0{:0 ∪EE = , де { }...,,...,2,1 NE = , }0{ — стан по- глинання, та компактною множиною керувань A , задається МЙП (1), у якої Aaxf nn ∈=)( ε . Незбурена марковська послідовність { }0,0 ≥nxn з матрицею { }ErkpP kr ∈= ,;0 0 є ергодичною зі стаціонарним розподілом { }Ekk ∈= ;ρρ , 0>kρ , Ek∈ . Елементи матриці збурень fP1 залежать від керувань та задовольняють умови Ek∈∃ : 0)(,1 0 >kf kp ; 1)0(,1 00 0 00 =− fpp ε . Введемо поняття доходу, пов’язаного з функціонуванням СКМП. Якщо в стані Ek∈ прийнято рішення або керування Aa∈ , то очікуваний одно- кроковий доход задається функцією )(ark , обмеженою за ak, . М.В. Андрєєв ISSN 1681–6048 System Research & Information Technologies, 2003, № 2 98 Критерій оптимальності стратегії f визначається функціоналом, зада- ним на траєкторіях СКМП, і має вигляд { }kxLMku ff == 0)( εε , ∑ = += − ε ε τ τψ 1 )()( 1 n nx aarL n , (9) або у векторній формі LMu ff εε = , де fuε — ціна стратегії f ; ετ — мо- мент попадання СКМП у стан поглинання }0{ ; ψ — обмежена функція на A , що характеризує штраф у момент поглинання. Стратегія *f — оптимальна, якщо 0)( )()( ≥− kfkf uku k εε , EkFf ∈∀∈∀ , . Відповідна стратегії *f ціна *fuε позначається * εu . Рівняння Беллмана для оптимальної середньої ціни має вигляд { }fff Ff uPu εεε ω += ∈ sup* , (10) де ( ) ( ){ }0 )(,1 ;)()( 0 Ekkfpkfr kf kk f ∈+= ψεω . (11) Метод розв’язання рівняння оптимальності (10) передбачає одночасне виконання операцій обернення та оптимізації за стратегією f оператора ( )fPI ε− . Операція обернення ґрунтується на методах теорії збурення звід- но-оборотного оператора ( )fPI ε− на спектрі, в той час як в основі операції оптимізації лежать методи рекурентного виділення підкласів стратегій із F — класу всіх можливих стратегій f . Будемо шукати представлення ціни * εu у вигляді степеневого ряду за малим параметром ε ∑ ∞ = = 1 ** m m muu εε . (12) Підставляючи цей ряд у рівняння (10) і прирівнюючи коефіцієнти при однакових степенях ε , отримаємо систему рівнянь [ ] 0* 10 =− −uPI , [ ] { }* 11 * 00 sup − ∈ −=− uPuPI ff Ff ω , (13) [ ] 1,inf * 11 * 0 ≥−=− − ∈ muPuPI m f Ff m m , Адаптивне керування слабкокерованими марковськими та напівмарковськими моделями … Системні дослідження та інформаційні технології, 2003, № 2 99 де [ ]{ },: * 11 * 0011 −− −=−∈= uPuPIFfF ff m ω [ ]{ } 2,: * 11 * 01 ≥−=−∈= −− muPuPIFfF m f mmm . Рівняння системи (13) являються операторними рівняннями в E із ви- родженим матричним оператором [ ]0PI − , [ ] 1dim 0 =− PI , правий і лівий власні вектори якого визначаються відповідно рівняннями [ ] 010 =−PI , [ ] 00 =−PIρ . Важливу роль у визначенні умов розв’язності кожного з рівнянь (13) відіграє власний проектор оператора [ ]0PI − , що визначається у вигляді те- нзорного добутку векторів 1 та ρ , а саме, [ ]ρ⊗=Π 1 , для якого виконують- ся рівності [ ] [ ] 000 =Π−=−Π PIPI . Оператор [ ]0PI − є звідно-оборотним у просторі V , який подається у вигляді [ ] [ ]00 PIRPINV −⊕−= , де [ ]0PIN − — ядро оператора [ ]0PI − ; [ ]0PIR − — множина його зна- чень. Для оператора [ ]0PI − на [ ]0PIR − існує узагальнений обернений ( ) Π−Π+−= −1 00 PIR такий, що виконуються рівності 000 =Π=Π RR . Що стосується припущень щодо матричного оператора збурень fP1 , то будемо вважати виконаною умову .,01 FfP f ∈∀>ΠΠ Застосовуючи до системи (13) модифікований алгоритм Вишика– Люстерника [7] отримаємо 1ˆ *** 1 qu ω=− , (14) 0,1ˆˆ ** 1 * 00 * ≥+= + mqRu mmm ψϕ , де ∑∑ ∈∈∈ == ⎭ ⎬ ⎫ ⎩ ⎨ ⎧= Ek kf kk f Ek f kk fff Ff Pqqq ,ˆ,ˆ,ˆˆsupˆˆ )(,1 0 ** ρωρωωω { } **** ˆˆinf qqq m ff m Ff m ψψϕ +−= ∈ , М.В. Андрєєв ISSN 1681–6048 System Research & Information Technologies, 2003, № 2 100 причому ⎭ ⎬ ⎫ ⎩ ⎨ ⎧−== +∈++ ff mFf f mm ff m qqRP m ˆˆinfˆ, 1 * 1 * 011 ψψϕψ . Підставляючи вирази для 0,* ≥mum із (14) в (12), отримаємо ( ) mf mm f qRqu εψϕεωε ∑ + − ++⎟ ⎠ ⎞⎜ ⎝ ⎛= 1ˆˆ1ˆˆ * 1 * 0 1** . (15) Ряд у правій частині формули (15) абсолютно збігається в нормі V для достатньо малих ε . Стратегія * εf , яка реалізує екстремум правої частини системи (13), є оптимальною. Відшукання * εf пов’язано з алгоритмом, на k -му кроці якого обчислюється наближення )(kfε стратегії * εf із нерівностей )1( )1( )( )( ˆˆˆˆ − − ≥ k k k k f f f f qq ε ε ε ε ωω , 1,ˆˆˆˆ )1( )1()1( )( )()( 1010 ≥+≥+ − −− ++ mqRqR k kk k kk f f m f m f f m f m ε εε ε εε ψϕψϕ . (16) Зупинка алгоритму відбувається за перетворення нерівностей (16) у рі- вності. Алгоритм поліпшення стратегій (16) значно спрощується при достатньо малих 0≥ε . За 0→ε * 1 *lim −= uuεε . Тоді для відшукання асимптотично оптимальної стратегії * 0f розглядається алгоритм, на k -му кроці якого ви- бирається )( 0 kf -е наближення стратегії * 0f за умови )1( 0)1( 0 )( 0)( 0 ˆˆˆˆ − − ≥ k k k k f f f f qq ωω . (17) Зупинка алгоритму відбувається за перетворення нерівності (17) у рів- ність. Слабкокеровані процеси марковського відновлення з малою ймовірніс- тю поглинання Слабкокерований процес марковського відновлення (СКПМВ) { }0;,, ≥nax nnn θε з скінченним або зчисленним ФПС { }0:0 ∪EE ( { }...,,...,2,1 NE = ,{ }0 — стан поглинання) і компактною множиною A рішень або керувань задається напівмарковським ядром [7]. 10,,),(,, <<∈= εεε ErktGPQ k f kr f kr , (18) Адаптивне керування слабкокерованими марковськими та напівмарковськими моделями … Системні дослідження та інформаційні технології, 2003, № 2 101 де f — марковська стаціонарна нерандомізована стратегія, яка ототож- нюється з функцією f , що відображає ФПС E у простір керувань A ; )(tGk — функція розподілу тривалості перебування СКПМВ у стані k , а саме { } { }tPkxtPtG knnk ≤==≤= + θθ ε 1)( . (19) Ймовірності переходу слабкокерованого вкладеного ланцюга Маркова (СКВЛМ) залежать від стратегії f і задані у вигляді { } 10 0 , 1 , )( krkrk f krnn f kr pptdGpkxrxPp εεεεε −===== ∫ ∞ + , 1,0: , 00 ,1 0 =>∈∃ ff k ppEk ε (20) або в матричному вигляді (1). Незбурений вкладений ланцюг Маркова (ВЛМ) { }0;0 ≥nxn з матрицею { }ErkpP kr ∈= ,;0 0 є ергодичним зі стаціонарним розподілом { }Ekk ∈= ;ρρ . Введемо поняття доходу, пов’язаного з функціонуванням СКПМВ. Як- що в стані Ek∈ прийнято рішення Aa∈ і тривалість часу, проведеного у стані k , дорівнює t , то очікуваний доход за час t дорівнює ),( atkϕ . Функ- ція ),( atkϕ припускається вимірною за t та обмеженою за ak, . Позначимо ∫ ∞ == 0 )(),(),()( dtGataMar kkkkk ϕθϕ . (21) В якості критерію оптимальності стратегії f розглядається функціонал вигляду (9). Зокрема, функціонал L за нульової штрафної функції ψ можна інтерпретувати як деяку наробку напівмарківської системи за час ετ . Таким чином, за допомогою подання динаміки СКПМВ, вартісної структури та критерію оптимізації у вигляді (20), (21) та (9), задача оптима- льного керування СКПМВ з поглинанням зведена до задачі оптимального керування СКМП при наявності стану поглинання з дослівним повторенням усього викладеного вище у формулах (10) – (17). НЕАДИТИВНИЙ КРИТЕРІЙ. СЛАБКОКЕРОВАНІ МОДЕЛІ БЕЗ ПОГЛИНАННЯ Припускається, що в слабкокерованій моделі відсутній стан поглинання, тобто 011 =fP , причому модель є рівномірно-зворотною за кожної стратегії Ff ∈ , і для матриці fPε існує неперервний на E проектор εΠ такий, при якому М.В. Андрєєв ISSN 1681–6048 System Research & Information Technologies, 2003, № 2 102 ( ) ffff n k kf n f PPPn εεεεεεε Π=Π=Π=Π ∑ − = − ∞→ 1 0 1 ,lim . Критерій оптимальності стратегій f визначається функціоналом ви- гляду ( )∑ − = − ∞→ = 1 0 21 ,lim n m m f n f XrMng ε εε (22) де fr — обмежена на E та неперервна на F функція однокрокового дохо- ду. Рівняння оптимальності для неадитивного критерію (22) являють со- бою систему нелінійних рівнянь типу Беллмана вигляду [ ] ,0 ,sup,sup ** ** =Π +−== ′∈∈ εε εεεεεε υ υυ fff Ff ff Ff PgrgPg (23) де { }ff gPgfF εεε ==′ *: ; fgε та f ευ — середній асимптотичний доход за один крок та відповідно деяка вагова функція, які відповідають стратегії f ; * εg , * ευ — відповідають оптимальній стратегії *f . Розв’язок системи (23) має вигляд ∑ ∞ =∈ =Π= 0 *** ,sup m m m ff Ff rg ευυεεε , (24) де проектор f εΠ подається у вигляді степеневого ряду за малим параметром ε , а саме ∑ ∞ = Π=Π 0m mf m f εε , (25) де [ ]ρ⊗=Π 10 — власний проектор оператора [ ]0PI − ; ⊗ — знак тензор- ного множення; 0100101 Π+Π=Π fff PRRP , −ΠΠ−Π+Π+Π=Π 2 0101001010010100102 )(RPPPRPRRPPRRP ffffffff 01 2 0100101 2 0 2 0101 2 0 )()()()( ΠΠ−ΠΠ−Π− ffffff PRPPPRRPPR . Загальний член ,f mΠ 3≥m розкладу f εΠ ( 1≠ε ) можна за аналогією із [8] записати у вигляді )( ,1,1 )( ,1 1 ... ... )( ...)1( 2 2 1 1 0 0 l l l l j jf i f i jf i m l mii jj jlf m HPPHPH∑ ∑ ∑ = =++ ++ −=Π , Адаптивне керування слабкокерованими марковськими та напівмарковськими моделями … Системні дослідження та інформаційні технології, 2003, № 2 103 де ( )0,min mm JJ −=+ , a ∑ = += l m mj Jl 0 ; ltsPPP ff i f i ts ,1,,1,1,1 === ; 001 0 )( ,0, ,1, RV jV j H j j −= ⎩ ⎨ ⎧ ≥ −=Π = + . Коефіцієнти * mυ розкладу степеневого ряду за ε для оптимальної ваго- вої функції * ευ мають вигляд f Ff mm rR ′∈ == Sup, 0 * 0 * ϕϕυ , [ ] 1,Sup 11 * ≥Π−= − ′∈ mrP ff m f m f Ff m m υϕ , де 0R — узагальнений обернений оператор до оператора ]1[ 0P− . Класи стратегій mF ′ визначаються співвідношеннями [ ]{ } 1,: 121 * 0 ≥Π−=−=′ −− mrPPIfF ff m f m f mm υυ . Для доведення співвідношень (23) скористаємось допоміжним твер- дженням. Лема. Розв’язок системи рівнянь (лінійного аналогу рівнянь оптималь- ності (23)) 0,, =Π+−== ffffffffff PgrgPg εεεεεεεεε υυυ (26) може бути поданий у вигляді ∑ ∞ = =Π= 0 , m mfffff rg ευυ εεεε . (27) Перше співвідношення в (26) випливає із (22). Справді, ( ) ixirjijrPnig m Ei fffnif ijn f =Π== ∑ ∑ ∞ = ∈ − ∞→ 0 0 )(,1 ,)(),()(lim)( ε ε ε , що у векторному вигляді означає подання fgε першою формулою (27), яке задовольняє, очевидно, перше рівняння (26). Для відшукання коефіцієнтів розкладу степеневого ряду f ευ підставимо його у друге рівняння (26) і, прирівнюючи коефіцієнти при однакових сте- пенях ε , прийдемо до системи рівнянь [ ] fff rrPI 000 Π−=− υ , (28) М.В. Андрєєв ISSN 1681–6048 System Research & Information Technologies, 2003, № 2 104 [ ] 1,0 ≥=− mPI f m f m ϕυ , де ,1011 ffff rRP Π−−=ϕ 2,101 ≥Π−−= − mRP f m f m ff m ϕϕ . Частковий розв’язок системи (27) має вигляд ff rR00 =υ , 1,0 ≥= mR f m f m ϕυ . (29) Степеневий ряд f ευ у (26) абсолютно збігається за достатньо малих ε . ■ Для розв’язання системи рівнянь оптимальності (23) використовується метод послідовної оптимізації розв’язків (27) системи рівнянь (26) з ураху- ванням представлень (25), (29). АГРЕГОВАНЕ КЕРУВАННЯ УКРУПНЕНОЮ МАРКОВСЬКОЮ МОДЕЛЛЮ Розглянемо слабкокеровану марковську модель, у якої ФПС Е має вигляд ∪ ∪ ∞ = ′= 1i i EEE ; ijk ErkEE ;; ≠∅=∪ — замкнені стани класів; E ′ — клас перехідних станів; A — компактна множина рішень; fPε — МЙП для якої МЙП незбуреного ергодичного ланцюга Маркова має блочно- діагональний вигляд зі стаціонарним розподілом ( )...,,...,1 Nρρρ = ; fP1 — матриця збурень, залежних від керувань згідно стратегії f ; fr — однокро- ковий доход, який описується дійснозначною обмеженою функцією, що відповідає нерандомізованій стаціонарній стратегії f . Описана модель являє собою зчисленну сім’ю слабкозалежних та слаб- кокерованих моделей. В залежності від властивостей цих моделей можна провадити оптимізацію за адитивним (за наявності поглинання) або за не- адитивним (за відсутності поглинання та можливості укрупнення або агре- гування) критеріями оптимальності. Розглянемо агреговане керування, яке ґрунтується на розв’язку рівнян- ня оптимальності, що виникає в результаті оптимізації за неадитивним кри- терієм укрупненої моделі, пов’язаної з вихідною моделлю таким чином. Укрупнена модель задається набором ⎟ ⎠ ⎞⎜ ⎝ ⎛ tf rPAE ˆˆ ˆ,ˆ,ˆ,ˆ , де Ê — зчислен- ний ФПС, який одержується із E заміною класів ...,,...,, 21 NEEE ергодич- них станів їх індексами ...,,...,2,1 N ;  — множина значень укрупнених (агрегованих) рішень Адаптивне керування слабкокерованими марковськими та напівмарковськими моделями … Системні дослідження та інформаційні технології, 2003, № 2 105 { }...),(ˆ,...),2(ˆ),1(ˆˆ Nffff = , де )()()(ˆ xfdxif iE i∫= ρ . (30) МЙП укрупненої моделі має вигляд ⎪⎩ ⎪ ⎨ ⎧ == ∫ ∫ i iE E i xf ij xf i if ij f ExPdxExPdxpP ,),()(),()(ˆˆ )( 1 )( 1 )(ˆˆ ρρ ⎪⎭ ⎪ ⎬ ⎫ ≠=∈ jiEEEEx iii ,, . (31) Вектор однокрокового агрегованого доходу подається як ff rr 0 ˆˆ Π= . (32) Для критерію середнього асимптотичного однокрокового доходу рів- няння оптимальності агрегованого керування укрупненою керованою мо- деллю являє собою систему нелінійних рівнянь типу Беллмана ⎥⎦ ⎤ ⎢⎣ ⎡ +−== ′∈∈ ffff Ff ff Ff PgrgPg ˆˆˆˆ ˆˆ *ˆˆ ˆˆ * ˆˆˆˆSupˆ,ˆˆSupˆ υυ , (33) де F̂ — множина агрегованих стратегій, відповідне рішення Aa ˆˆ ∈ кожної з яких приймається в станах укрупненої моделі; ;ˆˆSupˆ:ˆˆ ˆˆ ˆˆ * ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ==′ ∈ ff Ff gPgfF f̂Π̂ — власний проектор оператора ⎥⎦ ⎤ ⎢⎣ ⎡ − fPI ˆˆˆ , що задовольняє співвідно- шення fff P ˆˆˆ ˆˆˆ Π=Π . Для зчисленного ФПС Ê Гордайком одержано розв’язок системи рів- нянь (33) у вигляді [9] .ˆˆˆSupˆ ),1(1ˆ)1(ˆˆSupˆ *ˆ 0 ˆˆ * 0 0 ˆˆˆ ˆˆ * ⎟ ⎠ ⎞⎜ ⎝ ⎛ −= ⎟ ⎠ ⎞⎜ ⎝ ⎛⎟ ⎠ ⎞⎜ ⎝ ⎛= ′∈ ∞ = ∞ =∈ ∑ ∑ grR PrPg f Ff m m m ff m f Ff υ (34) Для отримання подання *ĝ , що виражається першою формулою в (33), розглядається спочатку лінійне рівняння в i -му стані )(ˆˆ)(1ˆ)(ˆ)(ˆ ˆˆˆˆˆ iwPirigiw fffff +=+ . М.В. Андрєєв ISSN 1681–6048 System Research & Information Technologies, 2003, № 2 106 З цього співвідношення формально отримується iiwrPIigPI fffff ∀−⎟ ⎠ ⎞⎜ ⎝ ⎛ −=⎟ ⎠ ⎞⎜ ⎝ ⎛ − −− ),(ˆˆˆˆ)(ˆˆˆ ˆˆ1ˆˆ1ˆ . (35) За умови Говарда [10] 0)1( ˆ =fw із (35) випливає, що )1(1ˆˆ)1(ˆˆˆˆ 1ˆˆ1ˆˆ −− ⎟ ⎠ ⎞⎜ ⎝ ⎛ −⎟ ⎠ ⎞⎜ ⎝ ⎛ −= ffff PIrPIg . (36) За умови Ляпунова ffff wwPr ˆˆˆˆ ˆˆˆ1ˆ ≤++ має місце нерівність 1ˆ ˆ <fP . (37) При узятті супремума в (36) за Ff ˆˆ ∈ з урахуванням (35), отримується вираз для *ĝ в (34). Вираз для *υ̂ в (34) одержано за допомогою операції обернення опера- тора [ ]0 ˆˆ PI − для лінійного аналога другого рівняння в (33) з подальшою оптимізацією результату цього обернення за стратегіями Ff ′∈ ˆˆ . ВИСНОВКИ Окреслимо можливий напрямок застосувань розглянутої в цій статті моделі. При дослідженні різних сфер людської діяльності слід зазначити, що, не- зважаючи на весь різновид цих сфер, вони взаємнозалежні. Прогрес суспільного розвитку можна охарактеризувати деяким глобальним кри- терієм. Виникає проблема відшукання таких зв’язків між сферами діяль- ності, які б забезпечили оптимальні показники глобального критерію. В нашій постановці сфери людської діяльності моделюються сім’єю слабкозалежних та слабкокерованих марковських та напівмарковських про- цесів у дискретному часі. Термін «слабкозалежні» — адекватно відповідає природі людських взаємин у розумінні самостійної їх активності в конкрет- ній сфері діяльності. Термін «слабкокеровані» адекватно відповідає ролі держави у встановленні саме таких керованих зв’язків між сферами, за яких діяльність в усіх сферах характеризується оптимальними показниками сус- пільного розвитку. Перехід до керованої агрегованої моделі ілюструє ідею системного під- ходу до політики суспільного розвитку. Агрегована стаціонарна нерандомі- зована стратегія керування встановлює за своєю суттю усталені «слабкі зв’язки» (умовні переходи) між станами (точками), які характеризують в агрегованому вигляді відповідні сфери суспільного розвитку. Критерій оп- тимальності шуканої стратегії характеризує середні в асимптотичному плані максимальні показники динаміки суспільного зростання. Адаптивне керування слабкокерованими марковськими та напівмарковськими моделями … Системні дослідження та інформаційні технології, 2003, № 2 107 ЛІТЕРАТУРА 1. Bellman R. Markovian decision processes // J.Math. Mech. — 1957. — № 6. — P. 679–684. 2. Андрєєв М.В. Синтез оптимальних стратегій контролю та керування в задачах неполадки // Теорія еволюційних рівнянь. Міжнар. конф. «П’яті Боголюбовські читання». — Кам.-Под. пед. університет. — 2002. — C. 20–21. 3. Андреев Н.В. Управление риском обмена валют // Україна: поступ у майбутнє. Міжнар. наук. конф., присвячена 290-річчю прийняття Конституції Пилипа Орлика. — Вісник АПСВ. — 2000. — С. 88–92. 4. Андрєєв М.В. Деякі аспекти оптимізації страхової діяльності // Україна шляха- ми віків. Міжнар. наук. конф., присвячена 175-річчю з дня народження Ге- оргія Андрузького. — Вісник АПСВ. — 2002. — С. 79–81. 5. Дынкин Е.Б., Юшкевич А.А. Управляемые марковские процессы и их приложе- ния. — М.: —Наука, 1975. — 338 с. 6. Андрєєв М.В. Прикладний статистичний аналіз марковських гауссових про- цесів в дискретному часі // Системні дослідження та інформаційні техно- логії. — 2003. — № 1. — С. 112–120. 7. Королюк В.С., Андреев Н.В. Управляемые процессы марковского восстановле- ния с малой вероятностью обрыва // Кибернетика. — 1986. — № 6. — C. 112–114. 8. Korolyuk V.S., Turbin A.F. Mathematical Foundations of the State Lumping of Large Systems, Kluwer. — 1993. — P. 264–278. 9. Андреев Н.В. Оптимальное управление слабоуправляемыми марковскими и по- лумарковскими моделями // Сучасні інформаційні технології — шлях до інформаційного суспільства. Ювілейний збірник наукових праць, присвя- чений 10-річчю кафедри математичних методів системного аналізу. — К.:ІПСА, 1998. — С. 91–98. 10. Говард Р. Динамическое программирование и марковские процессы. — М.: Сов. Радио, 1964. — 136 с. Надійшла 25.12.2002
id journaliasakpiua-article-174306
institution System research and information technologies
keywords_txt_mv keywords
language Ukrainian
last_indexed 2025-07-17T10:25:54Z
publishDate 2019
publisher The National Technical University of Ukraine &quot;Igor Sikorsky Kyiv Polytechnic Institute&quot;
record_format ojs
resource_txt_mv journaliasakpiua/ed/fa8844a5a42e1929a8ba1962e3a7bded.pdf
spelling journaliasakpiua-article-1743062019-07-26T17:25:36Z Adaptive control of discrete time weakly controlled Markov and semi-Markov models Адаптивное управление слабоуправляемыми марковскими и полумарковскими моделями в дискретном времени Адаптивне керування славкокерованими марковськими та напівмарковськими моделями в дискретному часі Andreev, N. V. A Bayesian approach to Markov decision process problem [1] under stochastic uncertainty, when unknown transition probabilities are weakly disturbed with disturbances dependent on a decision strategy only is investigated. Observed decision process is assumed to be stationary in discrete time with finite, countable or measurable phase state is based on separation principle of assessment and optimization problems. Исследуется байесов подход к проблеме марковских процессов решений в условиях стохастической неопределенности, когда неизвестные переходные вероятности слабо возмущены, и только возмущения зависят от стратегии решений. Процесс решений предполагается стационарным в дискретном времени с конечным, счетным или измеримым фазовым пространством и базируется на принципе разделения задач оценивания и оптимизации. Досліджується байєсів підхід до проблеми марковських процесів рішень [1] в умовах стохастичної невизначеності, коли невідомі перехідні ймовірності слабко збурені, і тільки збурення залежать від стратегії рішень. Процес рішень припускається стаціонарним, розглядається в дискретному часі з скінченним, зчисленним або вимірним фазовим простором і ґрунтується на принципі розділення задач оцінювання та оптимізації. The National Technical University of Ukraine &quot;Igor Sikorsky Kyiv Polytechnic Institute&quot; 2019-07-26 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/174306 System research and information technologies; No. 2 (2003); 92-107 Системные исследования и информационные технологии; № 2 (2003); 92-107 Системні дослідження та інформаційні технології; № 2 (2003); 92-107 2308-8893 1681-6048 uk https://journal.iasa.kpi.ua/article/view/174306/174268 Copyright (c) 2021 System research and information technologies
spellingShingle Andreev, N. V.
Адаптивне керування славкокерованими марковськими та напівмарковськими моделями в дискретному часі
title Адаптивне керування славкокерованими марковськими та напівмарковськими моделями в дискретному часі
title_alt Adaptive control of discrete time weakly controlled Markov and semi-Markov models
Адаптивное управление слабоуправляемыми марковскими и полумарковскими моделями в дискретном времени
title_full Адаптивне керування славкокерованими марковськими та напівмарковськими моделями в дискретному часі
title_fullStr Адаптивне керування славкокерованими марковськими та напівмарковськими моделями в дискретному часі
title_full_unstemmed Адаптивне керування славкокерованими марковськими та напівмарковськими моделями в дискретному часі
title_short Адаптивне керування славкокерованими марковськими та напівмарковськими моделями в дискретному часі
title_sort адаптивне керування славкокерованими марковськими та напівмарковськими моделями в дискретному часі
url https://journal.iasa.kpi.ua/article/view/174306
work_keys_str_mv AT andreevnv adaptivecontrolofdiscretetimeweaklycontrolledmarkovandsemimarkovmodels
AT andreevnv adaptivnoeupravlenieslaboupravlâemymimarkovskimiipolumarkovskimimodelâmivdiskretnomvremeni
AT andreevnv adaptivnekeruvannâslavkokerovanimimarkovsʹkimitanapívmarkovsʹkimimodelâmivdiskretnomučasí