Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса

Рассмотрены обрывные управляемые марковские процессы с несчетными множествами состояний и управлений на конечном промежутке времени. Приведены определения обрывного управляемого марковского процесса, оценки пути и оптимальной стратегии, а также доказано фундаментальное уравнение в случае, когда мн...

Full description

Saved in:
Bibliographic Details
Published in:Кибернетика и системный анализ
Date:2016
Main Authors: Шпак, П.Р., Елейко, Я.И.
Format: Article
Language:Russian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2016
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/142007
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса / П.Р. Шпак, Я.И. Елейко // Кибернетика и системный анализ. — 2016. — Т. 52, № 4. — С. 155-160. — Бібліогр.: 5 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859744197499682816
author Шпак, П.Р.
Елейко, Я.И.
author_facet Шпак, П.Р.
Елейко, Я.И.
citation_txt Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса / П.Р. Шпак, Я.И. Елейко // Кибернетика и системный анализ. — 2016. — Т. 52, № 4. — С. 155-160. — Бібліогр.: 5 назв. — рос.
collection DSpace DC
container_title Кибернетика и системный анализ
description Рассмотрены обрывные управляемые марковские процессы с несчетными множествами состояний и управлений на конечном промежутке времени. Приведены определения обрывного управляемого марковского процесса, оценки пути и оптимальной стратегии, а также доказано фундаментальное уравнение в случае, когда множествами состояний и управлений являются измеримые пространства. Предложен метод построения оптимальной стратегии и доказано существование равномерно оптимальной стратегии в случае, когда множествами состояний и управлений есть сепарабельные метрические пространства. Розглянуто обривні керовані марковські процеси з незліченними множинами станів та керувань на скінченному часовому інтервалі. Наведено означення обривного керованого марковського процесу, оцінки шляху та оптимальної стратегії, а також доведено істинність фундаментального рівняння за умов, коли множини станів та керувань є вимірними просторами. Наведено метод побудови рівномірно оптимальної стратегії у випадку, коли множини станів та керувань являють собою сепарабельні метричні простори. In the paper, we consider killed Markov decision processes with uncountable sets of states and controls on a finite time interval. Definitions of killed Markov decision process and assessment of the way and optimal policy are given, as well as fundamental equation is proved in the case where the set of states and set of controls are measurable spaces. We also proposed a method to construct the optimal strategy and proved the existence of a uniformly optimal policy in case where the set of states and set of controls are separable metric spaces.
first_indexed 2025-12-01T20:39:25Z
format Article
fulltext ÓÄÊ 519.21 Ï.Ð. ØÏÀÊ, ß.È. ÅËÅÉÊÎ ÎÏÒÈÌÀËÜÍÛÅ ÑÒÐÀÒÅÃÈÈ È ÎÖÅÍÊÀ ÏÎËÓÍÅÏÐÅÐÛÂÍÎÃÎ ÎÁÐÛÂÍÎÃÎ ÓÏÐÀÂËßÅÌÎÃÎ ÌÀÐÊÎÂÑÊÎÃÎ ÏÐÎÖÅÑÑÀ Àííîòàöèÿ. Ðàññìîòðåíû îáðûâíûå óïðàâëÿåìûå ìàðêîâñêèå ïðîöåññû ñ íåñ÷åòíûìè ìíîæåñòâàìè ñîñòîÿíèé è óïðàâëåíèé íà êîíå÷íîì ïðîìå- æóòêå âðåìåíè. Ïðèâåäåíû îïðåäåëåíèÿ îáðûâíîãî óïðàâëÿåìîãî ìàðêîâ- ñêîãî ïðîöåññà, îöåíêè ïóòè è îïòèìàëüíîé ñòðàòåãèè, à òàêæå äîêàçàíî ôóíäàìåíòàëüíîå óðàâíåíèå â ñëó÷àå, êîãäà ìíîæåñòâàìè ñîñòîÿíèé è óï- ðàâëåíèé ÿâëÿþòñÿ èçìåðèìûå ïðîñòðàíñòâà. Ïðåäëîæåí ìåòîä ïîñòðîåíèÿ îïòèìàëüíîé ñòðàòåãèè è äîêàçàíî ñóùåñòâîâàíèå ðàâíîìåðíî îïòèìàëüíîé ñòðàòåãèè â ñëó÷àå, êîãäà ìíîæåñòâàìè ñîñòîÿíèé è óïðàâëåíèé åñòü ñåïà- ðàáåëüíûå ìåòðè÷åñêèå ïðîñòðàíñòâà. Êëþ÷åâûå ñëîâà: îáðûâíîé óïðàâëÿåìûé ìàðêîâñêèé ïðîöåññ, îïòèìàëü- íàÿ ñòðàòåãèÿ, ðàâíîìåðíî îïòèìàëüíàÿ ñòðàòåãèÿ, îöåíêà ïóòè, ôóíäàìåí- òàëüíîå óðàâíåíèå. ÂÂÅÄÅÍÈÅ Îïðåäåëåíèå óïðàâëÿåìîãî ìàðêîâñêîãî ïðîöåññà âïåðâûå ââåäåíî â êíèãå Áåë- ëìàíà [1], â êîòîðîé àâòîð ïðèìåíÿåò ïðèíöèïû äèíàìè÷åñêîãî ïðîãðàììèðîâà- íèÿ ê ýòèì ñòîõàñòè÷åñêèì ïðîöåññàì. Óïðàâëÿåìûå ìàðêîâñêèå ïðîöåññû ïîä- ðîáíî îïèñàíû â ðàáîòå [2], ãäå äàíû îïðåäåëåíèÿ ïðîöåññà è åãî îöåíêè, à òàêæå îïòèìàëüíîé è �-îïòèìàëüíîé ñòðàòåãèé è èõ îöåíêè. Îäíàêî çäåñü ìî- äåëè íå ó÷èòûâàþò ôàêòîðà ðèñêà, ò.å. âåðîÿòíîñòè áàíêðîòñòâà â êàêîé-òî îïðåäåëåííûé ìîìåíò âðåìåíè. Íåêîòîðûå îñíîâíûå èäåè îáðûâíûõ óïðàâëÿå- ìûõ ìàðêîâñêèõ ïðîöåññîâ ðàññìîòðåíû â [3], à ïðîöåññû ñ êîíå÷íûìè èëè ñ÷åòíûìè ìíîæåñòâàìè ñîñòîÿíèé è íàáîðîâ äåéñòâèé îïèñàíû â [4, 5]. ÎÁÙÅÅ ÎÏÐÅÄÅËÅÍÈÅ ÌÎÄÅËÈ Ïóñòü X X t t m n � � � è A At t m n � � �1 � — èçìåðèìûå ïðîñòðàíñòâà. Îïðåäåëåíèå 1. Òðàåêòîðèþ l x a x a xm m m n n� � �1 1 � áóäåì íàçûâàòü ïóòåì è ïðîñòðàíñòâî âñåõ âîçìîæíûõ ïóòåé îáîçíà÷àòü L X A X n m� � � �( ) . Îïðåäåëåíèå 2. Îáðûâíûì óïðàâëÿåìûì ìàðêîâñêèì ïðîöåññîì íà êîíå÷- íîì ïðîìåæóòêå âðåìåíè [ , ]m n íàçûâàåòñÿ íàáîð ( , , , , , , , )X A j p q r c Z� �� , ãäå: 1) ìíîæåñòâî ñîñòîÿíèé X X t t m n � � � ÿâëÿåòñÿ èçìåðèìûì ïðîñòðàíñòâîì è ïîäìíîæåñòâî îáðûâíûõ ñîñòîÿíèé X X� � èçìåðèìî, à òàêæå X X Xm m n, , ,�1 � — íåïåðåñåêàþùèåñÿ ïîäìíîæåñòâà X ; 2) ìíîæåñòâî âñåõ ïàð xx x X t( ) ïðèíàäëåæèò �( )X Xt t� ( )m t n ; 3) ìíîæåñòâî óïðàâëåíèé A At t m n � � �1 � ÿâëÿåòñÿ èçìåðèìûì ïðîñòðàíñòâîì è A A Am m n� �1 2, , ,� — íåïåðåñåêàþùèåñÿ ïîäìíîæåñòâà A; 4) j A X: � — ñîîòâåòñòâèÿ ïðîåêöèè, j A Xt t( )� �1 ; ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4 155 © Ï.Ð. Øïàê, ß.È. Åëåéêî, 2016 5) p a x x a a xt t t( | ) ( | , )� � � � �� 1 — ðàñïðåäåëåíèÿ âåðîÿòíîñòåé íà X t ; 6) q A: � � — ôóíêöèÿ íà ìíîæåñòâå óïðàâëåíèé (òåêóùàÿ ïëàòà); 7) r X n: � � — ôóíêöèÿ íà ìíîæåñòâå ôèíàëüíûõ ñîñòîÿíèé (ôèíàëüíàÿ ïëàòà); 8) c X Xt: �� � — ôóíêöèÿ íà ìíîæåñòâå îáðûâíûõ ñîñòîÿíèé c x q a x X X t m k a A t t ( ) sup ( ),� � � � �� 1 ; 9) � — ðàñïðåäåëåíèå âåðîÿòíîñòåé íà X m (íà÷àëüíîå ðàñïðåäåëåíèå), ïðè- ÷åì åñëè íà÷àëüíîå ðàñïðåäåëåíèå � ñîñðåäîòî÷åíî â îäíîé òî÷êå x , òî âìåñòî Z � áóäåì ïèñàòü Zx . Åñëè óäîâëåòâîðÿþòñÿ òîëüêî óñëîâèÿ 1–8, òî áóäåì íàçûâàòü ýòîò îáúåêò ìîäåëüþ è îáîçíà÷àòü Z . Îïðåäåëåíèå 3. Ôóíêöèþ I L: � � áóäåì íàçûâàòü îöåíêîé ïóòè l, åñëè îíà óäîâëåòâîðÿåò ñëåäóþùèì óñëîâèÿì: I l q a r x x X t m m nt t m n n t( ) ( ) ( ), ( , , , )� � � � � � � �� 1 1 � , I l q a c x x X x X t m m kt t m k k k t( ) ( ) ( ), ( , , , )� � � � � � � � � �� 1 1 � . Îïðåäåëåíèå 4. Åñëè ïîäìíîæåñòâî A x A( ) � ÿâëÿåòñÿ ïîäìíîæåñòâîì âñåõ âîçìîæíûõ óïðàâëåíèé â ñîñòîÿíèè x X , òî � : ( )X A x� íàçûâàåòñÿ ïðîñòîé ñòðàòåãèåé ïðè �( )x at t� �1 , t m n� �( , )1 � . Îïðåäåëåíèå 5. Ñîîòâåòñòâèÿ � �: ( | )H h H� � , ãäå �( | )� h H — ðàñïðå- äåëåíèå âåðîÿòíîñòåé íà A xt( ) è H — ïðîñòðàíñòâî èñòîðèé (h H h � � � �x a a xm m t t1, ,� ), íàçûâàþòñÿ ñòðàòåãèåé. Åñëè çàäàíû ïåðåõîäíàÿ ôóíêöèÿ p a( | )� è ñòðàòåãèÿ �( | )� h , òî êàæäîìó íà- ÷àëüíîìó ðàñïðåäåëåíèþ � ñîîòâåòñòâóþò ðàñïðåäåëåíèÿ âåðîÿòíîñòåé P íà ïðîñòðàíñòâå L, îïðåäåëåííûå ôîðìóëîé: P dx da dx da dx da dx dx da xm m m m n n n m m m( ) ( ) ( |� � � � ��1 1 2 1 1� � � )� � � � � � � �p dx a p dx a da x a x p dxm m n n n m m n( | ) ( | ) ( | ) (1 1 1 1 1 1� �� n na| ) . Äëÿ êàæäîé ôóíêöèè f , îïðåäåëåííîé íà ïðîñòðàíñòâå L, ìàòåìàòè÷åñêîå îæèäàíèå f èìååò âèä Ef dx da x p dx a pm m m A xX m m Xmm m � � � ��� � � � �( ) ( | ) ( | ) ( ( ) 1 1 1 1 � dx an n X n � � � � �1 1 1 | ) � �� � � � � �( | ) ( ) da x a xm m m n A xn 1 1 1 1 � � � � � � �p dx a f x a x a x a xn n X m m m m n n n n ( | ) ( ).1 1 2 1� (1) Ïðèìåðîì òàêîé ôóíêöèè åñòü îöåíêà ïóòè l, åå ìàòåìàòè÷åñêîå îæèäàíèå îáîçíà÷èì �: � � EI l( ). (2) Îïðåäåëåíèå 6. Âåëè÷èíó � èç (2) áóäåì íàçûâàòü îöåíêîé ñòðàòåãèè � ( ( ))� � �� . 156 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4 Îïðåäåëåíèå 7. Âåëè÷èíó � � � � � sup ( ) áóäåì íàçûâàòü îöåíêîé îáðûâíîãî óïðàâëÿåìîãî ìàðêîâñêîãî ïðîöåññà Z � èëè îöåíêîé íà÷àëüíîãî ðàñïðåäåëåíèÿ �. Îïðåäåëåíèå 8. Ñòðàòåãèÿ � íàçûâàåòñÿ îïòèìàëüíîé, åñëè � � �( ) � . Îïðåäåëåíèå 9. Ñòðàòåãèÿ � íàçûâàåòñÿ ðàâíîìåðíî îïòèìàëüíîé, åñëè � îïòèìàëüíà äëÿ êàæäîãî íà÷àëüíîãî ðàñïðåäåëåíèÿ �. Îïðåäåëåíèå 10. Ìîäåëü ( , , , , , , )� � � �X A j p q r c Z , ãäå � � � � X X t m n t 1 � è � � � � A A t m n t 2 � , íàçûâàåòñÿ ïðîèçâîäíîé. Åñëè f — îöåíêà ïóòè, òî äëÿ ñóùåñòâîâàíèÿ ìàòåìàòè÷åñêîãî îæèäàíèÿ (1) íåîáõîäèìî, ÷òîáû ôóíêöèè q , r è c áûëè èçìåðèìû è îãðàíè÷åíû ñâåðõó, à òàê- æå p a( | )� äîëæíà áûòü èçìåðèìà ïî a è �( | )� h — ïî h. Óòâåðæäåíèå 1. Ñïðàâåäëèâî ñëåäóþùåå óðàâíåíèå: � � � � �( , ) ( | )( ( ) ( , )) ( ) x da x q a p A x a a� � �� , (3) ãäå p p aa � �( | ), � �a h yah( | ) ( | )� � � � � , a Am �1, y j a� ( ), �h — èñòîðèÿ â ïðî- èçâîäíîé ìîäåëè �Z . Óðàâíåíèå (3) íàçûâàåòñÿ ôóíäàìåíòàëüíûì è âûðàæàåò îöåíêó � ñòðàòåãèè � â ìîäåëè Z ÷åðåç îöåíêó �� ñòðàòåãèé â �Z . Äîêàçàòåëüñòâî. Èç îïðåäåëåíèÿ P , (1) è (2) ñëåäóåò, ÷òî � � � � � �( , ) ( , ) ( )� � X m x dx , ñëåäîâàòåëüíî, � � � � �� � � �( , ) ( , ) ( | )p y p dy aa a X a m 1 . Èç îïðåäåëåíèÿ (2) ïîëó÷àåì ñëåäóþùåå ðàâåíñòâî: Ef x a x E f x a x da xm m n A x a m m n( ) ( ) ( | ) ( ) � � � �� �1 1 1 1� � � , ãäå E — íà÷àëüíîå ñîñòîÿíèå x è ñòðàòåãèè � â ìîäåëè Z , à Ea — íà÷àëüíîå ðàñïðåäåëåíèå pa è ñòðàòåãèè � a â ïðîèçâîäíîé ìîäåëè �Z . Ïîñêîëüêó I xal q a I l( ) ( ) ( )� � � � , ãäå �l — ïóòü â ïðîèçâîäíîé ìîäåëè �Z , ïîëó÷àåì ñëåäó- þùåå ðàâåíñòâî: � � � � �( , ) ( | )( ( ) ( , )) ( ) x da x q a p A x a a� � �� .  êîíå÷íîì è ñ÷åòíîì ñëó÷àÿõ [4, 5] äëÿ ïîñòðîåíèÿ ðåêóðñèâíîãî ìåòîäà íàõîæäåíèÿ îïòèìàëüíîé ñòðàòåãèè èñïîëüçîâàëèñü îïåðàòîðû U è V .  îáùåì ñëó÷àå ýòè îïåðàòîðû áóäóò èìåòü âèä Uf a q a f y p dy a X ( ) ( ) ( ) ( | )� � � , Vg x g a a A x ( ) sup ( ) ( ) � . ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4 157  îáùåì ñëó÷àå îïåðàòîð ìîæåò ïåðåâîäèòü èçìåðèìûå ôóíêöèè â íåèçìå- ðèìûå. Îäíèì èç ñïîñîáîâ ðåøåíèÿ ýòîé ïðîáëåìû ÿâëÿåòñÿ èñïîëüçîâàíèå òîëüêî èçìåðèìûõ ôóíêöèé èç íåêîòîðîãî êëàññà �, èíâàðèàíòíîãî îòíîñèòåëü- íî îïåðàòîðîâ U è V . ÏÎËÓÍÅÏÐÅÐÛÂÍÛÉ ÑËÓ×ÀÉ Îïðåäåëåíèå 11. Ôóíêöèÿ f îïðåäåëåíà íà ìåòðè÷åñêîì ïðîñòðàíñòâå E è íàçû- âàåòñÿ ïîëóíåïðåðûâíîé ñâåðõó, åñëè ìíîæåñòâî { }x f x c: ( ) � çàìêíóòî. Ìíî- æåñòâî âñåõ ïîëóíåïðåðûâíûõ ñâåðõó ôóíêöèé íà E áóäåì îáîçíà÷àòü �( )E . Îïðåäåëåíèå 12. Ìîäåëü Z íàçûâàåòñÿ ïîëóíåïðåðûâíîé, åñëè: — ìíîæåñòâà ñîñòîÿíèé X è óïðàâëåíèé A — ñåïàðàáåëüíûå ìåòðè÷åñêèå ïðîñòðàíñòâà; — ìíîæåñòâà X Xm � , X Xm \ � , X Xm� � 1 , X X X Xm n� � � 1 \ � , X Xn \ � — çàìêíóòûå ïîäìíîæåñòâà X è A A Am m n� �1 2, , ,� — çàìêíóòûå ïîä- ìíîæåñòâà A; — ñîîòâåòñòâèå A x( ) êâàçèíåïðåðûâíîå (åñëè x x Xk � è a A xk k ( ), òî { }ak èìååò ïðåäåëüíóþ òî÷êó, ïðèíàäëåæàùóþ A x( )); — åñëè f X t �( ) è g a p dx a f x X t ( ) ( | ) ( )� � ( )a At , òî g At �( ) (t � � �m n1, , )� ; — ôóíêöèÿ q , îïðåäåëåííàÿ íà At , ïðèíàäëåæèò �( )At è q , îïðåäåëåííàÿ íà X Xt � , ïðèíàäëåæèò �( )X Xt � , à r ïðèíàäëåæèò �( )X n . Òåîðåìà 1. Ïóñòü E è �E — ñåïàðàáåëüíûå ìåòðè÷åñêèå ïðîñòðàíñòâà, Q x( ) — êâàçèíåïðåðûâíîå ñîîòâåòñòâèå èç E â �E . Åñëè f E ��( ), òî ôóíêöèÿ g x f y y Q x ( ) sup ( ) ( ) � ( )x E ïðèíàäëåæèò �( )E , ìíîæåñòâà Q x y y Q x( ) : ( ),� { f y g x( ) ( )� } ( )x E íåïóñòûå è ñîîòâåòñòâèå Q x( ) äîïóñêàåò èçìåðèìûé âûáîð. Óòâåðæäåíèå 2. Äëÿ ïîëóíåïðåðûâíîé ìîäåëè èìåþò ìåñòî ñëåäóþùèå ñâîéñòâà: 1) îöåíêà � ïðèíàäëåæèò �( )X m ; 2) îöåíêà � � ��( ) � äëÿ ëþáîãî íà÷àëüíîãî ðàñïðåäåëåíèÿ �; 3) ñóùåñòâóåò ðàâíîìåðíî îïòèìàëüíàÿ ñòðàòåãèÿ. Äîêàçàòåëüñòâî. Äîïóñòèì, ÷òî ñâîéñòâà 1–3 ñïðàâåäëèâû äëÿ ïðîèçâîäíîé ìîäåëè �Z . Ïîêàæåì, ÷òî ñëåäóþùèå óñëîâèÿ ñïðàâåäëèâû äëÿ ìîäåëè Z : à) îöåíêà � ìîäåëè Z âûðàæàåòñÿ ÷åðåç îöåíêó �� ïðîèçâîäíîé ìîäåëè �Z óðàâíåíèÿìè � �V u, u U� �� , ãäå îïåðàòîðû U è V çàäàíû ôîðìóëàìè Uf a q a f y p dy a a A X ( ) ( ) ( ) ( | ) ( )� � � , Vg x g a x X X X a A x n( ) sup ( ) ( \ ( )) ( ) � � � ; á) ñóùåñòâóåò èçìåðèìûé ñåëåêòîð ñîîòâåòñòâèÿ A x( ) èç X m â Am�1 òà- êîé, ÷òî u x x( ( )) ( ) �� ; â) åñëè �� — îïòèìàëüíàÿ ñòðàòåãèÿ �Z è — ñåëåêòîð èç óñëîâèÿ á), òî �� — îïòèìàëüíàÿ ñòðàòåãèÿ äëÿ ìîäåëè Z ; ã) ñâîéñòâà 1–3 ñïðàâåäëèâû äëÿ Z .  ñëó÷àå, êîãäà ïðîñòðàíñòâî ñîñòîÿíèé ñîñòîèò èç îäíîãî ìíîæåñòâà X n , ñâîéñòâà 1–3 òðèâèàëüíû. 158 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4 Èç ôóíäàìåíòàëüíîãî óðàâíåíèÿ ïîëó÷àåì ñëåäóþùåå: � �( , ) ( ) ( )x Vu x x X m , (4) ãäå � — ëþáàÿ ñòðàòåãèÿ è u a q a p a Aa m( ) ( ) ( ) ( )� � � �� 1 . Ïîñêîëüêó ñâîéñòâà 1, 2 ñïðàâåäëèâû, ïîëó÷àåì, ÷òî � �� �( )X m 1 è � � � � �� � X m y p dy a 1 ( ) ( | ), ñëåäîâàòåëüíî, u Am ��( )1 è u U� �� . Ïîñòðîèì ñòðàòåãèþ �, êîòîðàÿ ïðåâðàùàåò íåðàâåíñòâî (4) â ðàâåíñòâî. Ïóñòü �� — îïòèìàëüíàÿ ñòðàòåãèÿ äëÿ ïðîèçâîäíîé ìîäåëè �Z , òîãäà äëÿ ëþáîé ñòðàòåãèè �� ñïðàâåäëèâû ñëåäóþùèå óðàâíåíèÿ: � � � �( , ) ( | )( ( ) ( , )) ( ) x da x q a p A x a� � � � � �� � � � �� � A x a A x da x q a p u a da x ( ) ( ) ( | )( ( ) ( )) ( ) ( | ) � . Åñëè ( | )� x ñîñðåäîòî÷åíî â îäíîé òî÷êå ñ A x a a A x u a Vu x( ) : ( ), ( ) ( )� �{ }, òî Vu x u a u a da x A x A x ( ) sup ( ) ( ) ( | ) ( ) ( ) � � � . Ïðîèçâåäåíèå �� áóäåò ñòðàòåãèåé, åñëè — èçìåðèìûé ñåëåêòîð u Am ��( )1 . Ñîãëàñíî òåîðåìå 1 èçìåðèìûé ñåëåêòîð ñóùåñòâóåò. Èç ðàâåí- ñòâà � �( , ) ( )x Vu x� � è (4) ñëåäóåò, ÷òî � �Vu, çíà÷èò, óñëîâèå à) ñïðàâåäëèâî. Î÷åâèäíî, ÷òî ñåëåêòîð ñîîòâåòñòâèÿ A x( ) óäîâëåòâîðÿåò óñëîâèþ á) òîã- äà è òîëüêî òîãäà, êîãäà — èçìåðèìûé ñåëåêòîð ñîîòâåòñòâèÿ A x( ).  ðåçóëü- òàòå ïîêàçàíî, ÷òî óñëîâèÿ á) è â) ñïðàâåäëèâû. Ïîêàæåì, ÷òî ñâîéñòâà 1–3 ñïðàâåäëèâû äëÿ ìîäåëè Z . Ñâîéñòâî 3 ñïðàâåä- ëèâî â ñèëó ïîñòðîåíèÿ ñòðàòåãèè ��. Ïîñêîëüêó u Am ��( )1 è � �Vu, èç òåîðå- ìû 1 ñëåäóåò, ÷òî ñâîéñòâî 1 ñïðàâåäëèâî. Åñëè � ðàâíîìåðíî îïòèìàëüíà äëÿ ìîäåëè Z , òî � � � � � � � � � � ��( ) ( , ) ( , ) ( ) ( ) ( )� � � �� � X Xm m x dx x dx , ñëåäîâàòåëüíî, ñâîéñòâî 2 ñïðàâåäëèâî. ÇÀÊËÞ×ÅÍÈÅ Òàêèì îáðàçîì, â ðàáîòå äîêàçàíî, ÷òî èìååò ìåñòî ôóíäàìåíòàëüíîå óðàâíåíèå â ñëó÷àå, êîãäà ìíîæåñòâàìè ñîñòîÿíèé è óïðàâëåíèé ÿâëÿþòñÿ èçìåðèìûå ïðî- ñòðàíñòâà. Òàêæå ïðåäëîæåí ìåòîä ïîñòðîåíèÿ îïòèìàëüíîé ñòðàòåãèè è äîêàçàíî ñóùåñòâîâàíèå ðàâíîìåðíî îïòèìàëüíîé ñòðàòåãèè â ñëó÷àå, êîãäà ìíîæåñòâàìè ñîñòîÿíèé è óïðàâëåíèé åñòü ñåïàðàáåëüíûå ìåòðè÷åñêèå ïðîñòðàíñòâà. ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1. B e l l m a n R . E . Dynamic programming. — Princeton (NJ): Princeton University Press, 1957. — 400 p. 2. Ä û í ê è í Å . Á . , Þ ø ê å â è ÷ À . À . Óïðàâëÿåìûå ìàðêîâñêèå ïðîöåññû è èõ ïðèëîæåíèÿ. — Ì.: Íàóêà, 1975. — 334 ñ. 3. P a k e s A . G . Killing and resurrection of Markov processes // Stochastic Models. — 1997. — 13, N 2 — P. 255–269. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4 159 4. Ï à ð î ë ÿ Í . Ð . , ª ë å é ê î ß . ² . Îáðèâí³ êåðîâàí³ ìàðêîâñüê³ ïðîöåñè íà ñê³í÷åííîìó ³íòåðâàë³ ÷àñó äëÿ ñê³í÷åííèõ ìîäåëåé // ³ñíèê Ëüâ³âñüêîãî óí³âåðñèòåòó. Ñåð³ÿ ìåõàí³êî-ìàòåìàòè÷íà. — 2010. — ¹ 72. — Ñ. 243–254. 5. P a r o l y a N . R . , Y e l e y k o Y . I . Killed Markov decision processes on finite time interval for countable models // Transactions of NAS of Azerbaijan. — 2010. — 30, N 4. — P. 141–152. Íàä³éøëà äî ðåäàêö³¿ 12.11.2015 Ï.Ð. Øïàê, ß.². ªëåéêî ÎÏÒÈÌÀËÜͲ ÑÒÐÀÒÅò¯ ÒÀ ÎÖ²ÍÊÀ ÍÀϲÂÍÅÏÅÐÅÂÍÈÕ ÎÁÐÈÂÍÈÕ ÊÅÐÎÂÀÍÈÕ ÌÀÐÊÎÂÑÜÊÈÕ ÏÐÎÖÅѲ Àíîòàö³ÿ. Ðîçãëÿíóòî îáðèâí³ êåðîâàí³ ìàðêîâñüê³ ïðîöåñè ç íåçë³÷åííèìè ìíîæèíàìè ñòàí³â òà êåðóâàíü íà ñê³í÷åííîìó ÷àñîâîìó ³íòåðâàë³. Íàâåäåíî îçíà÷åííÿ îáðèâíîãî êåðîâàíîãî ìàðêîâñüêîãî ïðîöåñó, îö³íêè øëÿõó òà îïòèìàëüíî¿ ñòðàòå㳿, à òàêîæ äîâåäåíî ³ñòèíí³ñòü ôóíäàìåíòàëüíîãî ð³âíÿí- íÿ çà óìîâ, êîëè ìíîæèíè ñòàí³â òà êåðóâàíü º âèì³ðíèìè ïðîñòîðàìè. Íàâå- äåíî ìåòîä ïîáóäîâè ð³âíîì³ðíî îïòèìàëüíî¿ ñòðàòå㳿 ó âèïàäêó, êîëè ìíî- æèíè ñòàí³â òà êåðóâàíü ÿâëÿþòü ñîáîþ ñåïàðàáåëüí³ ìåòðè÷í³ ïðîñòîðè. Êëþ÷îâ³ ñëîâà: îáðèâíèé êåðîâàíèé ìàðêîâñüêèé ïðîöåñ, îïòèìàëüíà ñòðà- òåã³ÿ, ð³âíîì³ðíî îïòèìàëüíà ñòðàòåã³ÿ, îö³íêà øëÿõó, ôóíäàìåíòàëüíå ð³âíÿííÿ. P.R. Shpak, Y.I. Yeleyko ASSESSMENT AND OPTIMAL POLICIES OF SEMI-CONTINUOUS KILLED MARKOV DECISION PROCESSES Abstract. In the paper, we consider killed Markov decision processes with uncountable sets of states and controls on a finite time interval. Definitions of killed Markov decision process and assessment of the way and optimal policy are given, as well as fundamental equation is proved in the case where the set of states and set of controls are measurable spaces. We also proposed a method to construct the optimal strategy and proved the existence of a uniformly optimal policy in case where the set of states and set of controls are separable metric spaces. Keywords: killed Markov decision process, optimal policy, uniformly optimal policy, assessment of the way, fundamental equation. Øïàê Ïàâåë Ðîìàíîâè÷, àñïèðàíò Ëüâîâñêîãî íàöèîíàëüíîãî óíèâåðñèòåòà èìåíè Èâàíà Ôðàíêî, e-mail: prshpak@gmail.com. Åëåéêî ßðîñëàâ Èâàíîâè÷, äîêòîð ôèç.-ìàò. íàóê, ïðîôåññîð Ëüâîâñêîãî íàöèîíàëüíîãî óíèâåðñèòåòà èìåíè Èâàíà Ôðàíêî, å-mail: yikts@yahoo.com. 160 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4
id nasplib_isofts_kiev_ua-123456789-142007
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0023-1274
language Russian
last_indexed 2025-12-01T20:39:25Z
publishDate 2016
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
record_format dspace
spelling Шпак, П.Р.
Елейко, Я.И.
2018-09-19T19:32:21Z
2018-09-19T19:32:21Z
2016
Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса / П.Р. Шпак, Я.И. Елейко // Кибернетика и системный анализ. — 2016. — Т. 52, № 4. — С. 155-160. — Бібліогр.: 5 назв. — рос.
0023-1274
https://nasplib.isofts.kiev.ua/handle/123456789/142007
519.21
Рассмотрены обрывные управляемые марковские процессы с несчетными множествами состояний и управлений на конечном промежутке времени. Приведены определения обрывного управляемого марковского процесса, оценки пути и оптимальной стратегии, а также доказано фундаментальное уравнение в случае, когда множествами состояний и управлений являются измеримые пространства. Предложен метод построения оптимальной стратегии и доказано существование равномерно оптимальной стратегии в случае, когда множествами состояний и управлений есть сепарабельные метрические пространства.
Розглянуто обривні керовані марковські процеси з незліченними множинами станів та керувань на скінченному часовому інтервалі. Наведено означення обривного керованого марковського процесу, оцінки шляху та оптимальної стратегії, а також доведено істинність фундаментального рівняння за умов, коли множини станів та керувань є вимірними просторами. Наведено метод побудови рівномірно оптимальної стратегії у випадку, коли множини станів та керувань являють собою сепарабельні метричні простори.
In the paper, we consider killed Markov decision processes with uncountable sets of states and controls on a finite time interval. Definitions of killed Markov decision process and assessment of the way and optimal policy are given, as well as fundamental equation is proved in the case where the set of states and set of controls are measurable spaces. We also proposed a method to construct the optimal strategy and proved the existence of a uniformly optimal policy in case where the set of states and set of controls are separable metric spaces.
ru
Інститут кібернетики ім. В.М. Глушкова НАН України
Кибернетика и системный анализ
Системный анализ
Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса
Оптимальні стратегії та оцінка напівнеперевних обривних керованих марковських процесів
Assessment and optimal policies of semi-continuous killed Markov decision processes
Article
published earlier
spellingShingle Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса
Шпак, П.Р.
Елейко, Я.И.
Системный анализ
title Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса
title_alt Оптимальні стратегії та оцінка напівнеперевних обривних керованих марковських процесів
Assessment and optimal policies of semi-continuous killed Markov decision processes
title_full Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса
title_fullStr Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса
title_full_unstemmed Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса
title_short Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса
title_sort оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса
topic Системный анализ
topic_facet Системный анализ
url https://nasplib.isofts.kiev.ua/handle/123456789/142007
work_keys_str_mv AT špakpr optimalʹnyestrategiiiocenkapolunepreryvnogoobryvnogoupravlâemogomarkovskogoprocessa
AT eleikoâi optimalʹnyestrategiiiocenkapolunepreryvnogoobryvnogoupravlâemogomarkovskogoprocessa
AT špakpr optimalʹnístrategíítaocínkanapívneperevnihobrivnihkerovanihmarkovsʹkihprocesív
AT eleikoâi optimalʹnístrategíítaocínkanapívneperevnihobrivnihkerovanihmarkovsʹkihprocesív
AT špakpr assessmentandoptimalpoliciesofsemicontinuouskilledmarkovdecisionprocesses
AT eleikoâi assessmentandoptimalpoliciesofsemicontinuouskilledmarkovdecisionprocesses