Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса
Рассмотрены обрывные управляемые марковские процессы с несчетными множествами состояний и управлений на конечном промежутке времени. Приведены определения обрывного управляемого марковского процесса, оценки пути и оптимальной стратегии, а также доказано фундаментальное уравнение в случае, когда мн...
Збережено в:
| Опубліковано в: : | Кибернетика и системный анализ |
|---|---|
| Дата: | 2016 |
| Автори: | , |
| Формат: | Стаття |
| Мова: | Російська |
| Опубліковано: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2016
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/142007 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса / П.Р. Шпак, Я.И. Елейко // Кибернетика и системный анализ. — 2016. — Т. 52, № 4. — С. 155-160. — Бібліогр.: 5 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859744197499682816 |
|---|---|
| author | Шпак, П.Р. Елейко, Я.И. |
| author_facet | Шпак, П.Р. Елейко, Я.И. |
| citation_txt | Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса / П.Р. Шпак, Я.И. Елейко // Кибернетика и системный анализ. — 2016. — Т. 52, № 4. — С. 155-160. — Бібліогр.: 5 назв. — рос. |
| collection | DSpace DC |
| container_title | Кибернетика и системный анализ |
| description | Рассмотрены обрывные управляемые марковские процессы с несчетными множествами состояний и управлений на конечном промежутке времени. Приведены определения обрывного управляемого марковского процесса, оценки пути и оптимальной стратегии, а также доказано фундаментальное уравнение в случае, когда множествами состояний и управлений являются измеримые пространства. Предложен метод построения оптимальной стратегии и доказано существование равномерно оптимальной стратегии в случае, когда множествами состояний и управлений есть сепарабельные метрические пространства.
Розглянуто обривні керовані марковські процеси з незліченними множинами станів та керувань на скінченному часовому інтервалі. Наведено означення обривного керованого марковського процесу, оцінки шляху та оптимальної стратегії, а також доведено істинність фундаментального рівняння за умов, коли множини станів та керувань є вимірними просторами. Наведено метод побудови рівномірно оптимальної стратегії у випадку, коли множини станів та керувань являють собою сепарабельні метричні простори.
In the paper, we consider killed Markov decision processes with uncountable sets of states and controls on a finite time interval. Definitions of killed Markov decision process and assessment of the way and optimal policy are given, as well as fundamental equation is proved in the case where the set of states and set of controls are measurable spaces. We also proposed a method to construct the optimal strategy and proved the existence of a uniformly optimal policy in case where the set of states and set of controls are separable metric spaces.
|
| first_indexed | 2025-12-01T20:39:25Z |
| format | Article |
| fulltext |
ÓÄÊ 519.21
Ï.Ð. ØÏÀÊ, ß.È. ÅËÅÉÊÎ
ÎÏÒÈÌÀËÜÍÛÅ ÑÒÐÀÒÅÃÈÈ È ÎÖÅÍÊÀ ÏÎËÓÍÅÏÐÅÐÛÂÍÎÃÎ
ÎÁÐÛÂÍÎÃÎ ÓÏÐÀÂËßÅÌÎÃÎ ÌÀÐÊÎÂÑÊÎÃÎ ÏÐÎÖÅÑÑÀ
Àííîòàöèÿ. Ðàññìîòðåíû îáðûâíûå óïðàâëÿåìûå ìàðêîâñêèå ïðîöåññû
ñ íåñ÷åòíûìè ìíîæåñòâàìè ñîñòîÿíèé è óïðàâëåíèé íà êîíå÷íîì ïðîìå-
æóòêå âðåìåíè. Ïðèâåäåíû îïðåäåëåíèÿ îáðûâíîãî óïðàâëÿåìîãî ìàðêîâ-
ñêîãî ïðîöåññà, îöåíêè ïóòè è îïòèìàëüíîé ñòðàòåãèè, à òàêæå äîêàçàíî
ôóíäàìåíòàëüíîå óðàâíåíèå â ñëó÷àå, êîãäà ìíîæåñòâàìè ñîñòîÿíèé è óï-
ðàâëåíèé ÿâëÿþòñÿ èçìåðèìûå ïðîñòðàíñòâà. Ïðåäëîæåí ìåòîä ïîñòðîåíèÿ
îïòèìàëüíîé ñòðàòåãèè è äîêàçàíî ñóùåñòâîâàíèå ðàâíîìåðíî îïòèìàëüíîé
ñòðàòåãèè â ñëó÷àå, êîãäà ìíîæåñòâàìè ñîñòîÿíèé è óïðàâëåíèé åñòü ñåïà-
ðàáåëüíûå ìåòðè÷åñêèå ïðîñòðàíñòâà.
Êëþ÷åâûå ñëîâà: îáðûâíîé óïðàâëÿåìûé ìàðêîâñêèé ïðîöåññ, îïòèìàëü-
íàÿ ñòðàòåãèÿ, ðàâíîìåðíî îïòèìàëüíàÿ ñòðàòåãèÿ, îöåíêà ïóòè, ôóíäàìåí-
òàëüíîå óðàâíåíèå.
ÂÂÅÄÅÍÈÅ
Îïðåäåëåíèå óïðàâëÿåìîãî ìàðêîâñêîãî ïðîöåññà âïåðâûå ââåäåíî â êíèãå Áåë-
ëìàíà [1], â êîòîðîé àâòîð ïðèìåíÿåò ïðèíöèïû äèíàìè÷åñêîãî ïðîãðàììèðîâà-
íèÿ ê ýòèì ñòîõàñòè÷åñêèì ïðîöåññàì. Óïðàâëÿåìûå ìàðêîâñêèå ïðîöåññû ïîä-
ðîáíî îïèñàíû â ðàáîòå [2], ãäå äàíû îïðåäåëåíèÿ ïðîöåññà è åãî îöåíêè,
à òàêæå îïòèìàëüíîé è �-îïòèìàëüíîé ñòðàòåãèé è èõ îöåíêè. Îäíàêî çäåñü ìî-
äåëè íå ó÷èòûâàþò ôàêòîðà ðèñêà, ò.å. âåðîÿòíîñòè áàíêðîòñòâà â êàêîé-òî
îïðåäåëåííûé ìîìåíò âðåìåíè. Íåêîòîðûå îñíîâíûå èäåè îáðûâíûõ óïðàâëÿå-
ìûõ ìàðêîâñêèõ ïðîöåññîâ ðàññìîòðåíû â [3], à ïðîöåññû ñ êîíå÷íûìè èëè
ñ÷åòíûìè ìíîæåñòâàìè ñîñòîÿíèé è íàáîðîâ äåéñòâèé îïèñàíû â [4, 5].
ÎÁÙÅÅ ÎÏÐÅÄÅËÅÍÈÅ ÌÎÄÅËÈ
Ïóñòü X X t
t m
n
�
�
� è A At
t m
n
�
� �1
� — èçìåðèìûå ïðîñòðàíñòâà.
Îïðåäåëåíèå 1. Òðàåêòîðèþ l x a x a xm m m n n� � �1 1 � áóäåì íàçûâàòü ïóòåì
è ïðîñòðàíñòâî âñåõ âîçìîæíûõ ïóòåé îáîçíà÷àòü L X A X n m� � � �( ) .
Îïðåäåëåíèå 2. Îáðûâíûì óïðàâëÿåìûì ìàðêîâñêèì ïðîöåññîì íà êîíå÷-
íîì ïðîìåæóòêå âðåìåíè [ , ]m n íàçûâàåòñÿ íàáîð ( , , , , , , , )X A j p q r c Z� �� , ãäå:
1) ìíîæåñòâî ñîñòîÿíèé X X t
t m
n
�
�
� ÿâëÿåòñÿ èçìåðèìûì ïðîñòðàíñòâîì è
ïîäìíîæåñòâî îáðûâíûõ ñîñòîÿíèé X X� � èçìåðèìî, à òàêæå
X X Xm m n, , ,�1 � — íåïåðåñåêàþùèåñÿ ïîäìíîæåñòâà X ;
2) ìíîæåñòâî âñåõ ïàð xx x X t( ) ïðèíàäëåæèò �( )X Xt t� ( )m t n
;
3) ìíîæåñòâî óïðàâëåíèé A At
t m
n
�
� �1
� ÿâëÿåòñÿ èçìåðèìûì ïðîñòðàíñòâîì è
A A Am m n� �1 2, , ,� — íåïåðåñåêàþùèåñÿ ïîäìíîæåñòâà A;
4) j A X: � — ñîîòâåòñòâèÿ ïðîåêöèè, j A Xt t( )� �1 ;
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4 155
© Ï.Ð. Øïàê, ß.È. Åëåéêî, 2016
5) p a x x a a xt t t( | ) ( | , )� � � � �� 1 — ðàñïðåäåëåíèÿ âåðîÿòíîñòåé íà X t ;
6) q A: � � — ôóíêöèÿ íà ìíîæåñòâå óïðàâëåíèé (òåêóùàÿ ïëàòà);
7) r X n: � � — ôóíêöèÿ íà ìíîæåñòâå ôèíàëüíûõ ñîñòîÿíèé (ôèíàëüíàÿ
ïëàòà);
8) c X Xt:
��
� — ôóíêöèÿ íà ìíîæåñòâå îáðûâíûõ ñîñòîÿíèé
c x q a x X X
t m
k
a A
t
t
( ) sup ( ),� �
� �
��
1
;
9) � — ðàñïðåäåëåíèå âåðîÿòíîñòåé íà X m (íà÷àëüíîå ðàñïðåäåëåíèå), ïðè-
÷åì åñëè íà÷àëüíîå ðàñïðåäåëåíèå � ñîñðåäîòî÷åíî â îäíîé òî÷êå x , òî âìåñòî
Z � áóäåì ïèñàòü Zx .
Åñëè óäîâëåòâîðÿþòñÿ òîëüêî óñëîâèÿ 1–8, òî áóäåì íàçûâàòü ýòîò îáúåêò
ìîäåëüþ è îáîçíà÷àòü Z .
Îïðåäåëåíèå 3. Ôóíêöèþ I L: � � áóäåì íàçûâàòü îöåíêîé ïóòè l, åñëè
îíà óäîâëåòâîðÿåò ñëåäóþùèì óñëîâèÿì:
I l q a r x x X t m m nt
t m
n
n t( ) ( ) ( ), ( , , , )� � � � �
� �
��
1
1 � ,
I l q a c x x X x X t m m kt
t m
k
k k t( ) ( ) ( ), ( , , , )� � � � � �
� �
� ��
1
1 � .
Îïðåäåëåíèå 4. Åñëè ïîäìíîæåñòâî A x A( ) � ÿâëÿåòñÿ ïîäìíîæåñòâîì âñåõ
âîçìîæíûõ óïðàâëåíèé â ñîñòîÿíèè x X , òî � : ( )X A x� íàçûâàåòñÿ ïðîñòîé
ñòðàòåãèåé ïðè �( )x at t� �1 , t m n� �( , )1 � .
Îïðåäåëåíèå 5. Ñîîòâåòñòâèÿ � �: ( | )H h H� � , ãäå �( | )� h H — ðàñïðå-
äåëåíèå âåðîÿòíîñòåé íà A xt( ) è H — ïðîñòðàíñòâî èñòîðèé (h H h � �
� �x a a xm m t t1, ,� ), íàçûâàþòñÿ ñòðàòåãèåé.
Åñëè çàäàíû ïåðåõîäíàÿ ôóíêöèÿ p a( | )� è ñòðàòåãèÿ �( | )� h , òî êàæäîìó íà-
÷àëüíîìó ðàñïðåäåëåíèþ � ñîîòâåòñòâóþò ðàñïðåäåëåíèÿ âåðîÿòíîñòåé P íà
ïðîñòðàíñòâå L, îïðåäåëåííûå ôîðìóëîé:
P dx da dx da dx da dx dx da xm m m m n n n m m m( ) ( ) ( |� � � � ��1 1 2 1 1� � � )�
� � � � � � �p dx a p dx a da x a x p dxm m n n n m m n( | ) ( | ) ( | ) (1 1 1 1 1 1� �� n na| ) .
Äëÿ êàæäîé ôóíêöèè f , îïðåäåëåííîé íà ïðîñòðàíñòâå L, ìàòåìàòè÷åñêîå
îæèäàíèå f èìååò âèä
Ef dx da x p dx a pm m m
A xX
m m
Xmm m
� � � ��� �
�
� �( ) ( | ) ( | ) (
( )
1 1 1
1
� dx an n
X n
� �
�
� �1 1
1
| )
� �� � �
�
� �( | )
( )
da x a xm m m n
A xn
1 1 1
1
�
� � � � � �p dx a f x a x a x a xn n
X
m m m m n n n
n
( | ) ( ).1 1 2 1� (1)
Ïðèìåðîì òàêîé ôóíêöèè åñòü îöåíêà ïóòè l, åå ìàòåìàòè÷åñêîå îæèäàíèå
îáîçíà÷èì �:
� � EI l( ). (2)
Îïðåäåëåíèå 6. Âåëè÷èíó � èç (2) áóäåì íàçûâàòü îöåíêîé ñòðàòåãèè �
( ( ))� � �� .
156 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4
Îïðåäåëåíèå 7. Âåëè÷èíó � � �
�
� sup ( ) áóäåì íàçûâàòü îöåíêîé îáðûâíîãî
óïðàâëÿåìîãî ìàðêîâñêîãî ïðîöåññà Z � èëè îöåíêîé íà÷àëüíîãî ðàñïðåäåëåíèÿ �.
Îïðåäåëåíèå 8. Ñòðàòåãèÿ � íàçûâàåòñÿ îïòèìàëüíîé, åñëè � � �( ) � .
Îïðåäåëåíèå 9. Ñòðàòåãèÿ � íàçûâàåòñÿ ðàâíîìåðíî îïòèìàëüíîé, åñëè �
îïòèìàëüíà äëÿ êàæäîãî íà÷àëüíîãî ðàñïðåäåëåíèÿ �.
Îïðåäåëåíèå 10. Ìîäåëü ( , , , , , , )� � � �X A j p q r c Z , ãäå � �
� �
X X
t m
n
t
1
� è
� �
� �
A A
t m
n
t
2
� , íàçûâàåòñÿ ïðîèçâîäíîé.
Åñëè f — îöåíêà ïóòè, òî äëÿ ñóùåñòâîâàíèÿ ìàòåìàòè÷åñêîãî îæèäàíèÿ (1)
íåîáõîäèìî, ÷òîáû ôóíêöèè q , r è c áûëè èçìåðèìû è îãðàíè÷åíû ñâåðõó, à òàê-
æå p a( | )� äîëæíà áûòü èçìåðèìà ïî a è �( | )� h — ïî h.
Óòâåðæäåíèå 1. Ñïðàâåäëèâî ñëåäóþùåå óðàâíåíèå:
� � � � �( , ) ( | )( ( ) ( , ))
( )
x da x q a p
A x
a a� � �� , (3)
ãäå p p aa � �( | ), � �a h yah( | ) ( | )� � � � � , a Am �1, y j a� ( ), �h — èñòîðèÿ â ïðî-
èçâîäíîé ìîäåëè �Z .
Óðàâíåíèå (3) íàçûâàåòñÿ ôóíäàìåíòàëüíûì è âûðàæàåò îöåíêó � ñòðàòåãèè
� â ìîäåëè Z ÷åðåç îöåíêó �� ñòðàòåãèé â �Z .
Äîêàçàòåëüñòâî. Èç îïðåäåëåíèÿ P , (1) è (2) ñëåäóåò, ÷òî
� � � � � �( , ) ( , ) ( )� �
X m
x dx ,
ñëåäîâàòåëüíî,
� � �
�
�� � � �( , ) ( , ) ( | )p y p dy aa a
X
a
m 1
.
Èç îïðåäåëåíèÿ (2) ïîëó÷àåì ñëåäóþùåå ðàâåíñòâî:
Ef x a x E f x a x da xm m n
A x
a m m n( ) ( ) ( | )
( )
� � � �� �1 1 1 1� � � ,
ãäå E — íà÷àëüíîå ñîñòîÿíèå x è ñòðàòåãèè � â ìîäåëè Z , à Ea — íà÷àëüíîå
ðàñïðåäåëåíèå pa è ñòðàòåãèè � a â ïðîèçâîäíîé ìîäåëè �Z . Ïîñêîëüêó
I xal q a I l( ) ( ) ( )� � � � , ãäå �l — ïóòü â ïðîèçâîäíîé ìîäåëè �Z , ïîëó÷àåì ñëåäó-
þùåå ðàâåíñòâî:
� � � � �( , ) ( | )( ( ) ( , ))
( )
x da x q a p
A x
a a� � �� .
 êîíå÷íîì è ñ÷åòíîì ñëó÷àÿõ [4, 5] äëÿ ïîñòðîåíèÿ ðåêóðñèâíîãî ìåòîäà
íàõîæäåíèÿ îïòèìàëüíîé ñòðàòåãèè èñïîëüçîâàëèñü îïåðàòîðû U è V . Â îáùåì
ñëó÷àå ýòè îïåðàòîðû áóäóò èìåòü âèä
Uf a q a f y p dy a
X
( ) ( ) ( ) ( | )� � � ,
Vg x g a
a A x
( ) sup ( )
( )
�
.
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4 157
 îáùåì ñëó÷àå îïåðàòîð ìîæåò ïåðåâîäèòü èçìåðèìûå ôóíêöèè â íåèçìå-
ðèìûå. Îäíèì èç ñïîñîáîâ ðåøåíèÿ ýòîé ïðîáëåìû ÿâëÿåòñÿ èñïîëüçîâàíèå
òîëüêî èçìåðèìûõ ôóíêöèé èç íåêîòîðîãî êëàññà �, èíâàðèàíòíîãî îòíîñèòåëü-
íî îïåðàòîðîâ U è V .
ÏÎËÓÍÅÏÐÅÐÛÂÍÛÉ ÑËÓ×ÀÉ
Îïðåäåëåíèå 11. Ôóíêöèÿ f îïðåäåëåíà íà ìåòðè÷åñêîì ïðîñòðàíñòâå E è íàçû-
âàåòñÿ ïîëóíåïðåðûâíîé ñâåðõó, åñëè ìíîæåñòâî { }x f x c: ( ) � çàìêíóòî. Ìíî-
æåñòâî âñåõ ïîëóíåïðåðûâíûõ ñâåðõó ôóíêöèé íà E áóäåì îáîçíà÷àòü �( )E .
Îïðåäåëåíèå 12. Ìîäåëü Z íàçûâàåòñÿ ïîëóíåïðåðûâíîé, åñëè:
— ìíîæåñòâà ñîñòîÿíèé X è óïðàâëåíèé A — ñåïàðàáåëüíûå ìåòðè÷åñêèå
ïðîñòðàíñòâà;
— ìíîæåñòâà X Xm
� , X Xm \ � , X Xm�
�
1 , X X X Xm n�
� �
1 \ � ,
X Xn \ � — çàìêíóòûå ïîäìíîæåñòâà X è A A Am m n� �1 2, , ,� — çàìêíóòûå ïîä-
ìíîæåñòâà A;
— ñîîòâåòñòâèå A x( ) êâàçèíåïðåðûâíîå (åñëè x x Xk � è a A xk k ( ), òî
{ }ak èìååò ïðåäåëüíóþ òî÷êó, ïðèíàäëåæàùóþ A x( ));
— åñëè f X t �( ) è g a p dx a f x
X t
( ) ( | ) ( )� � ( )a At , òî g At �( ) (t �
� �m n1, , )� ;
— ôóíêöèÿ q , îïðåäåëåííàÿ íà At , ïðèíàäëåæèò �( )At è q , îïðåäåëåííàÿ
íà X Xt
� , ïðèíàäëåæèò �( )X Xt
� , à r ïðèíàäëåæèò �( )X n .
Òåîðåìà 1. Ïóñòü E è �E — ñåïàðàáåëüíûå ìåòðè÷åñêèå ïðîñòðàíñòâà,
Q x( ) — êâàçèíåïðåðûâíîå ñîîòâåòñòâèå èç E â �E . Åñëè f E ��( ), òî ôóíêöèÿ
g x f y
y Q x
( ) sup ( )
( )
�
( )x E ïðèíàäëåæèò �( )E , ìíîæåñòâà Q x y y Q x( ) : ( ),� {
f y g x( ) ( )� } ( )x E íåïóñòûå è ñîîòâåòñòâèå Q x( ) äîïóñêàåò èçìåðèìûé âûáîð.
Óòâåðæäåíèå 2. Äëÿ ïîëóíåïðåðûâíîé ìîäåëè èìåþò ìåñòî ñëåäóþùèå
ñâîéñòâà:
1) îöåíêà � ïðèíàäëåæèò �( )X m ;
2) îöåíêà � � ��( ) � äëÿ ëþáîãî íà÷àëüíîãî ðàñïðåäåëåíèÿ �;
3) ñóùåñòâóåò ðàâíîìåðíî îïòèìàëüíàÿ ñòðàòåãèÿ.
Äîêàçàòåëüñòâî. Äîïóñòèì, ÷òî ñâîéñòâà 1–3 ñïðàâåäëèâû äëÿ ïðîèçâîäíîé
ìîäåëè �Z . Ïîêàæåì, ÷òî ñëåäóþùèå óñëîâèÿ ñïðàâåäëèâû äëÿ ìîäåëè Z :
à) îöåíêà � ìîäåëè Z âûðàæàåòñÿ ÷åðåç îöåíêó �� ïðîèçâîäíîé ìîäåëè �Z
óðàâíåíèÿìè � �V u, u U� �� , ãäå îïåðàòîðû U è V çàäàíû ôîðìóëàìè
Uf a q a f y p dy a a A
X
( ) ( ) ( ) ( | ) ( )� � � ,
Vg x g a x X X X
a A x
n( ) sup ( ) ( \ ( ))
( )
� �
� ;
á) ñóùåñòâóåò èçìåðèìûé ñåëåêòîð ñîîòâåòñòâèÿ A x( ) èç X m â Am�1 òà-
êîé, ÷òî u x x( ( )) ( ) �� ;
â) åñëè �� — îïòèìàëüíàÿ ñòðàòåãèÿ �Z è — ñåëåêòîð èç óñëîâèÿ á), òî ��
— îïòèìàëüíàÿ ñòðàòåãèÿ äëÿ ìîäåëè Z ;
ã) ñâîéñòâà 1–3 ñïðàâåäëèâû äëÿ Z .
 ñëó÷àå, êîãäà ïðîñòðàíñòâî ñîñòîÿíèé ñîñòîèò èç îäíîãî ìíîæåñòâà X n ,
ñâîéñòâà 1–3 òðèâèàëüíû.
158 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4
Èç ôóíäàìåíòàëüíîãî óðàâíåíèÿ ïîëó÷àåì ñëåäóþùåå:
� �( , ) ( ) ( )x Vu x x X m
, (4)
ãäå � — ëþáàÿ ñòðàòåãèÿ è u a q a p a Aa m( ) ( ) ( ) ( )� � � �� 1 .
Ïîñêîëüêó ñâîéñòâà 1, 2 ñïðàâåäëèâû, ïîëó÷àåì, ÷òî � �� �( )X m 1 è
� � �
�
�� �
X m
y p dy a
1
( ) ( | ), ñëåäîâàòåëüíî, u Am ��( )1 è u U� �� .
Ïîñòðîèì ñòðàòåãèþ �, êîòîðàÿ ïðåâðàùàåò íåðàâåíñòâî (4) â ðàâåíñòâî.
Ïóñòü �� — îïòèìàëüíàÿ ñòðàòåãèÿ äëÿ ïðîèçâîäíîé ìîäåëè �Z , òîãäà äëÿ ëþáîé
ñòðàòåãèè
�� ñïðàâåäëèâû ñëåäóþùèå óðàâíåíèÿ:
�
�
� �( , ) ( | )( ( ) ( , ))
( )
x da x q a p
A x
a� � � � � ��
� � � �� �
A x
a
A x
da x q a p u a da x
( ) ( )
( | )( ( ) ( )) ( ) ( | )
�
.
Åñëè
( | )� x ñîñðåäîòî÷åíî â îäíîé òî÷êå ñ A x a a A x u a Vu x( ) : ( ), ( ) ( )� �{ }, òî
Vu x u a u a da x
A x A x
( ) sup ( ) ( ) ( | )
( ) ( )
� � �
.
Ïðîèçâåäåíèå �� áóäåò ñòðàòåãèåé, åñëè — èçìåðèìûé ñåëåêòîð
u Am ��( )1 . Ñîãëàñíî òåîðåìå 1 èçìåðèìûé ñåëåêòîð ñóùåñòâóåò. Èç ðàâåí-
ñòâà � �( , ) ( )x Vu x� � è (4) ñëåäóåò, ÷òî � �Vu, çíà÷èò, óñëîâèå à) ñïðàâåäëèâî.
Î÷åâèäíî, ÷òî ñåëåêòîð ñîîòâåòñòâèÿ A x( ) óäîâëåòâîðÿåò óñëîâèþ á) òîã-
äà è òîëüêî òîãäà, êîãäà — èçìåðèìûé ñåëåêòîð ñîîòâåòñòâèÿ A x( ). Â ðåçóëü-
òàòå ïîêàçàíî, ÷òî óñëîâèÿ á) è â) ñïðàâåäëèâû.
Ïîêàæåì, ÷òî ñâîéñòâà 1–3 ñïðàâåäëèâû äëÿ ìîäåëè Z . Ñâîéñòâî 3 ñïðàâåä-
ëèâî â ñèëó ïîñòðîåíèÿ ñòðàòåãèè ��. Ïîñêîëüêó u Am ��( )1 è � �Vu, èç òåîðå-
ìû 1 ñëåäóåò, ÷òî ñâîéñòâî 1 ñïðàâåäëèâî. Åñëè � ðàâíîìåðíî îïòèìàëüíà äëÿ
ìîäåëè Z , òî
� � � � � � � � � � ��( ) ( , ) ( , ) ( ) ( ) ( )� � � �� �
X Xm m
x dx x dx ,
ñëåäîâàòåëüíî, ñâîéñòâî 2 ñïðàâåäëèâî.
ÇÀÊËÞ×ÅÍÈÅ
Òàêèì îáðàçîì, â ðàáîòå äîêàçàíî, ÷òî èìååò ìåñòî ôóíäàìåíòàëüíîå óðàâíåíèå
â ñëó÷àå, êîãäà ìíîæåñòâàìè ñîñòîÿíèé è óïðàâëåíèé ÿâëÿþòñÿ èçìåðèìûå ïðî-
ñòðàíñòâà. Òàêæå ïðåäëîæåí ìåòîä ïîñòðîåíèÿ îïòèìàëüíîé ñòðàòåãèè è äîêàçàíî
ñóùåñòâîâàíèå ðàâíîìåðíî îïòèìàëüíîé ñòðàòåãèè â ñëó÷àå, êîãäà ìíîæåñòâàìè
ñîñòîÿíèé è óïðàâëåíèé åñòü ñåïàðàáåëüíûå ìåòðè÷åñêèå ïðîñòðàíñòâà.
ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ
1. B e l l m a n R . E . Dynamic programming. — Princeton (NJ): Princeton University Press, 1957. — 400 p.
2. Ä û í ê è í Å . Á . , Þ ø ê å â è ÷ À . À . Óïðàâëÿåìûå ìàðêîâñêèå ïðîöåññû è èõ ïðèëîæåíèÿ. — Ì.:
Íàóêà, 1975. — 334 ñ.
3. P a k e s A . G . Killing and resurrection of Markov processes // Stochastic Models. — 1997. — 13, N 2 —
P. 255–269.
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4 159
4. Ï à ð î ë ÿ Í . Ð . , ª ë å é ê î ß . ² . Îáðèâí³ êåðîâàí³ ìàðêîâñüê³ ïðîöåñè íà ñê³í÷åííîìó ³íòåðâàë³
÷àñó äëÿ ñê³í÷åííèõ ìîäåëåé // ³ñíèê Ëüâ³âñüêîãî óí³âåðñèòåòó. Ñåð³ÿ ìåõàí³êî-ìàòåìàòè÷íà. —
2010. — ¹ 72. — Ñ. 243–254.
5. P a r o l y a N . R . , Y e l e y k o Y . I . Killed Markov decision processes on finite time interval for countable
models // Transactions of NAS of Azerbaijan. — 2010. — 30, N 4. — P. 141–152.
Íàä³éøëà äî ðåäàêö³¿ 12.11.2015
Ï.Ð. Øïàê, ß.². ªëåéêî
ÎÏÒÈÌÀËÜͲ ÑÒÐÀÒÅò¯ ÒÀ ÎÖ²ÍÊÀ ÍÀϲÂÍÅÏÅÐÅÂÍÈÕ ÎÁÐÈÂÍÈÕ
ÊÅÐÎÂÀÍÈÕ ÌÀÐÊÎÂÑÜÊÈÕ ÏÐÎÖÅѲÂ
Àíîòàö³ÿ. Ðîçãëÿíóòî îáðèâí³ êåðîâàí³ ìàðêîâñüê³ ïðîöåñè ç íåçë³÷åííèìè
ìíîæèíàìè ñòàí³â òà êåðóâàíü íà ñê³í÷åííîìó ÷àñîâîìó ³íòåðâàë³. Íàâåäåíî
îçíà÷åííÿ îáðèâíîãî êåðîâàíîãî ìàðêîâñüêîãî ïðîöåñó, îö³íêè øëÿõó òà
îïòèìàëüíî¿ ñòðàòå㳿, à òàêîæ äîâåäåíî ³ñòèíí³ñòü ôóíäàìåíòàëüíîãî ð³âíÿí-
íÿ çà óìîâ, êîëè ìíîæèíè ñòàí³â òà êåðóâàíü º âèì³ðíèìè ïðîñòîðàìè. Íàâå-
äåíî ìåòîä ïîáóäîâè ð³âíîì³ðíî îïòèìàëüíî¿ ñòðàòå㳿 ó âèïàäêó, êîëè ìíî-
æèíè ñòàí³â òà êåðóâàíü ÿâëÿþòü ñîáîþ ñåïàðàáåëüí³ ìåòðè÷í³ ïðîñòîðè.
Êëþ÷îâ³ ñëîâà: îáðèâíèé êåðîâàíèé ìàðêîâñüêèé ïðîöåñ, îïòèìàëüíà ñòðà-
òåã³ÿ, ð³âíîì³ðíî îïòèìàëüíà ñòðàòåã³ÿ, îö³íêà øëÿõó, ôóíäàìåíòàëüíå
ð³âíÿííÿ.
P.R. Shpak, Y.I. Yeleyko
ASSESSMENT AND OPTIMAL POLICIES OF SEMI-CONTINUOUS KILLED
MARKOV DECISION PROCESSES
Abstract. In the paper, we consider killed Markov decision processes with
uncountable sets of states and controls on a finite time interval. Definitions of
killed Markov decision process and assessment of the way and optimal policy
are given, as well as fundamental equation is proved in the case where the set
of states and set of controls are measurable spaces. We also proposed a method
to construct the optimal strategy and proved the existence of a uniformly
optimal policy in case where the set of states and set of controls are separable
metric spaces.
Keywords: killed Markov decision process, optimal policy, uniformly optimal
policy, assessment of the way, fundamental equation.
Øïàê Ïàâåë Ðîìàíîâè÷,
àñïèðàíò Ëüâîâñêîãî íàöèîíàëüíîãî óíèâåðñèòåòà èìåíè Èâàíà Ôðàíêî,
e-mail: prshpak@gmail.com.
Åëåéêî ßðîñëàâ Èâàíîâè÷,
äîêòîð ôèç.-ìàò. íàóê, ïðîôåññîð Ëüâîâñêîãî íàöèîíàëüíîãî óíèâåðñèòåòà èìåíè Èâàíà Ôðàíêî,
å-mail: yikts@yahoo.com.
160 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 4
|
| id | nasplib_isofts_kiev_ua-123456789-142007 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 0023-1274 |
| language | Russian |
| last_indexed | 2025-12-01T20:39:25Z |
| publishDate | 2016 |
| publisher | Інститут кібернетики ім. В.М. Глушкова НАН України |
| record_format | dspace |
| spelling | Шпак, П.Р. Елейко, Я.И. 2018-09-19T19:32:21Z 2018-09-19T19:32:21Z 2016 Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса / П.Р. Шпак, Я.И. Елейко // Кибернетика и системный анализ. — 2016. — Т. 52, № 4. — С. 155-160. — Бібліогр.: 5 назв. — рос. 0023-1274 https://nasplib.isofts.kiev.ua/handle/123456789/142007 519.21 Рассмотрены обрывные управляемые марковские процессы с несчетными множествами состояний и управлений на конечном промежутке времени. Приведены определения обрывного управляемого марковского процесса, оценки пути и оптимальной стратегии, а также доказано фундаментальное уравнение в случае, когда множествами состояний и управлений являются измеримые пространства. Предложен метод построения оптимальной стратегии и доказано существование равномерно оптимальной стратегии в случае, когда множествами состояний и управлений есть сепарабельные метрические пространства. Розглянуто обривні керовані марковські процеси з незліченними множинами станів та керувань на скінченному часовому інтервалі. Наведено означення обривного керованого марковського процесу, оцінки шляху та оптимальної стратегії, а також доведено істинність фундаментального рівняння за умов, коли множини станів та керувань є вимірними просторами. Наведено метод побудови рівномірно оптимальної стратегії у випадку, коли множини станів та керувань являють собою сепарабельні метричні простори. In the paper, we consider killed Markov decision processes with uncountable sets of states and controls on a finite time interval. Definitions of killed Markov decision process and assessment of the way and optimal policy are given, as well as fundamental equation is proved in the case where the set of states and set of controls are measurable spaces. We also proposed a method to construct the optimal strategy and proved the existence of a uniformly optimal policy in case where the set of states and set of controls are separable metric spaces. ru Інститут кібернетики ім. В.М. Глушкова НАН України Кибернетика и системный анализ Системный анализ Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса Оптимальні стратегії та оцінка напівнеперевних обривних керованих марковських процесів Assessment and optimal policies of semi-continuous killed Markov decision processes Article published earlier |
| spellingShingle | Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса Шпак, П.Р. Елейко, Я.И. Системный анализ |
| title | Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса |
| title_alt | Оптимальні стратегії та оцінка напівнеперевних обривних керованих марковських процесів Assessment and optimal policies of semi-continuous killed Markov decision processes |
| title_full | Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса |
| title_fullStr | Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса |
| title_full_unstemmed | Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса |
| title_short | Оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса |
| title_sort | оптимальные стратегии и оценка полунепрерывного обрывного управляемого марковского процесса |
| topic | Системный анализ |
| topic_facet | Системный анализ |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/142007 |
| work_keys_str_mv | AT špakpr optimalʹnyestrategiiiocenkapolunepreryvnogoobryvnogoupravlâemogomarkovskogoprocessa AT eleikoâi optimalʹnyestrategiiiocenkapolunepreryvnogoobryvnogoupravlâemogomarkovskogoprocessa AT špakpr optimalʹnístrategíítaocínkanapívneperevnihobrivnihkerovanihmarkovsʹkihprocesív AT eleikoâi optimalʹnístrategíítaocínkanapívneperevnihobrivnihkerovanihmarkovsʹkihprocesív AT špakpr assessmentandoptimalpoliciesofsemicontinuouskilledmarkovdecisionprocesses AT eleikoâi assessmentandoptimalpoliciesofsemicontinuouskilledmarkovdecisionprocesses |