Сравнение оценок ROC-кривых методами моделирования

Досліджуються задачі оцінювання параметрів з використанням ROC-кривих. Припускаючи бінормальність моделі, порівнюється кілька параметричних, напівпараметричних і непараметричних оцінок ROC-кривих на числових прикладах. При чисельному моделюванні в параметричних оцінках використовується метод узагаль...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Кибернетика и системный анализ
Дата:2010
Автори: Михалек, Я., Веселый, В.
Формат: Стаття
Мова:Російська
Опубліковано: Інститут кібернетики ім. В.М. Глушкова НАН України 2010
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/45652
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Сравнение оценок ROC-кривых методами моделирования / Я. Михалек, В. Веселый // Кибернетика и системный анализ. — 2010. — № 6. — С. 113–119. — Бібліогр.: 5 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860247386271514624
author Михалек, Я.
Веселый, В.
author_facet Михалек, Я.
Веселый, В.
citation_txt Сравнение оценок ROC-кривых методами моделирования / Я. Михалек, В. Веселый // Кибернетика и системный анализ. — 2010. — № 6. — С. 113–119. — Бібліогр.: 5 назв. — рос.
collection DSpace DC
container_title Кибернетика и системный анализ
description Досліджуються задачі оцінювання параметрів з використанням ROC-кривих. Припускаючи бінормальність моделі, порівнюється кілька параметричних, напівпараметричних і непараметричних оцінок ROC-кривих на числових прикладах. При чисельному моделюванні в параметричних оцінках використовується метод узагальнених найменших квадратів, у напівпараметричних — функціональне моделювання. Непараметричні оцінки також базуються на вибірковій функції розподілу. We investigate parameter estimation problems using the ROC curve approach. We compare several parametric, semiparametric, and nonparametric estimates of ROC curves on the assumption that the model is binormal. Our comparison is based on the analysis of numerical examples: we use generalized least square method for parametric estimation, functional modeling for semiparametric and sdf for nonparametric estimation.
first_indexed 2025-12-07T18:38:09Z
format Article
fulltext ÓÄÊ 519.21 ß. ÌÈÕÀËÅÊ, Â. ÂÅÑÅËÛÉ ÑÐÀÂÍÅÍÈÅ ÎÖÅÍÎÊ ROC-ÊÐÈÂÛÕ ÌÅÒÎÄÀÌÈ ÌÎÄÅËÈÐÎÂÀÍÈß1 Êëþ÷åâûå ñëîâà: ROC-êðèâàÿ, íåïàðàìåòðè÷åñêàÿ îöåíêà, ïîëóïàðàìåòðè÷åñ- êàÿ îöåíêà, ìîäåëèðîâàíèå, áèíîðìàëüíàÿ ìîäåëü. ROC-êðèâûå ÷àñòî èñïîëüçóþòñÿ â ðàçëè÷íûõ çàäà÷àõ äèàãíîñòèêè, íàïðèìåð äëÿ èäåíòèôèêàöèè ôàêòîðîâ, âëèÿþùèõ íà òî÷íîñòü äèàãíîñòèêè, ëèáî äëÿ îïðåäåëå- íèÿ ïîãðåøíîñòè ðàáîòû äèàãíîñòè÷åñêèõ ñèñòåì. ROC-êðèâûå òàêæå ïðèìåíÿþòñÿ â çàäà÷àõ êëàññèôèêàöèè, íàïðèìåð äëÿ äèàãíîñòèêè ðàêîâûõ çàáîëåâàíèé. Ñóùåñòâóåò íåñêîëüêî ðàçíûõ ïîäõîäîâ äëÿ íàõîæäåíèÿ ïîäõîäÿùèõ îöåíîê ROC-êðèâûõ äëÿ áèíîðìàëüíîé ìîäåëè.  ðàçëè÷íûõ ïðèëîæåíèÿõ î÷åíü ýôôåê- òèâíû ìåòîäû îöåíêè ïðè ìàëûõ âûáîðêàõ. Íèæå, ïðåäïîëàãàÿ áèíîðìàëüíîñòü ìîäåëè, ñðàâíèì íåñêîëüêî ïàðàìåòðè÷åñêèõ, ïîëóïàðàìåòðè÷åñêèõ è íåïàðàìåò- ðè÷åñêèõ îöåíîê ROC-êðèâûõ íà ÷èñëåííûõ ïðèìåðàõ. Ïàðàìåòðè÷åñêàÿ îöåíêà èñïîëüçóåò ìåòîä îáîáùåíûõ íàèìåíüøèõ êâàäðàòîâ, ïîëóïàðàìåòðè÷åñêàÿ — ôóíêöèîíàëüíîå ìîäåëèðîâàíèå. Íåïàðàìåòðè÷åñêàÿ îöåíêà áàçèðóåòñÿ íà âûáî- ðî÷íîé ôóíêöèè ðàñïðåäåëåíèÿ (sdf). ROC-ÊÐÈÂÀß È ÁÈÍÎÐÌÀËÜÍÀß ÌÎÄÅËÜ ROC-êðèâàÿ èñïîëüçóåòñÿ â áèíàðíûõ êëàññèôèêàòîðàõ äëÿ ðàçäåëåíèÿ îáúåêòîâ íà äâà êëàññà: ñ ïîëîæèòåëüíûìè èñõîäàìè è ñ îòðèöàòåëüíûìè èñõîäàìè ñîîò- âåòñòâåííî. Ïî îïðåäåëåíèþ ROC-êðèâàÿ åñòü ãðàôèê çàâèñèìîñòè êîëè÷åñòâà âåðíî êëàññèôèöèðîâàííûõ ïîëîæèòåëüíûõ âõîäîâ îò êîëè÷åñòâà íåâåðíî êëàññè- ôèöèðîâàííûõ îòðèöàòåëüíûõ âõîäîâ ïðè èçìåíåíèè ïîðîãîâîé ïåðåìåííîé X . Ïðåäïîëîæèì, ÷òî êëàññ ñ ïîëîæèòåëüíûì èñõîäîì õàðàêòåðèçóåì ìàëûìè çíà÷å- íèÿìè X ; X — ñëó÷àéíàÿ ïåðåìåííàÿ ñ ôóíêöèåé ðàñïðåäåëåíèÿ F x( ) , êëàññ ñ îòðèöàòåëüíûì èñõîäîì õàðàêòåðèçóåì áîëüøèìè çíà÷åíèÿìè X è ôóíêöèåé ðàñïðåäåëåíèÿ G x( ) . Èñõîäÿ èç ñêàçàííîãî âûøå, ROC-êðèâàÿ îïðåäåëÿåòñÿ êàê ROC( ) ( ( ))t G F t� � ��1 11 äëÿ 0 1� �t , åñëè îáðàòíàÿ ôóíêöèÿ F x�1 ( ) ñóùåñòâóåò. Îáû÷íî ïðåäïîëàãàåòñÿ, ÷òî ðàñïðåäåëåíèÿ F x( ) è G x( ) íîðìàëüíû. Òàêàÿ ìî- äåëü íàçâàíà áèíîðìàëüíîé ìîäåëüþ. Áåç ïîòåðè îáùíîñòè, ïðåäïîëîæèì, ÷òî F — ýòî N ( , )01 , à G — N ( , )� � 2 , ãäå � è � — íåèçâåñòíûå ïàðàìåòðû. Òîãäà ROC-êðè- âóþ çàïèøåì ROC ROC( ) ( ; , )t t� � � . Ïóñòü � — ñòàíäàðòíàÿ íîðìàëüíàÿ ôóíêöèÿ ðàñïðåäåëåíèÿ. Òîãäà ROC-êðèâóþ çàïèøåì ROC( ) ( ( ))t G F t t � � � � � �� � � � � � �1 1 11 � � � � �� � � , 0 1� �t . (1)  äàëüíåéøåì áóäåì èçó÷àòü îöåíêè â ñëó÷àå áèíîðìàëüíîé ìîäåëè. ÝËÅÌÅÍÒÀÐÍÛÅ ÎÖÅÍÊÈ ÔÓÍÊÖÈÈ ÐÀÑÏÐÅÄÅËÅÍÈß Â ýòîì ðàçäåëå ïðåäïîëàãàåòñÿ, ÷òî X X m1 ,... , îáîçíà÷àþò ñëó÷àéíóþ âûáîðêó èç íîðìàëüíîé ïîïóëÿöèè N ( , )� � 2 ñ ôóíêöèåé ðàñïðåäåëåíèÿ F x0 0 0( ; , )� � . Äàëåå áóäåì ïðèìåíÿòü ñëåäóþùèå îöåíêè. Ýëåìåíòàðíàÿ îöåíêà ~ F0 ~ ( ) ( ; , )F x F x X S0 0 2� , ãäå X è S 2 — íåñìåùåííûå îöåíêè ñðåäíåãî è äèñïåðñèè. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 6 113 1 Ïîääåðæàíî èññëåäîâàòåëüñêèì ãðàíòîì VZ04-FEM-K01-13-SJA è ãðàíòîì MSMT CR ñîãëàñíî èññëåäîâàòåëüñêîìó äîãîâîðó MSM0021622418. © ß. Ìèõàëåê, Â. Âåñåëûé, 2010 Âûáîðî÷íàÿ îöåíêà ~ Fs ~ ( ) [ ]F x m Is X x i m i � � � �1 1 , ãäå I A — èíäèêàòîð ìíîæåñòâà A. Êóñî÷íî-ëèíåéíàÿ îöåíêà ~ Fl . Äëÿ i m� �1 1,... , ïîëîæèì c X X i i i� ��( ) ( )1 2 — ñåðåäèíû èíòåðâàëîâ X Xi i( ) ( )� �1 , è ïóñòü c X X 0 1 23 2 � �( ) ( ) , c X X m m m� � �3 2 1( ) ( ) , ãäå X ( )1 , ... , X m( ) — óïîðÿäî÷åííûå ñòàòèñòèêè âûáîðêè X 1, ... , X m . Ïîëîæèì äàëåå f x m c ci i( ) ( ( ))� �� � 1 1 äëÿ x c ci i� �, )1 , i m� �0 1,... , , è f x( ) � 0 â ïðîòèâíîì ñëó- ÷àå. Ïîñëå ýòîãî êóñî÷íî-ëèíåéíàÿ îöåíêà ôóíêöèè F x( ) îïðåäåëÿåòñÿ êàê ~ ( ) ( )F x f t dtl x � �� � . Íàèëó÷øàÿ íåñìåùåííàÿ òî÷å÷íàÿ îöåíêà ~ Fk (ïðåäëîæåííàÿ À.Í. Êîëìî- ãîðîâûì). Çàïèøåì åå (ñì. [1]): ~ ( ) ( ) , , ( ) F x Q x m Q k Q x � � � � �� � � � � � 0 1 1 2 1 2 1 2 2 1 12 äëÿ äëÿ� ( ) , , ( ) , ( ) ( ) x m Q x Q x Q x � � �� � � � � � 0 1 2 1 2 1 2 2 1 0 1 1 2� äëÿ äëÿ � � � � �� � � � � 1, ãäå Q x mx X m S ( ) ( ) � � �1 è �a p a qp q t t dt( , ) ( )� �� �� 1 0 11 — íåïîëíàÿ áåòà-ôóíêöèÿ, a� 0 1, , p � 0 , q � 0 . ÝËÅÌÅÍÒÀÐÍÀß ÎÖÅÍÊÀ ROC-ÊÐÈÂÛÕ Ðàññìîòðèì äâå íåçàâèñèìûå ïîïóëÿöèè: X 1 , ... , X m è Y1 , ... , Yn ñ ôóíêöèÿìè ðàñïðåäåëåíèÿ F x( ) è G x( ) ñîîòâåòñòâåííî. Ïðîñòîé ïîäõîä ê îöåíêå ROC îñíî- âàí íà çàìåíå ôóíêöèé F x( ) è G x( ) èõ âûáîðî÷íûìè îöåíêàìè ~ ( )F xs è ~ ( )G xs . Áóäåì çàíèìàòüñÿ îöåíêàìè êðèâûõ ROC ROC( ) ( ; , )t t� � � , êîòîðûå îñíîâàíû íà îöåíêàõ ~ G0 , ~ Gs , ~ Gl , ~ Gk ôóíêöèè ðàñïðåäåëåíèÿ G x( ) è íà îöåíêàõ êâàíòèëüíûõ ôóíêöèé ~ F 0 1� , ~ Fs �1, ~ F l �1, ~ F k �1, êîòîðûå îòâå÷àþò îöåíêàì ~ F 0 , ~ Fs , ~ F l , ~ F k ôóíê- öèè F x( ) . Ýëåìåíòàðíûå îöåíêè (ÅÅ-îöåíêè) ROC-êðèâûõ ROC ROC( ) ( ; , )t t� � � èìåþò ñëåäóþùèé âèä. EE1. Ýëåìåíòàðíàÿ îöåíêà ROC 10 0 ~ ( ) ~ ( ~ ( ))t G F t� � �� 0 1 1 . EE2. Âûáîðî÷íàÿ îöåíêà ROC 1 ~ ( ) ~ ( ~ ( ))s s st G F t� � ��1 1 . EE3. Êóñî÷íî-ïîñòîÿííàÿ îöåíêà ROC 1 ~ ( ) ~ ( ~ ( ))c c ct G F t� � ��1 1 . Çäåñü ~ Fc �1 — êóñî÷íî-ëèíåéíàÿ àïïðîêñèìàöèÿ äëÿ êóñî÷íî-ïîñòîÿííîé êâàí- òèëüíîé ôóíêöèè ~ Fs �1, ïîëó÷åííîé èç òî÷åê ~ F i m s � � � � �1 , i m� 0 1, ,... , . EE4. Êóñî÷íî-ëèíåéíàÿ îöåíêà ROC 1 ~ ( ) ~ ( ~ ( ))l l l t G F t� � ��1 1 . EE5. Îöåíêà, îñíîâàííàÿ íà îöåíêå Êîëìîãîðîâà ROC 1 ~ ( ) ~ ( ~ ( ))k k k t G F t� � ��1 1 . 114 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 6 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 6 115 ÎÖÅÍÊÈ ROC-ÊÐÈÂÛÕ, ÈÑÏÎËÜÇÓÞÙÈÅ ÂÇÂÅØÅÍÍÛÉ ÐÅÃÐÅÑÑÈÂÍÛÉ ÌÅÒÎÄ Ðàññìîòðèì ñíà÷àëà áèíîðìàëüíóþ ìîäåëü (1). Îïðåäåëèì êðèâóþ ODÑ( )u (Ordinal Dominance Curve), 0 1� �u , ñ ïîìîùüþ çàìåíû 1� �ROC( )t u , 1� �t uODC( ) . Òîãäà, èñïîëüçóÿ ìîäåëü (1), çàïèøåì âûðàæåíèå äëÿ ODC-êðèâîé: ODC( ) ( ( )) ( ( ))u F G u u� � �� �1 1� �� � , 0 1� �u . (2)  çàäà÷àõ îöåíèâàíèÿ èñïîëüçîâàíèå ODC-êðèâûõ ïðîùå, ÷åì ñîîòâåòñòâóþ- ùåå âûðàæåíèå äëÿ ROC-êðèâîé, è âçâåøåííûé ðåãðåññèâíûé ìåòîä äëÿ îöåíêè íåèçâåñòíûõ ïàðàìåòðîâ � è � ðàññìàòðèâàåì äëÿ ODC-ìîäåëè. ODC-êðèâàÿ áóäåò çàäàíà â k òî÷êàõ 0 1 1 2� � � � �t t t k... . Ïîëîæèì � � �i i i it F G t t� � � �� �ODC( ) ( ( )) ( ( ))1 1� � . (3) Òîãäà åñòåñòâåííîé îöåíêîé ïàðàìåòðà � i áóäåò � ~ ( ~ ( ))� i s s iF G t� �1 , i k�1,... , , (4) ãäå ~ Fs è ~ Gs — âûáîðî÷íûå ôóíêöèè ðàñïðåäåëåíèÿ è ~ Gs �1 — êâàíòèëüíàÿ ôóíê- öèÿ, ñîîòâåòñòâóþùàÿ ôóíêöèè ~ Gs . Àñèìïòîòè÷åñêîå ðàñïðåäåëåíèå âåêòîðà � ( � ,... , � )� � ��� �k ìîæíî íàéòè ñ ïîìîùüþ êîâàðèàöèîííîé ñòðóêòóðû ñëó÷àéíîãî ïðîöåññà (áðîóíîâñêîãî ìîñòà, ñì. [2]). Ïîêàæåì, ÷òî äëÿ ôèêñèðîâàííûõ 0 11 2� � � � �t t t k... è â ðàìêàõ áèíîðìàëüíîé ìîäåëè èìåþò ìåñòî: n NA( � )~ ( , )� � �� �0 1 2� � (5) n NA( ( � ) ( )~ ( , )� � �� ��1 1 0� � . (6) • ~A îáîçíà÷àåò àñèìïòîòè÷åñêîå ðàñïðåäåëåíèå ïðè m�� , n �� è m n � �, ãäå � — ôèêñèðîâàííàÿ ïîñòîÿííàÿ; • � � � � �C C[ ]� 2 è C t i � �� �1 1diag (... , ( ( )),... )� � � � , � — ïëîòíîñòü N ( , )0 1 ; • � � ( )� ij 1 è � � � � �ij i j i j 1 � �min { , } ; • � �2 0� A A, ãäå A t ti i� � � �diag (... , ( ( ))) / ( ( ))),... )� � � � �� �1 1 è �0 0� ( )� ij , � ij i j i jt t t t0 � �min { , } . Èñïîëüçóÿ (3) è (4), ðàññìîòðèì ëèíåéíóþ ðåãðåññèâíóþ ìîäåëü � �� �� �1 1( � ) ( )� ��� i i it , i k�1,... , . (7) Âåêòîð îøèáêè �� �( ,... , )k èìååò ðàñïðåäåëåíèå, îïðåäåëåííîå âûðàæåíè- åì (6). Ïîñêîëüêó � çàâèñèò îò íåèçâåñòíûõ ïàðàìåòðîâ � è �, òî äëÿ èõ îöåíêè òðåáóåòñÿ èòåðàöèîííàÿ ïðîöåäóðà. Ïîëó÷åíû ñëåäóþùèå ðåçóëüòàòû. Îáû÷íàÿ îöåíêà ìåòîäîì íàèìåíüøèõ êâàäðàòîâ äëÿ � è � äëÿ ëèíåéíîé ðåã- ðåññèâíîé ìîäåëè âûðàæàåòñÿ ôîðìóëîé � � ( ) ( � ) � � �0 0 1 1� � �� �� � � �� �M M M � , ãäå ìàòðèöà M èìååò âèä � � � � �� ��� �M t tk 1 1 1 1 1 ... ( ) ... ( )� � è âåêòîð � � �� � �� �1 1 1 1( � ) ( ( � ),... , ( � ))� � �k . Ïîäñòàâëÿÿ ��0 è �� 0 äëÿ � è � â âûðàæåíèå (6) è îáîçíà÷àÿ ñîîòâåòñòâóþùåå � êàê �� , ïîëó÷àåì, ÷òî îäíîøàãîâàÿ îáîáùåííàÿ îöåíêà ìåòîäîì íàèìåíüøèõ êâàäðàòîâ îïðåäåëÿåòñÿ ôîðìóëîé � � ( � ) � ( � ) � � � � � �� �� � � �� � � �M M M� � �1 1 1 1 . 116 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 6 Ïðîöåäóðà ìîæåò ïîâòîðÿòüñÿ èòåðàòèâíî, ÷òî ïðèâîäèò ê âçâåøåííîé ðåãðåñ- ñèâíîé îöåíêå ODC, ÷àñòî äîñòàòî÷íî îäíîãî øàãà. Çàìåòèì, ÷òî àñèìïòîòèêà ðàñ- ïðåäåëåíèÿ ( ��, ��) èìååò âèä n N M MA� � ~ ( , ( ) ) � � � � �� � �� �� � � �0 1 1� . Ïðåîáðàçîâàíèå ��1 â ëåâîé ÷àñòè ðåãðåññèâíîé ìîäåëè (7) ìîæåò ïðèâåñòè ê íåóñòîé÷èâîé âçâåøåííîé ðåãðåññèâíîé îöåíêå, åñëè ðàçìåðû âûáîðîê m è n óìåíüøàþòñÿ. Äëÿ óëó÷øåíèÿ îöåíêè â [2] ïðåäëîæåíà àäàïòèâíàÿ ïðîöåäóðà âû- áîðà òî÷åê t t k1 ,... , , ñîãëàñíî êîòîðîé âåëè÷èíû t i ñêîíöåíòðèðîâàíû â îêðåñòíîñ- òè áûñòðîãî ðîñòà îöåíêè ROC-êðèâîé. Ïðîöåäóðà èìååò ñëåäóþùèé âèä: 1) ôèêñèðóåì ïîëîæèòåëüíîå öåëîå q ; 2) ïðèíèìàåì çà t j n F G j n q ms s1 1� ��min { / : ~ ( ~ ( / )) / , j n�1,... , }; 3) íàõîäèì t j n F G j n F G t q mi s s s s i� � �� � �1 1 1min { / : ~ ( ~ ( / )) ~ ( ~ ( )) / , j n�1,... , } äëÿ i k q�1,... , ( ) , ãäå k q( ) — íàèáîëüøåå öåëîå òàêîå, ÷òî t k q( ) �1.  äàëüíåéøåì áóäåì èñïîëüçîâàòü îïèñàííóþ óëó÷øåííóþ àäàïòèâíóþ âçâå- øåííóþ ðåãðåññèâíóþ îöåíêó. Âûáîð ïàðàìåòðà q ñóùåñòâåíåí, òàê êàê ñâÿçàí ñ êîëè- ÷åñòâîì òî÷åê äèñêðåòèçàöèè (óçëîâ ñåòè) k. Äëÿ ìàëûõ q âåëè÷èíà k áîëüøå. Àâòîìàòèçàöèÿ âûáîðà q ÿâëÿåòñÿ ñëîæíîé çàäà÷åé. Äàëåå âûáîð q ïðîâîäèòñÿ íà îñíîâå ýêñïåðåìåíòàëüíî âûâåäåííîé ôîðìóëû q n n�15 1 3 10, log ( ) . Ñîîòâåòñâóþùóþ îöåíêó íàçîâåì âçâåøåííîé ðåãðåññèâíîé îöåíêîé (WRE) è îáîçíà÷èì ROC ~ ( )wr t . ÔÓÍÊÖÈÎÍÀËÜÍÀß ÌÎÄÅËÜ ÄËß ÎÖÅÍÊÈ ROC-ÊÐÈÂÎÉ, ÎÑÍÎÂÀÍÍÀß ÍÀ ÀÒÎÌÀÐÍÎÌ ÐÀÇËÎÆÅÍÈÈ Ñíà÷àëà ðàññìîòðèì òåîðåòè÷åñêèé ïîäõîä ê ôóíêöèîíàëüíîìó ìîäåëèðîâàíèþ ñïåöèàëüíûìè àòîìàðíûìè ôîðìóëàìè (ÑAD). Ïðèíöèïû ÑAD. Ïóñòü ( ,X �� — ëèíåéíîå ôóíêöèîíàëüíîå ïðîñòðàíñòâî, H X� — åãî ñåïàðàáåëüíîå ïîäïðîñòðàíñòâî è � X X R � — ìåòðèêà íà X . Äëÿ ôóíêöèè f X� îïðåäåëèì �-ïðèáëèæåíèå êàê ýëåìåíò �f H� , ìèíèìèçèðóþ- ùèé (ìàêñèìèçèðóþùèé) �� � �f f� . Ïóñòü T P H � — ëèíåéíûé ñþðüåêòèâíûé îïåðàòîð èç ïðîñòðàíñòâà ïàðàìåòðîâ P J Cj j J j j j J ! � � � � � � � �� " # � $� � � �� 2 2( ): { } | | | ,� � � âûñîêîé ðàçìåðíîñòè dim ( )P J� �%card 0 íà H . Âîçüìåì êàíîíè÷åñêèé îðòîíîð- ìàëüíûé áàçèñ E j j J: { }� � íà � 2 ( )J , �j j k k J� �{ } , â ñèëó îïðåäåëåíèÿ T èìååì ðàçëîæåíèå � :f T Tj j j J j j j J j j j J � � � � � � � � � � � � � � ��� � � � � � , (8) ãäå � j jT:� íàçûâàþò àòîìàìè, à ñàìî ðàçëîæåíèå �f j j j J � � � � � — àòîìàðíûì â òåðìèíàõ ñëîâàðÿ �&�'� j j J} � . Ïàðàìåòð � — ïàðàìåòðè÷åñêîå ïðåäñòàâëåíèå �f â òåðìèíàõ ñëîâàðÿ �&�'� j j J} � . Åñëè J áåñêîíå÷íî, òî ñóììèðîâàíèå â (8) ñëåäóåò ïîíèìàòü êàê áåçóñëîâíî ñõîäÿùèéñÿ ðÿä.  ñëó÷àå êîíå÷íûõ J ñ áîëü- øèì êîëè÷åñòâîì ýëåìåíòîâ, êàê ïðàâèëî, ñóùåñòâóåò íå îäíî ïàðàìåòðè÷åñêîå ïðåäñòàâëåíèå � äëÿ �f , óäîâëåòâîðÿþùåå óñëîâèþ � � � � ,f j j j J� � � � � � � � � , ãäå � — íåêîòîðàÿ ìåòðèêà.  ýòîì ñëó÷àå êàê ðàçëîæåíèå, òàê è ïàðàìåòðèçàöèþ íàçû- âàþò èçáûòî÷íûìè. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 6 117 Âûáèðàÿ æåëàåìóþ òî÷íîñòü � 0 , íàéäåì êîíå÷íîå íàèìåíüøåå ïîäìíîæåñ- òâî F J* � òàêîå, ÷òî � � � �� , * f j j j F� � � � � � � � � . Âûðàæåíèå � �� j j j F� � * íàçîâåì ðàçðå- æåííûì -ñóáîïòèìàëüíûì àòîìàðíûì ðàçëîæåíèåì �f , à � �� �� � { } *j j F — ðàçðå- æåííîé -ñóáîïòèìàëüíîé ïàðàìåòðèçàöèåé. Îòìåòèì, ÷òî â ñòàíäàðòíûõ ïîñòà- íîâêàõ çàäà÷ îáû÷íî èñïîëüçóþò ãèëüáåðòîâû ïðîñòðàíñòâà [3, 4]. Ìíîæåñòâî àëãîðèòìîâ áûëî ïðåäëîæåíî ðàçíûìè àâòîðàìè (ñì. [3]) äëÿ ïî- èñêà ðàçðåæåííûõ ïðåäñòàâëåíèé ïî èçáûòî÷íûì. Èñïîëüçóåì óíèâåðñàëüíóþ ìíîãîøàãîâóþ èòåðàòèâíóþ ïðîöåäóðó (ðåàëèçîâàííóþ êàê ôóíêöèþ MATLAB), óñòîé÷èâóþ ïî îòíîøåíèþ ê îøèáêàì àïïðîêñèìàöèé â íåêîððåêòíûõ ïëîõî îáóñ- ëîâëåííûõ îáðàòíûõ çàäà÷àõ. Ïðîöåäóðà áàçèðóåòñÿ íà àëãîðèòìå BPA (Basis Pursuit Algorithm), ïðåäëîæåííîì â [3] äëÿ êîíå÷íîìåðíîãî ñëó÷àÿ è ðàñïðîñòðà- íåííîãî íà ñëó÷àé ôóíêöèîíàëüíîãî ïðîñòðàíñòâà â [4]. Àëãîðèòì BPA èìååò ñëåäóþùèé âèä: 1) íàéòè � � �arg min || ||1 ïðè óñëîâèè � � � � ,f j j j J� � � � � � � � � ; 2) âûáðàòü � � 0 êàê ìîæíî áîëüøèì ïðè óñëîâèè � � � �� , * f j j j F� � � � � � � � � , ãäå F j J* j� � �{ | | }� � è � * ìèíèìèçèðóåò � � ��� , * f j j j F� � � � � � � � .  ðàáîòå [5] îïèñàííûé ìåòîä èñïîëüçóåòñÿ äëÿ íîâîãî ïîäõîäà ê ñãëàæèâà- íèþ ÿäåð, êîòîðûé èìååò ïðåèìóùåñòâà ïåðåä ñòàíäàðòíûìè ìåòîäàìè. Ôóíêöèîíàëüíûå àïïðîêñèìàöèè ROC-êðèâîé. Ïîëîæèì X L� 2 0 1[ , ] , � � �j j jt t t( ) ( ; , )� �ROC , [ , ]� �j j M S� äëÿ j J� , ãäå M è S — ïîäõîäÿùèå (ò.å. îäíîðîäíûå) ðàçáèåíèÿ äîâåðèòåëüíûõ èíòåðâàëîâ I1�� �( ) è I1�� �( ) ñîîòâåò- ñòâåííî ( , )� � 0 05 . Âûáèðàÿ ñåòêè ðàçìåðà 30–50 òî÷åê, ïîëó÷àåì ñëîâàðü � � �{ ( )}� j j Jt , ñîñòîÿùèé èç 900–2500 àòîìîâ, ïîñêîëüêó card card( ) ( )J M� card( )S . Íèæå èñïîëüçîâàíî 30 30 900 � àòîìîâ äëÿ ìîäåëèðîâàíèÿ. Âû÷èòàíèå t îáåñïå÷èâàåò ðàâåíñòâî íóëþ â ãðàíè÷íûõ òî÷êàõ êàê äëÿ àòîìîâ, òàê è äëÿ ýëåìåíòîâ èõ ëèíåéíûõ êîìáèíàöèé. Àíàëîãè÷íî ïîëîæèì f t t t( ): ~ ( )� �ROC , ãäå ROC ~ ( )t — êó- ñî÷íî-ëèíåéíàÿ îöåíêà ROC. Âûáîð ìåòðèêè � çàâèñèò îò êîíêðåòíîé ïîñòàíîâêè çà- äà÷è: íàïðèìåð, �( , � ) || � || minf f f f� � � , ãäå || ||( — íîðìà â X , ëèáî ìåòðèêà Ëåâè, ò.å. ìåòðèêà, ïîëó÷åííàÿ íà îñíîâå íîðìû L� [ , ]0 2 ïîñëå ïîâîðîòà íà 45� ïî ÷àñî- âîé ñòðåëêå. Òàêæå âîçìîæíû âàðèàöèè íà îñíîâå íîðìû Lp . Òàêèå ìåòðèêè ïîçâîëÿ- þò èçáàâèòüñÿ îò àñèììåòðè÷íîñòè â ãðàíèöàõ èíòåðâàëà.  ñëåäóþùåì ðàçäåëå èñïîëüçóåòñÿ íîðìà ïðîñòðàíñòâà L2 0 1[ , ] . Ïîëó÷åííàÿ ROC-îöåíêà íàçûâàåòñÿ ôóíêöèîíàëüíîé îöåíêîé (FE) è îáîçíà÷àåòñÿ ROC ~ ( ) F t . Ïîñëå òîãî êàê íàéäåíî ðàçðåæåííîå ðàçëîæåíèå � :* *f T� � , ïîëîæèì ROC* *t t f =( ) �� � � � � �t t tj j j j F + (ROC� � �* ( ; , ) ) * . Ýòó îöåíêó íàçîâåì ðàçðåæåííîé ôóíêöèîíàëü- íîé îöåíêîé (SFE) è îáîçíà÷èì ROC ~ ( )SF t . ÌÎÄÅËÈÐÎÂÀÍÈÅ Îïèñàííûå âûøå îöåíêè ñðàâíèâàþòñÿ íà ïðèìåðå òðåõ òåîðåòè÷åñêèõ áèíîð- ìàëüíûõ ìîäåëåé, â êîòîðûõ ( , ) ( , )� � � 21 , (1,1) è (0,1). Ðàçìåðû âûáîðêè m n� � 10, 5, 30, 50, 100, 500, ÷èñëî ÷èñëåííûõ ýêñïåðèìåíòîâ äëÿ êàæäîé ìîäå- 118 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 6 ëè 100, ðàññòîÿíèå ìåæäó òî÷íûìè çíà÷åíèÿìè ROC( ; , )t � � è îöåíêîé ROC ~ ( )t èçìåðÿëîñü ñ ïîìîùüþ ìåòðèêè Ëåâè: �� � � � � �( ) := ||ROC ROC |ROC ROCL L L u L Lu u ~ || : sup ( ) ~ ( [ , ]0 2 ) | , ãäå ROCL è ROC ~ L — ôóíêöèè, ïîëó÷åííûå èç ôóíêöèé ROC è ROC ~ ñîîòâåò- ñòâåííî ïîñëå ïîâîðîòà ñèñòåìû êîîðäèíàò � � � íà ïî ÷àñîâîé ñòðåëêå. Ñóïðå- ìóì ñ÷èòàåòñÿ ÷èñëåííî íà íåîäíîðîäíîé ñåòêå 0 1 0 1� � � � �t t t N... , ïîëó÷åí- íîé òðàíñôîðìàöèåé t xi i � 2 5, èç îäíîðîäíîé ñåòêè x i Ni � �01 0 9, ( , / ) , i N� 0 1, , ... , , ÷òî ïîçâîëÿåò ëó÷øå àäàïòèðîâàòü ñåòü ê ïîêàçàòåëÿì ãðàôèêà ROC. Äëÿ ìåòðè- êè Ëåâè ýòà ñåòü çàìåíÿåòñÿ íà äðóãóþ äëÿ êàæäîé ROCL è ROC ~ L . Ïîýòîìó ïðîèçâåëè ïîâòîðíóþ âûáîðêó äëÿ ROC ~ L â òî÷êàõ íîâîé ñåòè äëÿ ROCL , âçÿâ êóñî÷íî-ëèíåéíóþ àïïðîêñèìàöèþ. Ïîñëå ìîäåëèðîâàíèÿ ñðåäíåå è ñòàíäàðòíîå îòêëîíåíèÿ äëÿ ìåòðèêè Ëåâè ïîä- ñ÷èòàíû äëÿ êàæäîé ìîäåëè. Ìîäåëèðîâàíèå ïðîâåäåíî äëÿ ÅÅ1–ÅÅ5 ýëåìåíòàðíûõ îöåíîê ROC )(t , äëÿ WRE âçâåøåííîé ðåãðåññèâíîé îöåíêè, FE è SFE ôóíêöèîíàëü- íîé îöåíêè. Ïîñëåäíèå äâå áûëè ïðèáëèæåíû ñ ïîìîùüþ êóñî÷íî-ëèíåéíîé îöåíêè, ÷òî íåñêîëüêî óëó÷øèëî ðåçóëüòàò ïî ñðàâíåíèþ ñ âûáîðî÷íûìè ROC-îöåíêàìè. Ðå- çóëüòàòû ïðåäñòàâëåíû íà ðèñ. 1–6 ñîîòâåòñòâåííî äëÿ m n� �10, 15, 30, 50, 100, 500. Íà ðèñ. 1, 3, 5 íà âåðòèêàëüíîé îñè ïîäñ÷èòàíû ñðåäíèå çíà÷åíèÿ ìåòðèêè Ëåâè, ïîëó÷åííûå äëÿ äàííîãî ÷èñëà ñèìóëÿöèé è çàäàííîãî ðàñïðåäåëåíèÿ. Íà ðèñ. 2, 4, 6 íà âåðòèêàëüíîé îñè îòîáðàæåíû ñòàíäàðòíûå îòêëîíåíèÿ ìåòðèêè Ëåâè, íà ãîðèçîíòàëüíîé äëÿ ðèñ. 1–6 — ðàçìåðû âûáîðêè. Êà÷åñòâî ïðîñòîé îöåíêè áëèçêî ê îöåíêå Êîëìîãîðîâà è ìîæåò ñ÷èòàòüñÿ õîðî- øåé îöåíêîé ñ òî÷íîñòüþ äî ìåòðèêè, åñëè ñðåäíèå çíà÷åíèÿ ïîïóëÿöèé ðàçëè÷íû. Ñòàíäàðòíûå îòêëîíåíèÿ îöåíîê áëèçêè ìåæäó ñîáîé. Õîðîøèå ñâîéñòâà ïàðàìåòðè- ÷åñêèöõ îöåíîê — ñëåäñòâèå áèíîðìàëüíîñòè ìîäåëè. Íàîáîðîò, íàèáîëüøåå çíà÷å- íèå ñðåäíåãî ìåòðèêè Ëåâè íàáëþäàåòñÿ ïðè íåïàðàìåòðè÷åñêèõ ROC-îöåíêàõ EE2–EE4, êîòîðûå íå èçâëåêàþò ïîëüçû èç ïðåäïîëîæåíèÿ áèíîðìàëüíîñòè. Êà÷åñ- òâî êóñî÷íî-ëèíåéíîé îöåíêè íåñêîëüêî ëó÷øå, ÷åì êà÷åñâî âûáîðî÷íîé ROC-îöåí- êè. Ýòó îöåíêó ìîæíî óëó÷øèòü çà ñ÷åò ôóíêöèîíàëüíîãî ìîäåëèðîâàíèÿ: ãëàäêèå îöåíêè ìîæíî ïîëó÷èòü äëÿ ìàëûõ âûáîðîê áåç ïðåäïîëîæåíèÿ íîðìàëüíîñòè. Ôóíêöèîíàëüíûå îöåíêè ïîõîæè èëè íåíàìíîãî õóæå âçâåøåííûõ ðåãðåññèîííûõ îöåíîê, êîòîðûå ñóùåñòâåííî çàâèñÿò îò ïðåäïîëîæåíèÿ íîðìàëüíîñòè. Íåäîñòàòêîì âçâåøåííûõ ðåãðåññèîííûõ îöåíîê ÿâëÿåòñÿ çíà÷èòåëüíîå ñòàíäàðòíîå îòêëîíåíèå è ñëîæíîñòü âûáîðà ïàðàìåòðà q . Àâòîìàòè÷åñêèé âûáîð q íå äàåò ðåçóëüòàòà â 30 % ñëó÷àåâ äëÿ ìàëûõ m n� �15 è � � 2, � � � . ×èñëî ñáîåâ óìåíüøàåòñÿ ïðè óìåíüøåíèè ñðåäíåãî è óâåëè÷åíèè âûáîðêè. Ôóíêöèîíàëüíàÿ ìîäåëü ãîðàçäî óñòîé÷èâåé, ïîñêîëü- êó ñõîäèìîñòü àëãîðèòìà îòñóòñòâîâàëà ëèøü â øåñòè ñëó÷àÿõ èç 300. Ðèñ. 2 � �� �0 1, Ðèñ. 1 � �� �0 1, Èç ïðîâåäåííîãî àíàëèçà ïóòåì ìîäåëèðîâàíèÿ ìîæíî ñäåëàòü âûâîä: äëÿ áîëüøèõ âûáîðîê ïðè óñëîâèè, ÷òî àáñîëþòíûå çíà÷åíèÿ îòêëîíåíèé ñðåäíèõ äëÿ ïîïóëÿöèé âåëèêè (÷òî ïðèâîäèò ê äîñòàòî÷íî áûñòðîìó ðîñòó ROC-êðèâîé, ñì. ïðèìåð ñ ïàðàìåòðàìè � � 2 , � � �), ýëåìåíòàðíàÿ îöåíêà ïðåäïî÷òèòåëüíåå, ÷åì âçâåøåííàÿ ðåãðåññèîííàÿ îöåíêà WRE.  ïðîòèâíîì ñëó÷àå äëÿ íåáîëüøèõ âûáî- ðîê è íåáîëüøèõ àáñîëþòíûõ çíà÷åíèé îòêëîíåíèé ñðåäíèõ äëÿ ïîïóëÿöèé (êîãäà ROC-êðèâàÿ áëèçêà ê äèàãîíàëè åäèíè÷íîãî êâàäðàòà) WRE áîëåå ïðåäïî÷òèòåëü- íà. Âûáîðî÷íûå ñòàíäàðòíûå îòêëîíåíèÿ îöåíîê FE è SFE âåñüìà ìàëû äëÿ âñåõ ïåðå÷èñëåííûõ âûøå ñëó÷àåâ. ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1 M i c h a l e k J . a n d V e s e l y V . The ROC and ODC curve estimators in binomial model based on the best unbiased estimator of CDF // XXIII Intern. Colloq. on the Acquisition Process Management. — University of Defence Brno, 2005. — Ð. 34. 2 H s i e h F . a n d T u r n b u l l B . W . Nonparametric and semiparametric estimation of receiver operating characteristic curve // The Annals of Statistics. — 1196. — 24, N 1. — P. 25–40. 3 C h e n S . S . , D o n o h o D . L . a n d S a u n d e r s M . A . Atomic decomposition by basis pursuit. SIAM J. Sci. Cornput., 20(l):33-61, 1998. REp. in SIAM review. — 2001. — 43, N 1. — P. 129–159. 4 V e s e l y V . Hilbert-space techniques for spectral representation in terms of overcomplete bases // Proceedings of the summer school DATASTAT’2001, Cihak near Zamberk. Folia Fac. Sci. Nat. Univ. Masaryk. Brunensis, Mathematica. Dept. of Appl. Math., Masaryk Univ of Brno. Czech Rep., 2002. — 11. — P. 259–273 5. Z e l i n k a J . , V e s e l y V . a n d H o r o v a I . Comparative study of two kernel smoothing techniques // Proceedings of the summer school DATASTAT’2003, Svratka, Folia Fac. Sci. Nat. Univ. Masaryk. Brunensis, Mathematica. Dept. of Appl. Math. Masaryk Univ. of Brno, Czech Rep., 2004. — 15. — P. 419–436. Ïîñòóïèëà 22.04.2009 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 6 119 Ðèñ. 4 � �� �1 1, Ðèñ. 3 � �� �1 1, Ðèñ. 6 � �� �2 1, Ðèñ. 5 � �� �2 1,
id nasplib_isofts_kiev_ua-123456789-45652
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0023-1274
language Russian
last_indexed 2025-12-07T18:38:09Z
publishDate 2010
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
record_format dspace
spelling Михалек, Я.
Веселый, В.
2013-06-17T06:49:12Z
2013-06-17T06:49:12Z
2010
Сравнение оценок ROC-кривых методами моделирования / Я. Михалек, В. Веселый // Кибернетика и системный анализ. — 2010. — № 6. — С. 113–119. — Бібліогр.: 5 назв. — рос.
0023-1274
https://nasplib.isofts.kiev.ua/handle/123456789/45652
519.21
Досліджуються задачі оцінювання параметрів з використанням ROC-кривих. Припускаючи бінормальність моделі, порівнюється кілька параметричних, напівпараметричних і непараметричних оцінок ROC-кривих на числових прикладах. При чисельному моделюванні в параметричних оцінках використовується метод узагальнених найменших квадратів, у напівпараметричних — функціональне моделювання. Непараметричні оцінки також базуються на вибірковій функції розподілу.
We investigate parameter estimation problems using the ROC curve approach. We compare several parametric, semiparametric, and nonparametric estimates of ROC curves on the assumption that the model is binormal. Our comparison is based on the analysis of numerical examples: we use generalized least square method for parametric estimation, functional modeling for semiparametric and sdf for nonparametric estimation.
Поддержано исследовательским грантом VZ04-FEM-K01-13-SJA и грантом MSMT CR согласно исследовательскому договору MSM0021622418.
ru
Інститут кібернетики ім. В.М. Глушкова НАН України
Кибернетика и системный анализ
Системный анализ
Сравнение оценок ROC-кривых методами моделирования
Порівняння оцінок ROC-кривих методами моделювання
Comparing the estimates of ROC curves by modeling methods
Article
published earlier
spellingShingle Сравнение оценок ROC-кривых методами моделирования
Михалек, Я.
Веселый, В.
Системный анализ
title Сравнение оценок ROC-кривых методами моделирования
title_alt Порівняння оцінок ROC-кривих методами моделювання
Comparing the estimates of ROC curves by modeling methods
title_full Сравнение оценок ROC-кривых методами моделирования
title_fullStr Сравнение оценок ROC-кривых методами моделирования
title_full_unstemmed Сравнение оценок ROC-кривых методами моделирования
title_short Сравнение оценок ROC-кривых методами моделирования
title_sort сравнение оценок roc-кривых методами моделирования
topic Системный анализ
topic_facet Системный анализ
url https://nasplib.isofts.kiev.ua/handle/123456789/45652
work_keys_str_mv AT mihalekâ sravnenieocenokrockrivyhmetodamimodelirovaniâ
AT veselyiv sravnenieocenokrockrivyhmetodamimodelirovaniâ
AT mihalekâ porívnânnâocínokrockrivihmetodamimodelûvannâ
AT veselyiv porívnânnâocínokrockrivihmetodamimodelûvannâ
AT mihalekâ comparingtheestimatesofroccurvesbymodelingmethods
AT veselyiv comparingtheestimatesofroccurvesbymodelingmethods