Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных
Разработан и исследован глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных. Мотивацией построения метода стала неэффективность использования большинства аффинно-инвариантных классификаторов при их сочетании с функциями глубины, которые обращаются в...
Gespeichert in:
| Datum: | 2016 |
|---|---|
| 1. Verfasser: | |
| Format: | Artikel |
| Sprache: | Russian |
| Veröffentlicht: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2016
|
| Schriftenreihe: | Кибернетика и системный анализ |
| Schlagworte: | |
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/133682 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных / А.А. Галкин // Кибернетика и системный анализ. — 2016. — Т. 52, № 3. — С. 57-66. — Бібліогр.: 10 назв. — рос. . |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-133682 |
|---|---|
| record_format |
dspace |
| spelling |
nasplib_isofts_kiev_ua-123456789-1336822025-02-09T17:10:53Z Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных Глибинний метод класифікації на основі віддаленої міри концентрації для обробки асиметричних даних The depth-based classification method based on remote concentration measure for asymmetric data processing Галкин, А.А. Кибернетика Разработан и исследован глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных. Мотивацией построения метода стала неэффективность использования большинства аффинно-инвариантных классификаторов при их сочетании с функциями глубины, которые обращаются в нуль за пределами выпуклой оболочки данных. Идея предложенного метода заключается в отображении дистанционного пространства с использованием удаленной меры концентрации, меры удаленности Штахеля–Донохью и меры скорректированной удаленности Розроблено та досліджено глибинний метод класифікації на основі віддаленої міри концентрації для обробки асиметричних даних. Мотивацією побудови методу стала неефективність використання більшості афінно-інваріантних класифікаторів при їх поєднанні з функціями глибини, які перетворюються в нуль за межами опуклої оболонки даних. Ідея запропонованого методу полягає у відображенні дистанційного простору з використанням віддаленої міри концентрації, міри віддаленості Штахеля–Донохью та міри скоректованої віддаленості. The author develops and investigates the depth-based classification method based on remote concentration measure for asymmetric data processing. The motivation for the construction of the method was inefficient use of affine invariant classifiers in combination with depth functions, which vanish outside the convex hull. The idea of the proposed method is to map a remote space using a remote concentration measure, Stahel–Donoho remoteness measure, and adjusted remoteness measure. 2016 Article Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных / А.А. Галкин // Кибернетика и системный анализ. — 2016. — Т. 52, № 3. — С. 57-66. — Бібліогр.: 10 назв. — рос. . 0023-1274 https://nasplib.isofts.kiev.ua/handle/123456789/133682 519.7 ru Кибернетика и системный анализ application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| language |
Russian |
| topic |
Кибернетика Кибернетика |
| spellingShingle |
Кибернетика Кибернетика Галкин, А.А. Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных Кибернетика и системный анализ |
| description |
Разработан и исследован глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных. Мотивацией построения метода стала неэффективность использования большинства аффинно-инвариантных классификаторов при их сочетании с функциями глубины, которые обращаются в нуль за пределами выпуклой оболочки данных. Идея предложенного метода заключается в отображении дистанционного пространства с использованием удаленной меры концентрации, меры удаленности Штахеля–Донохью и меры скорректированной удаленности |
| format |
Article |
| author |
Галкин, А.А. |
| author_facet |
Галкин, А.А. |
| author_sort |
Галкин, А.А. |
| title |
Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных |
| title_short |
Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных |
| title_full |
Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных |
| title_fullStr |
Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных |
| title_full_unstemmed |
Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных |
| title_sort |
глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных |
| publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
| publishDate |
2016 |
| topic_facet |
Кибернетика |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/133682 |
| citation_txt |
Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных / А.А. Галкин // Кибернетика и системный анализ. — 2016. — Т. 52, № 3. — С. 57-66. — Бібліогр.: 10 назв. — рос.
. |
| series |
Кибернетика и системный анализ |
| work_keys_str_mv |
AT galkinaa glubinnyjmetodklassifikaciinaosnoveudalennojmerykoncentraciidlâobrabotkiasimmetričnyhdannyh AT galkinaa glibinnijmetodklasifíkacíínaosnovívíddalenoímírikoncentracíídlâobrobkiasimetričnihdanih AT galkinaa thedepthbasedclassificationmethodbasedonremoteconcentrationmeasureforasymmetricdataprocessing |
| first_indexed |
2025-11-28T11:00:33Z |
| last_indexed |
2025-11-28T11:00:33Z |
| _version_ |
1850031621302910976 |
| fulltext |
ÓÄÊ 519.7
À.À. ÃÀËÊÈÍ
ÃËÓÁÈÍÍÛÉ ÌÅÒÎÄ ÊËÀÑÑÈÔÈÊÀÖÈÈ
ÍÀ ÎÑÍÎÂÅ ÓÄÀËÅÍÍÎÉ ÌÅÐÛ ÊÎÍÖÅÍÒÐÀÖÈÈ
ÄËß ÎÁÐÀÁÎÒÊÈ ÀÑÈÌÌÅÒÐÈ×ÍÛÕ ÄÀÍÍÛÕ
Àííîòàöèÿ. Ðàçðàáîòàí è èññëåäîâàí ãëóáèííûé ìåòîä êëàññèôèêàöèè íà
îñíîâå óäàëåííîé ìåðû êîíöåíòðàöèè äëÿ îáðàáîòêè àñèììåòðè÷íûõ äàííûõ.
Ìîòèâàöèåé ïîñòðîåíèÿ ìåòîäà ñòàëà íåýôôåêòèâíîñòü èñïîëüçîâàíèÿ áîëü-
øèíñòâà àôôèííî-èíâàðèàíòíûõ êëàññèôèêàòîðîâ ïðè èõ ñî÷åòàíèè ñ ôóíê-
öèÿìè ãëóáèíû, êîòîðûå îáðàùàþòñÿ â íóëü çà ïðåäåëàìè âûïóêëîé îáîëî÷êè
äàííûõ. Èäåÿ ïðåäëîæåííîãî ìåòîäà çàêëþ÷àåòñÿ â îòîáðàæåíèè äèñòàíöèîí-
íîãî ïðîñòðàíñòâà ñ èñïîëüçîâàíèåì óäàëåííîé ìåðû êîíöåíòðàöèè, ìåðû óäà-
ëåííîñòè Øòàõåëÿ–Äîíîõüþ è ìåðû ñêîððåêòèðîâàííîé óäàëåííîñòè.
Êëþ÷åâûå ñëîâà: ôóíêöèÿ ãëóáèíû, óäàëåííàÿ ìåðà êîíöåíòðàöèè, ìíîãî-
ìåðíàÿ êëàññèôèêàöèÿ.
ÂÂÅÄÅÍÈÅ
Ïðîáëåìà ïîòåíöèàëüíûõ ïîñëåäñòâèé âûáðîñîâ è ýêñòðåìàëüíûõ çíà÷åíèé
ïðè ðåøåíèè ñîâðåìåííûõ çàäà÷ ðàñïîçíàâàíèÿ òðåáóåò ïîèñêà íîâûõ óñòîé-
÷èâûõ ê âûáðîñàì íåïàðàìåòðè÷åñêèõ ìåòîäîâ.  áîëüøèíñòâå ñëó÷àåâ âû-
áðîñû ÿâëÿþòñÿ äîïóñòèìûìè ýëåìåíòàìè, êîòîðûå ïîñòóïàþò èç ðàçëè÷íûõ
ìíîæåñòâ äàííûõ.  çàäà÷àõ êëàññèôèêàöèè ñ ó÷èòåëåì ìåòêè êëàññîâ íåêîòî-
ðûõ ýëåìåíòîâ äàííûõ â ó÷åáíîì ìíîæåñòâå ìîãóò ïðèñâàèâàòüñÿ îøèáî÷íî.
Áîëüøèíñòâî ìåòîäîâ êëàññèôèêàöèè ÿâëÿþòñÿ ýôôåêòèâíûìè òîëüêî ïðè
ïðèìåíåíèè ê äàííûì ñ ýëëèïòè÷åñêîé ñèììåòðèåé èëè ñ ìíîãîìåðíûì íîð-
ìàëüíûì ðàñïðåäåëåíèåì. Áîëüøèíñòâî ñóùåñòâóþùèõ ìåòîäîâ, êîòîðûå
äàþò âîçìîæíîñòü êëàññèôèöèðîâàòü àñèììåòðè÷íûå ìíîãîìåðíûå äàííûå,
ðåàëèçîâàíû íà îñíîâå ôóíêöèé ãëóáèíû. Îäíàêî òàêèå êëàññèôèêàòîðû ÷àñ-
òî èìåþò äîñòàòî÷íî íèçêóþ ïðîèçâîäèòåëüíîñòü, ïîñêîëüêó ôóíêöèè ãëóáè-
íû îáðàùàþòñÿ â íóëü çà ïðåäåëàìè âûïóêëîé îáîëî÷êè äàííûõ.
Ó÷èòûâàÿ àêòóàëüíîñòü èññëåäóåìîé ïðîáëåìàòèêè, äàííàÿ ñòàòüÿ ïîñâÿùà-
åòñÿ ðàçðàáîòêå è èññëåäîâàíèþ íîâîãî íåïàðàìåòðè÷åñêîãî ìåòîäà êëàññèôèêà-
öèè, êîòîðûé îáåñïå÷èâàåò âîçìîæíîñòü îáðàáîòêè àñèììåòðè÷íûõ ìíîãîìåð-
íûõ äàííûõ. Ïðåäëîæåííûé ìåòîä îòíîñèòñÿ ê êëàññó îáó÷åíèÿ ñ ó÷èòåëåì è
îñíîâûâàåòñÿ íà êîíöåïöèè äèñòàíöèîííîãî ïðîñòðàíñòâà.
ÎÏÐÅÄÅËÅÍÈÅ ÃËÓÁÈÍÍÛÕ ÎÁËÀÑÒÅÉ ÍÀ ÊÎÍÅ×ÍÛÕ ÂÛÁÎÐÊÀÕ
Èñõîäÿ èç òðåáîâàíèé ñòàòèñòè÷åñêîé ôóíêöèè ãëóáèíû, ôóíêöèÿ ïîëóïðî-
ñòðàíñòâåííîé ãëóáèíû ÿâëÿåòñÿ ìîíîòîííî óáûâàþùåé âäîëü ëèíèé, èñõîäÿ-
ùèõ èç öåíòðà, à òàêæå ÿâëÿåòñÿ àôôèííî-èíâàðèàíòíîé. Êðîìå òîãî, ôóíêöèÿ
ïîëóïðîñòðàíñòâåííîé ãëóáèíû ðàâíà íóëþ íà áåñêîíå÷íîñòè è äîñòèãàåò ñâî-
åãî ìàêñèìàëüíîãî çíà÷åíèÿ â öåíòðå ñèììåòðèè [1].
Ôóíêöèÿ ïîëóïðîñòðàíñòâåííîé ãëóáèíû � �z pR îòíîñèòåëüíî H X îïðå-
äåëÿåòñÿ êàê ìèíèìàëüíàÿ âåðîÿòíîñòíàÿ ãðóïïà, ñîäåðæàùàÿñÿ â çàêðûòîì ïî-
ëóïðîñòðàíñòâå ñ ïðåäåëîì ïî z, à èìåííî
F z H H b X b z
d X
b
X( , ) inf
|| ||
� � � �
�1
{ },
ãäå X — ñëó÷àéíàÿ âåëè÷èíà íà R p ñ ðàñïðåäåëåíèåì H X .
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 57
� À.À. Ãàëêèí, 2016
Îáëàñòüþ �-ãëóáèíû E� ÿâëÿåòñÿ ìíîæåñòâî òî÷åê, ãëóáèíà êîòîðûõ ñî-
ñòàâëÿåò íå ìåíåå �, ò.å.
E z p
� � �{ R }
äëÿ � �� [ , ]0 1 è E z H X( , ) � �. Îòìåòèì, ÷òî ïðîôèëåì �-ãëóáèíû ÿâëÿåòñÿ
ïðåäåë E� .
Ïîëóïðîñòðàíñòâåííîå ñðåäíåâçâåøåííîå çíà÷åíèå îïðåäåëÿåòñÿ êàê öåíòð
âåñà íàèìåíüøåé îáëàñòè, ñîäåðæàùåé òî÷êè ñ ìàêñèìàëüíîé ïîëóïðîñòðàíñòâåí-
íîé ãëóáèíîé (íåïóñòàÿ îáëàñòü ãëóáèíû). Çàìåòèì, ÷òî äëÿ âîçðàñòàþùåãî � îá-
ëàñòè ïîëóïðîñòðàíñòâåííîé ãëóáèíû ÿâëÿþòñÿ âûïóêëûìè, âëîæåííûìè è çàì-
êíóòûìè. Êðîìå òîãî, îïðåäåëåíèå ãëóáèííûõ îáëàñòåé íà êîíå÷íûõ âûáîðêàõ,
à òàêæå ïîëóïðîñòðàíñòâåííîãî ñðåäíåâçâåøåííîãî çíà÷åíèÿ ìîæíî ïîëó÷èòü
ïóòåì çàìåíû H X ýìïèðè÷åñêèì âåðîÿòíîñòíûì ðàñïðåäåëåíèåì H m .
 íàñòîÿùåé ñòàòüå èñïîëüçóåì òî÷å÷íóþ äèàãðàììó, êîòîðàÿ îáîáùàåò îä-
íîìåðíóþ äèàãðàììó ðàçáðîñà äëÿ äâóìåðíûõ äàííûõ [2]. Êîíöåíòðàöèÿ äàííûõ
ïåðâîãî òèïà ÿâëÿåòñÿ íàèìåíüøåé ãëóáèííîé îáëàñòüþ, èìåþùåé íå ìåíåå 50%
âåðîÿòíîñòíîé ãðóïïû, ò.å. V E� � òàêîå, ÷òî H VX ( ) .� 0 5 è H EX ( ) .� � 0 5 äëÿ
âñåõ � � . Îòìåòèì, ÷òî âíóòðè êîíöåíòðàöèè íàõîäèòñÿ ïîëóïðîñòðàíñòâåííîå
ñðåäíåâçâåøåííîå çíà÷åíèå. Çèãçàãîîáðàçíîå ÷àñòè÷íî óïîðÿäî÷åííîå ìíîæåñòâî,
êîòîðîå íå ÿâëÿåòñÿ ñàìîîáðàùàþùèìñÿ, ìîæíî ïîëó÷èòü ðàñøèðåíèåì äèà-
ãðàììû íà êîýôôèöèåíò 3 îòíîñèòåëüíî ñðåäíåâçâåøåííîãî çíà÷åíèÿ, ïðè ýòîì
òî÷êè äàííûõ çà åå ïðåäåëàìè îáîçíà÷àþòñÿ êàê âûáðîñû. Ïåòëÿ, îáðàçîâàííàÿ
èç äàííûõ âòîðîãî òèïà, ÿâëÿåòñÿ âûïóêëîé îáîëî÷êîé òî÷åê âíóòðè çèãçàãîîá-
ðàçíîãî ÷àñòè÷íî óïîðÿäî÷åííîãî ìíîæåñòâà.
Èñïîëüçîâàíèå äèàãðàììû êîíöåíòðàöèè äàííûõ ìîòèâèðîâàíî òåì, ÷òî îíà
íå çàâèñèò îò ïðåäïîëàãàåìîé ñèììåòðèè. Ïîýòîìó îíà îäèíàêîâî ýôôåêòèâíà äëÿ
ñèììåòðè÷íûõ è àñèììåòðè÷íûõ äàííûõ. Çàìåòèì, ÷òî ñðåäíåâçâåøåííîå çíà÷å-
íèå íå îáÿçàòåëüíî äîëæíî áûòü ðàñïîëîæåííûì âíóòðè êîíöåíòðàöèè äàííûõ,
à ñàìà êîíöåíòðàöèÿ äàííûõ íå îáÿçàòåëüíî äîëæíà áûòü ýëëèïòè÷åñêîé ôîðìû.
ÓÄÀËÅÍÍÀß ÌÅÐÀ ÊÎÍÖÅÍÒÐÀÖÈÈ ÄËß ÎÁÐÀÁÎÒÊÈ ÀÑÈÌÌÅÒÐÈ×ÍÛÕ ÄÀÍÍÛÕ
Èäåÿ ïðåäëîæåííîãî ïîäõîäà ñîñòîèò â âû÷èñëåíèè ñòàòèñòè÷åñêîãî ðàññòîÿíèÿ
ìíîãîìåðíîé òî÷êè z p�R â íàïðàâëåíèè H X íà îñíîâå ôóíêöèè ïîëóïðîñòðàí-
ñòâåííîé ãëóáèíû. Äëÿ âû÷èñëåíèÿ äàííîãî ðàññòîÿíèÿ èñïîëüçóþòñÿ öåíòð
è äèñïåðñèÿ H X ; äëÿ îöåíêè äèñïåðñèè ïðèìåíÿåòñÿ êîíöåíòðàöèÿ V .
Ñëåäóåò îòìåòèòü, ÷òî g z g z( ) � îïðåäåëÿåòñÿ êàê ïåðåñå÷åíèå ãðàíèöû V è
ëèíèè îò ïîëóïðîñòðàíñòâåííîãî ñðåäíåâçâåøåííîãî çíà÷åíèÿ � ÷åðåç z.  ðå-
çóëüòàòå óäàëåííàÿ ìåðà êîíöåíòðàöèè z â X îïðåäåëÿåòñÿ ñîîòíîøåíèåì ýâêëè-
äîâîé ìåòðèêè z â íàïðàâëåíèè ïîëóïðîñòðàíñòâåííîãî ñðåäíåâçâåøåííîãî çíà-
÷åíèÿ è ýâêëèäîâîé ìåòðèêè g z ê ïîëóïðîñòðàíñòâåííîìó ñðåäíåâçâåøåííîìó
çíà÷åíèþ, à èìåííî
( , )z H X � 0, åñëè z � �, è
( , ) | | / | |z H z gX z� � ���� �� �
â ïðîòèâíîì ñëó÷àå. Çàìåòèì, ÷òî çíàìåíàòåëü â óðàâíåíèè
( , )z H X �
� � �| | | | / | | | |z g z� � îïðåäåëÿåò äèñïåðñèþ H X â íàïðàâëåíèè z. Â äàííîì ñëó-
÷àå óäàëåííàÿ ìåðà êîíöåíòðàöèè ÿâëÿåòñÿ àôôèííî-èíâàðèàíòíîé, íî íå ïðåä-
ïîëàãàåò íàëè÷èÿ ñèììåòðèè [3]. Îòìåòèì òàêæå, ÷òî óäàëåííàÿ ìåðà êîíöåíòðà-
öèè íåÿâíî èñïîëüçóåòñÿ â äèàãðàììå êîíöåíòðàöèè äàííûõ, à çèãçàãîîáðàçíîå
÷àñòè÷íî óïîðÿäî÷åííîå ìíîæåñòâî ñîñòîèò èç òî÷åê, óäàëåííàÿ ìåðà êîíöåí-
òðàöèè êîòîðûõ íå áîëåå òðåõ.
Äàëåå îïðåäåëèì îáîáùåííóþ íîðìó êàê ôóíêöèþ c p: [ , [R �
0 òàêóþ,
÷òî c( )0 0� è c z( ) � 0 äëÿ z � 0; îíà óäîâëåòâîðÿåò c z c z( ) ( )� �� äëÿ �z è � � 0.
58 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3
 ÷àñòíîñòè, èìååò ìåñòî îáîáùåííàÿ íîðìà
c z z z( ) � � �� 1
äëÿ ãàóññîâñêîãî ðàñïðåäåëåíèÿ N ( , )0 � ñ ïîëîæèòåëüíî-îïðåäåëåííîé âåëè÷è-
íîé � .
Ïðåäïîëîæèì, ÷òî êîìïàêòíîå ìíîæåñòâîV èìååò ôîðìó çâåçäû â îêðåñòíîñòè
íóëÿ, ò.å. äëÿ � �z V è 0 1� �� èìååì �z V� . Äëÿ � �z 0 ñòðîèì òî÷êó g z , ÷òî ÿâ-
ëÿåòñÿ ñå÷åíèåì ìåæäó ëèíèåé, êîòîðàÿ âûõîäèò èç íóëÿ â íàïðàâëåíèè z, è ãðà-
íèöåé ê V .
Òàêæå ïðåäïîëîæèì, ÷òî íóëü íàõîäèòñÿ âíóòðè V , ò.å. ñóùåñòâóåò òàêîå
� 0, äëÿ êîòîðîãî âûïîëíÿåòñÿ âêëþ÷åíèå V V( , )0 � � . Òîãäà | | | |g z 0 ïðè z � 0.
Äàëåå èìååì c z( ) � 0, åñëè z � 0, è c z z g z( ) | | | | | | | |� â ïðîòèâíîì ñëó÷àå. Ïî-
ñêîëüêó � 0 òàêîå, ÷òî � �1z ðàñïîëîæåíî íà ãðàíèöåV , ìîæåì îïðåäåëèòü c z( ).
Òàêèì îáðàçîì, íåò íåîáõîäèìîñòè â ïîëó÷åíèè åâêëèäîâîé íîðìû. Êðîìå òîãî,
ìîæíî ïðîâåðèòü, ÿâëÿåòñÿ ëè c( )� îáîáùåííîé íîðìîé, êîòîðàÿ ìîæåò íå áûòü
íåïðåðûâíîé ôóíêöèåé [4].
Ëåììà 1. Ôóíêöèÿ c ÿâëÿåòñÿ âûïóêëîé è íåïðåðûâíîé, åñëè 0� int ( )V ,
à ìíîæåñòâî V ÿâëÿåòñÿ êîìïàêòíûì è âûïóêëûì.
Äîêàçàòåëüñòâî. Íåîáõîäèìî ïîêàçàòü, ÷òî äëÿ � �z x p, R è 0 1� �� èìååò
ìåñòî íåðàâåíñòâî c z x c z c x( ( ) ) ( ) ( ) ( )� � � �� � � � �1 1 . Îòìåòèì, ÷òî ôóíêöèÿ c, êî-
òîðàÿ îãðàíè÷åíà ýòîé ïðÿìîé, ÿâëÿåòñÿ âûïóêëîé, ïîñêîëüêó ëèíåéíî âîçðàñ-
òàåò â îáîèõ íàïðàâëåíèÿõ ïîä ðàçíûìè óãëàìè è ðàâíà íóëþ â íà÷àëå êîîðäèíàò.
Çàìåòèì, ÷òî âûïóêëîñòü ôóíêöèè c èìååò ìåñòî â ñëó÷àå, êîãäà âåêòîðû { }0, ,z x
ÿâëÿþòñÿ êîëëèíåàðíûìè.  ïðîòèâíîì ñëó÷àå { }0, ,z x îáðàçóþò òðåóãîëüíèê.
Ââåäåì ñëåäóþùèå îáîçíà÷åíèÿ: y z x: ( )� � �� �1 , x c x gx� ( ) , z c z g z� ( ) .
Ìîæíî ïðîâåðèòü, ÷òî âûïóêëîé êîìáèíàöèåé g z è gx ÿâëÿåòñÿ âûðàæåíèå
y c z c x y: ( ( ) ( ) ( ))� � � �� �1 1 .
Ïîñêîëüêó g g Vz x, � , ÷òî ñëåäóåò èç êîìïàêòíîñòèV , òîãäà y V� , ÷òî ñëåäó-
åò èç âûïóêëîñòè V . Ïðèíèìàÿ âî âíèìàíèå, ÷òî | | | | | | | | | | | |g g yy y� � , èìååò ìåñòî
ðàâåíñòâî
c y
y
g
y
y
c z c x
y
( )
| | | |
| | | |
| | | |
| | | |
( ) ( ) ( )� � � � �� �1 .
Ëåììà äîêàçàíà.
Èñïîëüçóÿ ëåììó 1, à òàêæå íåðàâåíñòâî
c z x c z x c z c x c z c x( ) ( ) ( ) ( ) ( )� � �
�
�
�
�
�
� � � � �2
1
2
1
2
2
1
2
2
1
2
,
ìîæíî óòâåðæäàòü, ÷òî ôóíêöèÿ c óäîâëåòâîðÿåò íåðàâåíñòâó òðåóãîëüíèêà.
Îòñþäà ñëåäóåò, ÷òî ôóíêöèÿ c è óäàëåííàÿ ìåðà êîíöåíòðàöèè óäîâëåòâîðÿ-
þò ñëåäóþùèì óñëîâèÿì:
à) ôóíêöèÿ c z( ) � 0 � �z pR ;
á) ôóíêöèÿ c z( ) � 0 � �z 0;
â) ôóíêöèÿ c z c z( ) ( )� �� , � � 0 è � �z pR ;
ã) ôóíêöèÿ c z x c z c x( ) ( ) ( )� � � � �z x p, R .
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 59
Çàìåòèì, ÷òî ïîëó÷åíèå íîðìû âîçìîæíî ïðè äîáàâëåíèè c z c z( ) ( )� � äëÿ
� �z pR . Êðîìå òîãî, îáîáùàÿ ïîëó÷åííûé ðåçóëüòàò, ìîæíî ïðîâîäèòü àñèì-
ìåòðè÷íóþ äèñïåðñèþ äëÿ óäàëåííîé ìåðû êîíöåíòðàöèè. Òàêæå âû÷èñëèâ
f z c z c z( ) ( ( ) ( )) /� � � 2, ìîæíî ïîëó÷èòü íîðìó ýòîé ôóíêöèè.
 ðåçóëüòàòå èìååò ìåñòî ðàâåíñòâî
c z z z z z z z( ) | | | | / (( ) | | | | )/� � � �� � �� �1 1 2 1 ,
ãäå V z z z� � ��{ }; � 1 1 , à g z z zz � � � �( ) /� 1 1 2 äëÿ � �z 0. Òàêèì îáðàçîì, ìîæíî
óòâåðæäàòü, ÷òî ôóíêöèÿ c îáîáùàåò ðàññòîÿíèå Ìàõàëàíîáèñà â îáîáùåííîé
íîðìå: c z z z( ) � � �� 1 .
Çàìåòèì, ÷òî ëåììà 1 èìååò ìåñòî, êîãäà V ÿâëÿåòñÿ âûïóêëûì ìíîæåñòâîì.
 äàííîì ñëó÷àå èñïîëüçîâàíèå ôóíêöèè ýêñòðàïîëÿöèîííîé ãëóáèíû ÿâëÿåòñÿ
àëüòåðíàòèâîé ãëóáèííûì îáëàñòÿì Òüþêè [5].  îäíîìåðíîì ñëó÷àå êîì-
ïàêòíîå âûïóêëîå ìíîæåñòâî V â ëåììå 1 ñòàíîâèòñÿ çàìêíóòûì èíòåðâàëîì,
êîòîðûé ìîæíî îïðåäåëèòü êàê V
v w
� �
�
�
�
�
�
1 1
, ïðè v w, 0 ; c z wz vz( ) .� �� �  ëè-
íåéíîé ðåãðåññèè ïðè ìèíèìèçàöèè c dii
m
( )! èìååì ðåãðåññèîííûé êâàíòèëü
w w v/ ( )� .
Ïðè ðåøåíèè ïðàêòè÷åñêèõ çàäà÷ êëàññèôèêàöèè, êîãäà óäàëåííóþ ìåðó
êîíöåíòðàöèè íóæíî âû÷èñëèòü äëÿ ìíîæåñòâà òî÷åê, íåîáõîäèìî ñíà÷àëà âû-
÷èñëÿòü êîíöåíòðàöèþ äàííûõ, à çàòåì òî÷êó ïåðåñå÷åíèÿ g z . Çàìåòèì, ÷òî âû-
÷èñëåíèå óäàëåííîé ìåðû êîíöåíòðàöèè òî÷êè z îòíîñèòåëüíî ñëó÷àéíîé âûáîð-
êè âîçìîæíî ïðè èñïîëüçîâàíèè äàííûõ ìàëîé ðàçìåðíîñòè.
 íåêîòîðûõ ñëó÷àÿõ, â ÷àñòíîñòè ïðè èñïîëüçîâàíèè äàííûõ áîëüøîé ðàç-
ìåðíîñòè, âû÷èñëåíèå óäàëåííîé ìåðû êîíöåíòðàöèè òðåáóåò çíà÷èòåëüíî áîëü-
øèõ ðåñóðñîâ [6]. Ó÷èòûâàÿ òîò ôàêò, ÷òî ôóíêöèÿ ïîëóïðîñòðàíñòâåííîé ãëóáè-
íû ÿâëÿåòñÿ ìîíîòîííî óáûâàþùåé íà ïðÿìîé, ïðèìåíåíèå àëãîðèòìà áèñåêöèè
ÿâëÿåòñÿ ýôôåêòèâíûì èíñòðóìåíòîì ïîèñêà ìíîãîìåðíîé òî÷êè g * íà ïðÿìîé
îò � ÷åðåç z, ãäå F g H F x Hd m
i
d i m( , ) ( , )* �"{ }.  äàííîì ñëó÷àå xi ÿâëÿþòñÿ
òî÷êàìè äàííûõ, à " — ñðåäíåâçâåøåííûì çíà÷åíèåì.
ÏÐÎÅÊÒÈÐÎÂÀÍÈÅ ÄÀÍÍÛÕ ÍÀ ÎÑÍÎÂÅ
ÎÄÍÎÌÅÐÍÎÉ ÌÅÐÛ ÎÒÄÀËÅÍÍÎÑÒÈ
Àôôèííî-èíâàðèàíòíàÿ ôóíêöèÿ ýêñòðàïîëÿöèîííîé ãëóáèíû ÿâëÿåòñÿ îáðàò-
íîé ïî îòíîøåíèþ ê ôóíêöèè îòäàëåííîñòè Øòàõåëÿ–Äîíîõüþ. Ñîãëàñíî ãåî-
ìåòðè÷åñêîìó òîëêîâàíèþ ýòîé ôóíêöèè ìíîãîìåðíûé âûáðîñ äîëæåí áûòü
îòäàëåííûì êàê ìèíèìóì â îäíîì íàïðàâëåíèè. Ïðåäëîæåííûé ïîäõîä çà-
êëþ÷àåòñÿ â ïðîåêòèðîâàíèè äàííûõ íà ìíîæåñòâî ïðÿìûõ ñ èñïîëüçîâàíèåì
îäíîìåðíîé ìåðû îòäàëåííîñòè íà ïðîåêöèÿõ.
Ìíîæåñòâî äàííûõ ôóíêöèè îòäàëåííîñòè Øòàõåëÿ–Äîíîõüþ ïðîèçâîëü-
íîé òî÷êè z îòíîñèòåëüíî ñëó÷àéíîé âåëè÷èíû X ñ ðàñïðåäåëåíèåì H X îïðåäå-
ëÿåòñÿ êàê
D z H
b z b X
b X
SH X
b
( , )
| ( )|
( )|| ||
�
� � �
��
sup
1
"
#
,
ãäå # — ñðåäíåå àáñîëþòíîå îòêëîíåíèå. Îòñþäà èìååì ôóíêöèþ ýêñòðàïîëÿ-
60 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3
öèîííîé ãëóáèíû
F z H
D z H
e X
SH X
( , )
( , )
�
�
1
1
.
Çàìåòèì, ÷òî ôóíêöèÿ îòäàëåííîñòè Øòàõåëÿ–Äîíîõüþ ÿâëÿåòñÿ áîëåå ïîä-
õîäÿùåé äëÿ ñèììåòðè÷íûõ ðàñïðåäåëåíèé, ïîñêîëüêó èìååò ñðåäíåå àáñîëþòíîå
îòêëîíåíèå â çíàìåíàòåëå è àáñîëþòíîå îòêëîíåíèå â ÷èñëèòåëå.
 ñëó÷àå àñèììåòðè÷íûõ ðàñïðåäåëåíèé ýôôåêòèâíûì èíñòðóìåíòîì ÿâëÿ-
åòñÿ ôóíêöèÿ ñêîððåêòèðîâàííîé îòäàëåííîñòè íà îñíîâå ìåòîäà íåçàâèñèìûõ
êîìïîíåíò [7].  êà÷åñòâå íàäåæíîé ìåðû àñèììåòðèè ôóíêöèÿ ñêîððåêòèðîâàí-
íîé îòäàëåííîñòè èñïîëüçóåò M-ñòàòèñòèêó îäíîìåðíîãî ìíîæåñòâà äàííûõ
Y y ym� { }1, ,� , îïðåäåëÿåìóþ êàê
M( , , )
( ) ( )
,
y y
y y y y
y y
m
i l
l t t t t i
l i
1 � �
� � �
�
"
" "
,
ãäå � � �1 1M , à i è l óäîâëåòâîðÿþò òàêèì óñëîâèÿì: y y yi t t l� �" ( ) è
y yi l� . Çàìåòèì, ÷òî M� 0 è M 0 îçíà÷àþò ëåâóþ è ïðàâóþ àñèììåòðèþ ñî-
îòâåòñòâåííî, à ïðè M � 0 èìååì ñëó÷àé ñèììåòðè÷íûõ ðàñïðåäåëåíèé.
Äàëåå ââåäåì ïîíÿòèå ìåðû ñêîððåêòèðîâàííîé îòäàëåííîñòè O :
O sup O
1
( , ) ( , )
|| ||
z H b z HX
b
b X� �
�
�
1
,
ãäå O1 — ìåðà îäíîìåðíîé ñêîððåêòèðîâàííîé îòäàëåííîñòè,
O1
2
( , )
( )
( ) ( )
y Y
y Y
a Y Y
�
�
�
"
"
, åñëè y Y " ( )
è
O1
1
( , )
( )
( ) ( )
y Y
Y y
Y a y
�
�
�
"
"
, åñëè y Y� " ( ).
Çàìåòèì, ÷òî çíàìåíàòåëü â âûðàæåíèÿõ O1 ( , )y Y ñîîòâåòñòâóåò çèãçàãîîá-
ðàçíîìó ÷àñòè÷íî óïîðÿäî÷åííîìó ìíîæåñòâó îäíîìåðíîé ñêîððåêòèðîâàííîé
äèàãðàììû êîíöåíòðàöèè äàííûõ. Êðîìå òîãî, èìåþò ìåñòî âûðàæåíèÿ
a Y W Y e Q YY
1 1
41 5( ) ( ) . ( )( )� � � M è a Y W Y e Q YY
2 3
31 5( ) ( ) . ( )( )� � � M , ãäå Q ÿâëÿåò-
ñÿ ìåæêâàðòèëüíûì äèàïàçîíîì.  ñëó÷àå, åñëè M( )Y � 0, çàìåíÿåì ( , )y Y íà
( , )� �y Y . Åñëè M( )Y � 0, èìååì Q Y W Y W Y( ) ( ) ( )� �3 1 , ãäå W Y1 ( ) è W Y3 ( ) îïðå-
äåëÿþò ïåðâóþ è òðåòüþ êâàðòèëè Y .
Îïðåäåëèì ôóíêöèþ àñèììåòðè÷íî ñêîððåêòèðîâàííîé ýêñòðàïîëÿöèîííîé
ãëóáèíû
~
( , )
( , )
F z H
z H
e X
X
�
�
1
1 O
.
Ââèäó íåâîçìîæíîñòè èñïîëüçîâàíèÿ âñåõ íàïðàâëåíèé b ïðèìåíåíèå ïðè-
áëèæåííûõ àëãîðèòìîâ ÿâëÿåòñÿ ýôôåêòèâíûì èíñòðóìåíòîì äëÿ âû÷èñëåíèÿ
ôóíêöèè êîíå÷íî-âûáîðî÷íîé àñèììåòðè÷íî ñêîððåêòèðîâàííîé ýêñòðàïîëÿöè-
îííîé ãëóáèíû [8]. Â ðåçóëüòàòå ïðè ðàññìîòðåíèè íàïðàâëåíèé b, êîòîðûå ÿâëÿ-
þòñÿ îðòîãîíàëüíûìè ê àôôèííîé ãèïåðïëîñêîñòè ÷åðåç p�1 ñëó÷àéíóþ òî÷êó
äàííûõ, áûë ïîëó÷åí êîìïëåêñíûé àôôèííî-èíâàðèàíòíûé ïîäõîä.
Ìåòîä k-áëèæàéøèõ ñîñåäåé ÿâëÿåòñÿ îäíèì èç íàèáîëåå ýôôåêòèâíûõ íå-
ïàðàìåòðè÷åñêèõ êëàññèôèêàòîðîâ, êîòîðûé äëÿ êàæäîãî íîâîãî ýëåìåíòà
íàõîäèò k òî÷åê äàííûõ, áëèæàéøèõ ê íåìó, è ïðèñâàèâàåò åãî ê ïðåîáëàäàþ-
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 61
ùåé ãðóïïå ñðåäè ýòèõ ñîñåäåé. Íàèáîëåå ÷àñòî äëÿ ìèíèìèçàöèè êîýôôèöèåíòà
îøèáî÷íîé êëàññèôèêàöèè èñïîëüçóåòñÿ ìåòîä ïåðåêðåñòíîé ïðîâåðêè äëÿ âû-
áîðà çíà÷åíèÿ k.
Ïîäõîä íà îñíîâå ôóíêöèè ìàêñèìàëüíîé ãëóáèíû ìîæåò áûòü ïðèìåíåí
ê äâóì è áîëåå ãðóïïàì è ïîçâîëÿåò ïðèñâàèâàòü íîâûé ýëåìåíò ê ãðóïïå, â êîòî-
ðîé îí èìååò íàèáîëüøóþ ãëóáèíó. Îäíàêî êîãäà ôóíêöèÿ ãëóáèíû òîæäåñòâåí-
íî ðàâíà íóëþ íà áîëüøèõ èíòåðâàëàõ, èìååò ìåñòî íàëè÷èå ìíîæåñòâà óçëîâ,
÷òî ÿâëÿåòñÿ íåäîñòàòêîì òàêîãî ïîäõîäà. Çàìåòèì, ÷òî èñïîëüçîâàíèå ôóíêöèè
ýêñòðàïîëÿöèîííîé ãëóáèíû ïîçâîëèëî ðåøèòü äàííóþ ïðîáëåìó.
Äëÿ ðàçâèòèÿ ìåòîäà êëàññèôèêàöèè íà îñíîâå ôóíêöèè ìàêñèìàëüíîé ãëó-
áèíû àâòîðîì ïðåäëîæåí è èññëåäîâàí íîâûé #-êëàññèôèêàòîð. Èòàê, ïóñòü H1 è
H 2 — ýìïèðè÷åñêèå ðàñïðåäåëåíèÿ äâóõ ãðóïï äàííûõ. Èñïîëüçóÿ ñòàòèñòè÷åñ-
êóþ ôóíêöèþ ãëóáèíû ds, âûïîëíÿåì îòîáðàæåíèå ïðîèçâîëüíîé òî÷êè äàííûõ
äî äâóìåðíîé òî÷êè ( ( , ), ( , ))d z H d z Hs s1 2 , ãäå z �R p. Ïîëó÷åííûå äâóìåðíûå
òî÷êè îáðàçóþò #-ñõåìó, â êîòîðîé äâå ãðóïïû ýëåìåíòîâ äàííûõ èìåþò ðàçëè÷-
íûå ìåòêè, íà îñíîâå ýòîé ñõåìû ïðîâîäèòñÿ êëàññèôèêàöèÿ äàííûõ.
Ìåòîä êëàññèôèêàöèè íà îñíîâå ôóíêöèè ìàêñèìàëüíîé ãëóáèíû áàçèðóåò-
ñÿ íà êîíöåïöèè ðàçäåëåíèÿ äàííûõ îòíîñèòåëüíî ïðÿìîé, ïðîõîäÿùåé ÷åðåç íà-
÷àëî êîîðäèíàò. Åñëè ýëåìåíò äàííûõ ðàñïîëàãàåòñÿ âûøå ìíîãî÷ëåíà, òî îí îò-
íîñèòñÿ ê ïåðâîé ãðóïïå, â ïðîòèâíîì ñëó÷àå — êî âòîðîé ãðóïïå. Îòìåòèì,
÷òî íåäîñòàòêàìè #-êëàññèôèêàòîðà ÿâëÿåòñÿ íåîáõîäèìîñòü ïðèìåíåíèÿ ìåòîäà
ìàæîðèòàðíîãî ãîëîñîâàíèÿ ïðè íàëè÷èè áîëåå äâóõ ãðóïï äàííûõ, à òàêæå âû-
÷èñëèòåëüíàÿ ñëîæíîñòü íàõîæäåíèÿ íàèáîëåå ýôôåêòèâíîãî ðàçäåëèòåëüíîãî
ìíîãî÷ëåíà.
Ââèäó ýôôåêòèâíîñòè àôôèííî-èíâàðèàíòíîñòè ïðè ðåøåíèè ìíîãîêëàññî-
âûõ çàäà÷ êëàññèôèêàöèè ñóòü äàííîãî ïîäõîäà çàêëþ÷àåòñÿ â ñèíòåçå ôóíêöèè
ñêîððåêòèðîâàííîé îòäàëåííîñòè è óäàëåííîé ìåðû êîíöåíòðàöèè. Ýòè ôóíê-
öèè, êîòîðûå ÿâëÿþòñÿ ñòîéêèìè ê âûáðîñàì è ýêñòðåìàëüíûì çíà÷åíèÿì, ìîæ-
íî èñïîëüçîâàòü äëÿ àñèììåòðè÷íûõ äàííûõ.
Ïðåäïîëîæèì, ÷òî H c ÿâëÿåòñÿ ýìïèðè÷åñêèì ðàñïðåäåëåíèåì äàííûõ èç
ãðóïïû c C�1, ,� , ãäå C ìîæåò áûòü áîëüøå äâóõ. Åñëè âåëè÷èíà
~
( , )d z H c ÿâëÿ-
åòñÿ îáîáùåííûì ðàññòîÿíèåì èëè ìåðîé îòäàëåííîñòè òî÷êè z â íàïðàâëåíèè
c-é âûáîðêè äàííûõ, îòîáðàæàåì òî÷êó z p�R â íàïðàâëåíèè C-ìåðíîé òî÷êè
(
~
( , ), ,
~
( , ))d z H d z HC1 � âìåñòî òðàíñôîðìàöèè ãëóáèíû ( ( , ), ( , ))d z H d z Hs s1 2 .
 äàííîì ñëó÷àå ðàçìåðíîñòü C ìîæåò áûòü ìåíüøå, áîëüøå èëè ðàâíîé èñõîä-
íîé ðàçìåðíîñòè p.
 ðåçóëüòàòå äëÿ îòîáðàæåíèÿ ðàññòîÿíèÿ (
~
( , ), ,
~
( , ))d z H d z HC1 � ìîæíî
ïðèìåíÿòü ïðîèçâîëüíûé ìíîãîìåðíûé êëàññèôèêàòîð, ò.å. ëèíåéíûé èëè êâàä-
ðàòè÷íûé äèñêðèìèíàíòíûé àíàëèç, ìåòîä êëàññèôèêàöèè íà îñíîâå ìèíèìàëü-
íîãî ðàññòîÿíèÿ è ò.ä. [10]. Çàìåòèì, ÷òî ïîñëåäíèé ìåòîä ïðèñâàèâàåò òîëüêî
ýëåìåíò z ê ãðóïïå ñ íàèìåíüøèìè êîîðäèíàòàìè â (
~
( , ), ,
~
( , ))d z H d z HC1 � .
Ñ ó÷åòîì íåýôôåêòèâíîñòè ïðèìåíåíèÿ ìåòîäà ìàæîðèòàðíîãî ãîëîñîâàíèÿ
äëÿ âñåõ îòîáðàæåííûõ òî÷åê èñïîëüçóåì ìåòîä k-áëèæàéøèõ ñîñåäåé â ñî÷åòà-
íèè ñ àôôèííî-èíâàðèàíòíîñòüþ, êîòîðàÿ ïîëó÷åíà áëàãîäàðÿ îòîáðàæåíèþ
äàííûõ. Â ðåçóëüòàòå ýêñïåðèìåíòàëüíûõ èññëåäîâàíèé áûëî óñòàíîâëåíî, ÷òî
ðàññìîòðåííûé ìåòîä íà îñíîâå óäàëåííîé ïðîñòðàíñòâåííîé ìåðû èìååò äîñòà-
òî÷íî íèçêóþ ÷àñòîòó îøèáîê. Ñîîòâåòñòâóþùèå ðåçóëüòàòû áûëè ïîëó÷åíû
â ïðîöåññå îòîáðàæåíèÿ ðàññòîÿíèÿ (
~
( , ), ,
~
( , ))d z H d z HC1 � ñ èñïîëüçîâàíèåì
ìåòîäà k-áëèæàéøèõ ñîñåäåé.
62 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3
ÐÅÇÓËÜÒÀÒÛ ÝÊÑÏÅÐÈÌÅÍÒÀËÜÍÎÃÎ ÈÑÑËÅÄÎÂÀÍÈß
Ïðîöåäóðà îòîáðàæåíèÿ äèñòàíöèîííîãî ïðîñòðàíñòâà áûëà èññëåäîâàíà íà
ðåàëüíîì ïðèìåðå. Èñïîëüçîâàíû äàííûå áàíêîâñêèõ êëèåíòîâ â ñïåöèàëèçè-
ðîâàííûõ êîìïüþòåðíûõ ñèñòåìàõ. Ïðîöåäóðà âîëíîâîãî ïðåîáðàçîâàíèÿ ïðè-
ìåíÿëàñü ê äàííûì ïî îòíîøåíèþ ê 1114 ïëàòåæåñïîñîáíûì è 954 íåïëàòå-
æåñïîñîáíûì êëèåíòàì.
Íà ðèñ. 1 îòîáðàæåí ãðàôèê äèñòàíöèîííîãî ïðîñòðàíñòâà ýòèõ äàííûõ íà
îñíîâå óäàëåííîé ìåðû êîíöåíòðàöèè. Ìîæíî óâèäåòü, ÷òî äàííûå î ïëàòåæåñïî-
ñîáíûõ êëèåíòàõ #d îáðàçóþò ïëîòíûé ñåêòîð ïî ñðàâíåíèþ ñ äàííûìè î íåïëà-
òåæåñïîñîáíûõ êëèåíòàõ �#d . Çàìåòèì, ÷òî äàííûå î ïëàòåæåñïîñîáíûõ è íåïëà-
òåæåñïîñîáíûõ êëèåíòàõ ÿâëÿþòñÿ ýôôåêòèâíî ðàçäåëåííûìè.
Íà ðèñ. 2 ïîêàçàíà ïîëóïðîñòðàíñòâåííàÿ #-ñõåìà èññëåäóåìûõ äàííûõ, ãäå
ïîëóïðîñòðàíñòâåííàÿ ãëóáèíà äàííûõ èç îäíîé ãðóïïû îòíîñèòåëüíî äàííûõ
äðóãîé ãðóïïû ðàâíà íóëþ. Çàìåòèì, ÷òî òàêàÿ ïðîöåäóðà íå ÿâëÿåòñÿ ýôôåêòèâ-
íîé äëÿ êëàññèôèêàöèè äàííûõ, ðàñïîëîæåííûõ çà ïðåäåëàìè îáåèõ îáîëî÷åê, íå-
ñìîòðÿ íà òî, ÷òî âûïóêëûå îáîëî÷êè îáåèõ ãðóïï íå ïåðåñåêàþòñÿ.
Ñîãëàñíî ïðîâåäåííûì ýêñïåðèìåíòàëüíûì èññëåäîâàíèÿì áûëè èñïîëüçî-
âàíû ó÷åáíàÿ è òåñòîâàÿ âûáîðêè äàííûõ, êîòîðûå ñîäåðæàëè ñîîòâåòñòâåííî
100 è 1000 ýëåìåíòîâ äëÿ êàæäîãî çàïóñêà àëãîðèòìà. Ïîñêîëüêó M ÿâëÿåòñÿ îá-
ùèì ðàçìåðîì ó÷åáíîé âûáîðêè, mc — ÷èñëîì ýëåìåíòîâ äàííûõ ãðóïïû c
â ó÷åáíîì ìíîæåñòâå, à ec — ïðîöåíò îøèáî÷íî êëàññèôèöèðîâàííûõ ýëåìåíòîâ
äàííûõ ãðóïïû c â òåñòîâîì ìíîæåñòâå, êîýôôèöèåíò îøèáî÷íîé êëàññèôèêàöèè (â
ïðîöåíòàõ) âû÷èñëÿåòñÿ êàê e m Mc cc
C
�! 1
/ . Ýòî ïîçâîëèëî îöåíèòü ýôôåêòèâíîñòü
êàæäîãî èññëåäóåìîãî êëàññèôèêàòîðà. Ïîâòîðÿëàñü äàííàÿ îïåðàöèÿ 1500 ðàç äëÿ
êàæäîãî ñëó÷àÿ è áûëî ïðîâåäåíî âçâåøèâàíèå êîýôôèöèåíòîâ (â ïðîöåíòàõ) îøè-
áî÷íîé êëàññèôèêàöèè îòíîñèòåëüíî àïðèîðíûõ âåðîÿòíîñòåé â òåñòîâîì ìíîæåñòâå.
Ðàññìîòðèì äâà ñëó÷àÿ. Ïåðâûé îõâàòûâàåò äâóìåðíóþ íîðìàëüíóþ àñèì-
ìåòðèþ, êîãäà C � 2. Îòìåòèì, ÷òî ïðè ðàññìîòðåíèè äâóõ äâóìåðíûõ ðàñïðåäå-
ëåíèé ïåðâàÿ ãðóïïà G1 áûëà ñãåíåðèðîâàíà èç ñòàíäàðòíîãî íîðìàëüíîãî ðàñ-
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 63
Ðèñ. 1. #-ñõåìà áàíêîâñêèõ äàííûõ (íà îñíîâå óäàëåííîé ìåðû êîíöåíòðàöèè)
#
d
-ð
àñ
ñò
î
ÿ
í
è
å
�#d -ðàññòîÿíèå
10
9
8
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10
ïðåäåëåíèÿ, â òî âðåìÿ êàê êîîðäèíàòû âòîðîé ãðóïïû ÿâëÿëèñü íåçàâèñèìûìè
ñ ýêñïîíåíöèàëüíûì ðàñïðåäåëåíèåì è êîýôôèöèåíòîì åäèíèöà, ò.å.
G N1
0
0
1 0
0 1
$
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�, , G2 $
�
�
�
�
�
Exp (1)
Exp (1)
.
Âî âòîðîì ñëó÷àå áûëà ïðîâåäåíà íîðìàëèçàöèÿ äàííûõ, ïðè êîòîðîé èñ-
ïîëüçîâàëàñü ôîðìà ñïèñêà è ñðåäíåâçâåøåííîå àáñîëþòíîå îòêëîíåíèå. Çàìå-
òèì, ÷òî â äàííîì ñëó÷àå C � 2.
 ïðîöåññå èññëåäîâàíèÿ ãëóáèííûõ êëàññèôèêàòîðîâ áûë ïðîâåäåí ñðàâ-
íèòåëüíûé àíàëèç êëàññèôèêàòîðà íà îñíîâå ôóíêöèè ïîëóïðîñòðàíñòâåííîé
ãëóáèíû, êëàññèôèêàòîðà íà îñíîâå ôóíêöèè ýêñòðàïîëÿöèîííîé ãëóáèíû è
êëàññèôèêàòîðà íà îñíîâå ôóíêöèè àñèììåòðè÷íî ñêîððåêòèðîâàííîé ýêñòðàïî-
ëÿöèîííîé ãëóáèíû. Êðîìå òîãî, áûë ïðîâåäåí ñðàâíèòåëüíûé àíàëèç êëàññèôè-
êàòîðà, îñíîâàííîãî íà óäàëåííîé ìåðå êîíöåíòðàöèè, êëàññèôèêàòîðà íà îñíîâå
ôóíêöèè îòäàëåííîñòè Øòàõåëÿ–Äîíîõüþ è êëàññèôèêàòîðà íà îñíîâå ôóíêöèè
ñêîððåêòèðîâàííîé îòäàëåííîñòè. Îòìåòèì, ÷òî ó÷åáíàÿ âûáîðêà ÿâëÿëàñü ñëó-
÷àéíûì îáðàçîì ñãåíåðèðîâàííûì ïîäìíîæåñòâîì, ñîñòîÿùèì èç 868 ýëåìåíòîâ
äàííûõ, à òåñòîâàÿ âûáîðêà ñîñòîÿëà èç îñòàâøèõñÿ 1200 ýëåìåíòîâ äàííûõ.
 ñëó÷àå äâóìåðíîé íîðìàëüíîé àñèììåòðèè ðåçóëüòàòû ýêñïåðèìåíòàëü-
íûõ èññëåäîâàíèé ñâèäåòåëüñòâóþò î òîì, ÷òî #-êëàññèôèêàòîð ÿâíî ïðåâîñõî-
äèò êëàññèôèêàòîð ìàêñèìàëüíîé ãëóáèíû, à êëàññèôèêàòîð íà îñíîâå äèñòàí-
öèîííîãî ïðîñòðàíñòâà àíàëîãè÷íî ïðåâîñõîäèò êëàññèôèêàòîð íà îñíîâå ôóíê-
öèè ìèíèìàëüíîãî ðàññòîÿíèÿ. Ó÷èòûâàÿ, ÷òî äâóìåðíàÿ íîðìàëüíàÿ
àñèììåòðèÿ ñîäåðæèò àñèììåòðè÷íóþ ãðóïïó, êëàññèôèêàòîðû íà îñíîâå óäà-
ëåííîé ìåðû êîíöåíòðàöèè è ñêîððåêòèðîâàííîé îòäàëåííîñòè èìåþò ïðåèìó-
ùåñòâî ïåðåä êëàññèôèêàòîðîì íà îñíîâå ôóíêöèè îòäàëåííîñòè Øòàõåëÿ–Äî-
íîõüþ, êîòîðàÿ ïðåäïîëàãàåò ñèììåòðèþ äàííûõ.
Ñëåäóåò îòìåòèòü, ÷òî â ïðîöåññå ïðèìåíåíèÿ #-êëàññèôèêàòîðà äëÿ ôóíê-
öèè àñèììåòðè÷íî ñêîððåêòèðîâàííîé ýêñòðàïîëÿöèîííîé ãëóáèíû, à òàêæå
êëàññèôèêàòîðà íà îñíîâå äèñòàíöèîííîãî ïðîñòðàíñòâà áûëè ïîëó÷åíû íàèáî-
ëåå íèçêèå êîýôôèöèåíòû îøèáî÷íîé êëàññèôèêàöèè.
64 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3
Ðèñ. 2. #-ñõåìà áàíêîâñêèõ äàííûõ (íà îñíîâå ïîëóïðîñòðàíñòâåííîé ãëóáèíû)
Ã
ë
ó
á
è
í
à
ä
àí
í
û
õ
ä
ë
ÿ
#
d
Ãëóáèíà äàííûõ äëÿ �#d
0.1 0.2 0. 3 0. 4 0 5
0.5
0.4
0.3
0.2
0.1
0
Àíàëèçèðóÿ ðåçóëüòàòû äëÿ âòîðîãî ñëó÷àÿ, îòìåòèì, ÷òî íèçêèé ïðîöåíò
îøèáî÷íîé êëàññèôèêàöèè ïîëó÷åí #-êëàññèôèêàòîðîì ñ èñïîëüçîâàíèåì ôóíê-
öèè ýêñòðàïîëÿöèîííîé ãëóáèíû è ôóíêöèè àñèììåòðè÷íî ñêîððåêòèðîâàííîé
ýêñòðàïîëÿöèîííîé ãëóáèíû, à òàêæå êëàññèôèêàòîðîì íà îñíîâå äèñòàíöèîííî-
ãî ïðîñòðàíñòâà.
ÇÀÊËÞ×ÅÍÈÅ
 ñëó÷àå, êîãäà äèñïåðñèÿ äàííûõ îáóñëîâëåíà íàïðàâëåíèåì, â êîòîðîì îíà
èçìåðÿåòñÿ, èñïîëüçîâàíèå áîëüøèíñòâà íåïàðàìåòðè÷åñêèõ ìåòîäîâ ðàñ-
ïîçíàâàíèÿ ìîæåò èìåòü íèçêóþ ýôôåêòèâíîñòü ïðè ðàáîòå ñ ìíîãîìåðíûìè
äàííûìè. Ýòà ïðîáëåìà ìîæåò áûòü ðåøåíà ñ ïîìîùüþ êëàññèôèêàòîðà ìàê-
ñèìàëüíîé ãëóáèíû, à òàêæå #-êëàññèôèêàòîðà áëàãîäàðÿ èõ àôôèííî-èíâàðè-
àíòíîñòè. Îäíàêî ýòè êëàññèôèêàòîðû äåìîíñòðèðóþò íèçêóþ ïðîèçâîäèòåëü-
íîñòü ïðè ñî÷åòàíèè ñ ôóíêöèÿìè ãëóáèíû, êîòîðûå îáðàùàþòñÿ â íóëü çà
ïðåäåëàìè âûïóêëîé îáîëî÷êè äàííûõ.
Ó÷èòûâàÿ àêòóàëüíîñòü óêàçàííîé ïðîáëåìàòèêè, áûë ïðåäëîæåí ãëóáèí-
íûé ìåòîä êëàññèôèêàöèè ñ èñïîëüçîâàíèåì óäàëåííîé ìåðû êîíöåíòðàöèè äàí-
íûõ. Áûëè èññëåäîâàíû ñâîéñòâà ýòîãî ìåòîäà, ïîçâîëÿþùèå îòîáðàæàòü àñèì-
ìåòðèþ äàííûõ. Ñóòü ïðåäëîæåííîãî ìåòîäà çàêëþ÷àåòñÿ â îòîáðàæåíèè äèñ-
òàíöèîííîãî ïðîñòðàíñòâà ñ èñïîëüçîâàíèåì óäàëåííîé ìåðû êîíöåíòðàöèè
äàííûõ, îòäàëåííîñòè Øòàõåëÿ–Äîíîõüþ è ñêîððåêòèðîâàííîé îòäàëåííîñòè.
 ðåçóëüòàòå ïðîâåäåííîãî èññëåäîâàíèÿ áûëî óñòàíîâëåíî, ÷òî äëÿ êëàññè-
ôèêàöèè ìîäèôèöèðîâàííûõ äàííûõ ïîñëå ïðèìåíåíèÿ #-êëàññèôèêàòîðà ðàçäå-
ëèòåëüíûé ïîëèíîìèàëüíûé ìåòîä èìååò íèçêóþ ïðîèçâîäèòåëüíîñòü âñëåäñòâèå
íåîáõîäèìîñòè ïðèìåíåíèÿ ìåòîäà ìàæîðèòàðíîãî ãîëîñîâàíèÿ ïðè íàëè÷èè
áîëåå äâóõ ãðóïï, à òàêæå çàíèìàåò ìíîãî âðåìåíè ââèäó âûáîðà ìíîãî÷ëåíà.
Óñòàíîâëåíî, ÷òî íàèáîëåå âûñîêóþ ïðîèçâîäèòåëüíîñòü ïðîäåìîíñòðèðîâàëè
#-êëàññèôèêàòîð è êëàññèôèêàòîð íà îñíîâå äèñòàíöèîííîãî ïðîñòðàíñòâà ñ èñ-
ïîëüçîâàíèåì ìåòîäà k-áëèæàéøèõ ñîñåäåé, êîòîðûé ïðèìåíÿåòñÿ ê ìîäèôèöè-
ðîâàííûì äàííûì. Ïðåäëîæåííûé àôôèííî-èíâàðèàíòíûé ìåòîä êëàññèôèêà-
öèè ìîæåò áûòü ýôôåêòèâíî ïðèìåíåí ê ìíîãîìåðíûì äàííûì è ÿâëÿåòñÿ íà-
äåæíûì èíñòðóìåíòîì äëÿ ðåøåíèÿ ìíîãèõ ïðàêòè÷åñêèõ çàäà÷ ðàñïîçíàâàíèÿ.
ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ
1. K o n g L ., Z u o Y . Smooth depth contours characterize the underlying distribution // Journal of
Multivariate Analysis. — 2010. — 101, N 9. — P. 2223–2225.
2. L i u R . On a notion of data depth based on random simplices // The Annals of Statistics. —
1990. — 18, N 1. — P. 406–412.
3. P i g o l i D ., S a n g a l l i L . Wavelets in functional data analysis: estimation of multidimensional
curves and their derivatives // Computational Statistics and Data Analysis. — 2012. — 56, N 6. —
P. 1483–1497.
4. Z u o Y ., S e r f l i n g R . Structural properties and convergence results for contours of sample
statistical depth functions // The Annals of Statistics. — 2000. — 28, N 2. — P. 484–497.
5. L a n g e T ., M o s l e r K . , M o z h a r o v s k y i P . Fast nonparametric classification based on data
depth // Statist. Papers. — 2014. — 55. — P. 53–67.
6. O j a H ., P a i n d a v e i n e D . Optimal signed-rank tests based on hyperplanes // Journal of
Statistical Planning and Inference. — 2005. — 135. — P. 307–321.
7. R o m a n a z z i M . Influence function of halfspace depth // Journal of Multivariate Analysis. —
2001. — 77. — P. 140–159.
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 65
8. R o u s s e e u w P . J , S t r u y f A. Characterizing angular symmetry and regression symmetry //
Journal of Statistical Planning and Inference. — 2004. — 122. — P. 163–171.
9. S t r u y f A ., R o u s s e e u w P . J High-dimensional computation of the deepest location //
Computational Statistics and Data Analysis. — 2000. — 34, N 4. — P. 419–425.
10. M i z e r a I ., V o l a u f M . Continuity of halfspace depth contours and maximum depth estimators:
diagnostics of depth-related methods // Journal of Multivariate Analysis. — 2002. — 83, N 2. —
P. 367–386.
Íàä³éøëà äî ðåäàêö³¿ 30.11.2015
Î.À. Ãàëê³í
ÃËÈÁÈÍÍÈÉ ÌÅÒÎÄ ÊËÀÑÈÔ²ÊÀÖ²¯ ÍÀ ÎÑÍβ ²ÄÄÀËÅÍί ̲ÐÈ
ÊÎÍÖÅÍÒÐÀÖ²¯ ÄËß ÎÁÐÎÁÊÈ ÀÑÈÌÅÒÐÈ×ÍÈÕ ÄÀÍÈÕ
Àíîòàö³ÿ. Ðîçðîáëåíî òà äîñë³äæåíî ãëèáèííèé ìåòîä êëàñèô³êàö³¿ íà
îñíîâ³ â³ääàëåíî¿ ì³ðè êîíöåíòðàö³¿ äëÿ îáðîáêè àñèìåòðè÷íèõ äàíèõ. Ìî-
òèâàö³ºþ ïîáóäîâè ìåòîäó ñòàëà íååôåêòèâí³ñòü âèêîðèñòàííÿ á³ëüøîñò³
àô³ííî-³íâàð³àíòíèõ êëàñèô³êàòîð³â ïðè ¿õ ïîºäíàíí³ ç ôóíêö³ÿìè ãëèáèíè,
ÿê³ ïåðåòâîðþþòüñÿ â íóëü çà ìåæàìè îïóêëî¿ îáîëîíêè äàíèõ. ²äåÿ çàïðî-
ïîíîâàíîãî ìåòîäó ïîëÿãຠó â³äîáðàæåíí³ äèñòàíö³éíîãî ïðîñòîðó ç âèêî-
ðèñòàííÿì â³ääàëåíî¿ ì³ðè êîíöåíòðàö³¿, ì³ðè â³ääàëåíîñò³ Øòàõåëÿ–Äî-
íîõüþ òà ì³ðè ñêîðåêòîâàíî¿ â³ääàëåíîñò³.
Êëþ÷îâ³ ñëîâà: ôóíêö³ÿ ãëèáèíè, â³ääàëåíà ì³ðà êîíöåíòðàö³¿, áàãàòîâè-
ì³ðíà êëàñèô³êàö³ÿ.
O.A. Galkin
THE DEPTH-BASED CLASSIFICATION METHOD BASED ON REMOTE
CONCENTRATION MEASURE FOR ASYMMETRIC DATA PROCESSING
Abstract. The author develops and investigates the depth-based classification
method based on remote concentration measure for asymmetric data processing.
The motivation for the construction of the method was inefficient use of affine
invariant classifiers in combination with depth functions, which vanish outside
the convex hull. The idea of the proposed method is to map a remote space
using a remote concentration measure, Stahel–Donoho remoteness measure, and
adjusted remoteness measure.
Keywords: depth function, remote concentration measure, multi-dimensional
classification.
Ãàëêèí Àëåêñàíäð Àíàòîëüåâè÷,
êàíäèäàò ôèç.-ìàò. íàóê, àññèñòåíò êàôåäðû Êèåâñêîãî íàöèîíàëüíîãî óíèâåðñèòåòà
èìåíè Òàðàñà Øåâ÷åíêî, e-mail: galkin.o.a@gmail.com.
66 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3
|