Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных

Разработан и исследован глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных. Мотивацией построения метода стала неэффективность использования большинства аффинно-инвариантных классификаторов при их сочетании с функциями глубины, которые обращаются в...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2016
Автор: Галкин, А.А.
Формат: Стаття
Мова:Russian
Опубліковано: Інститут кібернетики ім. В.М. Глушкова НАН України 2016
Назва видання:Кибернетика и системный анализ
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/133682
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных / А.А. Галкин // Кибернетика и системный анализ. — 2016. — Т. 52, № 3. — С. 57-66. — Бібліогр.: 10 назв. — рос. .

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-133682
record_format dspace
spelling nasplib_isofts_kiev_ua-123456789-1336822025-02-09T17:10:53Z Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных Глибинний метод класифікації на основі віддаленої міри концентрації для обробки асиметричних даних The depth-based classification method based on remote concentration measure for asymmetric data processing Галкин, А.А. Кибернетика Разработан и исследован глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных. Мотивацией построения метода стала неэффективность использования большинства аффинно-инвариантных классификаторов при их сочетании с функциями глубины, которые обращаются в нуль за пределами выпуклой оболочки данных. Идея предложенного метода заключается в отображении дистанционного пространства с использованием удаленной меры концентрации, меры удаленности Штахеля–Донохью и меры скорректированной удаленности Розроблено та досліджено глибинний метод класифікації на основі віддаленої міри концентрації для обробки асиметричних даних. Мотивацією побудови методу стала неефективність використання більшості афінно-інваріантних класифікаторів при їх поєднанні з функціями глибини, які перетворюються в нуль за межами опуклої оболонки даних. Ідея запропонованого методу полягає у відображенні дистанційного простору з використанням віддаленої міри концентрації, міри віддаленості Штахеля–Донохью та міри скоректованої віддаленості. The author develops and investigates the depth-based classification method based on remote concentration measure for asymmetric data processing. The motivation for the construction of the method was inefficient use of affine invariant classifiers in combination with depth functions, which vanish outside the convex hull. The idea of the proposed method is to map a remote space using a remote concentration measure, Stahel–Donoho remoteness measure, and adjusted remoteness measure. 2016 Article Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных / А.А. Галкин // Кибернетика и системный анализ. — 2016. — Т. 52, № 3. — С. 57-66. — Бібліогр.: 10 назв. — рос. . 0023-1274 https://nasplib.isofts.kiev.ua/handle/123456789/133682 519.7 ru Кибернетика и системный анализ application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Кибернетика
Кибернетика
spellingShingle Кибернетика
Кибернетика
Галкин, А.А.
Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных
Кибернетика и системный анализ
description Разработан и исследован глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных. Мотивацией построения метода стала неэффективность использования большинства аффинно-инвариантных классификаторов при их сочетании с функциями глубины, которые обращаются в нуль за пределами выпуклой оболочки данных. Идея предложенного метода заключается в отображении дистанционного пространства с использованием удаленной меры концентрации, меры удаленности Штахеля–Донохью и меры скорректированной удаленности
format Article
author Галкин, А.А.
author_facet Галкин, А.А.
author_sort Галкин, А.А.
title Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных
title_short Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных
title_full Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных
title_fullStr Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных
title_full_unstemmed Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных
title_sort глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2016
topic_facet Кибернетика
url https://nasplib.isofts.kiev.ua/handle/123456789/133682
citation_txt Глубинный метод классификации на основе удаленной меры концентрации для обработки асимметричных данных / А.А. Галкин // Кибернетика и системный анализ. — 2016. — Т. 52, № 3. — С. 57-66. — Бібліогр.: 10 назв. — рос. .
series Кибернетика и системный анализ
work_keys_str_mv AT galkinaa glubinnyjmetodklassifikaciinaosnoveudalennojmerykoncentraciidlâobrabotkiasimmetričnyhdannyh
AT galkinaa glibinnijmetodklasifíkacíínaosnovívíddalenoímírikoncentracíídlâobrobkiasimetričnihdanih
AT galkinaa thedepthbasedclassificationmethodbasedonremoteconcentrationmeasureforasymmetricdataprocessing
first_indexed 2025-11-28T11:00:33Z
last_indexed 2025-11-28T11:00:33Z
_version_ 1850031621302910976
fulltext ÓÄÊ 519.7 À.À. ÃÀËÊÈÍ ÃËÓÁÈÍÍÛÉ ÌÅÒÎÄ ÊËÀÑÑÈÔÈÊÀÖÈÈ ÍÀ ÎÑÍÎÂÅ ÓÄÀËÅÍÍÎÉ ÌÅÐÛ ÊÎÍÖÅÍÒÐÀÖÈÈ ÄËß ÎÁÐÀÁÎÒÊÈ ÀÑÈÌÌÅÒÐÈ×ÍÛÕ ÄÀÍÍÛÕ Àííîòàöèÿ. Ðàçðàáîòàí è èññëåäîâàí ãëóáèííûé ìåòîä êëàññèôèêàöèè íà îñíîâå óäàëåííîé ìåðû êîíöåíòðàöèè äëÿ îáðàáîòêè àñèììåòðè÷íûõ äàííûõ. Ìîòèâàöèåé ïîñòðîåíèÿ ìåòîäà ñòàëà íåýôôåêòèâíîñòü èñïîëüçîâàíèÿ áîëü- øèíñòâà àôôèííî-èíâàðèàíòíûõ êëàññèôèêàòîðîâ ïðè èõ ñî÷åòàíèè ñ ôóíê- öèÿìè ãëóáèíû, êîòîðûå îáðàùàþòñÿ â íóëü çà ïðåäåëàìè âûïóêëîé îáîëî÷êè äàííûõ. Èäåÿ ïðåäëîæåííîãî ìåòîäà çàêëþ÷àåòñÿ â îòîáðàæåíèè äèñòàíöèîí- íîãî ïðîñòðàíñòâà ñ èñïîëüçîâàíèåì óäàëåííîé ìåðû êîíöåíòðàöèè, ìåðû óäà- ëåííîñòè Øòàõåëÿ–Äîíîõüþ è ìåðû ñêîððåêòèðîâàííîé óäàëåííîñòè. Êëþ÷åâûå ñëîâà: ôóíêöèÿ ãëóáèíû, óäàëåííàÿ ìåðà êîíöåíòðàöèè, ìíîãî- ìåðíàÿ êëàññèôèêàöèÿ. ÂÂÅÄÅÍÈÅ Ïðîáëåìà ïîòåíöèàëüíûõ ïîñëåäñòâèé âûáðîñîâ è ýêñòðåìàëüíûõ çíà÷åíèé ïðè ðåøåíèè ñîâðåìåííûõ çàäà÷ ðàñïîçíàâàíèÿ òðåáóåò ïîèñêà íîâûõ óñòîé- ÷èâûõ ê âûáðîñàì íåïàðàìåòðè÷åñêèõ ìåòîäîâ.  áîëüøèíñòâå ñëó÷àåâ âû- áðîñû ÿâëÿþòñÿ äîïóñòèìûìè ýëåìåíòàìè, êîòîðûå ïîñòóïàþò èç ðàçëè÷íûõ ìíîæåñòâ äàííûõ.  çàäà÷àõ êëàññèôèêàöèè ñ ó÷èòåëåì ìåòêè êëàññîâ íåêîòî- ðûõ ýëåìåíòîâ äàííûõ â ó÷åáíîì ìíîæåñòâå ìîãóò ïðèñâàèâàòüñÿ îøèáî÷íî. Áîëüøèíñòâî ìåòîäîâ êëàññèôèêàöèè ÿâëÿþòñÿ ýôôåêòèâíûìè òîëüêî ïðè ïðèìåíåíèè ê äàííûì ñ ýëëèïòè÷åñêîé ñèììåòðèåé èëè ñ ìíîãîìåðíûì íîð- ìàëüíûì ðàñïðåäåëåíèåì. Áîëüøèíñòâî ñóùåñòâóþùèõ ìåòîäîâ, êîòîðûå äàþò âîçìîæíîñòü êëàññèôèöèðîâàòü àñèììåòðè÷íûå ìíîãîìåðíûå äàííûå, ðåàëèçîâàíû íà îñíîâå ôóíêöèé ãëóáèíû. Îäíàêî òàêèå êëàññèôèêàòîðû ÷àñ- òî èìåþò äîñòàòî÷íî íèçêóþ ïðîèçâîäèòåëüíîñòü, ïîñêîëüêó ôóíêöèè ãëóáè- íû îáðàùàþòñÿ â íóëü çà ïðåäåëàìè âûïóêëîé îáîëî÷êè äàííûõ. Ó÷èòûâàÿ àêòóàëüíîñòü èññëåäóåìîé ïðîáëåìàòèêè, äàííàÿ ñòàòüÿ ïîñâÿùà- åòñÿ ðàçðàáîòêå è èññëåäîâàíèþ íîâîãî íåïàðàìåòðè÷åñêîãî ìåòîäà êëàññèôèêà- öèè, êîòîðûé îáåñïå÷èâàåò âîçìîæíîñòü îáðàáîòêè àñèììåòðè÷íûõ ìíîãîìåð- íûõ äàííûõ. Ïðåäëîæåííûé ìåòîä îòíîñèòñÿ ê êëàññó îáó÷åíèÿ ñ ó÷èòåëåì è îñíîâûâàåòñÿ íà êîíöåïöèè äèñòàíöèîííîãî ïðîñòðàíñòâà. ÎÏÐÅÄÅËÅÍÈÅ ÃËÓÁÈÍÍÛÕ ÎÁËÀÑÒÅÉ ÍÀ ÊÎÍÅ×ÍÛÕ ÂÛÁÎÐÊÀÕ Èñõîäÿ èç òðåáîâàíèé ñòàòèñòè÷åñêîé ôóíêöèè ãëóáèíû, ôóíêöèÿ ïîëóïðî- ñòðàíñòâåííîé ãëóáèíû ÿâëÿåòñÿ ìîíîòîííî óáûâàþùåé âäîëü ëèíèé, èñõîäÿ- ùèõ èç öåíòðà, à òàêæå ÿâëÿåòñÿ àôôèííî-èíâàðèàíòíîé. Êðîìå òîãî, ôóíêöèÿ ïîëóïðîñòðàíñòâåííîé ãëóáèíû ðàâíà íóëþ íà áåñêîíå÷íîñòè è äîñòèãàåò ñâî- åãî ìàêñèìàëüíîãî çíà÷åíèÿ â öåíòðå ñèììåòðèè [1]. Ôóíêöèÿ ïîëóïðîñòðàíñòâåííîé ãëóáèíû � �z pR îòíîñèòåëüíî H X îïðå- äåëÿåòñÿ êàê ìèíèìàëüíàÿ âåðîÿòíîñòíàÿ ãðóïïà, ñîäåðæàùàÿñÿ â çàêðûòîì ïî- ëóïðîñòðàíñòâå ñ ïðåäåëîì ïî z, à èìåííî F z H H b X b z d X b X( , ) inf || || � � � � �1 { }, ãäå X — ñëó÷àéíàÿ âåëè÷èíà íà R p ñ ðàñïðåäåëåíèåì H X . ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 57 � À.À. Ãàëêèí, 2016 Îáëàñòüþ �-ãëóáèíû E� ÿâëÿåòñÿ ìíîæåñòâî òî÷åê, ãëóáèíà êîòîðûõ ñî- ñòàâëÿåò íå ìåíåå �, ò.å. E z p � � �{ R } äëÿ � �� [ , ]0 1 è E z H X( , ) � �. Îòìåòèì, ÷òî ïðîôèëåì �-ãëóáèíû ÿâëÿåòñÿ ïðåäåë E� . Ïîëóïðîñòðàíñòâåííîå ñðåäíåâçâåøåííîå çíà÷åíèå îïðåäåëÿåòñÿ êàê öåíòð âåñà íàèìåíüøåé îáëàñòè, ñîäåðæàùåé òî÷êè ñ ìàêñèìàëüíîé ïîëóïðîñòðàíñòâåí- íîé ãëóáèíîé (íåïóñòàÿ îáëàñòü ãëóáèíû). Çàìåòèì, ÷òî äëÿ âîçðàñòàþùåãî � îá- ëàñòè ïîëóïðîñòðàíñòâåííîé ãëóáèíû ÿâëÿþòñÿ âûïóêëûìè, âëîæåííûìè è çàì- êíóòûìè. Êðîìå òîãî, îïðåäåëåíèå ãëóáèííûõ îáëàñòåé íà êîíå÷íûõ âûáîðêàõ, à òàêæå ïîëóïðîñòðàíñòâåííîãî ñðåäíåâçâåøåííîãî çíà÷åíèÿ ìîæíî ïîëó÷èòü ïóòåì çàìåíû H X ýìïèðè÷åñêèì âåðîÿòíîñòíûì ðàñïðåäåëåíèåì H m .  íàñòîÿùåé ñòàòüå èñïîëüçóåì òî÷å÷íóþ äèàãðàììó, êîòîðàÿ îáîáùàåò îä- íîìåðíóþ äèàãðàììó ðàçáðîñà äëÿ äâóìåðíûõ äàííûõ [2]. Êîíöåíòðàöèÿ äàííûõ ïåðâîãî òèïà ÿâëÿåòñÿ íàèìåíüøåé ãëóáèííîé îáëàñòüþ, èìåþùåé íå ìåíåå 50% âåðîÿòíîñòíîé ãðóïïû, ò.å. V E� � òàêîå, ÷òî H VX ( ) .� 0 5 è H EX ( ) .� � 0 5 äëÿ âñåõ � � . Îòìåòèì, ÷òî âíóòðè êîíöåíòðàöèè íàõîäèòñÿ ïîëóïðîñòðàíñòâåííîå ñðåäíåâçâåøåííîå çíà÷åíèå. Çèãçàãîîáðàçíîå ÷àñòè÷íî óïîðÿäî÷åííîå ìíîæåñòâî, êîòîðîå íå ÿâëÿåòñÿ ñàìîîáðàùàþùèìñÿ, ìîæíî ïîëó÷èòü ðàñøèðåíèåì äèà- ãðàììû íà êîýôôèöèåíò 3 îòíîñèòåëüíî ñðåäíåâçâåøåííîãî çíà÷åíèÿ, ïðè ýòîì òî÷êè äàííûõ çà åå ïðåäåëàìè îáîçíà÷àþòñÿ êàê âûáðîñû. Ïåòëÿ, îáðàçîâàííàÿ èç äàííûõ âòîðîãî òèïà, ÿâëÿåòñÿ âûïóêëîé îáîëî÷êîé òî÷åê âíóòðè çèãçàãîîá- ðàçíîãî ÷àñòè÷íî óïîðÿäî÷åííîãî ìíîæåñòâà. Èñïîëüçîâàíèå äèàãðàììû êîíöåíòðàöèè äàííûõ ìîòèâèðîâàíî òåì, ÷òî îíà íå çàâèñèò îò ïðåäïîëàãàåìîé ñèììåòðèè. Ïîýòîìó îíà îäèíàêîâî ýôôåêòèâíà äëÿ ñèììåòðè÷íûõ è àñèììåòðè÷íûõ äàííûõ. Çàìåòèì, ÷òî ñðåäíåâçâåøåííîå çíà÷å- íèå íå îáÿçàòåëüíî äîëæíî áûòü ðàñïîëîæåííûì âíóòðè êîíöåíòðàöèè äàííûõ, à ñàìà êîíöåíòðàöèÿ äàííûõ íå îáÿçàòåëüíî äîëæíà áûòü ýëëèïòè÷åñêîé ôîðìû. ÓÄÀËÅÍÍÀß ÌÅÐÀ ÊÎÍÖÅÍÒÐÀÖÈÈ ÄËß ÎÁÐÀÁÎÒÊÈ ÀÑÈÌÌÅÒÐÈ×ÍÛÕ ÄÀÍÍÛÕ Èäåÿ ïðåäëîæåííîãî ïîäõîäà ñîñòîèò â âû÷èñëåíèè ñòàòèñòè÷åñêîãî ðàññòîÿíèÿ ìíîãîìåðíîé òî÷êè z p�R â íàïðàâëåíèè H X íà îñíîâå ôóíêöèè ïîëóïðîñòðàí- ñòâåííîé ãëóáèíû. Äëÿ âû÷èñëåíèÿ äàííîãî ðàññòîÿíèÿ èñïîëüçóþòñÿ öåíòð è äèñïåðñèÿ H X ; äëÿ îöåíêè äèñïåðñèè ïðèìåíÿåòñÿ êîíöåíòðàöèÿ V . Ñëåäóåò îòìåòèòü, ÷òî g z g z( ) � îïðåäåëÿåòñÿ êàê ïåðåñå÷åíèå ãðàíèöû V è ëèíèè îò ïîëóïðîñòðàíñòâåííîãî ñðåäíåâçâåøåííîãî çíà÷åíèÿ � ÷åðåç z.  ðå- çóëüòàòå óäàëåííàÿ ìåðà êîíöåíòðàöèè z â X îïðåäåëÿåòñÿ ñîîòíîøåíèåì ýâêëè- äîâîé ìåòðèêè z â íàïðàâëåíèè ïîëóïðîñòðàíñòâåííîãî ñðåäíåâçâåøåííîãî çíà- ÷åíèÿ è ýâêëèäîâîé ìåòðèêè g z ê ïîëóïðîñòðàíñòâåííîìó ñðåäíåâçâåøåííîìó çíà÷åíèþ, à èìåííî ( , )z H X � 0, åñëè z � �, è ( , ) | | / | |z H z gX z� � ���� �� � â ïðîòèâíîì ñëó÷àå. Çàìåòèì, ÷òî çíàìåíàòåëü â óðàâíåíèè ( , )z H X � � � �| | | | / | | | |z g z� � îïðåäåëÿåò äèñïåðñèþ H X â íàïðàâëåíèè z.  äàííîì ñëó- ÷àå óäàëåííàÿ ìåðà êîíöåíòðàöèè ÿâëÿåòñÿ àôôèííî-èíâàðèàíòíîé, íî íå ïðåä- ïîëàãàåò íàëè÷èÿ ñèììåòðèè [3]. Îòìåòèì òàêæå, ÷òî óäàëåííàÿ ìåðà êîíöåíòðà- öèè íåÿâíî èñïîëüçóåòñÿ â äèàãðàììå êîíöåíòðàöèè äàííûõ, à çèãçàãîîáðàçíîå ÷àñòè÷íî óïîðÿäî÷åííîå ìíîæåñòâî ñîñòîèò èç òî÷åê, óäàëåííàÿ ìåðà êîíöåí- òðàöèè êîòîðûõ íå áîëåå òðåõ. Äàëåå îïðåäåëèì îáîáùåííóþ íîðìó êàê ôóíêöèþ c p: [ , [R � 0 òàêóþ, ÷òî c( )0 0� è c z( ) � 0 äëÿ z � 0; îíà óäîâëåòâîðÿåò c z c z( ) ( )� �� äëÿ �z è � � 0. 58 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3  ÷àñòíîñòè, èìååò ìåñòî îáîáùåííàÿ íîðìà c z z z( ) � � �� 1 äëÿ ãàóññîâñêîãî ðàñïðåäåëåíèÿ N ( , )0 � ñ ïîëîæèòåëüíî-îïðåäåëåííîé âåëè÷è- íîé � . Ïðåäïîëîæèì, ÷òî êîìïàêòíîå ìíîæåñòâîV èìååò ôîðìó çâåçäû â îêðåñòíîñòè íóëÿ, ò.å. äëÿ � �z V è 0 1� �� èìååì �z V� . Äëÿ � �z 0 ñòðîèì òî÷êó g z , ÷òî ÿâ- ëÿåòñÿ ñå÷åíèåì ìåæäó ëèíèåé, êîòîðàÿ âûõîäèò èç íóëÿ â íàïðàâëåíèè z, è ãðà- íèöåé ê V . Òàêæå ïðåäïîëîæèì, ÷òî íóëü íàõîäèòñÿ âíóòðè V , ò.å. ñóùåñòâóåò òàêîå � 0, äëÿ êîòîðîãî âûïîëíÿåòñÿ âêëþ÷åíèå V V( , )0 � � . Òîãäà | | | |g z 0 ïðè z � 0. Äàëåå èìååì c z( ) � 0, åñëè z � 0, è c z z g z( ) | | | | | | | |� â ïðîòèâíîì ñëó÷àå. Ïî- ñêîëüêó � 0 òàêîå, ÷òî � �1z ðàñïîëîæåíî íà ãðàíèöåV , ìîæåì îïðåäåëèòü c z( ). Òàêèì îáðàçîì, íåò íåîáõîäèìîñòè â ïîëó÷åíèè åâêëèäîâîé íîðìû. Êðîìå òîãî, ìîæíî ïðîâåðèòü, ÿâëÿåòñÿ ëè c( )� îáîáùåííîé íîðìîé, êîòîðàÿ ìîæåò íå áûòü íåïðåðûâíîé ôóíêöèåé [4]. Ëåììà 1. Ôóíêöèÿ c ÿâëÿåòñÿ âûïóêëîé è íåïðåðûâíîé, åñëè 0� int ( )V , à ìíîæåñòâî V ÿâëÿåòñÿ êîìïàêòíûì è âûïóêëûì. Äîêàçàòåëüñòâî. Íåîáõîäèìî ïîêàçàòü, ÷òî äëÿ � �z x p, R è 0 1� �� èìååò ìåñòî íåðàâåíñòâî c z x c z c x( ( ) ) ( ) ( ) ( )� � � �� � � � �1 1 . Îòìåòèì, ÷òî ôóíêöèÿ c, êî- òîðàÿ îãðàíè÷åíà ýòîé ïðÿìîé, ÿâëÿåòñÿ âûïóêëîé, ïîñêîëüêó ëèíåéíî âîçðàñ- òàåò â îáîèõ íàïðàâëåíèÿõ ïîä ðàçíûìè óãëàìè è ðàâíà íóëþ â íà÷àëå êîîðäèíàò. Çàìåòèì, ÷òî âûïóêëîñòü ôóíêöèè c èìååò ìåñòî â ñëó÷àå, êîãäà âåêòîðû { }0, ,z x ÿâëÿþòñÿ êîëëèíåàðíûìè.  ïðîòèâíîì ñëó÷àå { }0, ,z x îáðàçóþò òðåóãîëüíèê. Ââåäåì ñëåäóþùèå îáîçíà÷åíèÿ: y z x: ( )� � �� �1 , x c x gx� ( ) , z c z g z� ( ) . Ìîæíî ïðîâåðèòü, ÷òî âûïóêëîé êîìáèíàöèåé g z è gx ÿâëÿåòñÿ âûðàæåíèå y c z c x y: ( ( ) ( ) ( ))� � � �� �1 1 . Ïîñêîëüêó g g Vz x, � , ÷òî ñëåäóåò èç êîìïàêòíîñòèV , òîãäà y V� , ÷òî ñëåäó- åò èç âûïóêëîñòè V . Ïðèíèìàÿ âî âíèìàíèå, ÷òî | | | | | | | | | | | |g g yy y� � , èìååò ìåñòî ðàâåíñòâî c y y g y y c z c x y ( ) | | | | | | | | | | | | | | | | ( ) ( ) ( )� � � � �� �1 . Ëåììà äîêàçàíà. Èñïîëüçóÿ ëåììó 1, à òàêæå íåðàâåíñòâî c z x c z x c z c x c z c x( ) ( ) ( ) ( ) ( )� � � � � � � � � � � � �2 1 2 1 2 2 1 2 2 1 2 , ìîæíî óòâåðæäàòü, ÷òî ôóíêöèÿ c óäîâëåòâîðÿåò íåðàâåíñòâó òðåóãîëüíèêà. Îòñþäà ñëåäóåò, ÷òî ôóíêöèÿ c è óäàëåííàÿ ìåðà êîíöåíòðàöèè óäîâëåòâîðÿ- þò ñëåäóþùèì óñëîâèÿì: à) ôóíêöèÿ c z( ) � 0 � �z pR ; á) ôóíêöèÿ c z( ) � 0 � �z 0; â) ôóíêöèÿ c z c z( ) ( )� �� , � � 0 è � �z pR ; ã) ôóíêöèÿ c z x c z c x( ) ( ) ( )� � � � �z x p, R . ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 59 Çàìåòèì, ÷òî ïîëó÷åíèå íîðìû âîçìîæíî ïðè äîáàâëåíèè c z c z( ) ( )� � äëÿ � �z pR . Êðîìå òîãî, îáîáùàÿ ïîëó÷åííûé ðåçóëüòàò, ìîæíî ïðîâîäèòü àñèì- ìåòðè÷íóþ äèñïåðñèþ äëÿ óäàëåííîé ìåðû êîíöåíòðàöèè. Òàêæå âû÷èñëèâ f z c z c z( ) ( ( ) ( )) /� � � 2, ìîæíî ïîëó÷èòü íîðìó ýòîé ôóíêöèè.  ðåçóëüòàòå èìååò ìåñòî ðàâåíñòâî c z z z z z z z( ) | | | | / (( ) | | | | )/� � � �� � �� �1 1 2 1 , ãäå V z z z� � ��{ }; � 1 1 , à g z z zz � � � �( ) /� 1 1 2 äëÿ � �z 0. Òàêèì îáðàçîì, ìîæíî óòâåðæäàòü, ÷òî ôóíêöèÿ c îáîáùàåò ðàññòîÿíèå Ìàõàëàíîáèñà â îáîáùåííîé íîðìå: c z z z( ) � � �� 1 . Çàìåòèì, ÷òî ëåììà 1 èìååò ìåñòî, êîãäà V ÿâëÿåòñÿ âûïóêëûì ìíîæåñòâîì.  äàííîì ñëó÷àå èñïîëüçîâàíèå ôóíêöèè ýêñòðàïîëÿöèîííîé ãëóáèíû ÿâëÿåòñÿ àëüòåðíàòèâîé ãëóáèííûì îáëàñòÿì Òüþêè [5].  îäíîìåðíîì ñëó÷àå êîì- ïàêòíîå âûïóêëîå ìíîæåñòâî V â ëåììå 1 ñòàíîâèòñÿ çàìêíóòûì èíòåðâàëîì, êîòîðûé ìîæíî îïðåäåëèòü êàê V v w � � � � � � � 1 1 , ïðè v w, 0 ; c z wz vz( ) .� �� �  ëè- íåéíîé ðåãðåññèè ïðè ìèíèìèçàöèè c dii m ( )! èìååì ðåãðåññèîííûé êâàíòèëü w w v/ ( )� . Ïðè ðåøåíèè ïðàêòè÷åñêèõ çàäà÷ êëàññèôèêàöèè, êîãäà óäàëåííóþ ìåðó êîíöåíòðàöèè íóæíî âû÷èñëèòü äëÿ ìíîæåñòâà òî÷åê, íåîáõîäèìî ñíà÷àëà âû- ÷èñëÿòü êîíöåíòðàöèþ äàííûõ, à çàòåì òî÷êó ïåðåñå÷åíèÿ g z . Çàìåòèì, ÷òî âû- ÷èñëåíèå óäàëåííîé ìåðû êîíöåíòðàöèè òî÷êè z îòíîñèòåëüíî ñëó÷àéíîé âûáîð- êè âîçìîæíî ïðè èñïîëüçîâàíèè äàííûõ ìàëîé ðàçìåðíîñòè.  íåêîòîðûõ ñëó÷àÿõ, â ÷àñòíîñòè ïðè èñïîëüçîâàíèè äàííûõ áîëüøîé ðàç- ìåðíîñòè, âû÷èñëåíèå óäàëåííîé ìåðû êîíöåíòðàöèè òðåáóåò çíà÷èòåëüíî áîëü- øèõ ðåñóðñîâ [6]. Ó÷èòûâàÿ òîò ôàêò, ÷òî ôóíêöèÿ ïîëóïðîñòðàíñòâåííîé ãëóáè- íû ÿâëÿåòñÿ ìîíîòîííî óáûâàþùåé íà ïðÿìîé, ïðèìåíåíèå àëãîðèòìà áèñåêöèè ÿâëÿåòñÿ ýôôåêòèâíûì èíñòðóìåíòîì ïîèñêà ìíîãîìåðíîé òî÷êè g * íà ïðÿìîé îò � ÷åðåç z, ãäå F g H F x Hd m i d i m( , ) ( , )* �"{ }.  äàííîì ñëó÷àå xi ÿâëÿþòñÿ òî÷êàìè äàííûõ, à " — ñðåäíåâçâåøåííûì çíà÷åíèåì. ÏÐÎÅÊÒÈÐÎÂÀÍÈÅ ÄÀÍÍÛÕ ÍÀ ÎÑÍÎÂÅ ÎÄÍÎÌÅÐÍÎÉ ÌÅÐÛ ÎÒÄÀËÅÍÍÎÑÒÈ Àôôèííî-èíâàðèàíòíàÿ ôóíêöèÿ ýêñòðàïîëÿöèîííîé ãëóáèíû ÿâëÿåòñÿ îáðàò- íîé ïî îòíîøåíèþ ê ôóíêöèè îòäàëåííîñòè Øòàõåëÿ–Äîíîõüþ. Ñîãëàñíî ãåî- ìåòðè÷åñêîìó òîëêîâàíèþ ýòîé ôóíêöèè ìíîãîìåðíûé âûáðîñ äîëæåí áûòü îòäàëåííûì êàê ìèíèìóì â îäíîì íàïðàâëåíèè. Ïðåäëîæåííûé ïîäõîä çà- êëþ÷àåòñÿ â ïðîåêòèðîâàíèè äàííûõ íà ìíîæåñòâî ïðÿìûõ ñ èñïîëüçîâàíèåì îäíîìåðíîé ìåðû îòäàëåííîñòè íà ïðîåêöèÿõ. Ìíîæåñòâî äàííûõ ôóíêöèè îòäàëåííîñòè Øòàõåëÿ–Äîíîõüþ ïðîèçâîëü- íîé òî÷êè z îòíîñèòåëüíî ñëó÷àéíîé âåëè÷èíû X ñ ðàñïðåäåëåíèåì H X îïðåäå- ëÿåòñÿ êàê D z H b z b X b X SH X b ( , ) | ( )| ( )|| || � � � � �� sup 1 " # , ãäå # — ñðåäíåå àáñîëþòíîå îòêëîíåíèå. Îòñþäà èìååì ôóíêöèþ ýêñòðàïîëÿ- 60 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 öèîííîé ãëóáèíû F z H D z H e X SH X ( , ) ( , ) � � 1 1 . Çàìåòèì, ÷òî ôóíêöèÿ îòäàëåííîñòè Øòàõåëÿ–Äîíîõüþ ÿâëÿåòñÿ áîëåå ïîä- õîäÿùåé äëÿ ñèììåòðè÷íûõ ðàñïðåäåëåíèé, ïîñêîëüêó èìååò ñðåäíåå àáñîëþòíîå îòêëîíåíèå â çíàìåíàòåëå è àáñîëþòíîå îòêëîíåíèå â ÷èñëèòåëå.  ñëó÷àå àñèììåòðè÷íûõ ðàñïðåäåëåíèé ýôôåêòèâíûì èíñòðóìåíòîì ÿâëÿ- åòñÿ ôóíêöèÿ ñêîððåêòèðîâàííîé îòäàëåííîñòè íà îñíîâå ìåòîäà íåçàâèñèìûõ êîìïîíåíò [7].  êà÷åñòâå íàäåæíîé ìåðû àñèììåòðèè ôóíêöèÿ ñêîððåêòèðîâàí- íîé îòäàëåííîñòè èñïîëüçóåò M-ñòàòèñòèêó îäíîìåðíîãî ìíîæåñòâà äàííûõ Y y ym� { }1, ,� , îïðåäåëÿåìóþ êàê M( , , ) ( ) ( ) , y y y y y y y y m i l l t t t t i l i 1 � � � � � � " " " , ãäå � � �1 1M , à i è l óäîâëåòâîðÿþò òàêèì óñëîâèÿì: y y yi t t l� �" ( ) è y yi l� . Çàìåòèì, ÷òî M� 0 è M 0 îçíà÷àþò ëåâóþ è ïðàâóþ àñèììåòðèþ ñî- îòâåòñòâåííî, à ïðè M � 0 èìååì ñëó÷àé ñèììåòðè÷íûõ ðàñïðåäåëåíèé. Äàëåå ââåäåì ïîíÿòèå ìåðû ñêîððåêòèðîâàííîé îòäàëåííîñòè O : O sup O 1 ( , ) ( , ) || || z H b z HX b b X� � � � 1 , ãäå O1 — ìåðà îäíîìåðíîé ñêîððåêòèðîâàííîé îòäàëåííîñòè, O1 2 ( , ) ( ) ( ) ( ) y Y y Y a Y Y � � � " " , åñëè y Y " ( ) è O1 1 ( , ) ( ) ( ) ( ) y Y Y y Y a y � � � " " , åñëè y Y� " ( ). Çàìåòèì, ÷òî çíàìåíàòåëü â âûðàæåíèÿõ O1 ( , )y Y ñîîòâåòñòâóåò çèãçàãîîá- ðàçíîìó ÷àñòè÷íî óïîðÿäî÷åííîìó ìíîæåñòâó îäíîìåðíîé ñêîððåêòèðîâàííîé äèàãðàììû êîíöåíòðàöèè äàííûõ. Êðîìå òîãî, èìåþò ìåñòî âûðàæåíèÿ a Y W Y e Q YY 1 1 41 5( ) ( ) . ( )( )� � � M è a Y W Y e Q YY 2 3 31 5( ) ( ) . ( )( )� � � M , ãäå Q ÿâëÿåò- ñÿ ìåæêâàðòèëüíûì äèàïàçîíîì.  ñëó÷àå, åñëè M( )Y � 0, çàìåíÿåì ( , )y Y íà ( , )� �y Y . Åñëè M( )Y � 0, èìååì Q Y W Y W Y( ) ( ) ( )� �3 1 , ãäå W Y1 ( ) è W Y3 ( ) îïðå- äåëÿþò ïåðâóþ è òðåòüþ êâàðòèëè Y . Îïðåäåëèì ôóíêöèþ àñèììåòðè÷íî ñêîððåêòèðîâàííîé ýêñòðàïîëÿöèîííîé ãëóáèíû ~ ( , ) ( , ) F z H z H e X X � � 1 1 O . Ââèäó íåâîçìîæíîñòè èñïîëüçîâàíèÿ âñåõ íàïðàâëåíèé b ïðèìåíåíèå ïðè- áëèæåííûõ àëãîðèòìîâ ÿâëÿåòñÿ ýôôåêòèâíûì èíñòðóìåíòîì äëÿ âû÷èñëåíèÿ ôóíêöèè êîíå÷íî-âûáîðî÷íîé àñèììåòðè÷íî ñêîððåêòèðîâàííîé ýêñòðàïîëÿöè- îííîé ãëóáèíû [8].  ðåçóëüòàòå ïðè ðàññìîòðåíèè íàïðàâëåíèé b, êîòîðûå ÿâëÿ- þòñÿ îðòîãîíàëüíûìè ê àôôèííîé ãèïåðïëîñêîñòè ÷åðåç p�1 ñëó÷àéíóþ òî÷êó äàííûõ, áûë ïîëó÷åí êîìïëåêñíûé àôôèííî-èíâàðèàíòíûé ïîäõîä. Ìåòîä k-áëèæàéøèõ ñîñåäåé ÿâëÿåòñÿ îäíèì èç íàèáîëåå ýôôåêòèâíûõ íå- ïàðàìåòðè÷åñêèõ êëàññèôèêàòîðîâ, êîòîðûé äëÿ êàæäîãî íîâîãî ýëåìåíòà íàõîäèò k òî÷åê äàííûõ, áëèæàéøèõ ê íåìó, è ïðèñâàèâàåò åãî ê ïðåîáëàäàþ- ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 61 ùåé ãðóïïå ñðåäè ýòèõ ñîñåäåé. Íàèáîëåå ÷àñòî äëÿ ìèíèìèçàöèè êîýôôèöèåíòà îøèáî÷íîé êëàññèôèêàöèè èñïîëüçóåòñÿ ìåòîä ïåðåêðåñòíîé ïðîâåðêè äëÿ âû- áîðà çíà÷åíèÿ k. Ïîäõîä íà îñíîâå ôóíêöèè ìàêñèìàëüíîé ãëóáèíû ìîæåò áûòü ïðèìåíåí ê äâóì è áîëåå ãðóïïàì è ïîçâîëÿåò ïðèñâàèâàòü íîâûé ýëåìåíò ê ãðóïïå, â êîòî- ðîé îí èìååò íàèáîëüøóþ ãëóáèíó. Îäíàêî êîãäà ôóíêöèÿ ãëóáèíû òîæäåñòâåí- íî ðàâíà íóëþ íà áîëüøèõ èíòåðâàëàõ, èìååò ìåñòî íàëè÷èå ìíîæåñòâà óçëîâ, ÷òî ÿâëÿåòñÿ íåäîñòàòêîì òàêîãî ïîäõîäà. Çàìåòèì, ÷òî èñïîëüçîâàíèå ôóíêöèè ýêñòðàïîëÿöèîííîé ãëóáèíû ïîçâîëèëî ðåøèòü äàííóþ ïðîáëåìó. Äëÿ ðàçâèòèÿ ìåòîäà êëàññèôèêàöèè íà îñíîâå ôóíêöèè ìàêñèìàëüíîé ãëó- áèíû àâòîðîì ïðåäëîæåí è èññëåäîâàí íîâûé #-êëàññèôèêàòîð. Èòàê, ïóñòü H1 è H 2 — ýìïèðè÷åñêèå ðàñïðåäåëåíèÿ äâóõ ãðóïï äàííûõ. Èñïîëüçóÿ ñòàòèñòè÷åñ- êóþ ôóíêöèþ ãëóáèíû ds, âûïîëíÿåì îòîáðàæåíèå ïðîèçâîëüíîé òî÷êè äàííûõ äî äâóìåðíîé òî÷êè ( ( , ), ( , ))d z H d z Hs s1 2 , ãäå z �R p. Ïîëó÷åííûå äâóìåðíûå òî÷êè îáðàçóþò #-ñõåìó, â êîòîðîé äâå ãðóïïû ýëåìåíòîâ äàííûõ èìåþò ðàçëè÷- íûå ìåòêè, íà îñíîâå ýòîé ñõåìû ïðîâîäèòñÿ êëàññèôèêàöèÿ äàííûõ. Ìåòîä êëàññèôèêàöèè íà îñíîâå ôóíêöèè ìàêñèìàëüíîé ãëóáèíû áàçèðóåò- ñÿ íà êîíöåïöèè ðàçäåëåíèÿ äàííûõ îòíîñèòåëüíî ïðÿìîé, ïðîõîäÿùåé ÷åðåç íà- ÷àëî êîîðäèíàò. Åñëè ýëåìåíò äàííûõ ðàñïîëàãàåòñÿ âûøå ìíîãî÷ëåíà, òî îí îò- íîñèòñÿ ê ïåðâîé ãðóïïå, â ïðîòèâíîì ñëó÷àå — êî âòîðîé ãðóïïå. Îòìåòèì, ÷òî íåäîñòàòêàìè #-êëàññèôèêàòîðà ÿâëÿåòñÿ íåîáõîäèìîñòü ïðèìåíåíèÿ ìåòîäà ìàæîðèòàðíîãî ãîëîñîâàíèÿ ïðè íàëè÷èè áîëåå äâóõ ãðóïï äàííûõ, à òàêæå âû- ÷èñëèòåëüíàÿ ñëîæíîñòü íàõîæäåíèÿ íàèáîëåå ýôôåêòèâíîãî ðàçäåëèòåëüíîãî ìíîãî÷ëåíà. Ââèäó ýôôåêòèâíîñòè àôôèííî-èíâàðèàíòíîñòè ïðè ðåøåíèè ìíîãîêëàññî- âûõ çàäà÷ êëàññèôèêàöèè ñóòü äàííîãî ïîäõîäà çàêëþ÷àåòñÿ â ñèíòåçå ôóíêöèè ñêîððåêòèðîâàííîé îòäàëåííîñòè è óäàëåííîé ìåðû êîíöåíòðàöèè. Ýòè ôóíê- öèè, êîòîðûå ÿâëÿþòñÿ ñòîéêèìè ê âûáðîñàì è ýêñòðåìàëüíûì çíà÷åíèÿì, ìîæ- íî èñïîëüçîâàòü äëÿ àñèììåòðè÷íûõ äàííûõ. Ïðåäïîëîæèì, ÷òî H c ÿâëÿåòñÿ ýìïèðè÷åñêèì ðàñïðåäåëåíèåì äàííûõ èç ãðóïïû c C�1, ,� , ãäå C ìîæåò áûòü áîëüøå äâóõ. Åñëè âåëè÷èíà ~ ( , )d z H c ÿâëÿ- åòñÿ îáîáùåííûì ðàññòîÿíèåì èëè ìåðîé îòäàëåííîñòè òî÷êè z â íàïðàâëåíèè c-é âûáîðêè äàííûõ, îòîáðàæàåì òî÷êó z p�R â íàïðàâëåíèè C-ìåðíîé òî÷êè ( ~ ( , ), , ~ ( , ))d z H d z HC1 � âìåñòî òðàíñôîðìàöèè ãëóáèíû ( ( , ), ( , ))d z H d z Hs s1 2 .  äàííîì ñëó÷àå ðàçìåðíîñòü C ìîæåò áûòü ìåíüøå, áîëüøå èëè ðàâíîé èñõîä- íîé ðàçìåðíîñòè p.  ðåçóëüòàòå äëÿ îòîáðàæåíèÿ ðàññòîÿíèÿ ( ~ ( , ), , ~ ( , ))d z H d z HC1 � ìîæíî ïðèìåíÿòü ïðîèçâîëüíûé ìíîãîìåðíûé êëàññèôèêàòîð, ò.å. ëèíåéíûé èëè êâàä- ðàòè÷íûé äèñêðèìèíàíòíûé àíàëèç, ìåòîä êëàññèôèêàöèè íà îñíîâå ìèíèìàëü- íîãî ðàññòîÿíèÿ è ò.ä. [10]. Çàìåòèì, ÷òî ïîñëåäíèé ìåòîä ïðèñâàèâàåò òîëüêî ýëåìåíò z ê ãðóïïå ñ íàèìåíüøèìè êîîðäèíàòàìè â ( ~ ( , ), , ~ ( , ))d z H d z HC1 � . Ñ ó÷åòîì íåýôôåêòèâíîñòè ïðèìåíåíèÿ ìåòîäà ìàæîðèòàðíîãî ãîëîñîâàíèÿ äëÿ âñåõ îòîáðàæåííûõ òî÷åê èñïîëüçóåì ìåòîä k-áëèæàéøèõ ñîñåäåé â ñî÷åòà- íèè ñ àôôèííî-èíâàðèàíòíîñòüþ, êîòîðàÿ ïîëó÷åíà áëàãîäàðÿ îòîáðàæåíèþ äàííûõ.  ðåçóëüòàòå ýêñïåðèìåíòàëüíûõ èññëåäîâàíèé áûëî óñòàíîâëåíî, ÷òî ðàññìîòðåííûé ìåòîä íà îñíîâå óäàëåííîé ïðîñòðàíñòâåííîé ìåðû èìååò äîñòà- òî÷íî íèçêóþ ÷àñòîòó îøèáîê. Ñîîòâåòñòâóþùèå ðåçóëüòàòû áûëè ïîëó÷åíû â ïðîöåññå îòîáðàæåíèÿ ðàññòîÿíèÿ ( ~ ( , ), , ~ ( , ))d z H d z HC1 � ñ èñïîëüçîâàíèåì ìåòîäà k-áëèæàéøèõ ñîñåäåé. 62 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 ÐÅÇÓËÜÒÀÒÛ ÝÊÑÏÅÐÈÌÅÍÒÀËÜÍÎÃÎ ÈÑÑËÅÄÎÂÀÍÈß Ïðîöåäóðà îòîáðàæåíèÿ äèñòàíöèîííîãî ïðîñòðàíñòâà áûëà èññëåäîâàíà íà ðåàëüíîì ïðèìåðå. Èñïîëüçîâàíû äàííûå áàíêîâñêèõ êëèåíòîâ â ñïåöèàëèçè- ðîâàííûõ êîìïüþòåðíûõ ñèñòåìàõ. Ïðîöåäóðà âîëíîâîãî ïðåîáðàçîâàíèÿ ïðè- ìåíÿëàñü ê äàííûì ïî îòíîøåíèþ ê 1114 ïëàòåæåñïîñîáíûì è 954 íåïëàòå- æåñïîñîáíûì êëèåíòàì. Íà ðèñ. 1 îòîáðàæåí ãðàôèê äèñòàíöèîííîãî ïðîñòðàíñòâà ýòèõ äàííûõ íà îñíîâå óäàëåííîé ìåðû êîíöåíòðàöèè. Ìîæíî óâèäåòü, ÷òî äàííûå î ïëàòåæåñïî- ñîáíûõ êëèåíòàõ #d îáðàçóþò ïëîòíûé ñåêòîð ïî ñðàâíåíèþ ñ äàííûìè î íåïëà- òåæåñïîñîáíûõ êëèåíòàõ �#d . Çàìåòèì, ÷òî äàííûå î ïëàòåæåñïîñîáíûõ è íåïëà- òåæåñïîñîáíûõ êëèåíòàõ ÿâëÿþòñÿ ýôôåêòèâíî ðàçäåëåííûìè. Íà ðèñ. 2 ïîêàçàíà ïîëóïðîñòðàíñòâåííàÿ #-ñõåìà èññëåäóåìûõ äàííûõ, ãäå ïîëóïðîñòðàíñòâåííàÿ ãëóáèíà äàííûõ èç îäíîé ãðóïïû îòíîñèòåëüíî äàííûõ äðóãîé ãðóïïû ðàâíà íóëþ. Çàìåòèì, ÷òî òàêàÿ ïðîöåäóðà íå ÿâëÿåòñÿ ýôôåêòèâ- íîé äëÿ êëàññèôèêàöèè äàííûõ, ðàñïîëîæåííûõ çà ïðåäåëàìè îáåèõ îáîëî÷åê, íå- ñìîòðÿ íà òî, ÷òî âûïóêëûå îáîëî÷êè îáåèõ ãðóïï íå ïåðåñåêàþòñÿ. Ñîãëàñíî ïðîâåäåííûì ýêñïåðèìåíòàëüíûì èññëåäîâàíèÿì áûëè èñïîëüçî- âàíû ó÷åáíàÿ è òåñòîâàÿ âûáîðêè äàííûõ, êîòîðûå ñîäåðæàëè ñîîòâåòñòâåííî 100 è 1000 ýëåìåíòîâ äëÿ êàæäîãî çàïóñêà àëãîðèòìà. Ïîñêîëüêó M ÿâëÿåòñÿ îá- ùèì ðàçìåðîì ó÷åáíîé âûáîðêè, mc — ÷èñëîì ýëåìåíòîâ äàííûõ ãðóïïû c â ó÷åáíîì ìíîæåñòâå, à ec — ïðîöåíò îøèáî÷íî êëàññèôèöèðîâàííûõ ýëåìåíòîâ äàííûõ ãðóïïû c â òåñòîâîì ìíîæåñòâå, êîýôôèöèåíò îøèáî÷íîé êëàññèôèêàöèè (â ïðîöåíòàõ) âû÷èñëÿåòñÿ êàê e m Mc cc C �! 1 / . Ýòî ïîçâîëèëî îöåíèòü ýôôåêòèâíîñòü êàæäîãî èññëåäóåìîãî êëàññèôèêàòîðà. Ïîâòîðÿëàñü äàííàÿ îïåðàöèÿ 1500 ðàç äëÿ êàæäîãî ñëó÷àÿ è áûëî ïðîâåäåíî âçâåøèâàíèå êîýôôèöèåíòîâ (â ïðîöåíòàõ) îøè- áî÷íîé êëàññèôèêàöèè îòíîñèòåëüíî àïðèîðíûõ âåðîÿòíîñòåé â òåñòîâîì ìíîæåñòâå. Ðàññìîòðèì äâà ñëó÷àÿ. Ïåðâûé îõâàòûâàåò äâóìåðíóþ íîðìàëüíóþ àñèì- ìåòðèþ, êîãäà C � 2. Îòìåòèì, ÷òî ïðè ðàññìîòðåíèè äâóõ äâóìåðíûõ ðàñïðåäå- ëåíèé ïåðâàÿ ãðóïïà G1 áûëà ñãåíåðèðîâàíà èç ñòàíäàðòíîãî íîðìàëüíîãî ðàñ- ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 63 Ðèñ. 1. #-ñõåìà áàíêîâñêèõ äàííûõ (íà îñíîâå óäàëåííîé ìåðû êîíöåíòðàöèè) # d -ð àñ ñò î ÿ í è å �#d -ðàññòîÿíèå 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 ïðåäåëåíèÿ, â òî âðåìÿ êàê êîîðäèíàòû âòîðîé ãðóïïû ÿâëÿëèñü íåçàâèñèìûìè ñ ýêñïîíåíöèàëüíûì ðàñïðåäåëåíèåì è êîýôôèöèåíòîì åäèíèöà, ò.å. G N1 0 0 1 0 0 1 $ � � � � � � � � � � � � � � � � � �, , G2 $ � � � � � Exp (1) Exp (1) . Âî âòîðîì ñëó÷àå áûëà ïðîâåäåíà íîðìàëèçàöèÿ äàííûõ, ïðè êîòîðîé èñ- ïîëüçîâàëàñü ôîðìà ñïèñêà è ñðåäíåâçâåøåííîå àáñîëþòíîå îòêëîíåíèå. Çàìå- òèì, ÷òî â äàííîì ñëó÷àå C � 2.  ïðîöåññå èññëåäîâàíèÿ ãëóáèííûõ êëàññèôèêàòîðîâ áûë ïðîâåäåí ñðàâ- íèòåëüíûé àíàëèç êëàññèôèêàòîðà íà îñíîâå ôóíêöèè ïîëóïðîñòðàíñòâåííîé ãëóáèíû, êëàññèôèêàòîðà íà îñíîâå ôóíêöèè ýêñòðàïîëÿöèîííîé ãëóáèíû è êëàññèôèêàòîðà íà îñíîâå ôóíêöèè àñèììåòðè÷íî ñêîððåêòèðîâàííîé ýêñòðàïî- ëÿöèîííîé ãëóáèíû. Êðîìå òîãî, áûë ïðîâåäåí ñðàâíèòåëüíûé àíàëèç êëàññèôè- êàòîðà, îñíîâàííîãî íà óäàëåííîé ìåðå êîíöåíòðàöèè, êëàññèôèêàòîðà íà îñíîâå ôóíêöèè îòäàëåííîñòè Øòàõåëÿ–Äîíîõüþ è êëàññèôèêàòîðà íà îñíîâå ôóíêöèè ñêîððåêòèðîâàííîé îòäàëåííîñòè. Îòìåòèì, ÷òî ó÷åáíàÿ âûáîðêà ÿâëÿëàñü ñëó- ÷àéíûì îáðàçîì ñãåíåðèðîâàííûì ïîäìíîæåñòâîì, ñîñòîÿùèì èç 868 ýëåìåíòîâ äàííûõ, à òåñòîâàÿ âûáîðêà ñîñòîÿëà èç îñòàâøèõñÿ 1200 ýëåìåíòîâ äàííûõ.  ñëó÷àå äâóìåðíîé íîðìàëüíîé àñèììåòðèè ðåçóëüòàòû ýêñïåðèìåíòàëü- íûõ èññëåäîâàíèé ñâèäåòåëüñòâóþò î òîì, ÷òî #-êëàññèôèêàòîð ÿâíî ïðåâîñõî- äèò êëàññèôèêàòîð ìàêñèìàëüíîé ãëóáèíû, à êëàññèôèêàòîð íà îñíîâå äèñòàí- öèîííîãî ïðîñòðàíñòâà àíàëîãè÷íî ïðåâîñõîäèò êëàññèôèêàòîð íà îñíîâå ôóíê- öèè ìèíèìàëüíîãî ðàññòîÿíèÿ. Ó÷èòûâàÿ, ÷òî äâóìåðíàÿ íîðìàëüíàÿ àñèììåòðèÿ ñîäåðæèò àñèììåòðè÷íóþ ãðóïïó, êëàññèôèêàòîðû íà îñíîâå óäà- ëåííîé ìåðû êîíöåíòðàöèè è ñêîððåêòèðîâàííîé îòäàëåííîñòè èìåþò ïðåèìó- ùåñòâî ïåðåä êëàññèôèêàòîðîì íà îñíîâå ôóíêöèè îòäàëåííîñòè Øòàõåëÿ–Äî- íîõüþ, êîòîðàÿ ïðåäïîëàãàåò ñèììåòðèþ äàííûõ. Ñëåäóåò îòìåòèòü, ÷òî â ïðîöåññå ïðèìåíåíèÿ #-êëàññèôèêàòîðà äëÿ ôóíê- öèè àñèììåòðè÷íî ñêîððåêòèðîâàííîé ýêñòðàïîëÿöèîííîé ãëóáèíû, à òàêæå êëàññèôèêàòîðà íà îñíîâå äèñòàíöèîííîãî ïðîñòðàíñòâà áûëè ïîëó÷åíû íàèáî- ëåå íèçêèå êîýôôèöèåíòû îøèáî÷íîé êëàññèôèêàöèè. 64 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 Ðèñ. 2. #-ñõåìà áàíêîâñêèõ äàííûõ (íà îñíîâå ïîëóïðîñòðàíñòâåííîé ãëóáèíû) à ë ó á è í à ä àí í û õ ä ë ÿ # d Ãëóáèíà äàííûõ äëÿ �#d 0.1 0.2 0. 3 0. 4 0 5 0.5 0.4 0.3 0.2 0.1 0 Àíàëèçèðóÿ ðåçóëüòàòû äëÿ âòîðîãî ñëó÷àÿ, îòìåòèì, ÷òî íèçêèé ïðîöåíò îøèáî÷íîé êëàññèôèêàöèè ïîëó÷åí #-êëàññèôèêàòîðîì ñ èñïîëüçîâàíèåì ôóíê- öèè ýêñòðàïîëÿöèîííîé ãëóáèíû è ôóíêöèè àñèììåòðè÷íî ñêîððåêòèðîâàííîé ýêñòðàïîëÿöèîííîé ãëóáèíû, à òàêæå êëàññèôèêàòîðîì íà îñíîâå äèñòàíöèîííî- ãî ïðîñòðàíñòâà. ÇÀÊËÞ×ÅÍÈÅ Â ñëó÷àå, êîãäà äèñïåðñèÿ äàííûõ îáóñëîâëåíà íàïðàâëåíèåì, â êîòîðîì îíà èçìåðÿåòñÿ, èñïîëüçîâàíèå áîëüøèíñòâà íåïàðàìåòðè÷åñêèõ ìåòîäîâ ðàñ- ïîçíàâàíèÿ ìîæåò èìåòü íèçêóþ ýôôåêòèâíîñòü ïðè ðàáîòå ñ ìíîãîìåðíûìè äàííûìè. Ýòà ïðîáëåìà ìîæåò áûòü ðåøåíà ñ ïîìîùüþ êëàññèôèêàòîðà ìàê- ñèìàëüíîé ãëóáèíû, à òàêæå #-êëàññèôèêàòîðà áëàãîäàðÿ èõ àôôèííî-èíâàðè- àíòíîñòè. Îäíàêî ýòè êëàññèôèêàòîðû äåìîíñòðèðóþò íèçêóþ ïðîèçâîäèòåëü- íîñòü ïðè ñî÷åòàíèè ñ ôóíêöèÿìè ãëóáèíû, êîòîðûå îáðàùàþòñÿ â íóëü çà ïðåäåëàìè âûïóêëîé îáîëî÷êè äàííûõ. Ó÷èòûâàÿ àêòóàëüíîñòü óêàçàííîé ïðîáëåìàòèêè, áûë ïðåäëîæåí ãëóáèí- íûé ìåòîä êëàññèôèêàöèè ñ èñïîëüçîâàíèåì óäàëåííîé ìåðû êîíöåíòðàöèè äàí- íûõ. Áûëè èññëåäîâàíû ñâîéñòâà ýòîãî ìåòîäà, ïîçâîëÿþùèå îòîáðàæàòü àñèì- ìåòðèþ äàííûõ. Ñóòü ïðåäëîæåííîãî ìåòîäà çàêëþ÷àåòñÿ â îòîáðàæåíèè äèñ- òàíöèîííîãî ïðîñòðàíñòâà ñ èñïîëüçîâàíèåì óäàëåííîé ìåðû êîíöåíòðàöèè äàííûõ, îòäàëåííîñòè Øòàõåëÿ–Äîíîõüþ è ñêîððåêòèðîâàííîé îòäàëåííîñòè.  ðåçóëüòàòå ïðîâåäåííîãî èññëåäîâàíèÿ áûëî óñòàíîâëåíî, ÷òî äëÿ êëàññè- ôèêàöèè ìîäèôèöèðîâàííûõ äàííûõ ïîñëå ïðèìåíåíèÿ #-êëàññèôèêàòîðà ðàçäå- ëèòåëüíûé ïîëèíîìèàëüíûé ìåòîä èìååò íèçêóþ ïðîèçâîäèòåëüíîñòü âñëåäñòâèå íåîáõîäèìîñòè ïðèìåíåíèÿ ìåòîäà ìàæîðèòàðíîãî ãîëîñîâàíèÿ ïðè íàëè÷èè áîëåå äâóõ ãðóïï, à òàêæå çàíèìàåò ìíîãî âðåìåíè ââèäó âûáîðà ìíîãî÷ëåíà. Óñòàíîâëåíî, ÷òî íàèáîëåå âûñîêóþ ïðîèçâîäèòåëüíîñòü ïðîäåìîíñòðèðîâàëè #-êëàññèôèêàòîð è êëàññèôèêàòîð íà îñíîâå äèñòàíöèîííîãî ïðîñòðàíñòâà ñ èñ- ïîëüçîâàíèåì ìåòîäà k-áëèæàéøèõ ñîñåäåé, êîòîðûé ïðèìåíÿåòñÿ ê ìîäèôèöè- ðîâàííûì äàííûì. Ïðåäëîæåííûé àôôèííî-èíâàðèàíòíûé ìåòîä êëàññèôèêà- öèè ìîæåò áûòü ýôôåêòèâíî ïðèìåíåí ê ìíîãîìåðíûì äàííûì è ÿâëÿåòñÿ íà- äåæíûì èíñòðóìåíòîì äëÿ ðåøåíèÿ ìíîãèõ ïðàêòè÷åñêèõ çàäà÷ ðàñïîçíàâàíèÿ. ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1. K o n g L ., Z u o Y . Smooth depth contours characterize the underlying distribution // Journal of Multivariate Analysis. — 2010. — 101, N 9. — P. 2223–2225. 2. L i u R . On a notion of data depth based on random simplices // The Annals of Statistics. — 1990. — 18, N 1. — P. 406–412. 3. P i g o l i D ., S a n g a l l i L . Wavelets in functional data analysis: estimation of multidimensional curves and their derivatives // Computational Statistics and Data Analysis. — 2012. — 56, N 6. — P. 1483–1497. 4. Z u o Y ., S e r f l i n g R . Structural properties and convergence results for contours of sample statistical depth functions // The Annals of Statistics. — 2000. — 28, N 2. — P. 484–497. 5. L a n g e T ., M o s l e r K . , M o z h a r o v s k y i P . Fast nonparametric classification based on data depth // Statist. Papers. — 2014. — 55. — P. 53–67. 6. O j a H ., P a i n d a v e i n e D . Optimal signed-rank tests based on hyperplanes // Journal of Statistical Planning and Inference. — 2005. — 135. — P. 307–321. 7. R o m a n a z z i M . Influence function of halfspace depth // Journal of Multivariate Analysis. — 2001. — 77. — P. 140–159. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3 65 8. R o u s s e e u w P . J , S t r u y f A. Characterizing angular symmetry and regression symmetry // Journal of Statistical Planning and Inference. — 2004. — 122. — P. 163–171. 9. S t r u y f A ., R o u s s e e u w P . J High-dimensional computation of the deepest location // Computational Statistics and Data Analysis. — 2000. — 34, N 4. — P. 419–425. 10. M i z e r a I ., V o l a u f M . Continuity of halfspace depth contours and maximum depth estimators: diagnostics of depth-related methods // Journal of Multivariate Analysis. — 2002. — 83, N 2. — P. 367–386. Íàä³éøëà äî ðåäàêö³¿ 30.11.2015 Î.À. Ãàëê³í ÃËÈÁÈÍÍÈÉ ÌÅÒÎÄ ÊËÀÑÈÔ²ÊÀÖ²¯ ÍÀ ÎÑÍβ ²ÄÄÀËÅÍί ̲ÐÈ ÊÎÍÖÅÍÒÐÀÖ²¯ ÄËß ÎÁÐÎÁÊÈ ÀÑÈÌÅÒÐÈ×ÍÈÕ ÄÀÍÈÕ Àíîòàö³ÿ. Ðîçðîáëåíî òà äîñë³äæåíî ãëèáèííèé ìåòîä êëàñèô³êàö³¿ íà îñíîâ³ â³ääàëåíî¿ ì³ðè êîíöåíòðàö³¿ äëÿ îáðîáêè àñèìåòðè÷íèõ äàíèõ. Ìî- òèâàö³ºþ ïîáóäîâè ìåòîäó ñòàëà íååôåêòèâí³ñòü âèêîðèñòàííÿ á³ëüøîñò³ àô³ííî-³íâàð³àíòíèõ êëàñèô³êàòîð³â ïðè ¿õ ïîºäíàíí³ ç ôóíêö³ÿìè ãëèáèíè, ÿê³ ïåðåòâîðþþòüñÿ â íóëü çà ìåæàìè îïóêëî¿ îáîëîíêè äàíèõ. ²äåÿ çàïðî- ïîíîâàíîãî ìåòîäó ïîëÿãຠó â³äîáðàæåíí³ äèñòàíö³éíîãî ïðîñòîðó ç âèêî- ðèñòàííÿì â³ääàëåíî¿ ì³ðè êîíöåíòðàö³¿, ì³ðè â³ääàëåíîñò³ Øòàõåëÿ–Äî- íîõüþ òà ì³ðè ñêîðåêòîâàíî¿ â³ääàëåíîñò³. Êëþ÷îâ³ ñëîâà: ôóíêö³ÿ ãëèáèíè, â³ääàëåíà ì³ðà êîíöåíòðàö³¿, áàãàòîâè- ì³ðíà êëàñèô³êàö³ÿ. O.A. Galkin THE DEPTH-BASED CLASSIFICATION METHOD BASED ON REMOTE CONCENTRATION MEASURE FOR ASYMMETRIC DATA PROCESSING Abstract. The author develops and investigates the depth-based classification method based on remote concentration measure for asymmetric data processing. The motivation for the construction of the method was inefficient use of affine invariant classifiers in combination with depth functions, which vanish outside the convex hull. The idea of the proposed method is to map a remote space using a remote concentration measure, Stahel–Donoho remoteness measure, and adjusted remoteness measure. Keywords: depth function, remote concentration measure, multi-dimensional classification. Ãàëêèí Àëåêñàíäð Àíàòîëüåâè÷, êàíäèäàò ôèç.-ìàò. íàóê, àññèñòåíò êàôåäðû Êèåâñêîãî íàöèîíàëüíîãî óíèâåðñèòåòà èìåíè Òàðàñà Øåâ÷åíêî, e-mail: galkin.o.a@gmail.com. 66 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2016, òîì 52, ¹ 3