Вычисления на классификациях. Оценка классификаторов

Существующие методы оценки классификаторов оперируют совокупностью классов, которые сопоставимы как по вероятности появления, так и по семантической взаимосвязи, т.е. семантически независимы. Разработанная теория вычислений на классификациях позволяет решать задачу оценки классификаторов на иерархич...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Электронное моделирование
Datum:2016
1. Verfasser: Кравцов, Г.А.
Format: Artikel
Sprache:Russian
Veröffentlicht: Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України 2016
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/115847
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Вычисления на классификациях. Оценка классификаторов / Г.А. Кравцов // Электронное моделирование. — 2016. — Т. 38, № 6. — С. 15-24. — Бібліогр.: 9 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-115847
record_format dspace
spelling Кравцов, Г.А.
2017-04-14T11:06:31Z
2017-04-14T11:06:31Z
2016
Вычисления на классификациях. Оценка классификаторов / Г.А. Кравцов // Электронное моделирование. — 2016. — Т. 38, № 6. — С. 15-24. — Бібліогр.: 9 назв. — рос.
0204-3572
https://nasplib.isofts.kiev.ua/handle/123456789/115847
004.932
Существующие методы оценки классификаторов оперируют совокупностью классов, которые сопоставимы как по вероятности появления, так и по семантической взаимосвязи, т.е. семантически независимы. Разработанная теория вычислений на классификациях позволяет решать задачу оценки классификаторов на иерархических классификациях. Приведен пример расчета точности и полноты классов иерархической и плоской классификаций при одной и той же матрице неточностей.
Існуючі методи оцінки класифікаторів оперують сукупністю класів, які можуть бути співставлені як за ймовірністю появи, так і за семантичною взаємопов’язаністю, тобто семантично незалежними. Розроблена теорія обчислень на класифікаціях дозволяє розв’язати задачу оцінки класифікаторів на ієрархічних класифікаціях. Наведено приклад розрахунку точності та повноти для класів ієрархічної та плоскої класифікацій за умови тієї ж самої матриці неточностей.
The existing methods of classifier assessment use a set of classes which are comparable both by the probability of appearànce and by semantical interrelation that is they are semantically independent. The developed theory of calculus over classification permits solving the issue of classifier assessment for hierarchical classifications. This papper contains the example of calculation of the precision and completeness of classes of plane-level and multi-level classification with the same confusing matrix.
ru
Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України
Электронное моделирование
Математическое моделирование и вычислительные методы
Вычисления на классификациях. Оценка классификаторов
The Calculus over Classifications. Assessment of Classifiers
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Вычисления на классификациях. Оценка классификаторов
spellingShingle Вычисления на классификациях. Оценка классификаторов
Кравцов, Г.А.
Математическое моделирование и вычислительные методы
title_short Вычисления на классификациях. Оценка классификаторов
title_full Вычисления на классификациях. Оценка классификаторов
title_fullStr Вычисления на классификациях. Оценка классификаторов
title_full_unstemmed Вычисления на классификациях. Оценка классификаторов
title_sort вычисления на классификациях. оценка классификаторов
author Кравцов, Г.А.
author_facet Кравцов, Г.А.
topic Математическое моделирование и вычислительные методы
topic_facet Математическое моделирование и вычислительные методы
publishDate 2016
language Russian
container_title Электронное моделирование
publisher Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України
format Article
title_alt The Calculus over Classifications. Assessment of Classifiers
description Существующие методы оценки классификаторов оперируют совокупностью классов, которые сопоставимы как по вероятности появления, так и по семантической взаимосвязи, т.е. семантически независимы. Разработанная теория вычислений на классификациях позволяет решать задачу оценки классификаторов на иерархических классификациях. Приведен пример расчета точности и полноты классов иерархической и плоской классификаций при одной и той же матрице неточностей. Існуючі методи оцінки класифікаторів оперують сукупністю класів, які можуть бути співставлені як за ймовірністю появи, так і за семантичною взаємопов’язаністю, тобто семантично незалежними. Розроблена теорія обчислень на класифікаціях дозволяє розв’язати задачу оцінки класифікаторів на ієрархічних класифікаціях. Наведено приклад розрахунку точності та повноти для класів ієрархічної та плоскої класифікацій за умови тієї ж самої матриці неточностей. The existing methods of classifier assessment use a set of classes which are comparable both by the probability of appearànce and by semantical interrelation that is they are semantically independent. The developed theory of calculus over classification permits solving the issue of classifier assessment for hierarchical classifications. This papper contains the example of calculation of the precision and completeness of classes of plane-level and multi-level classification with the same confusing matrix.
issn 0204-3572
url https://nasplib.isofts.kiev.ua/handle/123456789/115847
citation_txt Вычисления на классификациях. Оценка классификаторов / Г.А. Кравцов // Электронное моделирование. — 2016. — Т. 38, № 6. — С. 15-24. — Бібліогр.: 9 назв. — рос.
work_keys_str_mv AT kravcovga vyčisleniânaklassifikaciâhocenkaklassifikatorov
AT kravcovga thecalculusoverclassificationsassessmentofclassifiers
first_indexed 2025-11-25T23:46:37Z
last_indexed 2025-11-25T23:46:37Z
_version_ 1850583632275570688
fulltext ÓÄÊ 004.932 Ã.À. Êðàâöîâ, êàíä. òåõí. íàóê Èí-ò ïðîáëåì ìîäåëèðîâàíèÿ â ýíåðãåòèêå èì. Ã.Å. Ïóõîâà ÍÀÍ Óêðàèíû (Óêðàèíà, 03164, Êèåâ, óë. Ãåíåðàëà Íàóìîâà, 15, e-mail: hryhoriy.kravtsov@gmail.com) Âû÷èñëåíèÿ íà êëàññèôèêàöèÿõ. Îöåíêà êëàññèôèêàòîðîâ Ñóùåñòâóþùèå ìåòîäû îöåíêè êëàññèôèêàòîðîâ îïåðèðóþò ñîâîêóïíîñòüþ êëàññîâ, êîòîðûå ñîïîñòàâèìû êàê ïî âåðîÿòíîñòè ïîÿâëåíèÿ, òàê è ïî ñåìàíòè÷åñêîé âçàèìî- ñâÿçè, ò.å. ñåìàíòè÷åñêè íåçàâèñèìû. Ðàçðàáîòàííàÿ òåîðèÿ âû÷èñëåíèé íà êëàññèôèêà- öèÿõ ïîçâîëÿåò ðåøàòü çàäà÷ó îöåíêè êëàññèôèêàòîðîâ íà èåðàðõè÷åñêèõ êëàññèôèêà- öèÿõ. Ïðèâåäåí ïðèìåð ðàñ÷åòà òî÷íîñòè è ïîëíîòû êëàññîâ èåðàðõè÷åñêîé è ïëîñêîé êëàññèôèêàöèé ïðè îäíîé è òîé æå ìàòðèöå íåòî÷íîñòåé. ²ñíóþ÷³ ìåòîäè îö³íêè êëàñèô³êàòîð³â îïåðóþòü ñóêóïí³ñòþ êëàñ³â, ÿê³ ìîæóòü áóòè ñï³âñòàâëåí³ ÿê çà éìîâ³ðí³ñòþ ïîÿâè, òàê ³ çà ñåìàíòè÷íîþ âçàºìîïîâ’ÿçàí³ñòþ, òîáòî ñå- ìàíòè÷íî íåçàëåæíèìè. Ðîçðîáëåíà òåîð³ÿ îá÷èñëåíü íà êëàñèô³êàö³ÿõ äîçâîëÿº ðîçâ’ÿçà- òè çàäà÷ó îö³íêè êëàñèô³êàòîð³â íà ³ºðàðõ³÷íèõ êëàñèô³êàö³ÿõ. Íàâåäåíî ïðèêëàä ðîçðà- õóíêó òî÷íîñò³ òà ïîâíîòè äëÿ êëàñ³â ³ºðàðõ³÷íî¿ òà ïëîñêî¿ êëàñèô³êàö³é çà óìîâè ò³º¿ æ ñàìî¿ ìàòðèö³ íåòî÷íîñòåé. Ê ë þ ÷ å â û å ñ ë î â à: êëàññèôèêàöèÿ, êëàññèôèêàòîð, ñåìàíòèêà, òî÷íîñòü, ïîëíîòà, ìåðà îòëè÷èÿ. Åñëè îòíîñèòåëüíî äâóõ ïðîèçâîëüíûõ îáúåêòîâ âûïîëíåíà çàäà÷à îï- ðåäåëåíèÿ êëàññîâîé ïðèíàäëåæíîñòè [1] (ò.å. îïðåäåëåí êëàññ êàæäîãî îáúåêòà), òî ìîäåëü âû÷èñëåíèé íà êëàññèôèêàöèÿõ [2] ïîçâîëÿåò îïðåäå- ëèòü ìåðó îòëè÷èÿ ýòèõ îáúåêòîâ â îäíîé ïðîñòðàíñòâåííîé êëàññèôè- êàöèè. Åñëè åñòü äâå ïðîèçâîëüíûå êëàññèôèêàöèè, òî ñóùåñòâóåò äóàëü- íàÿ ìåðà [1], îòðàæàþùàÿ ñåìàíòè÷åñêèå è ñòðóêòóðíûå îòëè÷èÿ. Ïîëó- ÷åííûå ðåçóëüòàòû òåîðåòè÷åñêèõ èññëåäîâàíèé ïîçâîëÿþò ðåøèòü ðÿä ïðèêëàäíûõ çàäà÷, â òîì ÷èñëå çàäà÷ó îöåíêè êëàññèôèêàòîðîâ, âàæíîñòü êîòîðîé ñëîæíî ïåðåîöåíèòü â òåîðèè è ïðàêòèêå ìàøèííîãî îáó÷åíèÿ [3, 4]. Îäíàêî äî íàñòîÿùåãî âðåìåíè îñòàþòñÿ íåèçâåñòíûìè ðåçóëüòàòû èññëåäîâàíèé, ïîñâÿùåííûõ îöåíêå ðàáîòû êëàññèôèêàòîðîâ íà èåðàðõè- ÷åñêèõ (ìíîãîóðîâíåâûõ) êëàññèôèêàöèÿõ. Îáû÷íî çàäà÷à îïðåäåëåíèÿ ISSN 0204–3572. Ýëåêòðîí. ìîäåëèðîâàíèå. 2016. Ò. 38. ¹ 6 15 � Ã.À. Êðàâöîâ, 2016 êëàññîâîé ïðèíàäëåæíîñòè ðåøàåòñÿ äëÿ ìíîæåñòâà êëàññîâ, ñîïîñòà- âèìûõ êàê ïî âåðîÿòíîñòè ïîÿâëåíèÿ, òàê è ñåìàíòè÷åñêè. Ðàññìîòðèì çàäà÷ó îöåíêè êëàññèôèêàòîðà ïðè îïðåäåëåíèè êëàññîâîé ïðèíàäëåæíîñòè íà èåðàðõè÷åñêîé êëàññèôèêàöèè. Òåðìèíû «êëàññèôèêà- öèÿ», «êëàññèôèöèðîâàíèå», «êëàññîâàÿ ïðèíàäëåæíîñòü» ïðèâåäåíû [1]. Îáúåêò, â îòíîøåíèè êîòîðîãî âûïîëíåíà çàäà÷à îïðåäåëåíèÿ êëàññîâîé ïðèíàäëåæíîñòè, íàçûâàåòñÿ êëàññèôèöèðîâàííûì îáúåêòîì [2]. Ñîãëàñíî [5] êëàññèôèêàòîð: «1. Ñïåöèàëèñò ïî êëàññèôèêàöèè; ëèöî, çàíèìàþùååñÿ êëàññèôèêàöèåé. 2. Ïðèáîð äëÿ ñîðòèðîâêè ðóäû ïî êðóï- íîñòè çåðåí (ãîðí.)».  òî æå âðåìÿ, òåðìèí «êëàññèôèêàòîð» èñïîëü- çóåòñÿ â çíà÷åíèè ñèñòåìàòèçèðîâàííîãî ïåðå÷íÿ èìåíîâàííûõ îáúåêòîâ, êàæäîìó èç êîòîðûõ â ñîîòâåòñòâèå äàí óíèêàëüíûé êîä (íàïðèìåð, Êëàñ- ñèôèêàòîð ïðîôåññèé Óêðàèíû).  ðàáîòå [6] òåðìèí «êëàññèôèêàòîð» èñïîëüçóåòñÿ â çíà÷åíèè ìåõàíèçìà (èíñòðóìåíòà) îïðåäåëåíèÿ êëàññîâîé ïðèíàäëåæíîñòè. Ïðåäëàãàåòñÿ èñïîëüçîâàòü òåðìèí «êëàññèôèêàòîð» â çíà÷åíèè íåêî- òîðîé ñóùíîñòè, îáëàäàþùåé ñïîñîáíîñòüþ îïðåäåëåíèÿ êëàññîâîé ïðè- íàäëåæíîñòè (ïðèñâàèâàíèå îáúåêòó íåêîòîðîé ìåòêè êëàññà). Çäåñü áóäåì èñïîëüçîâàòü ñëîâî «ñóùíîñòü», òàê êàê ôóíêöèè êëàññèôèêàòîðà ìîæåò âû- ïîëíÿòü ÷åëîâåê, ìàøèíà è ÷åëîâåêî-ìàøèííûé ñèìáèîç. Äàííîå îïðåäå- ëåíèå õîðîøî ñîîòâåòñòâóåò ôîðìàëüíîìó îïðåäåëåíèþ èç ðàáîòû [3]: «Êëàñ- ñèôèêàòîðîì íàçûâàåòñÿ îòîáðàæåíèå � :c X C� , ãäå C C C C k�{ , ,..., }1 2 — êîíå÷íîå è îáû÷íî íåáîëüøîå ìíîæåñòâî ìåòîê êëàññîâ». Î÷åâèäíî, ÷òî ïðè ðåøåíèè çàäà÷è îïðåäåëåíèÿ êëàññîâîé ïðèíàä- ëåæíîñòè êëàññèôèêàòîð ìîæåò äîïóñêàòü îøèáêè.  òåîðèè è ïðàêòèêå ìàøèííîãî îáó÷åíèÿ [3] ðàçðàáîòàí ïîäõîä, ïîçâîëÿþùèé îöåíèâàòü êëàñ- ñèôèêàòîðû ñ êà÷åñòâåííîé ñòîðîíû â êîëè÷åñòâåííûõ îöåíêàõ: ïðàâèëü- íîñòü, òî÷íîñòü, ïîëíîòà è F-ìåðà. Óêàçàííûå ìåòðèêè îïðåäåëÿþò âîç- ìîæíîñòü êëàññèôèêàòîðà âûïîëíèòü çàäà÷ó óñòàíîâëåíèÿ êëàññîâîé ïðèíàäëåæíîñòè äëÿ íåêîòîðîãî òåñòîâîãî íàáîðà äàííûõ. Ñîãëàñíî [3, 7] ïîä ïðàâèëüíîñòüþ (accuracy) êëàññèôèêàòîðà ïîíè- ìàþò îòíîøåíèå ÷èñëà ïðàâèëüíî ïðèíÿòûõ êëàññèôèêàòîðîì ðåøåíèé ê ðàçìåðó òåñòîâîé âûáîðêè: Accuracy � P N/ , ãäå P — ÷èñëî äîêóìåíòîâ, ïî êîòîðûì êëàññèôèêàòîð ïðèíÿë ïðàâèëüíîå ðåøåíèå; N — ðàçìåð îáó- ÷àþùåé âûáîðêè. Íà ïðèìåðå êëàññèôèêàöèè äîêóìåíòîâ ïî ÷èñëó êëàññîâ äëÿ îïðå- äåëåíèÿ òî÷íîñòè Ä. Áàæåíîâ [7] ïèøåò: «...ó ýòîé ìåòðèêè åñòü îäíà îñî- áåííîñòü, êîòîðóþ íåîáõîäèìî ó÷èòûâàòü. Îíà ïðèñâàèâàåò âñåì äîêó- ìåíòàì îäèíàêîâûé âåñ, ÷òî ìîæåò áûòü íå êîððåêòíî â ñëó÷àå, åñëè ðàñ- ïðåäåëåíèå äîêóìåíòîâ â îáó÷àþùåé âûáîðêå ñèëüíî ñìåùåíî â ñòîðîíó Ã.À. Êðàâöîâ 16 ISSN 0204–3572. Electronic Modeling. 2016. V. 38. ¹ 6 êàêîãî-òî îäíîãî èëè íåñêîëüêèõ êëàññîâ.  ýòîì ñëó÷àå ó êëàññèôèêàòîðà åñòü áîëüøå èíôîðìàöèè ïî ýòèì êëàññàì è ñîîòâåòñòâåííî â ðàìêàõ ýòèõ êëàññîâ îí áóäåò ïðèíèìàòü áîëåå àäåêâàòíûå ðåøåíèÿ. Íà ïðàêòèêå ýòî ïðèâîäèò ê òîìó, ÷òî âû èìååòå accuracy, ñêàæåì, 80 %, íî ïðè ýòîì â ðàìêàõ êàêîãî-òî êîíêðåòíîãî êëàññà êëàññèôèêàòîð ðàáîòàåò èç ðóê âîí ïëîõî, íå îïðåäåëÿÿ ïðàâèëüíî äàæå òðåòü äîêóìåíòîâ». Äëÿ îöåíêè êà÷åñòâà ðàáîòû êëàññèôèêàòîðà ÷àùå èñïîëüçóþò ïîêà- çàòåëè òî÷íîñòè (precision) è ïîëíîòû (recall) [3], ïîëàãàÿ ïðè ýòîì, ÷òî êëàññèôèêàöèÿ ÿâëÿåòñÿ íåèçìåííîé.  ðàáîòå [7] ñëåäóþùèì îáðàçîì ïîÿñíÿåòñÿ ñóòü óêàçàííûõ ìåòðèê (ïîä ñëîâîì ñèñòåìà ïîäðàçóìåâàåòñÿ êëàññèôèêàòîð): «Òî÷íîñòü ñèñòå- ìû â ïðåäåëàõ êëàññà — ýòî äîëÿ äîêóìåíòîâ, äåéñòâèòåëüíî ïðèíàäëå- æàùèõ äàííîìó êëàññó îòíîñèòåëüíî âñåõ äîêóìåíòîâ, êîòîðûå ñèñòåìà îòíåñëà ê ýòîìó êëàññó. Ïîëíîòà ñèñòåìû — ýòî äîëÿ íàéäåííûõ êëàññè- ôèêàòîðîì äîêóìåíòîâ, ïðèíàäëåæàùèõ êëàññó îòíîñèòåëüíî âñåõ äîêó- ìåíòîâ ýòîãî êëàññà â òåñòîâîé âûáîðêå». Çíà÷åíèÿ òî÷íîñòè è ïîëíîòû äëÿ êàæäîãî êëàññà ìîãóò áûòü ðàññ÷è- òàíû íà îñíîâàíèè ñëåäóþùåé ìàòðèöû êîíòèíãåíòíîñòè: Êàòåãîðèÿ (êëàññ) Ai Ýêñïåðòíàÿ îöåíêà Ïîëîæèòåëüíàÿ Îòðèöàòåëüíàÿ Îöåíêà ñèñòåìû (êëàññèôèêàòîðà) Ïîëîæèòåëüíàÿ TP FP Îòðèöàòåëüíàÿ FN TN Çäåñü TP — èñòèííî-ïîëîæèòåëüíîå ðåøåíèå; TN — èñòèííî-îòðèöàòåëü- íîå ðåøåíèå; FP — ëîæíî-ïîëîæèòåëüíîå ðåøåíèå (îøèáêà ïåðâîãî ðîäà [8]); FN — ëîæíî-îòðèöàòåëüíîå ðåøåíèå (îøèáêà âòîðîãî ðîäà [8]). Òîãäà òî÷íîñòü è ïîëíîòà ìîãóò áûòü ðàññ÷èòàíû ïî ôîðìóëàì Precision � � TP TP FP , Recall � � TP TP FN . Òî÷íîñòü ðàáîòû êëàññèôèêàòîðà íà âûáðàííîì êëàññå îïðåäåëÿåòñÿ îòíîøåíèåì ÷èñëà îáúåêòîâ, êîòîðûå îòíåñåíû êëàññèôèêàòîðîì ê âûá- ðàííîìó êëàññó, ê ÷èñëó îáúåêòîâ, îòíåñåííûõ ê âûáðàííîìó êëàññó êëàñ- ñèôèêàòîðîì è ýêñïåðòàìè. Ïîëíîòà îïðåäåëÿåòñÿ îòíîøåíèåì ÷èñëà îáúåêòîâ, êîððåêòíî îòíå- ñåííûõ êëàññèôèêàòîðîì ê íåêîòîðîìó êëàññó, ê ÷èñëó îáúåêòîâ, îòíåñåí- íûõ ê ýòîìó æå êëàññó ýêñïåðòàìè. Êàê óêàçàíî â ðàáîòå [7], íà ïðàêòèêå çíà÷åíèÿ òî÷íîñòè è ïîëíîòû óäîáíî ðàññ÷èòûâàòü ñ èñïîëüçîâàíèåì ìàòðèöû íåòî÷íîñòåé (confusion Âû÷èñëåíèÿ íà êëàññèôèêàöèÿõ. Îöåíêà êëàññèôèêàòîðîâ ISSN 0204–3572. Ýëåêòðîí. ìîäåëèðîâàíèå. 2016. Ò. 38. ¹ 6 17 matrix). Åñëè ÷èñëî êëàññîâ îòíîñèòåëüíî íåâåëèêî (íå áîëåå 100—150), ýòîò ïîäõîä ïîçâîëÿåò íàãëÿäíî ïðåäñòàâèòü ðåçóëüòàòû ðàáîòû êëàñ- ñèôèêàòîðà. Ìàòðèöà íåòî÷íîñòåé — ýòî ìàòðèöà ðàçìåðà N N� , ãäå N — ÷èñëî êëàññîâ. Ñòîëáöû ýòîé ìàòðèöû ðåçåðâèðóþòñÿ ñîãëàñíî ýêñïåðòíûì ðå- øåíèÿì, à ñòðîêè — ñîãëàñíî ðåøåíèÿì êëàññèôèêàòîðà. Êîãäà âûïîë- íÿåòñÿ çàäà÷à îïðåäåëåíèÿ êëàññîâîé ïðèíàäëåæíîñòè äîêóìåíòà èç òåñ- òîâîé âûáîðêè, â ìàòðèöå íåòî÷íîñòåé óâåëè÷èâàåòñÿ íà åäèíèöó ÷èñëî, ñòîÿùåå íà ïåðåñå÷åíèè ñòðîêè êëàññà, îïðåäåëåííîãî êëàññèôèêàòîðîì, è ñòîëáöà êëàññà, ê êîòîðîìó äåéñòâèòåëüíî îòíîñèòñÿ äîêóìåíò. Ïóñòü Pi j, — ÷èñëî îáúåêòîâ êëàññà Ai , êëàññèôèöèðîâàííûõ êëàññè- ôèêàòîðîì êàê îòíîñÿùèåñÿ ê êëàññó A j . Íåêîòîðàÿ ìàòðèöà íåòî÷íîñòåé èìååò ñëåäóþùèé âèä: Ïîëíîòà 0,96 0,94 0,72 Recall ( )A j 1,0 Òî÷íîñòü Êëàññû A1 A2 A3 A j AN 0,95 A1 94 0 0 ... 0 1,00 A2 0 32 0 ... 0 0,29 A3 1 1 6 ... 0 Precision ( )Ai Ai ... ... ... Pi j, ... 0,98 AN 0 0 1 ... 78 Ñ ïîìîùüþ òàêîé ìàòðèöû ðàññ÷èòàòü òî÷íîñòü è ïîëíîòó äëÿ êàæ- äîãî êëàññà äîñòàòî÷íî ïðîñòî [7]. Òî÷íîñòü ðàâíÿåòñÿ îòíîøåíèþ ñîîò- âåòñòâóþùåãî äèàãîíàëüíîãî ýëåìåíòà ìàòðèöû è ñóììû âñåé ñòðîêè êëàññà, ïîëíîòà — îòíîøåíèþ äèàãîíàëüíîãî ýëåìåíòà ìàòðèöû è ñóììû âñåãî ñòîëáöà êëàññà. Òàê, äëÿ N êëàññîâ ñïðàâåäëèâû ôîðìóëû Precision ( )A P Pi i i j N i j� � �, , 1 ; (1) Recall ( )A P Pj j j i N i j� � �, , 1 . (2) Íà ðèñ. 1 ïðåäñòàâëåíû äâà âîçìîæíûõ âàðèàíòà îòíîøåíèé ìåæäó êëàññàìè. Äëÿ îäíîóðîâíåâîé êëàññèôèêàöèè (ðèñ. 1, à) ñïðàâåäëèâî íå- ðàâåíñòâî 1� �i N, ãäå N — ÷èñëî êëàññîâ êëàññèôèêàöèè; Ai — ïðîèç- âîëüíûé êëàññ. Äëÿ ìíîãîóðîâíåâîé êëàññèôèêàöèè (ðèñ. 1, á) âåðíû Ã.À. Êðàâöîâ 18 ISSN 0204–3572. Electronic Modeling. 2016. V. 38. ¹ 6 ñëåäóþùèå îãðàíè÷åíèÿ:1� �i N,1� �j N, i j . Íåîáõîäèìî çàìåòèòü, ÷òî ïðåäñòàâëåííàÿ íà ðèñ. 1, á, äâóõóðîâíåâàÿ êëàññèôèêàöèÿ ÿâëÿåòñÿ ÷àñò- íûì ñëó÷àåì ìíîãîóðîâíåâîé, â êîòîðîé íåäåëèìûå êëàññû [1] (ëèñòüÿ îðèåíòèðîâàííîãî äåðåâà) ìîãóò èìåòü ðàçëè÷íûå ðàíãè [2] . Íàïîìíèì [2], ÷òî ìåðà îòëè÷èÿ íà êëàññèôèêàöèè îïðåäåëÿåòñÿ òàê: O A A R A A A R A A A R A A A R A I Y I Y I Y I I Y Y ( , ) ( , ) ( , ) ( , ) ( � � � � � � � 1 1 , )A AI Y� �1 , (3) ãäå AI è AY — êëàññû â A: I, Y, — ïðîèçâîëüíûå ïóòè óòî÷íåíèÿ ïëîñêîñòè äåëåíèÿ êëàññèôèêàöèè Ai ; R — îòíîñèòåëüíîå ðàññòîÿíèå ìåæäó êëàñ- ñàìè AI è AY èêëàññèôèêàöèè A, ðàâíîå ÷èñëó óíèêàëüíûõ îïåðàöèé óòî÷íåíèÿ îò áëèæàéøåãî îáùåãî îáîáùàþùåãî êëàññà. Åñëè äàíû êëàñ- ñû A a i [ ], A b i [ ], A a b i [ , ] êëàññèôèêàöèè A, àññîöèàòèâíàÿ áèíàðíàÿ îïåðàöèÿ îáîáùåíèÿ êëàññîâ êëàññèôèêàöèè èìååò âèä [2] A A Aa i b i [ ] [ ]� � , A A Aa i a b i a i [ ] [ , ] [ ]� � , A A Ab i a b i [ ] [ , ]� � , A A Aa i [ ]� � . Çäåñü A ÿâëÿåòñÿ èäåìïîòåíòîì, èëè íóëåì, îïåðàöèè îáîáùåíèÿ êëàññîâ îòíîñèòåëüíî ñàìîé ñåáÿ, A A A� � , è âñåõ óòî÷íÿþùèõ êëàññîâ êëàññè- ôèêàöèè A A AI i � � . Ñîãëàñíî (3) ìåðà îòëè÷èÿ äëÿ îäíîóðîâíåâîé êëàññèôèêàöèè ìåæ- äó äâóìÿ ëþáûìè êëàññàìè Ai è A j èìååò âèä Q A Ai j( , ) �0, åñëè i j� , Âû÷èñëåíèÿ íà êëàññèôèêàöèÿõ. Îöåíêà êëàññèôèêàòîðîâ ISSN 0204–3572. Ýëåêòðîí. ìîäåëèðîâàíèå. 2016. Ò. 38. ¹ 6 19 Ðèñ.1. Îäíîóðîâíåâàÿ (à) è ìíîãîóðîâíåâàÿ (á) êëàññèôèêàöèè è Q A Ai j( , ) /�2 3, åñëè i j . Äëÿ ìíîãîóðîâíåâîé êëàññèôèêàöèè Q A Ai j( , ) �0, åñëè i j� . Åñëè i j , íè÷åãî îïðåäåëåííîãî ñêàçàòü íåëüçÿ. Ââåäåì ìóëüòèïëèêàòîð îøèáêè êëàññèôèöèðîâàíèÿ M I Y, , îïðåäåëÿþ- ùèé ñêîððåêòèðîâàííóþ ìåðó îòëè÷èÿ ìåæäó êëàññàìè êëàññèôèêàöèè: M O A AI Y I Y, ( , )� , åñëè I Y , M I Y, �1, åñëè I Y� . (4) Ïðåäñòàâèì (1) â âèäå óðàâíåíèÿ Precision ( )A M P M P P M P i i i i i j N i j i j i i j N i j � � � � � � , , , , , , 1 1 i j, (5) è ïðîàíàëèçèðóåì åãî ñâîéñòâà. Áóäåì ïîëàãàòü, ÷òî (5) åñòü òåîðåòè÷åñ- êàÿ òî÷íîñòü êëàññèôèêàòîðà íà êëàññèôèêàöèè. Î÷åâèäíî, ÷òî äëÿ (5) âûïîëíÿåòñÿ óñëîâèå P M P P P i i j N i j i j i i j N i j , , , , , � � � � � 1 1 , ò.å. òåîðåòè÷åñêàÿ òî÷íîñòü áîëüøå èëè ðàâíà èñïîëüçóåìîé íà ïðàêòèêå. Åñëè Pi j, � 0 ïðè i j , à Pi i, 0, òî òåîðåòè÷åñêàÿ è ïðàêòè÷åñêàÿ òî÷íîñòè ðàâíû åäèíèöå: P M P P P i i j N i j i j i i j N i j , , , , , � � � � � � 1 1 1. Ïî àíàëîãèè ñ (5) ôîðìóëó ïîëíîòû (2) ïðåäñòàâèì â âèäå Recall ( )A M P M P P M P j j j j j i N i j i j j j i N i j i j � � � � � � , , , , , , , 1 1 . (6) Áóäåì ïîëàãàòü, ÷òî (6) åñòü òåîðåòè÷åñêàÿ ïîëíîòà êëàññèôèêàòîðà íà êëàññèôèêàöèè. Î÷åâèäíî, ÷òî äëÿ (6) âûïîëíÿåòñÿ óñëîâèå P M P P P j j i N i j i j j j i N i j , , , , , � � � � � 1 1 , ò.å. òåîðåòè÷åñêàÿ ïîëíîòà áîëüøå èëè ðàâíà èñïîëüçóåìîé íà ïðàêòèêå. Ã.À. Êðàâöîâ 20 ISSN 0204–3572. Electronic Modeling. 2016. V. 38. ¹ 6 Ñëåäîâàòåëüíî, êëàññèôèêàòîð ðàáîòàåò êîððåêòíî, åñëè âûïîëíÿåòñÿ óñëîâèå Recall ( )Ai �1è Precision ( )Ai �1, ãäå1� �i N, ò.å. äëÿ ëþáîãî êëàññà òî÷íîñòü è ïîëíîòà ðàâíû åäèíèöå. Ðàññìîòðèì èçëîæåííîå íà ïðèìåðå. Ïóñòü äàíû äâå êëàññèôèêàöèè, ïðåäñòàâëåííûå íà ðèñ. 2, è ñëåäóþùàÿ ãèïîòåòè÷åñêàÿ ìàòðèöà íåòî÷- íîñòåé (confusion matrix) äëÿ ñåìè êëàññîâ: Êëàññû A1 A2 A3 A4 A5 A6 A7 A1 9 0 0 0 1 0 1 A2 0 7 0 2 0 1 0 A3 0 0 10 0 0 0 2 A4 5 0 0 6 0 3 0 A5 0 1 0 0 3 0 0 A6 0 0 0 0 0 5 0 A7 1 0 3 0 0 0 8 Äëÿ ñðàâíåíèÿ ïðåäñòàâèì âû÷èñëåíèÿ òî÷íîñòè è ïîëíîòû äëÿ êàæ- äîãî èç êëàññîâ êëàññèôèêàöèé, èçîáðàæåííûõ íà ðèñ. 2, à è á, ñ èñïîëü- çîâàíèåì ìàòðèöû íåòî÷íîñòè. Êàê âèäíî èç òàáë. 1 è 2, ïðè îäíîé è òîé Âû÷èñëåíèÿ íà êëàññèôèêàöèÿõ. Îöåíêà êëàññèôèêàòîðîâ ISSN 0204–3572. Ýëåêòðîí. ìîäåëèðîâàíèå. 2016. Ò. 38. ¹ 6 21 Ðèñ. 2. Îäíîóðîâíåâàÿ (à) è ìíîãîóðîâíåâàÿ (á) êëàññèôèêàöèè èç ñåìè êëàññîâ (÷àñòíûé ñëó÷àé ñîîòâåòñòâåííî äëÿ ðèñ. 1, à è á) æå ìàòðèöå íåòî÷íîñòè äëÿ îäíîãî è òîãî æå ÷èñëà êëàññîâ, íî ñ ðàçëè÷íîé ñåìàíòè÷åñêîé ñòðóêòóðîé, ïîêàçàòåëè òî÷íîñòè è ïîëíîòû çàâèñÿò îò ìåñòà êëàññà â êëàññèôèêàöèè è ìîãóò ñóùåñòâåííî ðàçëè÷àòüñÿ. Ïðèâåäåííûé ïðèìåð ñâèäåòåëüñòâóåò î òîì, ÷òî ïîêàçàòåëè ïîëíîòû è òî÷íîñòè èçìå- íÿþòñÿ ïðè ó÷åòå ñåìàíòè÷åñêîé âçàèìîñâÿçè êëàññîâ â êëàññèôèêàöèè. Ó÷åò ñåìàíòè÷åñêîé ñòðóêòóðû êëàññèôèêàöèè ñòàíîâèòñÿ áîëåå àê- òóàëüíûì â ñëó÷àå ðàáîòû ñ îáîáùàþùèìè ïîíÿòèÿìè (umbrella terms) ïðè êëàññèôèêàöèè äîêóìåíòîâ [9], ÷òî ÿâëÿåòñÿ äîêàçàòåëüñòâîì âîñò- ðåáîâàííîñòè ðàçðàáàòûâàåìîé òåîðèè âû÷èñëåíèé íà êëàññèôèêàöèÿõ â ðàçëè÷íûõ îáëàñòÿõ íàó÷íûõ çíàíèé. Ïðåäñòàâëÿåò òàêæå èíòåðåñ èññëå- äîâàíèå âëèÿíèÿ ñòðóêòóðû êëàññèôèêàöèè íà ïîêàçàòåëè òî÷íîñòè è ïîëíîòû. Ã.À. Êðàâöîâ 22 ISSN 0204–3572. Electronic Modeling. 2016. V. 38. ¹ 6 Êëàññ Òî÷íîñòü îïðåäåëåíèÿ êëàññà â êëàññèôèêàöèè îäíîóðîâíåâîé (ðèñ. 2, à) ìíîãîóðîâíåâîé (ðèñ. 2, á) A1 0.870967741935484 0.8571428571428571 A2 0.7777777777777778 0.7526881720430108 A3 0.8823529411764706 0.8620689655172414 A4 0.6428571428571428 0.7058823529411765 A5 0.8181818181818181 0.8 A6 0.6521739130434783 0.7352941176470589 A7 0.8 0.7729468599033816 Òàáëèöà 1 Êëàññ Ïîëíîòà îïðåäåëåíèÿ êëàññà â êëàññèôèêàöèè îäíîóðîâíåâîé (ðèñ. 2, à) ìíîãîóðîâíåâîé (ðèñ. 2, á) A1 0.6923076923076923 0.6878980891719745 A2 0.9130434782608695 0.8974358974358975 A3 0.8333333333333334 0.8064516129032258 A4 0.6428571428571428 0.6428571428571428 A5 0.8181818181818181 0.7894736842105263 A6 1.0 1.0 A7 0.7499999999999999 0.7174887892376681 Òàáëèöà 2 ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1. Êðàâöîâ Ã. Ìåðà îòëè÷èÿ êëàññèôèêàöèé // Ýëåêòðîí. ìîäåëèðîâàíèå. — 2016. — 38, ¹ 4. — Ñ. 81—97. 2. Êðàâöîâ Ã. Ìîäåëü âû÷èñëåíèé íà êëàññèôèêàöèÿõ // Òàì æå. — 2016. — 38, ¹ 1. — Ñ. 73—87. 3. Ôëàõ Ï. Ìàøèííîå îáó÷åíèå. Íàóêà è èñêóññòâî ïîñòðîåíèÿ àëãîðèòìîâ, êîòîðûå èçâëåêàþò çíàíèÿ èç äàííûõ — Ì. : Èçä-âî «ÄÌÊ Ïðåññ», 2015. — 400 ñ. 4. Êîõîíåí Ò. Ñàìîîðãàíèçóþùèåñÿ êàðòû. — Ì. : Áèíîì. Ëàáîðàòîðèÿ çíàíèé, 2008. — 655 ñ. 5. Òîëêîâûé ñëîâàðü ðóññêîãî ÿçûêà / Ïîä ðåä. Ä.Í. Óøàêîâà. Ò. 1. — Ì. : Ãîñ. èí-ò «Ñîâ. ýíöèêë.»; ÎÃÈÇ; Ãîñ. èçä-âî èíîñòð. è íàö. ñëîâ, 1935. 6. Õàéêèí Ñ. Íåéðîííûå ñåòè. Ïîëíûé êóðñ — Ì. : Èçä. äîì «Âèëüÿìñ», 2006. — 1104 ñ. 7. Áàæåíîâ Ä. Îöåíêà êëàññèôèêàòîðà (òî÷íîñòü, ïîëíîòà, F-ìåðà). — [Ýëåêòðîííûé ðåñóðñ]. — Ðåæèì äîñòóïà: http://bazhenov.me/blog/2012/07/21/classification-perfor- mance-evaluation.html. — Äàòà äîñòóïà: ìàé 2016. 8. Õàðìàí Ã. Ñîâðåìåííûé ôàêòîðíûé àíàëèç. — Ì. : Ñòàòèñòèêà, 1972. — 486 ñ. 9. Struhl S. Practical Text Analytics: Interpreting Text and Unstructured Data for Busi- ness Intelligence. Kogan Page; ed. — London, Philadelphia, New Delphi, 2015. — Ð. 272. H.À. Kravtsov THE CALCULUS OVER CLASSIFICATIONS. ASSESSMENT OF CLASSIFIERS The existing methods of classifier assessment use a set of classes which are comparable both by the probability of appearànce and by semantical interrelation that is they are semantically inde- pendent. The developed theory of calculus over classification permits solving the issue of classi- fier assessment for hierarchical classifications. This papper contains the example of calculation of the precision and completeness of classes of plane-level and multi-level classification with the same confusing matrix. K e y w o r d s: classification, classifier, semantic, precision, completeness, measure of difference. REFERENCES 1. Kravtsov, H.A. (2016), “Measure of difference between classifications”, Elektronnoe mode- lirovanie, Vol. 38, no. 4, pp. 81-97. 2. Kravtsov, H.A. (2016), “Model of computations on classifications”, Elektronnoe modeliro- vanie, Vol. 38, no. 1, pp. 73-87. 3. Flakh, P. (2015), Machinnoe obuchenie [Machine learning: The art and science of algorithms that make sense of data], Izd-vo “DMK Press”, Moscow, Russia. 4. Kokhonen, T. (2008), Samoorganizuyuschiesya karty [Self-organizing maps], Binom, Mos- cow, Russia. 5. Ushakov, D.N. (1935), Tolkovyi slovar russkogo yazyka [Russian definition dictionary], Sovetskaya entsiklopediya, Moscow, Russia. 6. Khaykin, S. (2006), Neyronnye seti. Polnyi kurs [Neural networks: A comprehensive founda- tion], Izd. “Vilyams”, Moscow, Russia. 7. Bazhenov, D. (2012), Otsenka klassifikatora. Tochnost, polnota, F- mera [Classification per- formance evaluation. Precision, completeness, F-measure], available at: http://bazhenov. me/blog/2012/07/21/classification-performance-evaluation.html (accessed 2016). Âû÷èñëåíèÿ íà êëàññèôèêàöèÿõ. Îöåíêà êëàññèôèêàòîðîâ ISSN 0204–3572. Ýëåêòðîí. ìîäåëèðîâàíèå. 2016. Ò. 38. ¹ 6 23 8. Kharman, H.H. (1972), Sovremennyi faktornyi analiz [Modern Factor Analysis], Statistika, Moscow, Russia. 9. Struhl, S. (2015), Practical text analytics: Interpreting text and unstructured data for business intelligence, 1st edition, Kogan Page, London, Philadelphia, New Delphi. Ïîñòóïèëà 21.09.16; ïîñëå äîðàáîòêè 13.10.16 ÊÐÀÂÖΠÃðèãîðèé Àëåêñååâè÷, êàíä. òåõí. íàóê, äîêòîðàíò Èí-òà ïðîáëåì ìîäåëèðîâàíèÿ â ýíåðãåòèêå èì. Ã.Å. Ïóõîâà ÍÀÍ Óêðàèíû.  2000 ã. îêîí÷èë Ñåâàñòîïîëüñêèé âîåííî-ìîðñêîé èí-ò èì. Ï.Ñ. Íàõèìîâà. Îáëàñòü íàó÷íûõ èññëåäîâàíèé — êèáåðáåçîïàñíîñòü ñìàðò-ãðèä, êðèïòîãðàôèÿ, ïðîãðàììèðîâàíèå, ðàçðàáîòêà ðàñïðåäåëåííûõ ãåòåðîãåííûõ âû÷èñëèòåëü- íûõ ñèñòåì. Ã.À. Êðàâöîâ 24 ISSN 0204–3572. Electronic Modeling. 2016. V. 38. ¹ 6