Вычисления на классификациях. Оценка классификаторов
Существующие методы оценки классификаторов оперируют совокупностью классов, которые сопоставимы как по вероятности появления, так и по семантической взаимосвязи, т.е. семантически независимы. Разработанная теория вычислений на классификациях позволяет решать задачу оценки классификаторов на иерархич...
Gespeichert in:
| Veröffentlicht in: | Электронное моделирование |
|---|---|
| Datum: | 2016 |
| 1. Verfasser: | |
| Format: | Artikel |
| Sprache: | Russian |
| Veröffentlicht: |
Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України
2016
|
| Schlagworte: | |
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/115847 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | Вычисления на классификациях. Оценка классификаторов / Г.А. Кравцов // Электронное моделирование. — 2016. — Т. 38, № 6. — С. 15-24. — Бібліогр.: 9 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-115847 |
|---|---|
| record_format |
dspace |
| spelling |
Кравцов, Г.А. 2017-04-14T11:06:31Z 2017-04-14T11:06:31Z 2016 Вычисления на классификациях. Оценка классификаторов / Г.А. Кравцов // Электронное моделирование. — 2016. — Т. 38, № 6. — С. 15-24. — Бібліогр.: 9 назв. — рос. 0204-3572 https://nasplib.isofts.kiev.ua/handle/123456789/115847 004.932 Существующие методы оценки классификаторов оперируют совокупностью классов, которые сопоставимы как по вероятности появления, так и по семантической взаимосвязи, т.е. семантически независимы. Разработанная теория вычислений на классификациях позволяет решать задачу оценки классификаторов на иерархических классификациях. Приведен пример расчета точности и полноты классов иерархической и плоской классификаций при одной и той же матрице неточностей. Існуючі методи оцінки класифікаторів оперують сукупністю класів, які можуть бути співставлені як за ймовірністю появи, так і за семантичною взаємопов’язаністю, тобто семантично незалежними. Розроблена теорія обчислень на класифікаціях дозволяє розв’язати задачу оцінки класифікаторів на ієрархічних класифікаціях. Наведено приклад розрахунку точності та повноти для класів ієрархічної та плоскої класифікацій за умови тієї ж самої матриці неточностей. The existing methods of classifier assessment use a set of classes which are comparable both by the probability of appearànce and by semantical interrelation that is they are semantically independent. The developed theory of calculus over classification permits solving the issue of classifier assessment for hierarchical classifications. This papper contains the example of calculation of the precision and completeness of classes of plane-level and multi-level classification with the same confusing matrix. ru Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України Электронное моделирование Математическое моделирование и вычислительные методы Вычисления на классификациях. Оценка классификаторов The Calculus over Classifications. Assessment of Classifiers Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Вычисления на классификациях. Оценка классификаторов |
| spellingShingle |
Вычисления на классификациях. Оценка классификаторов Кравцов, Г.А. Математическое моделирование и вычислительные методы |
| title_short |
Вычисления на классификациях. Оценка классификаторов |
| title_full |
Вычисления на классификациях. Оценка классификаторов |
| title_fullStr |
Вычисления на классификациях. Оценка классификаторов |
| title_full_unstemmed |
Вычисления на классификациях. Оценка классификаторов |
| title_sort |
вычисления на классификациях. оценка классификаторов |
| author |
Кравцов, Г.А. |
| author_facet |
Кравцов, Г.А. |
| topic |
Математическое моделирование и вычислительные методы |
| topic_facet |
Математическое моделирование и вычислительные методы |
| publishDate |
2016 |
| language |
Russian |
| container_title |
Электронное моделирование |
| publisher |
Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України |
| format |
Article |
| title_alt |
The Calculus over Classifications. Assessment of Classifiers |
| description |
Существующие методы оценки классификаторов оперируют совокупностью классов, которые сопоставимы как по вероятности появления, так и по семантической взаимосвязи, т.е. семантически независимы. Разработанная теория вычислений на классификациях позволяет решать задачу оценки классификаторов на иерархических классификациях. Приведен пример расчета точности и полноты классов иерархической и плоской классификаций при одной и той же матрице неточностей.
Існуючі методи оцінки класифікаторів оперують сукупністю класів, які можуть бути співставлені як за ймовірністю появи, так і за семантичною взаємопов’язаністю, тобто семантично незалежними. Розроблена теорія обчислень на класифікаціях дозволяє розв’язати задачу оцінки класифікаторів на ієрархічних класифікаціях. Наведено приклад розрахунку точності та повноти для класів ієрархічної та плоскої класифікацій за умови тієї ж самої матриці неточностей.
The existing methods of classifier assessment use a set of classes which are comparable both by the probability of appearànce and by semantical interrelation that is they are semantically independent. The developed theory of calculus over classification permits solving the issue of classifier assessment for hierarchical classifications. This papper contains the example of calculation of the precision and completeness of classes of plane-level and multi-level classification with the same confusing matrix.
|
| issn |
0204-3572 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/115847 |
| citation_txt |
Вычисления на классификациях. Оценка классификаторов / Г.А. Кравцов // Электронное моделирование. — 2016. — Т. 38, № 6. — С. 15-24. — Бібліогр.: 9 назв. — рос. |
| work_keys_str_mv |
AT kravcovga vyčisleniânaklassifikaciâhocenkaklassifikatorov AT kravcovga thecalculusoverclassificationsassessmentofclassifiers |
| first_indexed |
2025-11-25T23:46:37Z |
| last_indexed |
2025-11-25T23:46:37Z |
| _version_ |
1850583632275570688 |
| fulltext |
ÓÄÊ 004.932
Ã.À. Êðàâöîâ, êàíä. òåõí. íàóê
Èí-ò ïðîáëåì ìîäåëèðîâàíèÿ â ýíåðãåòèêå
èì. Ã.Å. Ïóõîâà ÍÀÍ Óêðàèíû
(Óêðàèíà, 03164, Êèåâ, óë. Ãåíåðàëà Íàóìîâà, 15,
e-mail: hryhoriy.kravtsov@gmail.com)
Âû÷èñëåíèÿ íà êëàññèôèêàöèÿõ.
Îöåíêà êëàññèôèêàòîðîâ
Ñóùåñòâóþùèå ìåòîäû îöåíêè êëàññèôèêàòîðîâ îïåðèðóþò ñîâîêóïíîñòüþ êëàññîâ,
êîòîðûå ñîïîñòàâèìû êàê ïî âåðîÿòíîñòè ïîÿâëåíèÿ, òàê è ïî ñåìàíòè÷åñêîé âçàèìî-
ñâÿçè, ò.å. ñåìàíòè÷åñêè íåçàâèñèìû. Ðàçðàáîòàííàÿ òåîðèÿ âû÷èñëåíèé íà êëàññèôèêà-
öèÿõ ïîçâîëÿåò ðåøàòü çàäà÷ó îöåíêè êëàññèôèêàòîðîâ íà èåðàðõè÷åñêèõ êëàññèôèêà-
öèÿõ. Ïðèâåäåí ïðèìåð ðàñ÷åòà òî÷íîñòè è ïîëíîòû êëàññîâ èåðàðõè÷åñêîé è ïëîñêîé
êëàññèôèêàöèé ïðè îäíîé è òîé æå ìàòðèöå íåòî÷íîñòåé.
²ñíóþ÷³ ìåòîäè îö³íêè êëàñèô³êàòîð³â îïåðóþòü ñóêóïí³ñòþ êëàñ³â, ÿê³ ìîæóòü áóòè
ñï³âñòàâëåí³ ÿê çà éìîâ³ðí³ñòþ ïîÿâè, òàê ³ çà ñåìàíòè÷íîþ âçàºìîïîâ’ÿçàí³ñòþ, òîáòî ñå-
ìàíòè÷íî íåçàëåæíèìè. Ðîçðîáëåíà òåîð³ÿ îá÷èñëåíü íà êëàñèô³êàö³ÿõ äîçâîëÿº ðîçâ’ÿçà-
òè çàäà÷ó îö³íêè êëàñèô³êàòîð³â íà ³ºðàðõ³÷íèõ êëàñèô³êàö³ÿõ. Íàâåäåíî ïðèêëàä ðîçðà-
õóíêó òî÷íîñò³ òà ïîâíîòè äëÿ êëàñ³â ³ºðàðõ³÷íî¿ òà ïëîñêî¿ êëàñèô³êàö³é çà óìîâè ò³º¿ æ
ñàìî¿ ìàòðèö³ íåòî÷íîñòåé.
Ê ë þ ÷ å â û å ñ ë î â à: êëàññèôèêàöèÿ, êëàññèôèêàòîð, ñåìàíòèêà, òî÷íîñòü, ïîëíîòà,
ìåðà îòëè÷èÿ.
Åñëè îòíîñèòåëüíî äâóõ ïðîèçâîëüíûõ îáúåêòîâ âûïîëíåíà çàäà÷à îï-
ðåäåëåíèÿ êëàññîâîé ïðèíàäëåæíîñòè [1] (ò.å. îïðåäåëåí êëàññ êàæäîãî
îáúåêòà), òî ìîäåëü âû÷èñëåíèé íà êëàññèôèêàöèÿõ [2] ïîçâîëÿåò îïðåäå-
ëèòü ìåðó îòëè÷èÿ ýòèõ îáúåêòîâ â îäíîé ïðîñòðàíñòâåííîé êëàññèôè-
êàöèè. Åñëè åñòü äâå ïðîèçâîëüíûå êëàññèôèêàöèè, òî ñóùåñòâóåò äóàëü-
íàÿ ìåðà [1], îòðàæàþùàÿ ñåìàíòè÷åñêèå è ñòðóêòóðíûå îòëè÷èÿ. Ïîëó-
÷åííûå ðåçóëüòàòû òåîðåòè÷åñêèõ èññëåäîâàíèé ïîçâîëÿþò ðåøèòü ðÿä
ïðèêëàäíûõ çàäà÷, â òîì ÷èñëå çàäà÷ó îöåíêè êëàññèôèêàòîðîâ, âàæíîñòü
êîòîðîé ñëîæíî ïåðåîöåíèòü â òåîðèè è ïðàêòèêå ìàøèííîãî îáó÷åíèÿ [3,
4]. Îäíàêî äî íàñòîÿùåãî âðåìåíè îñòàþòñÿ íåèçâåñòíûìè ðåçóëüòàòû
èññëåäîâàíèé, ïîñâÿùåííûõ îöåíêå ðàáîòû êëàññèôèêàòîðîâ íà èåðàðõè-
÷åñêèõ (ìíîãîóðîâíåâûõ) êëàññèôèêàöèÿõ. Îáû÷íî çàäà÷à îïðåäåëåíèÿ
ISSN 0204–3572. Ýëåêòðîí. ìîäåëèðîâàíèå. 2016. Ò. 38. ¹ 6 15
� Ã.À. Êðàâöîâ, 2016
êëàññîâîé ïðèíàäëåæíîñòè ðåøàåòñÿ äëÿ ìíîæåñòâà êëàññîâ, ñîïîñòà-
âèìûõ êàê ïî âåðîÿòíîñòè ïîÿâëåíèÿ, òàê è ñåìàíòè÷åñêè.
Ðàññìîòðèì çàäà÷ó îöåíêè êëàññèôèêàòîðà ïðè îïðåäåëåíèè êëàññîâîé
ïðèíàäëåæíîñòè íà èåðàðõè÷åñêîé êëàññèôèêàöèè. Òåðìèíû «êëàññèôèêà-
öèÿ», «êëàññèôèöèðîâàíèå», «êëàññîâàÿ ïðèíàäëåæíîñòü» ïðèâåäåíû [1].
Îáúåêò, â îòíîøåíèè êîòîðîãî âûïîëíåíà çàäà÷à îïðåäåëåíèÿ êëàññîâîé
ïðèíàäëåæíîñòè, íàçûâàåòñÿ êëàññèôèöèðîâàííûì îáúåêòîì [2].
Ñîãëàñíî [5] êëàññèôèêàòîð: «1. Ñïåöèàëèñò ïî êëàññèôèêàöèè; ëèöî,
çàíèìàþùååñÿ êëàññèôèêàöèåé. 2. Ïðèáîð äëÿ ñîðòèðîâêè ðóäû ïî êðóï-
íîñòè çåðåí (ãîðí.)». Â òî æå âðåìÿ, òåðìèí «êëàññèôèêàòîð» èñïîëü-
çóåòñÿ â çíà÷åíèè ñèñòåìàòèçèðîâàííîãî ïåðå÷íÿ èìåíîâàííûõ îáúåêòîâ,
êàæäîìó èç êîòîðûõ â ñîîòâåòñòâèå äàí óíèêàëüíûé êîä (íàïðèìåð, Êëàñ-
ñèôèêàòîð ïðîôåññèé Óêðàèíû). Â ðàáîòå [6] òåðìèí «êëàññèôèêàòîð»
èñïîëüçóåòñÿ â çíà÷åíèè ìåõàíèçìà (èíñòðóìåíòà) îïðåäåëåíèÿ êëàññîâîé
ïðèíàäëåæíîñòè.
Ïðåäëàãàåòñÿ èñïîëüçîâàòü òåðìèí «êëàññèôèêàòîð» â çíà÷åíèè íåêî-
òîðîé ñóùíîñòè, îáëàäàþùåé ñïîñîáíîñòüþ îïðåäåëåíèÿ êëàññîâîé ïðè-
íàäëåæíîñòè (ïðèñâàèâàíèå îáúåêòó íåêîòîðîé ìåòêè êëàññà). Çäåñü áóäåì
èñïîëüçîâàòü ñëîâî «ñóùíîñòü», òàê êàê ôóíêöèè êëàññèôèêàòîðà ìîæåò âû-
ïîëíÿòü ÷åëîâåê, ìàøèíà è ÷åëîâåêî-ìàøèííûé ñèìáèîç. Äàííîå îïðåäå-
ëåíèå õîðîøî ñîîòâåòñòâóåò ôîðìàëüíîìó îïðåäåëåíèþ èç ðàáîòû [3]: «Êëàñ-
ñèôèêàòîðîì íàçûâàåòñÿ îòîáðàæåíèå � :c X C� , ãäå C C C C k�{ , ,..., }1 2 —
êîíå÷íîå è îáû÷íî íåáîëüøîå ìíîæåñòâî ìåòîê êëàññîâ».
Î÷åâèäíî, ÷òî ïðè ðåøåíèè çàäà÷è îïðåäåëåíèÿ êëàññîâîé ïðèíàä-
ëåæíîñòè êëàññèôèêàòîð ìîæåò äîïóñêàòü îøèáêè. Â òåîðèè è ïðàêòèêå
ìàøèííîãî îáó÷åíèÿ [3] ðàçðàáîòàí ïîäõîä, ïîçâîëÿþùèé îöåíèâàòü êëàñ-
ñèôèêàòîðû ñ êà÷åñòâåííîé ñòîðîíû â êîëè÷åñòâåííûõ îöåíêàõ: ïðàâèëü-
íîñòü, òî÷íîñòü, ïîëíîòà è F-ìåðà. Óêàçàííûå ìåòðèêè îïðåäåëÿþò âîç-
ìîæíîñòü êëàññèôèêàòîðà âûïîëíèòü çàäà÷ó óñòàíîâëåíèÿ êëàññîâîé
ïðèíàäëåæíîñòè äëÿ íåêîòîðîãî òåñòîâîãî íàáîðà äàííûõ.
Ñîãëàñíî [3, 7] ïîä ïðàâèëüíîñòüþ (accuracy) êëàññèôèêàòîðà ïîíè-
ìàþò îòíîøåíèå ÷èñëà ïðàâèëüíî ïðèíÿòûõ êëàññèôèêàòîðîì ðåøåíèé ê
ðàçìåðó òåñòîâîé âûáîðêè: Accuracy � P N/ , ãäå P — ÷èñëî äîêóìåíòîâ, ïî
êîòîðûì êëàññèôèêàòîð ïðèíÿë ïðàâèëüíîå ðåøåíèå; N — ðàçìåð îáó-
÷àþùåé âûáîðêè.
Íà ïðèìåðå êëàññèôèêàöèè äîêóìåíòîâ ïî ÷èñëó êëàññîâ äëÿ îïðå-
äåëåíèÿ òî÷íîñòè Ä. Áàæåíîâ [7] ïèøåò: «...ó ýòîé ìåòðèêè åñòü îäíà îñî-
áåííîñòü, êîòîðóþ íåîáõîäèìî ó÷èòûâàòü. Îíà ïðèñâàèâàåò âñåì äîêó-
ìåíòàì îäèíàêîâûé âåñ, ÷òî ìîæåò áûòü íå êîððåêòíî â ñëó÷àå, åñëè ðàñ-
ïðåäåëåíèå äîêóìåíòîâ â îáó÷àþùåé âûáîðêå ñèëüíî ñìåùåíî â ñòîðîíó
Ã.À. Êðàâöîâ
16 ISSN 0204–3572. Electronic Modeling. 2016. V. 38. ¹ 6
êàêîãî-òî îäíîãî èëè íåñêîëüêèõ êëàññîâ.  ýòîì ñëó÷àå ó êëàññèôèêàòîðà
åñòü áîëüøå èíôîðìàöèè ïî ýòèì êëàññàì è ñîîòâåòñòâåííî â ðàìêàõ ýòèõ
êëàññîâ îí áóäåò ïðèíèìàòü áîëåå àäåêâàòíûå ðåøåíèÿ. Íà ïðàêòèêå ýòî
ïðèâîäèò ê òîìó, ÷òî âû èìååòå accuracy, ñêàæåì, 80 %, íî ïðè ýòîì â
ðàìêàõ êàêîãî-òî êîíêðåòíîãî êëàññà êëàññèôèêàòîð ðàáîòàåò èç ðóê âîí
ïëîõî, íå îïðåäåëÿÿ ïðàâèëüíî äàæå òðåòü äîêóìåíòîâ».
Äëÿ îöåíêè êà÷åñòâà ðàáîòû êëàññèôèêàòîðà ÷àùå èñïîëüçóþò ïîêà-
çàòåëè òî÷íîñòè (precision) è ïîëíîòû (recall) [3], ïîëàãàÿ ïðè ýòîì, ÷òî
êëàññèôèêàöèÿ ÿâëÿåòñÿ íåèçìåííîé.
 ðàáîòå [7] ñëåäóþùèì îáðàçîì ïîÿñíÿåòñÿ ñóòü óêàçàííûõ ìåòðèê
(ïîä ñëîâîì ñèñòåìà ïîäðàçóìåâàåòñÿ êëàññèôèêàòîð): «Òî÷íîñòü ñèñòå-
ìû â ïðåäåëàõ êëàññà — ýòî äîëÿ äîêóìåíòîâ, äåéñòâèòåëüíî ïðèíàäëå-
æàùèõ äàííîìó êëàññó îòíîñèòåëüíî âñåõ äîêóìåíòîâ, êîòîðûå ñèñòåìà
îòíåñëà ê ýòîìó êëàññó. Ïîëíîòà ñèñòåìû — ýòî äîëÿ íàéäåííûõ êëàññè-
ôèêàòîðîì äîêóìåíòîâ, ïðèíàäëåæàùèõ êëàññó îòíîñèòåëüíî âñåõ äîêó-
ìåíòîâ ýòîãî êëàññà â òåñòîâîé âûáîðêå».
Çíà÷åíèÿ òî÷íîñòè è ïîëíîòû äëÿ êàæäîãî êëàññà ìîãóò áûòü ðàññ÷è-
òàíû íà îñíîâàíèè ñëåäóþùåé ìàòðèöû êîíòèíãåíòíîñòè:
Êàòåãîðèÿ (êëàññ) Ai
Ýêñïåðòíàÿ îöåíêà
Ïîëîæèòåëüíàÿ Îòðèöàòåëüíàÿ
Îöåíêà ñèñòåìû
(êëàññèôèêàòîðà)
Ïîëîæèòåëüíàÿ TP FP
Îòðèöàòåëüíàÿ FN TN
Çäåñü TP — èñòèííî-ïîëîæèòåëüíîå ðåøåíèå; TN — èñòèííî-îòðèöàòåëü-
íîå ðåøåíèå; FP — ëîæíî-ïîëîæèòåëüíîå ðåøåíèå (îøèáêà ïåðâîãî ðîäà
[8]); FN — ëîæíî-îòðèöàòåëüíîå ðåøåíèå (îøèáêà âòîðîãî ðîäà [8]).
Òîãäà òî÷íîñòü è ïîëíîòà ìîãóò áûòü ðàññ÷èòàíû ïî ôîðìóëàì
Precision �
�
TP
TP FP
, Recall �
�
TP
TP FN
.
Òî÷íîñòü ðàáîòû êëàññèôèêàòîðà íà âûáðàííîì êëàññå îïðåäåëÿåòñÿ
îòíîøåíèåì ÷èñëà îáúåêòîâ, êîòîðûå îòíåñåíû êëàññèôèêàòîðîì ê âûá-
ðàííîìó êëàññó, ê ÷èñëó îáúåêòîâ, îòíåñåííûõ ê âûáðàííîìó êëàññó êëàñ-
ñèôèêàòîðîì è ýêñïåðòàìè.
Ïîëíîòà îïðåäåëÿåòñÿ îòíîøåíèåì ÷èñëà îáúåêòîâ, êîððåêòíî îòíå-
ñåííûõ êëàññèôèêàòîðîì ê íåêîòîðîìó êëàññó, ê ÷èñëó îáúåêòîâ, îòíåñåí-
íûõ ê ýòîìó æå êëàññó ýêñïåðòàìè.
Êàê óêàçàíî â ðàáîòå [7], íà ïðàêòèêå çíà÷åíèÿ òî÷íîñòè è ïîëíîòû
óäîáíî ðàññ÷èòûâàòü ñ èñïîëüçîâàíèåì ìàòðèöû íåòî÷íîñòåé (confusion
Âû÷èñëåíèÿ íà êëàññèôèêàöèÿõ. Îöåíêà êëàññèôèêàòîðîâ
ISSN 0204–3572. Ýëåêòðîí. ìîäåëèðîâàíèå. 2016. Ò. 38. ¹ 6 17
matrix). Åñëè ÷èñëî êëàññîâ îòíîñèòåëüíî íåâåëèêî (íå áîëåå 100—150),
ýòîò ïîäõîä ïîçâîëÿåò íàãëÿäíî ïðåäñòàâèòü ðåçóëüòàòû ðàáîòû êëàñ-
ñèôèêàòîðà.
Ìàòðèöà íåòî÷íîñòåé — ýòî ìàòðèöà ðàçìåðà N N� , ãäå N — ÷èñëî
êëàññîâ. Ñòîëáöû ýòîé ìàòðèöû ðåçåðâèðóþòñÿ ñîãëàñíî ýêñïåðòíûì ðå-
øåíèÿì, à ñòðîêè — ñîãëàñíî ðåøåíèÿì êëàññèôèêàòîðà. Êîãäà âûïîë-
íÿåòñÿ çàäà÷à îïðåäåëåíèÿ êëàññîâîé ïðèíàäëåæíîñòè äîêóìåíòà èç òåñ-
òîâîé âûáîðêè, â ìàòðèöå íåòî÷íîñòåé óâåëè÷èâàåòñÿ íà åäèíèöó ÷èñëî,
ñòîÿùåå íà ïåðåñå÷åíèè ñòðîêè êëàññà, îïðåäåëåííîãî êëàññèôèêàòîðîì,
è ñòîëáöà êëàññà, ê êîòîðîìó äåéñòâèòåëüíî îòíîñèòñÿ äîêóìåíò.
Ïóñòü Pi j, — ÷èñëî îáúåêòîâ êëàññà Ai , êëàññèôèöèðîâàííûõ êëàññè-
ôèêàòîðîì êàê îòíîñÿùèåñÿ ê êëàññó A j . Íåêîòîðàÿ ìàòðèöà íåòî÷íîñòåé
èìååò ñëåäóþùèé âèä:
Ïîëíîòà 0,96 0,94 0,72 Recall ( )A j 1,0
Òî÷íîñòü Êëàññû A1 A2 A3 A j AN
0,95 A1 94 0 0 ... 0
1,00 A2 0 32 0 ... 0
0,29 A3 1 1 6 ... 0
Precision ( )Ai Ai ... ... ... Pi j, ...
0,98 AN 0 0 1 ... 78
Ñ ïîìîùüþ òàêîé ìàòðèöû ðàññ÷èòàòü òî÷íîñòü è ïîëíîòó äëÿ êàæ-
äîãî êëàññà äîñòàòî÷íî ïðîñòî [7]. Òî÷íîñòü ðàâíÿåòñÿ îòíîøåíèþ ñîîò-
âåòñòâóþùåãî äèàãîíàëüíîãî ýëåìåíòà ìàòðèöû è ñóììû âñåé ñòðîêè
êëàññà, ïîëíîòà — îòíîøåíèþ äèàãîíàëüíîãî ýëåìåíòà ìàòðèöû è ñóììû
âñåãî ñòîëáöà êëàññà. Òàê, äëÿ N êëàññîâ ñïðàâåäëèâû ôîðìóëû
Precision ( )A P Pi i i
j
N
i j�
�
�, ,
1
; (1)
Recall ( )A P Pj j j
i
N
i j�
�
�, ,
1
. (2)
Íà ðèñ. 1 ïðåäñòàâëåíû äâà âîçìîæíûõ âàðèàíòà îòíîøåíèé ìåæäó
êëàññàìè. Äëÿ îäíîóðîâíåâîé êëàññèôèêàöèè (ðèñ. 1, à) ñïðàâåäëèâî íå-
ðàâåíñòâî 1� �i N, ãäå N — ÷èñëî êëàññîâ êëàññèôèêàöèè; Ai — ïðîèç-
âîëüíûé êëàññ. Äëÿ ìíîãîóðîâíåâîé êëàññèôèêàöèè (ðèñ. 1, á) âåðíû
Ã.À. Êðàâöîâ
18 ISSN 0204–3572. Electronic Modeling. 2016. V. 38. ¹ 6
ñëåäóþùèå îãðàíè÷åíèÿ:1� �i N,1� �j N, i j . Íåîáõîäèìî çàìåòèòü, ÷òî
ïðåäñòàâëåííàÿ íà ðèñ. 1, á, äâóõóðîâíåâàÿ êëàññèôèêàöèÿ ÿâëÿåòñÿ ÷àñò-
íûì ñëó÷àåì ìíîãîóðîâíåâîé, â êîòîðîé íåäåëèìûå êëàññû [1] (ëèñòüÿ
îðèåíòèðîâàííîãî äåðåâà) ìîãóò èìåòü ðàçëè÷íûå ðàíãè [2] .
Íàïîìíèì [2], ÷òî ìåðà îòëè÷èÿ íà êëàññèôèêàöèè îïðåäåëÿåòñÿ òàê:
O A A
R A A A
R A A A R A A A R A
I Y
I Y
I Y I I Y Y
( , )
( , )
( , ) ( , ) (
�
� �
� � � �
1
1
, )A AI Y� �1
, (3)
ãäå AI è AY — êëàññû â A: I, Y, — ïðîèçâîëüíûå ïóòè óòî÷íåíèÿ ïëîñêîñòè
äåëåíèÿ êëàññèôèêàöèè Ai ; R — îòíîñèòåëüíîå ðàññòîÿíèå ìåæäó êëàñ-
ñàìè AI è AY èêëàññèôèêàöèè A, ðàâíîå ÷èñëó óíèêàëüíûõ îïåðàöèé
óòî÷íåíèÿ îò áëèæàéøåãî îáùåãî îáîáùàþùåãî êëàññà. Åñëè äàíû êëàñ-
ñû A a
i
[ ], A b
i
[ ], A a b
i
[ , ] êëàññèôèêàöèè A, àññîöèàòèâíàÿ áèíàðíàÿ îïåðàöèÿ
îáîáùåíèÿ êëàññîâ êëàññèôèêàöèè èìååò âèä [2]
A A Aa
i
b
i
[ ] [ ]� � , A A Aa
i
a b
i
a
i
[ ] [ , ] [ ]� � , A A Ab
i
a b
i
[ ] [ , ]� � , A A Aa
i
[ ]� � .
Çäåñü A ÿâëÿåòñÿ èäåìïîòåíòîì, èëè íóëåì, îïåðàöèè îáîáùåíèÿ êëàññîâ
îòíîñèòåëüíî ñàìîé ñåáÿ, A A A� � , è âñåõ óòî÷íÿþùèõ êëàññîâ êëàññè-
ôèêàöèè A A AI
i
� � .
Ñîãëàñíî (3) ìåðà îòëè÷èÿ äëÿ îäíîóðîâíåâîé êëàññèôèêàöèè ìåæ-
äó äâóìÿ ëþáûìè êëàññàìè Ai è A j èìååò âèä Q A Ai j( , ) �0, åñëè i j� ,
Âû÷èñëåíèÿ íà êëàññèôèêàöèÿõ. Îöåíêà êëàññèôèêàòîðîâ
ISSN 0204–3572. Ýëåêòðîí. ìîäåëèðîâàíèå. 2016. Ò. 38. ¹ 6 19
Ðèñ.1. Îäíîóðîâíåâàÿ (à) è ìíîãîóðîâíåâàÿ (á) êëàññèôèêàöèè
è Q A Ai j( , ) /�2 3, åñëè i j . Äëÿ ìíîãîóðîâíåâîé êëàññèôèêàöèè
Q A Ai j( , ) �0, åñëè i j� . Åñëè i j , íè÷åãî îïðåäåëåííîãî ñêàçàòü íåëüçÿ.
Ââåäåì ìóëüòèïëèêàòîð îøèáêè êëàññèôèöèðîâàíèÿ M I Y, , îïðåäåëÿþ-
ùèé ñêîððåêòèðîâàííóþ ìåðó îòëè÷èÿ ìåæäó êëàññàìè êëàññèôèêàöèè:
M O A AI Y I Y, ( , )� , åñëè I Y ,
M I Y, �1, åñëè I Y� .
(4)
Ïðåäñòàâèì (1) â âèäå óðàâíåíèÿ
Precision ( )A
M P
M P
P
M P
i
i i i i
j
N
i j i j
i i
j
N
i j
� �
� �
� �
, ,
, ,
,
,
1 1
i j,
(5)
è ïðîàíàëèçèðóåì åãî ñâîéñòâà. Áóäåì ïîëàãàòü, ÷òî (5) åñòü òåîðåòè÷åñ-
êàÿ òî÷íîñòü êëàññèôèêàòîðà íà êëàññèôèêàöèè. Î÷åâèäíî, ÷òî äëÿ (5)
âûïîëíÿåòñÿ óñëîâèå
P
M P
P
P
i i
j
N
i j i j
i i
j
N
i j
,
, ,
,
,
� �
� �
�
1 1
,
ò.å. òåîðåòè÷åñêàÿ òî÷íîñòü áîëüøå èëè ðàâíà èñïîëüçóåìîé íà ïðàêòèêå.
Åñëè Pi j, � 0 ïðè i j , à Pi i, 0, òî òåîðåòè÷åñêàÿ è ïðàêòè÷åñêàÿ òî÷íîñòè
ðàâíû åäèíèöå:
P
M P
P
P
i i
j
N
i j i j
i i
j
N
i j
,
, ,
,
,
� �
� �
� �
1 1
1.
Ïî àíàëîãèè ñ (5) ôîðìóëó ïîëíîòû (2) ïðåäñòàâèì â âèäå
Recall ( )A
M P
M P
P
M P
j
j j j j
i
N
i j i j
j j
i
N
i j i j
� �
� �
� �
, ,
, ,
,
, ,
1 1
. (6)
Áóäåì ïîëàãàòü, ÷òî (6) åñòü òåîðåòè÷åñêàÿ ïîëíîòà êëàññèôèêàòîðà íà
êëàññèôèêàöèè. Î÷åâèäíî, ÷òî äëÿ (6) âûïîëíÿåòñÿ óñëîâèå
P
M P
P
P
j j
i
N
i j i j
j j
i
N
i j
,
, ,
,
,
� �
� �
�
1 1
,
ò.å. òåîðåòè÷åñêàÿ ïîëíîòà áîëüøå èëè ðàâíà èñïîëüçóåìîé íà ïðàêòèêå.
Ã.À. Êðàâöîâ
20 ISSN 0204–3572. Electronic Modeling. 2016. V. 38. ¹ 6
Ñëåäîâàòåëüíî, êëàññèôèêàòîð ðàáîòàåò êîððåêòíî, åñëè âûïîëíÿåòñÿ
óñëîâèå Recall ( )Ai �1è Precision ( )Ai �1, ãäå1� �i N, ò.å. äëÿ ëþáîãî êëàññà
òî÷íîñòü è ïîëíîòà ðàâíû åäèíèöå.
Ðàññìîòðèì èçëîæåííîå íà ïðèìåðå. Ïóñòü äàíû äâå êëàññèôèêàöèè,
ïðåäñòàâëåííûå íà ðèñ. 2, è ñëåäóþùàÿ ãèïîòåòè÷åñêàÿ ìàòðèöà íåòî÷-
íîñòåé (confusion matrix) äëÿ ñåìè êëàññîâ:
Êëàññû A1 A2 A3 A4 A5 A6 A7
A1 9 0 0 0 1 0 1
A2 0 7 0 2 0 1 0
A3 0 0 10 0 0 0 2
A4 5 0 0 6 0 3 0
A5 0 1 0 0 3 0 0
A6 0 0 0 0 0 5 0
A7 1 0 3 0 0 0 8
Äëÿ ñðàâíåíèÿ ïðåäñòàâèì âû÷èñëåíèÿ òî÷íîñòè è ïîëíîòû äëÿ êàæ-
äîãî èç êëàññîâ êëàññèôèêàöèé, èçîáðàæåííûõ íà ðèñ. 2, à è á, ñ èñïîëü-
çîâàíèåì ìàòðèöû íåòî÷íîñòè. Êàê âèäíî èç òàáë. 1 è 2, ïðè îäíîé è òîé
Âû÷èñëåíèÿ íà êëàññèôèêàöèÿõ. Îöåíêà êëàññèôèêàòîðîâ
ISSN 0204–3572. Ýëåêòðîí. ìîäåëèðîâàíèå. 2016. Ò. 38. ¹ 6 21
Ðèñ. 2. Îäíîóðîâíåâàÿ (à) è ìíîãîóðîâíåâàÿ (á) êëàññèôèêàöèè èç ñåìè êëàññîâ (÷àñòíûé
ñëó÷àé ñîîòâåòñòâåííî äëÿ ðèñ. 1, à è á)
æå ìàòðèöå íåòî÷íîñòè äëÿ îäíîãî è òîãî æå ÷èñëà êëàññîâ, íî ñ ðàçëè÷íîé
ñåìàíòè÷åñêîé ñòðóêòóðîé, ïîêàçàòåëè òî÷íîñòè è ïîëíîòû çàâèñÿò îò ìåñòà
êëàññà â êëàññèôèêàöèè è ìîãóò ñóùåñòâåííî ðàçëè÷àòüñÿ. Ïðèâåäåííûé
ïðèìåð ñâèäåòåëüñòâóåò î òîì, ÷òî ïîêàçàòåëè ïîëíîòû è òî÷íîñòè èçìå-
íÿþòñÿ ïðè ó÷åòå ñåìàíòè÷åñêîé âçàèìîñâÿçè êëàññîâ â êëàññèôèêàöèè.
Ó÷åò ñåìàíòè÷åñêîé ñòðóêòóðû êëàññèôèêàöèè ñòàíîâèòñÿ áîëåå àê-
òóàëüíûì â ñëó÷àå ðàáîòû ñ îáîáùàþùèìè ïîíÿòèÿìè (umbrella terms)
ïðè êëàññèôèêàöèè äîêóìåíòîâ [9], ÷òî ÿâëÿåòñÿ äîêàçàòåëüñòâîì âîñò-
ðåáîâàííîñòè ðàçðàáàòûâàåìîé òåîðèè âû÷èñëåíèé íà êëàññèôèêàöèÿõ â
ðàçëè÷íûõ îáëàñòÿõ íàó÷íûõ çíàíèé. Ïðåäñòàâëÿåò òàêæå èíòåðåñ èññëå-
äîâàíèå âëèÿíèÿ ñòðóêòóðû êëàññèôèêàöèè íà ïîêàçàòåëè òî÷íîñòè è
ïîëíîòû.
Ã.À. Êðàâöîâ
22 ISSN 0204–3572. Electronic Modeling. 2016. V. 38. ¹ 6
Êëàññ
Òî÷íîñòü îïðåäåëåíèÿ êëàññà â êëàññèôèêàöèè
îäíîóðîâíåâîé (ðèñ. 2, à) ìíîãîóðîâíåâîé (ðèñ. 2, á)
A1 0.870967741935484 0.8571428571428571
A2 0.7777777777777778 0.7526881720430108
A3 0.8823529411764706 0.8620689655172414
A4 0.6428571428571428 0.7058823529411765
A5 0.8181818181818181 0.8
A6 0.6521739130434783 0.7352941176470589
A7 0.8 0.7729468599033816
Òàáëèöà 1
Êëàññ
Ïîëíîòà îïðåäåëåíèÿ êëàññà â êëàññèôèêàöèè
îäíîóðîâíåâîé (ðèñ. 2, à) ìíîãîóðîâíåâîé (ðèñ. 2, á)
A1 0.6923076923076923 0.6878980891719745
A2 0.9130434782608695 0.8974358974358975
A3 0.8333333333333334 0.8064516129032258
A4 0.6428571428571428 0.6428571428571428
A5 0.8181818181818181 0.7894736842105263
A6 1.0 1.0
A7 0.7499999999999999 0.7174887892376681
Òàáëèöà 2
ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ
1. Êðàâöîâ Ã. Ìåðà îòëè÷èÿ êëàññèôèêàöèé // Ýëåêòðîí. ìîäåëèðîâàíèå. — 2016. — 38,
¹ 4. — Ñ. 81—97.
2. Êðàâöîâ Ã. Ìîäåëü âû÷èñëåíèé íà êëàññèôèêàöèÿõ // Òàì æå. — 2016. — 38, ¹ 1. —
Ñ. 73—87.
3. Ôëàõ Ï. Ìàøèííîå îáó÷åíèå. Íàóêà è èñêóññòâî ïîñòðîåíèÿ àëãîðèòìîâ, êîòîðûå
èçâëåêàþò çíàíèÿ èç äàííûõ — Ì. : Èçä-âî «ÄÌÊ Ïðåññ», 2015. — 400 ñ.
4. Êîõîíåí Ò. Ñàìîîðãàíèçóþùèåñÿ êàðòû. — Ì. : Áèíîì. Ëàáîðàòîðèÿ çíàíèé, 2008. —
655 ñ.
5. Òîëêîâûé ñëîâàðü ðóññêîãî ÿçûêà / Ïîä ðåä. Ä.Í. Óøàêîâà. Ò. 1. — Ì. : Ãîñ. èí-ò «Ñîâ.
ýíöèêë.»; ÎÃÈÇ; Ãîñ. èçä-âî èíîñòð. è íàö. ñëîâ, 1935.
6. Õàéêèí Ñ. Íåéðîííûå ñåòè. Ïîëíûé êóðñ — Ì. : Èçä. äîì «Âèëüÿìñ», 2006. — 1104 ñ.
7. Áàæåíîâ Ä. Îöåíêà êëàññèôèêàòîðà (òî÷íîñòü, ïîëíîòà, F-ìåðà). — [Ýëåêòðîííûé
ðåñóðñ]. — Ðåæèì äîñòóïà: http://bazhenov.me/blog/2012/07/21/classification-perfor-
mance-evaluation.html. — Äàòà äîñòóïà: ìàé 2016.
8. Õàðìàí Ã. Ñîâðåìåííûé ôàêòîðíûé àíàëèç. — Ì. : Ñòàòèñòèêà, 1972. — 486 ñ.
9. Struhl S. Practical Text Analytics: Interpreting Text and Unstructured Data for Busi-
ness Intelligence. Kogan Page; ed. — London, Philadelphia, New Delphi, 2015. — Ð. 272.
H.À. Kravtsov
THE CALCULUS OVER CLASSIFICATIONS.
ASSESSMENT OF CLASSIFIERS
The existing methods of classifier assessment use a set of classes which are comparable both by
the probability of appearànce and by semantical interrelation that is they are semantically inde-
pendent. The developed theory of calculus over classification permits solving the issue of classi-
fier assessment for hierarchical classifications. This papper contains the example of calculation
of the precision and completeness of classes of plane-level and multi-level classification with the
same confusing matrix.
K e y w o r d s: classification, classifier, semantic, precision, completeness, measure of difference.
REFERENCES
1. Kravtsov, H.A. (2016), “Measure of difference between classifications”, Elektronnoe mode-
lirovanie, Vol. 38, no. 4, pp. 81-97.
2. Kravtsov, H.A. (2016), “Model of computations on classifications”, Elektronnoe modeliro-
vanie, Vol. 38, no. 1, pp. 73-87.
3. Flakh, P. (2015), Machinnoe obuchenie [Machine learning: The art and science of algorithms
that make sense of data], Izd-vo “DMK Press”, Moscow, Russia.
4. Kokhonen, T. (2008), Samoorganizuyuschiesya karty [Self-organizing maps], Binom, Mos-
cow, Russia.
5. Ushakov, D.N. (1935), Tolkovyi slovar russkogo yazyka [Russian definition dictionary],
Sovetskaya entsiklopediya, Moscow, Russia.
6. Khaykin, S. (2006), Neyronnye seti. Polnyi kurs [Neural networks: A comprehensive founda-
tion], Izd. “Vilyams”, Moscow, Russia.
7. Bazhenov, D. (2012), Otsenka klassifikatora. Tochnost, polnota, F- mera [Classification per-
formance evaluation. Precision, completeness, F-measure], available at: http://bazhenov.
me/blog/2012/07/21/classification-performance-evaluation.html (accessed 2016).
Âû÷èñëåíèÿ íà êëàññèôèêàöèÿõ. Îöåíêà êëàññèôèêàòîðîâ
ISSN 0204–3572. Ýëåêòðîí. ìîäåëèðîâàíèå. 2016. Ò. 38. ¹ 6 23
8. Kharman, H.H. (1972), Sovremennyi faktornyi analiz [Modern Factor Analysis], Statistika,
Moscow, Russia.
9. Struhl, S. (2015), Practical text analytics: Interpreting text and unstructured data for business
intelligence, 1st edition, Kogan Page, London, Philadelphia, New Delphi.
Ïîñòóïèëà 21.09.16;
ïîñëå äîðàáîòêè 13.10.16
ÊÐÀÂÖÎÂ Ãðèãîðèé Àëåêñååâè÷, êàíä. òåõí. íàóê, äîêòîðàíò Èí-òà ïðîáëåì ìîäåëèðîâàíèÿ â
ýíåðãåòèêå èì. Ã.Å. Ïóõîâà ÍÀÍ Óêðàèíû.  2000 ã. îêîí÷èë Ñåâàñòîïîëüñêèé âîåííî-ìîðñêîé
èí-ò èì. Ï.Ñ. Íàõèìîâà. Îáëàñòü íàó÷íûõ èññëåäîâàíèé — êèáåðáåçîïàñíîñòü ñìàðò-ãðèä,
êðèïòîãðàôèÿ, ïðîãðàììèðîâàíèå, ðàçðàáîòêà ðàñïðåäåëåííûõ ãåòåðîãåííûõ âû÷èñëèòåëü-
íûõ ñèñòåì.
Ã.À. Êðàâöîâ
24 ISSN 0204–3572. Electronic Modeling. 2016. V. 38. ¹ 6
|