Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации
В работе предлагается поход, обеспечивающий оценку влияния уменьшения размера классов базы данных на уровень распознавания в случае использования kNN метрических классификаторов, а также дает возможность определения по данной выборке оптимального значения k. Проведено симулятивное моделирование р...
Gespeichert in:
| Datum: | 2009 |
|---|---|
| Hauptverfasser: | , |
| Format: | Artikel |
| Sprache: | Russian |
| Veröffentlicht: |
Інститут проблем штучного інтелекту МОН України та НАН України
2009
|
| Schlagworte: | |
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/8197 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации / Капустий Б.Е., Таянов В.А. // Штучний інтелект. — 2009. — № 4. — С. 349-359. — Бібліогр.: 10 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-8197 |
|---|---|
| record_format |
dspace |
| spelling |
nasplib_isofts_kiev_ua-123456789-81972025-02-09T11:56:06Z Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации Вплив розміру навчаючої вибірки на узагальнюючу властивість метричних алгоритмів класифікації The Influence of the Training Set Size on the Generalized Ability of the Metrical Classifiers Капустий, Б.Е. Таянов, В.А. Обучающие и экспертные системы В работе предлагается поход, обеспечивающий оценку влияния уменьшения размера классов базы данных на уровень распознавания в случае использования kNN метрических классификаторов, а также дает возможность определения по данной выборке оптимального значения k. Проведено симулятивное моделирование результатов влияния уменьшения обучающей выборки на результаты распознавания. Полученные результаты могут быть использованы для дальнейшего формирования обучающей выборки и её коррекции. В роботі пропонується підхід, який забезпечує оцінку впливу зменшення розміру класів бази даних на рівень розпізнавання при застосуванні kNN метричних класифікаторів, а також дає можливість визначення на даній вибірці оптимального значення k. Проведене симулятивне моделювання результатів впливу зменшення навчаючої вибірки на результати розпізнавання. Отриманні результати можуть бути використані для подальшого формування навчаючої вибірки та її корекції. In this paper the approach giving the estimate of the class size reduction influence on the recognition rate for the kNN classifiers has been proposed. The approach also gives the possibility to estimate the optimal k value of the nearest neighbours. The simulative modeling of the training set reduction influence on the recognition process results has been carried out. The obtained results can be used for the training set formation and its correction. 2009 Article Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации / Капустий Б.Е., Таянов В.А. // Штучний інтелект. — 2009. — № 4. — С. 349-359. — Бібліогр.: 10 назв. — рос. 1561-5359 https://nasplib.isofts.kiev.ua/handle/123456789/8197 004.93+519.2 ru application/pdf Інститут проблем штучного інтелекту МОН України та НАН України |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| language |
Russian |
| topic |
Обучающие и экспертные системы Обучающие и экспертные системы |
| spellingShingle |
Обучающие и экспертные системы Обучающие и экспертные системы Капустий, Б.Е. Таянов, В.А. Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации |
| description |
В работе предлагается поход, обеспечивающий оценку влияния уменьшения размера классов базы данных
на уровень распознавания в случае использования kNN метрических классификаторов, а также дает
возможность определения по данной выборке оптимального значения k. Проведено симулятивное
моделирование результатов влияния уменьшения обучающей выборки на результаты распознавания.
Полученные результаты могут быть использованы для дальнейшего формирования обучающей выборки
и её коррекции. |
| format |
Article |
| author |
Капустий, Б.Е. Таянов, В.А. |
| author_facet |
Капустий, Б.Е. Таянов, В.А. |
| author_sort |
Капустий, Б.Е. |
| title |
Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации |
| title_short |
Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации |
| title_full |
Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации |
| title_fullStr |
Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации |
| title_full_unstemmed |
Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации |
| title_sort |
влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации |
| publisher |
Інститут проблем штучного інтелекту МОН України та НАН України |
| publishDate |
2009 |
| topic_facet |
Обучающие и экспертные системы |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/8197 |
| citation_txt |
Влияние размера обучающей выборки на обобщающую способность метрических алгоритмов классификации / Капустий Б.Е., Таянов В.А. // Штучний інтелект. — 2009. — № 4. — С. 349-359. — Бібліогр.: 10 назв. — рос. |
| work_keys_str_mv |
AT kapustijbe vliânierazmeraobučaûŝejvyborkinaobobŝaûŝuûsposobnostʹmetričeskihalgoritmovklassifikacii AT taânovva vliânierazmeraobučaûŝejvyborkinaobobŝaûŝuûsposobnostʹmetričeskihalgoritmovklassifikacii AT kapustijbe vplivrozmírunavčaûčoívibírkinauzagalʹnûûčuvlastivístʹmetričnihalgoritmívklasifíkacíí AT taânovva vplivrozmírunavčaûčoívibírkinauzagalʹnûûčuvlastivístʹmetričnihalgoritmívklasifíkacíí AT kapustijbe theinfluenceofthetrainingsetsizeonthegeneralizedabilityofthemetricalclassifiers AT taânovva theinfluenceofthetrainingsetsizeonthegeneralizedabilityofthemetricalclassifiers |
| first_indexed |
2025-11-25T22:46:01Z |
| last_indexed |
2025-11-25T22:46:01Z |
| _version_ |
1849804206562607104 |
| fulltext |
«Штучний інтелект» 4’2009 349
7К
УДК 004.93+519.2
Капустий Б.Е.1, Таянов В.А.2
1 НУ «Львовская политехника», г. Львов, Украина
2 ФМИ им. Г.В. Карпенко НАН Украины, г. Львов, Украина
vtayanov@ipm.lviv.ua
Влияние размера обучающей выборки
на обобщающую способность метрических
алгоритмов классификации
В работе предлагается поход, обеспечивающий оценку влияния уменьшения размера классов базы данных
на уровень распознавания в случае использования kNN метрических классификаторов, а также дает
возможность определения по данной выборке оптимального значения k. Проведено симулятивное
моделирование результатов влияния уменьшения обучающей выборки на результаты распознавания.
Полученные результаты могут быть использованы для дальнейшего формирования обучающей выборки
и её коррекции.
Введение
На сегодняшний день метрические алгоритмы классификации являются одни-
ми из самых распространенных при проектировании практических целевых систем
распознавания (СР). Среди таких систем часто встречаются биометрические СР. Для
метрических алгоритмов классификации характерна простота настройки и доста-
точное быстродействие.
В целом разработка алгоритмов классификации является отдельной и сложной
задачей [1-3]. Поскольку построение СР включает этапы генерации признаков, их
селекции, построения классификаторов и их оптимизации в зависимости от выбран-
ных признаков, формирования доверительного интервала принятия решения и опре-
деления его достаточного размера, формирования базы эталонных объектов и т.д. [1],
[4-7], то в большинстве случаев используют метрические алгоритмы классификации
[2], [3], [8]. Среди них чаще всего рассматривают правило ближайшего соседа (nearest
neighbor, 1NN), реже – правило k ближайших соседей (k nearest neighbors, kNN) и
совсем редко – взвешенный kNN классификатор [3]. Метод парзеновского окна и
метод потенциальных функций в таких системах практически не используют. Одним
из главных недостатков этих алгоритмов является то, что выборку необходимо со-
хранять полностью, а время распознавания прямо пропорционально длине обучаю-
щей выборки. Поэтому и возникает необходимость в разработке подходов, которые
дали бы возможность эффективно уменьшить обучающую выборку так, чтобы при
этом уровень распознавания был не менее заданного согласно техническому зада-
нию на разработку СР. Для СР сокращение обучающей выборки означает умень-
шение размерности классов базы данных. При этом необходимо обязательно провес-
ти стратификацию (stratification) классов. Итак, далее установим, как влияет уменьшение
размерности классов на достоверность классификации при помощи kNN алгоритма.
Кроме того, что ожидаемые результаты моделирования пригодны для оценива-
ния влияния размера обучающей выборки на результаты распознавания, они также
могут использоваться для формирования такой обучающей выборки, которая бы по-
Капустий Б.Е., Таянов В.А.
«Искусственный интеллект» 4’2009 350
7К
зволила минимизировать эффект переобучения. Данный поход позволяет провести
предварительную оценку выборки, её потенциальных возможностей обучения и кор-
ректности. После его предварительной апробации необходимо осуществить исключение
малоинформативных и искажающих объектов из обучающей выборки.
Постановка задачи. Пусть X – пространство объектов (object space); Y – мно-
жество имен классов (class name set); YXy : – целевая функция (target function),
значения которой известны лишь на объектах конечной обучающей выборки длины
l : YXyxX l
iii
l 1),( , )( ii xyy [3]. В базе данных существуют классы эталонов
(class patterns) iC , ni ,1 , причём || ii Cs – размеры классов. Предполагается, что
размеры is всех классов одинаковые и равны s . Поскольку существует выборка конт-
рольных образов U , подающихся на распознавание, то общее количество образов,
принимающих участие в процессе распознавания, равно || Usn . Пусть оцененная
частота ошибок (error frequency) алгоритма классификации )( lXa на обучающей
выборке Ll XX :
Ux
uyua
U
Ua )]()([
||
1),( , где запись Ux означает, что
объект относится к контрольной последовательности, а запись )]()([ uyua должна
пониматься как функция индикации несовпадения ответа, даваемого алгоритмом
)(ua , и правильного ответа )(uy для этого объекта. Задача состоит в оценивании
величины
Ux
uyua
U
Ua )]()(~[
||
1),( ~ при понижении информационного по-
крытия (information class coverage reduction) || iC классов-эталонов, где )
~
(~ lXa –
алгоритм, построенный на основании выборки размера l~ . В качестве алгоритма
классификации используется алгоритм kNN. При такой общей постановке задачи
наиболее пригодным подходом к её решению является комбинаторный подход. Оче-
видно, что в каждом конкретном случае понижение информационного покрытия
классов (information class coverage reduction) может проводиться не обязательно
оптимальным образом, однако общая статистика всех возможных понижений клас-
сов и результатов таких понижений должна дать ответ на вопрос об эффективности
информационного покрытия классов-эталонов в целом.
Алгоритм ближайшего соседа. Представим данные, подающиеся на класси-
фикатор a , в виде двоичной последовательности {0,1} , посортированной по минимуму
расстояний объектов базы данных от тестового объекта, где 1 ставятся в соответствие
образам, поддерживающим правильное распознавание (образы своего класса), а 0 –
образам, мешающим такому распознаванию (образы чужих классов). Пример такой
последовательности подан на рис. 1.
...1111000...110001111001110001111111111
},{
332211
mk
kmkmkmkml nn
Рисунок 1 – Модель распознавания при задании начального размера класса
в виде двоичной последовательности
Из приведенного рисунка видно, что последовательность образов, поддер-
живающих распознавание, имеет размерность skl . Однако различные образы
существенно отличаются друг от друга по возможностям этой поддержки. Действи-
Влияние размера обучающей выборки на обобщающую способность…
«Штучний інтелект» 4’2009 351
7К
тельно, при использовании 1NN классификатора удаление 1l образов из класса-
эталона не изменит результатов распознавания. С другой стороны, какой бы длинной
ни была последовательность из k образов, она не сможет поддержать распознавание
при отсутствии стратегической последовательности размером l и присутствии последо-
вательности размером m .
При понижении размера обучающей выборки необходимо учитывать тот факт,
что если последовательность размером l присутствует в начальном классе, то в классе
с меньшим информационным покрытием s она может исчезнуть, и наоборот, если её
не было, то может появиться, однако с меньшим размером l .
Рассмотрим возможности 1NN классификатора. Определяющим преимущест-
вом этого классификатора является простота реализации, а к недостаткам можно от-
нести следующие [3]:
– неустойчивость к погрешностям, созданным выбросами в обучающей выборке (вы-
бросом называют объект определенного класса, находящийся в окружении объектов
чужих классов);
– полную зависимость алгоритма от метрики между объектами и отсутствие парамет-
ров для настройки по обучающей выборке методами скользящего контроля или иными.
– низкое качество классификации.
Несмотря на указанные недостатки, 1NN классификатор может иметь сущест-
венно лучшую устойчивость к эффекту понижения размера обучающей выборки.
Это связано с тем, что данный классификатор менее чувствительный к размеру клас-
сов, чем kNN.
Итак, возможны два случая: начальное распознавание правильное либо непра-
вильное, и необходимо определить вероятность его успешности после понижения
размера обучающей выборки. То есть для первого случая необходимо определить
вероятность того, что распознавание останется правильным, а для второго – вероят-
ность перехода распознавания из категории неправильного в категорию правиль-
ного. Представим вероятность правильного распознавания при применении 1NN
классификатора как отношение событий, поддерживающих успешное распознава-
ние, к общему количеству событий:
. ,1
; ,
)!(!
)!(!1
),,(
случаеобратном в
sk
sks
ssk
C
CC
slkP s
s
s
k
s
s
(1)
При вычислении вероятностей (1) учтено, что если sk и начальное распо-
знавание было правильным, то понижение размера обучающей выборки не приведет
к ухудшению результатов распознавания, то есть 1)1)(|( sPskP . Выражение (1)
определяет вероятность того, что распознавание будет успешным независимо от
того, каким образом был уменьшен размер обучающей выборки для своего и чужих
классов. Таким образом, эта вероятность является оценкой сверху по отношению к
точному (в смысле комбинаторики) значению вероятности правильного распознава-
ния. Сам принцип оценок сверху вероятности успешного распознавания состоит в том,
что вычисление точного значения соответствующей вероятности требует применения
многошагового итерационного процесса.
Уточнить значение вероятности (1) можно путем введения еще одной оценки
сверху вероятности того, что перед последовательностью }{ ik после понижения размера
обучающей выборки базы данных не будет находиться последовательность ijm
j
j },{ .
Капустий Б.Е., Таянов В.А.
«Искусственный интеллект» 4’2009 352
7К
После исключения из модели (рис. 1) стратегической последовательности она
трансформируется к такому виду:
...1111000...11000111100111000
},{
332211
mk
kmkmkmkm nn
Рисунок 2 – Модель распознавания в виде двоичной последовательности при }{l
Таким образом, задача сводится к определению вероятности успешного распо-
знавания после понижения размера обучающей выборки для случаев, когда начальное
распознавание было неправильным. Эти вероятности вычисляются n раз для пар
последовательностей nikm ii ,1 ,, . Итак, на данном этапе исходной последователь-
ностью из всех единиц будет последовательность размера k .
Определение. Показателем выживания подпоследовательности ii km , явля-
ется вероятность того, что в результате всех возможных комбинаций вхождений
объектов из этой подпоследовательности в другие в ней останется хотя бы один объект
из исходной подпоследовательности. Указанную вероятность можно записать в виде:
. ,1
;,,1)}{,,(
случаеобратном в
smmskk
C
C
C
C
lkmP iis
s
s
kk
s
s
s
ms
ii
ii
(2)
Если все образы из своего класса в результате их сортировки по величине
расстояний от тестового образа попали в пределы списка },{ km , то выражение (2)
определяет вероятность того, что в этом списке будут находиться такие образы из
своего и чужих классов, при которых распознавание пройдёт успешно. Эта вероят-
ность вычисляется рекурсивно-итерационным способом на основании подпоследо-
вательностей },{ ii mk :
1 1
1 2 1 2
1 1 1 1
1 1
1 2 1 2
1 2 1 2
{ } ,{ } ,{ } { } ,{ } { }
1 , , ;
{ } ,{ } ,{ } ,{ } ,{ }
{ } ,{ } ,{ } { } ,{ }
1
s s
s m k k
s s
l k s
s s
s m m k k k
s s
s s
P l k m P l k P m
C C
k k s m m s
C C
P l k k m m
P l k k P m m
C C
C C
2
1 2 1 2
1 1 1 1
, , ;
..................................................................................................
{ } ,{ } ,{ } { } ,{ } { }
i
i
n n n n
i i i i i i i i
s
s m
s
k k k s m m m s
P l k m P l k P m
C
C
1 , , .
i
i
s
k k
i is s i is
C
k k s m m s
C
(3)
Влияние размера обучающей выборки на обобщающую способность…
«Штучний інтелект» 4’2009 353
7К
В формулах (3) значения n определяются условиями skls
i
i та sms
i
i ,
поскольку все дальнейшие вероятности )(P равны 1. Произведение всех вероятностей (3)
является глобальной вероятностью правильного распознавания.
Алгоритм k ближайших соседей. Представим результаты распознавания подоб-
но тому, как они были представлены для 1NN случая, то есть в виде двоичной после-
довательности. Пример такой последовательности показан на рис. 3.
...00111000001111111110001111111111
332211 mlmlml
Рисунок 3 – Результаты распознавания в виде двоичной последовательности
При использовании kNN классификатора важно, чтобы среди k ближайших
соседей было относительное либо абсолютное большинство образов своего класса
среди других образов. Рассмотрим более простой случай, предусматривающий отно-
сительное большинство. Успешная работа kNN классификатора состоит в том, что для k
ближайших соседей выполняется условие
...3,2,1 ,~~
iml
i
i
i
i , (4)
где ii ml ~,~ – группы, образующиеся после понижения информационного покрытия
классов. Под группой понимается однородная последовательность элементов. В после-
довательность (рис. 3) входят образы всех классов, хотя в общем случае однозначного
соответствия между количеством групп и количеством классов не существует. Если
рассматривать лишь случай нечётных значений k в kNN классификаторе, то исключа-
ется неоднозначность классификации, наблюдаемая при чётных значениях k и равенст-
ве голосов за различные классы.
Оценим эффект от понижения информационного покрытия классов при исполь-
зовании kNN классификатора. Примем, что размеры всех суженных классов одина-
ковые и равны s . Для kNN классификатора, в отличие от 1NN, не имеет такого
принципиального значения последовательность первых образов своего класса. Поэтому
произвольную последовательность образов своего класса можно обозначить как il .
Рассмотрим сначала случай 1
2
kENTs . Определим вероятности того, что
среди последовательности образов своего класса заданной длины будут выбраны
комбинации из s образов. Такие вероятности носят доверительный характер и харак-
теризуют степень покрытия несжатого класса последовательностью из
i
il образов,
среди которых выбирается s . Кроме них, найдём также вероятности того, что не
будут выбраны соответствующим способом определённые образы из чужих классов.
Вероятность правильной работы kNN классификатора является произведением этих
двух вероятностей.
Капустий Б.Е., Таянов В.А.
«Искусственный интеллект» 4’2009 354
7К
Обозначим вероятность ошибочной классификации, обусловленной образами
чужих классов, для соответствующих групп im как jq :
;...1
2
inf
;...1
2
inf
;1
2
inf
;1
2
inf
1
213
12
1
kENTmmPq
kENTmmmPq
kENTmmPq
kENTmPq
j
ji
i
ij
ii
i
i
i
i
i
i
i
(5)
Вероятность jq для каждого из значений доверительной вероятности равна
s
s
s
m
j C
C
q ji
ji
,
1
. (6)
Соответствующую доверительную вероятность можно представить в виде:
s
s
s
l
i
iq C
C
lPP i
i
j
)( . (7)
Итак, вероятность успешной работы kNN классификатора равна
2
,
1
,
1
,
1
1)1(,
s
s
s
m
s
s
s
ls
s
s
m
s
s
s
l
jq
ji
ji
i
ij
C
CC
C
C
C
C
C
qPmlP ji
ji
i
i
ji
ji
i
i
j
. (8)
При 00 q и 1
2
kENTm
i
i эта вероятность составляет
s
s
s
l
i
iq
i
i C
C
lPPkENTmP i
i
)(1
2 00 . (9)
Рассмотрим второй случай
skENT 1
2
и определим для него вероятность
ошибочной классификации, обусловленной образами чужих классов:
1
2
,
,
1
1
1
2 ,
1
,
1
kENTm
C
CC
q
ji
jis
s
s
kENTj
js
ms
j
m
j
ji
ji
ji
ji
. (10)
Влияние размера обучающей выборки на обобщающую способность…
«Штучний інтелект» 4’2009 355
7К
Вычислим доверительную вероятность для произвольной последовательности
из образов своего класса:
s
s
s
kENTj
js
ls
j
l
q C
CC
P
i
i
i
i
j
1
1
2
. (11)
Вероятность успешного распознавания при применении kNN классификатора
определяется произведением вероятности (11) и дополнения к вероятности (10).
.
)1(
2
1
1
2
1
1
2
1
1
2
,
1
,
1
s
s
s
kENTj
js
ms
j
m
s
kENTj
js
ls
j
l
s
s
s
kENTj
js
ls
j
l
jqj
C
CCCC
C
CC
qPP
ji
ji
ji
ji
i
i
i
i
i
i
i
i
j
(12)
Эта вероятность для ошибки 00 q составляет:
.1
2
1
1
2
0
s
s
s
kENTj
js
ls
j
l
i
i C
CC
kENTmP
i
i
i
i
(13)
Итак, при skENT 1)
2
( вероятность правильного распознавания для kNN
классификатора вычисляется по формуле (8), а при
skENT 1
2
– по формуле (12).
Результаты симулятивного моделирования. Было проведено моделирование
процесса распознавания с разными последовательностями образов своего и чужих
классов для 1NN и kNN классификаторов в случае относительного большинства.
Моделирование использовано для оценивания результатов работы системы распо-
знавания лиц людей [9], [10]. В связи с этим начальный размер классов был принят
равным 18.
На рис. 4, 5 представлены результаты моделирования влияния уменьшения раз-
мера обучающей выборки на вероятность правильного распознавания для 1NN класси-
фикатора. На рис. 4 показана зависимость доверительной вероятности правильного рас-
познавания от размера последовательности образов своего класса и размера классов
базы эталонов. Как видно из рисунка, доверительная вероятность уменьшается при
уменьшении размера эталонных классов и последовательности образов своего класса.
На рис. 5 изображена зависимость вероятности правильного распознавания от размера
последовательностей образов своего и чужих классов в случае их попарного разде-
ления. Моделирование проводилось следующим образом. Формировалась последо-
вательность переменного размера из образов своего класса, а к ней периодически
прибавлялось по одному образу из чужого класса, что привело к формированию сово-
купной переменной последовательности из образов своего и чужого классов. Для каж-
Капустий Б.Е., Таянов В.А.
«Искусственный интеллект» 4’2009 356
7К
дой такой последовательности и соответствующего размера класса вычислялась
вероятность правильного распознавания. Из рисунка видно, что увеличение после-
довательности из образов чужого класса приводит к уменьшению вероятности пра-
вильного распознавания.
Рисунок 4 – Доверительная вероятность
правильного распознавания как функция
размера классов базы эталонов (ось x ) и
размера последовательности образов сво-
его класса (ось у) для 1NN классифика-
тора
Рисунок 5 – Вероятность правильного распо-
знавания как функция размера классов базы
эталонов (ось x ) и размера последователь-
ности образов своего и чужих классов (ось у)
для 1NN классификатора
Рисунок 6 – Доверительная вероятность
правильного распознавания как функция
размера классов базы эталонов (ось x )
и размера последовательности образов
своего класса (ось y ) для kNN класси-
фикатора при 1
2
kENTs
Рисунок 7 – Вероятность правильного распоз-
навания как функция размера классов базы
эталонов (ось x ) и размера последова-
тельности образов своего и чужих классов
(ось y ) для kNN классификатора при
1
2
kENTs
На рис. 6, 7 представлены результаты моделирования влияния уменьшения раз-
мера обучающей выборки на вероятность правильного распознавания для kNN клас-
сификатора в случае, когда 1
2
kENT s
.
Влияние размера обучающей выборки на обобщающую способность…
«Штучний інтелект» 4’2009 357
7К
На рис. 6 показана аналогичная к рис. 4 зависимость. Как видно из рисунка,
доверительная вероятность уменьшается при увеличении числа ближайших соседей.
Результаты, изображённые на рис. 7, указывают на то, что вероятность правильного
распознавания уменьшается при увеличении размера класса и последовательности
образов чужого класса.
На рис. 8, 9 приведены результаты моделирования для случая kNN классифи-
катора и
skENT 1
2
. На рис. 8 представлена зависимость доверительной вероят-
ности от размера класса и значения 1
2
kENT . Размер класса периодически увели-
чивался, и также периодически формировалась переменная последовательность об-
разов своего класса. Общая последовательность представлена одной из координат, а
второй – значение 1
2
kENT . Зависимости на рис. 9 построены для таких случаев:
1
2
kENT
{1,3,5,7,9,11,13,15,17} . Вероятность правильного распознавания будет
тем больше, чем меньше последовательность образов чужих классов и больше раз-
ница между 1
2
kENT и s .
Рисунок 8 – Доверительная вероятность правильного распознавания как функция
размера классов (ось x ) и значения 1
2
kENT (ось y )
Капустий Б.Е., Таянов В.А.
«Искусственный интеллект» 4’2009 358
7К
a
b
c
d
e
f
g
h
i
Рисунок 9 – Вероятность правильного распознавания как функция 1
2
kENT (ось x)
и общей последовательности образов своего и чужих и классов (ось y )
Выводы
На основании комбинаторного подхода можно анализировать и оптимизиро-
вать kNN классификатор. Подход даёт возможность определять соотношение между
оптимальным значением k ближайших соседей и пониженным размером класса s .
Это соотношение зависит от результатов распознавания на начальных (несжатых)
Влияние размера обучающей выборки на обобщающую способность…
«Штучний інтелект» 4’2009 359
7К
классах. Подход также даёт дополнительную информацию о составе обучающей вы-
борки и степени её корректности для того, чтобы в дальнейшем использовать эту ин-
формацию при минимизации процесса переобучения и максимизации вероятности
правильного распознавания.
Литература
1. Капустий Б.Е. Оптимизация классификаторов в условиях малых выборок / Б.Е. Капустий, Б.П. Русын,
В.А. Таянов // Автоматика и вычислительная техника. – 2006. – Вып. 5. – С. 25-32.
2. Капустий Б.Е. Математическая модель систем распознавания с малыми базами данных / Б.Е. Капустий,
Б.П. Русын, В.А. Таянов // Проблемы управления и информатики. – 2007. – № 5. – С. 142-151.
3. [Електронний ресурс]. – Режим доступу : http:// www.ccas.ru/voron/teaching.html.
4. Ивахненко А.Г. Моделирование сложных систем по экспериментальным данным / А.Г. Ивахненко,
Ю.П. Юрачковский. – М. : Радио и связь, 1987. – 120 c.
5. Feature Selection Using a Piecewise Linear Network / [Jiang Li, Michael T. Manry, Pramod L. Narasimha,
and Changhua Yu] // IEEE Transactions on Neural Network. – September 2006. – Vol. 17, № 5. – P. 1101-1115.
6. Levner I. Automated Feature Extraction for Object Recognition / I. Levner // Proceedings of the Image
and Vision Computing New Zealand Conference. – 2003. – P. 653-655.
7. Osborne M.R. A new approach to variable selection in least squares problems / M.R. Osborne, B. Presnell and
B.A. Turlach // IMA Journal of Numerical Analysis. – 2000. – 20. – P. 389-404.
8. Mullin M. Complete cross-validation for nearest neighbor classifiers / M. Mullin, R Sukthankar // Procee-
dings of International Conference on Machine Learning. – 2000. – P. 639-646.
9. Капустій Б.О. Розподіл середньоквадратичних відстаней між об’єктами в просторі R2 / Б.О. Капустій,
Б.П. Русин, В.А. Таянов // Відбір і обробка інформації. – 2003. – Випуск 19(95). – C.110-114.
10. Капустій Б.О. Новый подход к определению вероятности правильного распознавания объектов
множеств / Б.О. Капустій, Б.П. Русин, В.А. Таянов // УСиМ. – 2005. – № 2. – С. 8-13.
Б.О. Капустій, В.А. Таянов
Вплив розміру навчаючої вибірки на узагальнюючу властивість метричних алгоритмів класифікації
В роботі пропонується підхід, який забезпечує оцінку впливу зменшення розміру класів бази даних на рівень
розпізнавання при застосуванні kNN метричних класифікаторів, а також дає можливість визначення на
даній вибірці оптимального значення k. Проведене симулятивне моделювання результатів впливу
зменшення навчаючої вибірки на результати розпізнавання. Отриманні результати можуть бути
використані для подальшого формування навчаючої вибірки та її корекції.
B.O. Kapustiy, V.A. Tayanov
The Influence of the Training Set Size on the Generalized Ability of the Metrical Classifiers
In this paper the approach giving the estimate of the class size reduction influence on the recognition rate for
the kNN classifiers has been proposed. The approach also gives the possibility to estimate the optimal k value
of the nearest neighbours. The simulative modeling of the training set reduction influence on the recognition
process results has been carried out. The obtained results can be used for the training set formation and its
correction.
Статья поступила в редакцию 08.07.2009.
|