Распознавание графических образов текстовых символов, представленных в виде характеристических векторов
Предложен алгоритм распознавания, который сочетает в себе преимущества алгоритмов теории решений, нейронных сетей и основан на представлении графических образов символов в виде набора характеристик, иллюстрирующих распознавание с помощью данного алгоритма, а также отмечены некоторые аспекты предобра...
Saved in:
| Date: | 2007 |
|---|---|
| Main Author: | |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут програмних систем, журнал "Проблеми програмування"
2007
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/304 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Распознавание графических образов текстовых символов, представленных в виде характеристических векторов / В.Г. Прохоров // Пробл. програмув. — 2007. — N 3. — С. 97-106. — Библиогр.: 11 назв. — рус. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859640218781483008 |
|---|---|
| author | Прохоров, В.Г. |
| author_facet | Прохоров, В.Г. |
| citation_txt | Распознавание графических образов текстовых символов, представленных в виде характеристических векторов / В.Г. Прохоров // Пробл. програмув. — 2007. — N 3. — С. 97-106. — Библиогр.: 11 назв. — рус. |
| collection | DSpace DC |
| description | Предложен алгоритм распознавания, который сочетает в себе преимущества алгоритмов теории решений, нейронных сетей и основан на представлении графических образов символов в виде набора характеристик, иллюстрирующих распознавание с помощью данного алгоритма, а также отмечены некоторые аспекты предобработки характеристик. Приведены экспериментальные данные, иллюстрирующие эффективность предложенного алгоритма.
|
| first_indexed | 2025-12-07T13:21:17Z |
| format | Article |
| fulltext |
Прикладне програмне забезпечення
97
УДК 004.934
В.Г. Прохоров
РАСПОЗНАВАНИЕ ГРАФИЧЕСКИХ ОБРАЗОВ ТЕКСТОВЫХ
СИМВОЛОВ, ПРЕДСТАВЛЕННЫХ В ВИДЕ ХАРАКТЕРИСТИЧЕ-
СКИХ ВЕКТОРОВ
Предложен алгоритм распознавания, который сочетает в себе преимущества алгоритмов теории реше-
ний, нейронных сетей и основан на представлении графических образов символов в виде набора харак-
теристик. Предложен набор характеристик, иллюстрирующих распознавание с помощью данного алго-
ритма и отмечены некоторые аспекты предобработки характеристик. Приведены экспериментальные
данные, иллюстрирующие эффективность предложенного алгоритма.
Введение
Одной из актуальных проблем совре-
менных информационных технологий в
настоящее время остается распознавание
образов, в частности графически представ-
ленных символов. Для решения данной
задачи используется ряд алгоритмов, кото-
рые можно условно разделить на три
категории:
• алгоритмы, основанные на сравнении
шаблонов;
• алгоритмы, основанные на методах
теории решений;
• алгоритмы, использующие нейрон-
ные сети.
Все вышеперечисленные группы алгорит-
мов, имеют, в целом, одинаковую структу-
ру и содержат такие блоки:
• блок обучения системы на наборе
образов, подобным тем, которые будут
распознаватся системой в будущем. По за-
вершению обучения, его результаты со-
храняются;
• блок распознавания, который ис-
пользуя информацию, полученную на эта-
пе обучения, относит незнакомый образ к
одному из классов с помощью определен-
ного математического аппарата (класси-
фикатора).
Следует заметить, что шаблонные
методы, в силу своей негибкости (привя-
занности к шрифту, масштабу, наклону
символов) не подходят для общего реше-
ния данной задачи, однако в силу своей
простоты, небольшой ресурсоемкости, ма-
лым вычислительным затратам они, с оп-
ределенными модификациями, использу-
ются достаточно часто при решении от-
дельных задач распознавания [1].
Метод нейронных сетей, использую-
щий некоторые принципы искусственного
интеллекта, широко используется в боль-
шинстве современных систем распознава-
ния символов. Среди его преимуществ
стоит упомянуть универсальность, а также
незначительные требования к проектиро-
ванию алгоритмов в силу особенностей
нейросетей. Недостатками данного метода
являются значительный объем вычисли-
тельных ресурсов, необходимых для орга-
низации процесса обучения, а также пло-
хая предсказуемость результатов распо-
знавания. Наибольшим преимуществом
таких методов является высокая точность
распознавания.
Алгоритмы, основанные на методах
теории решений, во много раз упрощают
процесс обучения, но их точность значи-
тельно уступает точности нейросетевых
алгоритмов. Важным преимуществом дан-
ных алгоритмов является представление
символов в векторной форме (в виде набо-
ра характеристик), в то время как боль-
шинство нейросетевых алгоритмов опери-
руют с растровым изображением. При ис-
пользовании некоторых классификаторов
теории решений, возможно добиться вы-
сокой степени предсказуемости результа-
тов распознавания.
В настоящей работе рассмотрен класс
нейросетевых алгоритмов распознавания,
Прикладне програмне забезпечення
98
основанный на использовании теории ре-
шений для ускорения процесса обучения
без существенной потери точности распо-
знавания.
Далее будут подробно рассмотренны
некоторые блоки вышеописанных алгори-
тмов, которые использутся для построения
альтернативного алгоритма распознавания.
1. Распознавание символов при
использовании метода представления
в виде характеристических векторов
теории решений
Суть распознавания в теории реше-
ний заключается в анализе символа, расчё-
те его характеристик и установлении соот-
ветствия между обрабатываемым симво-
лом и одним из эталонных (с заранее вы-
численными характеристиками) за счёт
сравнения их характеристик. Следует от-
метить, что речь не идёт об однозначном
сопоставлении символов, а лишь о нахож-
дении эталона, характеристики которого
наиболее точно соответствуют характери-
стикам данного символа (стопроцентное
совпадение характеристик невозможно в
связи с различием шрифтов и почерков, а
также в связи с другими факторами).
Для понимания нижеописанных ал-
горитмов необходимо, прежде всего, четко
определить основные понятия теории рас-
познавания образов. Под образом подра-
зумевается некое упорядоченное множест-
во дескрипторов (или признаков), которые
описывают определенный объект. Классом
образов (или просто классом) называется
множество образов, которые обладают не-
кими общими свойствами. В дальнейшем,
будем обозначать классы символа-
ми Nwww ,...,, 21 , где N – число классов.
Под машинным распознаванием образов
понимаются методы, которые позволяют
относить образы к тем или иным классам –
автоматически или с минимальным уча-
стием человека [2].
Одним из наиболее часто исполь-
зуемых способов представления при-
знаков объекта является представление
его в виде векторов признаков, которые
обозначаются
,
.
.
.
2
1
=
nx
x
x
x (1)
где каждая из компонентов ix представля-
ет i-ый дескриптор, а n – общее число де-
скрипторов, связанное с данным образом.
Образы представляются в виде векторов-
столбцов вида (1), или в эквивалентной
форме T
nxxxx ),...,,( 21= , где T – оператор
транспонирования.
1.1. Основная задача теории решений.
Подход к задаче распознавания образов с
позиции теории решений основан на ис-
пользовании дискриминантных (или реша-
ющих) функций. Пусть T
nxxxx ),...,,( 21= –
n-мерний вектор признаков объекта. Ос-
новная задача распознавания в теории ре-
шений может быть сформулирована сле-
дующим образом. Допустим, что сущест-
вуют N классов образов Nwww ,...,, 21 .
Требуется найти N дискриминантных
функций )(),...,(),( 21 xdxdxd W , таких, что
если образ x принадлежит классу iw , то
)()( xdxd ji > , .;,...,2,1,0 ijNj ≠= (2)
Иными словами, незнакомый образ
x относят к i-му классу, если при подста-
новке x во все дискриминантные функ-
ции наибольшее числовое значение дает
функция )(xd i . В случае неоднозначно-
сти решение принимается произвольным
образом.
Разделяющая поверхность между
классами iw и jw задается множеством
значений x, для которых )()( xdxd ji = ,
или, такими х, для которых
0)()( =− xdxd ji . (3)
Прикладне програмне забезпечення
99
Общепринятая практика состоит в
том, чтобы описать разделяющую поверх-
ность между двумя классами единой
функцией 0)()( =−= xdxdd jiij . Тогда
0)( >xd ij для образов из класса iw , и
0)( <xd ij для образов из класса jw . Реше-
ние задачи распознавания символов можно
рассматривать как поиск различных под-
ходов, используемых для нахождения дис-
криминантных функций, которые удовле-
творяют неравенство (3).
Рассмотрим одну из наиболее часто
используемых математических моделей
алгоритма распознавания теории решений.
Символ представляется в виде вектора, со-
стоящего из характеристик графического
образа этого символа.
),...,,( 21 nxxxX = , здесь 1x – первая
характеристика вектора Х, 2x – вторая ха-
рактеристика вектора Х. и т.д.
Рассмотрим задачу сравнения двух
символов, представленных в форме векто-
ров ),...,,( 21 nxxxX = и ),...,,( 21 nyyyY = .
В качестве критерия близости используем
евклидово расстояние.
∑
=
−=
n
i
ii yxYXD
1
2)(),( . (4)
С учетом того, что одни характери-
стики при сравнении имеют большее зна-
чение, чем другие, формула расстояния
приобретает вид
∑
=
−=
n
i
iii yxwYXD
1
2)(),( , (5)
где iw – весовой коэффициент важности
i-ой характеристики. Поскольку при распо-
знавании нас интересует вычисление ми-
нимального расстояния между векторами,
большее значение весового коэффициента
iw соответствует более важному признаку
и наоборот.
Вышерассмотренные формулы реали-
зуют классификатор по минимуму рас-
стояния, один из наиболее логичных и ин-
туитивно понятных классификаторов тео-
рии решений. Среди других, часто исполь-
зуемых классификаторов, стоит упомянуть
байесовский классификатор [3, 4], работа
которого основана на вероятностной оцен-
ке принадлежности образа к тому или
иному классу.
Далее рассмотренны некоторые ха-
рактеристики, используемые для распозна-
вания символов.
1.2. Инвариантные моменты рас-
пределения точек. Моменты различных
порядков используются в таких задачах
обработки изображений как зрение робо-
тов, обнаружение и распознавание лета-
тельных аппаратов и судов по снимкам,
анализ сцен и распознавание символов. В
последнем случае в качестве признаков
используют значения статистических мо-
ментов совокупности "черных" точек
относительно некоторого выбранного
центра.
Наиболее общеупотребительными в
приложениях такого рода являются по-
строчные, центральные и нормированные
моменты.
Для цифрового изображения, храня-
щегося в двумерном массиве, построчные
моменты являются функциями координат
каждой точки изображения следующего
вида:
∑∑
−
=
−
=
=
1
0
1
0
),(
M
x
N
y
qp
pq yxfyxm , (6)
где p,q = 0,l,...,∞; M и N – размеры изобра-
жения по горизонтали и вертикали,
f(x,y) – яркость пикселя в точке (х,у) на
изображении.
Центральные моменты – функция
расстояния точки от центра тяжести
символа:
∑∑
−
=
−
=
−−=
1
0
1
0
),()()(
M
x
N
y
qp yxfyyxxµ , (7)
где ),(
−−
yx – координаты центра тяжести.
Вследствии, нормированные цен-
тральные моменты получаются в результа-
те деления центральных моментов на мо-
менты нулевого порядка:
γµ
µ
η
00
pq
pq = , где
2
qp +=γ . (8)
Прикладне програмне забезпечення
100
Отдельный вид моментов – инвари-
антный по отношению к операциям мас-
штабирования, параллельного переноса,
поворота. Такие моменты называют инва-
риантными. Они вычисляются через нор-
мированные центральные моменты второ-
го и третьего порядков. Использование ин-
вариантных моментов позволяет распозна-
вать слегка повернутые символы, а также
символы разных размеров [5, 6]. Инва-
риантные моменты вычисляются по
формулам
02201 ηηφ += , (9)
2
11
2
02202 4)( ηηηφ +−= , (10)
2
0321
2
12303 )3()3( ηηηηφ −+−= , (11)
2
0321
2
12304 )()( ηηηηφ +++= . (12)
Всего в расчетах используется семь
инвариантных моментов, значения кото-
рых логарифмируются.
На практике применение инвариант-
ных моментов сопряжено с небольшими
различиями значений (которых по идее не
должно быть) при небольших углах пово-
рота. Данный эффект связан с дискретно-
стью рассматриваемого изображения [7, 8].
1.3. Центр тяжести рисунка. Вы-
числения центра тяжести рисунка одна из
базовых операций применяемых при ана-
лизе статистического распределения точек
рисунка.
Координаты ),( yx центра тяжести
рисунка определяются по формуле:
∑∑
∑∑
−
=
−
=
−
=
−
==
1
0
1
0
1
0
1
0
),(
),(
M
x
N
y
M
x
N
y
yxf
yxxf
x ,
(13)
∑∑
∑∑
−
=
−
=
−
=
−
==
1
0
1
0
1
0
1
0
),(
),(
M
x
N
y
M
x
N
y
yxf
yxyf
y ,
где M и N — размеры изображения по го-
ризонтали и вертикали, f(x,y) – яркость
пикселя в точке (х,у) на изображении.
С практической точки зрения, вычис-
ление центра тяжести – «улучшенный ва-
риант» вычисления средней яркости изо-
бражения, которая подробно описана в [7].
Центр тяжести характеризует распределе-
ние черных точек по всему рисунку.
1.4. Структурные характеристики
символа. Структурные признаки обычно
используются для выделения общей струк-
туры образа. Они описывают геометриче-
ские и топологические свойства символа.
Одними из наиболее используемых
признаков являются штрихи и пробелы,
применяемые для определения таких ха-
рактерных особенностей изображения:
концевых точек, пересечения отрезков,
замкнутых циклов, а также их положения
относительно рамки, объемлющей символ.
Пусть матрица, содержащая скелети-
зированный символ, разделена на ряд об-
ластей, каждой из которых присвоено бук-
вы А, B, С и т.д. Символ рассматривается
как набор штрихов. При этом штрих явля-
ется прямой линией (l) или кривой (c), со-
единяет некоторые две точки в начерта-
нии символа. Штрих является кривой, ес-
ли его точки удовлетворяют следующему
выражению:
,69.0|
/
| 1
22
>
+++∑
=
n
bacbyax
ABS
n
i
ii
(14)
в противном случае – это прямая. В данной
формуле (xi,yi) – точка, принадлежащей
штриху; 0=++ cbyax – уравнение пря-
мой, проходящей через концы штриха, ко-
эффициент 0.69 получен опытным путем.
При введенных обозначениях при-
знаки символа могут быть записаны, на-
пример, в виде 'A lC' и 'AcD', что означает
наличие прямой, проходящей из области
'А' в область 'С', и кривой, проходящей из
области 'А' в область 'D' соответственно.
Достоинство структурных признаков по
сравнению с другими методами определя-
ется устойчивостью к сдвигу, масштабиро-
ванию и повороту символа на небольшой
угол, а также к возможным дисторсиям и
различным стилевым вариациям шрифтов.
Прикладне програмне забезпечення
101
Недостатком структурных признаков
является повышенное требование к алго-
ритмам скелетизации, а также ресурсоем-
кость. Поскольку данные характеристики
невозможно записать в строгой аналитиче-
ской форме, применение таких признаков
при распознавании требует использования
дополнительных алгоритмов, которые на-
ходят соответствие между эталонами сим-
волов и распознаваемыми символами.
Один из таких алгоритмов – метод маски.
1.5. Метод маски (пересечений).На
изображение накладывается маска, которая
состоит из прямых, которые выходят из
начала координат (верхний левый угол ри-
сунка) под углами °0 , °45 , °90 , °135 . За-
тем подсчитывается количество пересече-
ний скелета символа с прямыми маски.
Этот метод инвариантен к дисторсии и не-
большим стилистическим вариациям сим-
волов, а также обладает достаточно высо-
кой скоростью и не требует значительных
вычислительных затрат.
В данной работе, в качестве начала
координат используются все углы изобра-
жения с целью избегания возможных оши-
бок вызванных, например, скелетизацией
или нестандартным написанием символов.
2. Распознавание символов
с помощью нейронных сетей.
Геометрическая интерпретация обуче-
ния и распознавания
Распознавание символов – один из
классических примеров использования
нейронных сетей, нейросетевым алгорит-
мам распознавания посвящено значитель-
ное число статей и публикаций. Поэтому,
вместо объемного описания стандартного
алгоритма обратного распространения
ошибки, автор считает уместным обратить
внимание на некоторые аспекты использо-
вания нейронных сетей.
Независимо от того, какой классифи-
катор используется для распознавания,
геометрическое представление символа
одинаково. И в случае использования ней-
ронных сетей или использования класси-
ческих методов теории решений, символ
представляется в виде точки n-мерного
пространства, где n – количество призна-
ков (характеристик), используемых для
описания. В классическом варианте ис-
пользования нейронных сетей для распо-
знавания символов, признаками являются
значения всех пикселей графического об-
раза символа (предполагается, что графи-
ческий образ распознаваемого символа –
изображение в оттенках серого, а значения
пикселей лежат в диапазоне [0;1]). Данный
метод описания имеет два существенных
преимущества для дальнейшего обучения
и распознавания:
• полнота информации о распозна-
ваемом образе;
• однородность информации.
Рассмотрим суть вышеупомянутых
преимуществ. Полнота информации гаран-
тирует, что на вход нейронной сети посту-
пает все изображение и таким образом
нейронная сеть будет располагать всей
доступной информацией о символе для
обучения или распознавания. Однород-
ность информации гарантирует то, что во
всех измерениях n-мерного пространства
единица измерения одна и та же, а именно
– пиксел. За счет этого, на каждый из вхо-
дов нейросети будут поступать числа, ко-
торые лежат в одном диапазоне. Это суще-
ственно упрощает процесс обучения ней-
ронной сети.
Данный способ имеет существен-
ный недостаток, а именно – слишком
большой объем хранимой информации об
образе. Так, при обучении образа размером
NxN пикселей (как правило, при распозна-
вании или обучении графические образы
символов имеют квадратную форму), дан-
ный образ хранится в виде 2N характери-
стик. Нетрудно посчитать, что хранение в
памяти компьютера базы символов, со-
стоящей из нескольких десятков тысяч об-
разов символов, требует несколько сот ме-
габайт оперативной памяти.
Но наибольший недостаток такого
описания состоит в очень большом коли-
честве вычислений, необходимых для обу-
чения сети. Причины такой ресурсоемко-
сти с вычислительной точки зрения: чем
больше число связей, тем больше эпох не-
обходимо пройти для их настройки [9].
Для полного понимания проблемы следует
Прикладне програмне забезпечення
102
рассмотреть геометрическую трактовку
процесса распознавания. Заметим, что в
контексте данной задачи, под нейросетью
понимаем многослойный персиптрон без
обратной связи.
При этом, входом каждого узла
нейросети (кроме узлов входного слоя) яв-
ляется взвешенная сумма всех узлов пред-
шествующего слоя. Пусть слой K предше-
ствующий слою J сети (заметим, что на
рис. 1 не предполагается алфавитной упо-
рядоченности), создает на входе активи-
рующего элемента каждого узла слоя J си-
гнал, обозначаемый jI :
∑
=
=
kN
k
kjkj OwI
1
. (15)
Для JNj ,...,2,1= , где jN – число
узлов в слое J, KN – число узлов в слое К,
jkw – веса, модифицирующие выходные
сигнали kO узлов слоя К на входе узлов
слоя J. Эти выходные сигналы слоя K
имеют значения
),( kkk IhO = Nk ,...,2,1= , (16)
где )(Ih – активирующая функция нейро-
сети, тип которой не играет роли в даль-
нейшем.
Вышеупомянутый классификатор
по минимуму расстояния ищет минималь-
ное расстояние между поступившим обра-
зом и эталонными образами. Нейросеть, с
другой стороны, занимается построением
разделяющих поверхностей. Структура
нейросети определяет характер разделяю-
щих поверхностей. Однослойная сеть реа-
лизует разделяющую поверхность в форме
гиперплоскости, которая делит на две час-
ти все n-мерное пространство признаков
объектов. Двухслойная нейросеть строит
произвольные выпуклые поверхности, об-
разованные перескающимися гиперпло-
скостями. Трехслойная сеть реализует раз-
деляющие поверхности произвольной
сложности. В силу вышеописаного факта,
именно трехслойные нейросети чаще всего
применяются для распознавания символов
при реализации классических алгоритмов
распознавания. (Нейронные сети с че-
тырьмя и больше слоями применяются в
отдельных случаях, обычно компромисс
между количеством слоев и количеством
узлов в слое достигается методом проб и
ошибок). Сопоставив рис. 1 и формулу (15)
видно, что разделяющая классы поверх-
ность формируется множеством гиперпло-
скостей, так как веса в (15) – коэффициен-
ты гиперплоскости порядка KN . Слож-
ность такой поверхности определяется
числом узлов сети: чем больше узлов, тем
большее количество гиперплоскостей
формируют данную поверхность (раз-
деляющую поверхность можно рас-
сматривать как некую суперпозицию
гиперплоскостей).
Порядок гиперплоскости определя-
ется количеством характеристик и равен
2N . Учитывая то, что число узлов скрыто-
го слоя задает сложность поверхности,
можно сделать вывод, что это число в ос-
новном связано с размером обучающей
выборки, а общее число вычислений, не-
обходимых для работы нейросети зависит
от числа узлов во всех слоях. При этом,
число узлов выходного слоя нельзя
уменьшить в принципе, поскольку это
противоречит самому смыслу задачи рас-
познавания (фактически, в этом случае бу-
дет уменьшено число классов). Число ней-
ронов скрытого слоя (или нескольких
скрытых слоев) можно уменьшить за счет
уменьшения размера обучающей выборки,
что не всегда приемлемо с точки зрения
ожидаемой эффективности распознавания.
Число входных узлов можно уменьшить
только одним способом: уменьшением
числа признаков данного символа. При
этом уменьшение разрешения графическо-
го образа не является приемлемым путем,
так как при уменьшении числа точек про-
исходит потеря информации об образе [10,
11]. В качестве решения данной пробле-
мы, можно использовать представление
символа в виде вектора признаков теории
решений.
2.1. Особенности векторного пред-
ставления символов. Геометрическая
интерпретация обучения и распознава-
ния. Наибольшим достоинством представ-
ления символов в виде вектора признаков
является компактность записи и неболь-
шой объем информации, необходимой для
Прикладне програмне забезпечення
103
описания отдельного символа. Это позво-
ляет уменьшить число вычислений при
обучении и распознавании. Как и при рас-
тровом подходе, символ представляется в
виде точки n-мерного пространства, только
в этом случае размерность пространства
возможно уменьшить в зависимости от ко-
личества выбранных характеристик. При
правильно выбранной системе характери-
стик, можно получить важную смысловую
информацию о символе, недоступную при
растровом подходе, например, количество
линий, формирующих остов символа, ко-
нечные точки и точки перегиба и прочие.
Такая информация не теряет своей акту-
альности при изменении масштаба, незна-
чительном повороте и прочих трансфор-
мациях.
К недостаткам данного описания
можно отнести две особенности:
• возможная потеря полноты инфор-
мации при формировании характеристик;
• неоднородность информации.
В отличии от нейросетевого подхода,
который использует растровое описание,
эффективность распознавания символов
при векторном описании напрямую зави-
сит от выбранной системы признаков, тем
самым предъявляя повышенные требова-
ния к алгоритмам, а не вычислительным
мощностям системы, на которой будет
происходить обучение. Важно понимать,
что если признаки выбраны неудачно, рас-
познавание будет неэффективным. Оче-
видно, что выбранные для описания харак-
теристики должны пытаться однозначно
описать разные классы символов.
Значительной проблемой может
стать неоднородность информации, опи-
сывающей образ символа. В отличии от
растрового представления, информация
хранимая в векторе признаков является
однородной только при использовании
одинаковых по своей сути характеристик.
Частично, данная проблема решается за
счет нормирования значений характери-
стик, однако на практике это зачастую
приводит к «выпаданию» определенных
символов за границы диапазона значений.
Обучение и распознавание симво-
лов при использовании теории решений
реализуется следующим образом. В про-
цессе обучения вычисляются характери-
стики символов, принадлежащих обучаю-
щей выборке и формируются векторы с
характеристиками, которые часто называ-
ют эталонами. Во время распознавания
среди эталонов ищется тот, характеристи-
ки которого минимально отдалены от ха-
рактеристик неизвестного символа с точки
зрения Евклидовой метрики. Заметим, что
если, по сравнению с нейросетями, про-
цесс обучения в теории решений является
простым с вычислительной точки зрения,
то процесс распознавания требует боль-
ших вычислительных ресурсов, так как.
требуется провести сравнение неизвестно-
го символа со всеми эталонами, следст-
венно при равном объеме обучающей вы-
борки нейросеть всегда будет распознавать
быстрее. Преимущество нейросетей в ско-
рости показано на рисунке.
Рисунок
Здесь рассмотренно распознавание
неизвестного символа, представленного на
рисунке точкой w. В случае использования
нейросети, распознавание происходит за
счет подстановки координат точки w в
уравнение разделяющей поверхности. При
использовании методов теории решений
необходимо вычислить расстояние от точ-
ки w до всех точек областей w1 и w2, а за-
тем отнести w к той области, к которой
принадлежит ближайший к ней эталон.
Очевидно, что количество вычислений во
втором случае значительно выше.
Прикладне програмне забезпечення
104
3. Построение модифицированого
алгоритма. Сравнение с алгоритмами,
основаными на теории решений
и нейросетевыми алгоритмами
Для проверки эффективности алго-
ритма разработано три основных програм-
мы распознавания символов: Cunning Eye
Solution (основана на классификаторе по
минимуму расстояния), Cunning Eye Neuro
(основана на классическом нейросетевом
подходе), Cunning Eye Neuro Plus (основа-
на на синтезе вышеописанных алгоритмов
распознавания). Для анализа эффективно-
сти работы алгоритмов программы Cun-
ning Eye Neuro и Cunning Eye Neuro Plus
работали с различным количеством вход-
ных данных.
Вышеописанные системы обуча-
лись на одной и той же выборке, затем
тестировались на единой для всех прове-
рочной выборке. В качестве таких выборок
взяты базы рукописных цифр MNIST.
Данная база является общепринятой базой
среди разработчиков OCR систем. Размер
обучающей выборки – 6000 символов,
размер тестирующей – 1000 символов.
В качестве основных параметров
оценки работы системы оценивались такие
характеристики:
• скорость обучения;
• точность распознавания символов
из обучающей выборки;
• точность распознавания символов
из тестировочной выборки.
Кратко рассмотрим используемые в
экспериментах системы распознавания
символов.
Cunning Eye Solution. Данная сис-
тема реализует распознавание символов с
использованием классификатора по мини-
муму расстояния. В качестве признаков
используются характеристики, описанные
в разделах 1.2 – 1.5. Для оценки инвари-
антности используемых характеристик при
распознавании использовались их различ-
ные сочетания.
Cunning Eye Neuro. Данная систе-
ма проводит распознавание символов с
помощью классических трехслойных ней-
росетей с архитектурами 784-50-10, 196-
50-10, 361-50-10. В первом случае, цифры
с разрешением 28х28 пикселей без изме-
нений поступают на вход нейросети. В ос-
тальных случаях цифры масштабировались
и приводились к размерам 14х14 и 19х19
пикселей. Количество нейронов скрытого
слоя было определено методом проб и
ошибок.
Cunning Eye Neuro Plus. Эта сис-
тема проводит распознавание символов с
помощью классической трехслойной ней-
росети с архитектурами 13-15-10, 9-15-10,
7-15-10. В первом случае, на вход подают-
ся (в нормированом для однородности ви-
де) 7 инвариантных моментов, координаты
центра масс символа, количество пересе-
чений с маской, всего 13 характеристик.
Во втором случае на вход нейросети по-
даются 7 инвариантных моментов, коор-
динаты центра масс символа, т.е. данные о
пересечении с маской не используются. В
третьем случае на вход нейросети подают-
ся только 7 инвариантных моментов, ос-
тальные характеристики не используются.
Количество нейронов скрытого слоя опре-
делено методом проб и ошибок.
Проанализируем результаты экспе-
риментов, записанные в таблице. Необхо-
димо отметить, что система Cunning Eye
Neuro не смогла обучится распознаванию
63 символам, а Cunning Eye Neuro Plus –
123. В этих случаях в качестве времени
обучения бралось время, за которое систе-
ма обучалась распознаванию максималь-
ного числа символов.
Что касается непосредственных ре-
зультатов эксперимента, то стоит отметить
неэффективность системы, построенной на
методах теории решений. В данном случае
такое важное достоинство как быстрое
обучение, нивелируется недостаточной
точностью распознавания.
Классический алгоритм распозна-
вания на основе нейросетей продемонст-
рировал высокую точность распознавания,
хорошую способность к обобщению и низ-
кую скорость обучения.
Алгоритм, синтезирующий различ-
ные подходы к распознаванию продемон-
стрировал очень высокую, по сравнению с
классическим алгоритмом, скорость обу-
Прикладне програмне забезпечення
105
чения. Невысокая точность распознавания
проверяющей выборки свидетельствует о
плохой способности к обобщению, однако
точность распознавания обучающей вы-
борки довольно высока, поэтому при над-
лежащем обучении такая система способна
эффективно решать задачу распознавания.
Необходимо отметить, что точность распо-
знавания такой системы зависит от вы-
браных характеристик, поэтому добавле-
ние к классификатору новых инвариант-
ных признаков также повысит точность
распознавания.
Выводы
Расмотренный алгоритм распозна-
вания символов позволяет устранить от-
дельные недостатки алгоритмов теории
решений и классических нейросетевых ал-
горитмов. При построении алгоритма пер-
воочередной задачей было существенное
ускорение обучения, которое достигнуто
за счет небольшого уменьшения точности
распознавания.
Как было упомянуто ранее, основ-
ным фактором, влияющим на точность
распознавания символов в предложенном
алгоритме, является система выбранных
характеристик. При использовании пред-
ложенного набора характеристик была по-
лучена очень высокая скорость обучения
нейронной сети, а также достаточная точ-
ность распознавания. При этом, за счет
введения большего числа инвариантных
характеристик возможно увеличение как
точности распознавания, так и скорости
обучения. В этом случае, предложенный
алгоритм можно улучшить, добавив в ка-
честве характеристик признаки, вычисляе-
мые методом полиномиальной регрессии,
предложенные в [11]. Заметим, что при оп-
тимально подобраной системе характери-
стик, повышение скорости обучения воз-
можно без существенных потерь в точно-
сти распознавания.
Таблица. Результаты экспериментов
Название системы
Точность
распознавания
обучающей
выборки, %
Точность
распознавания
проверяющей
выборки, %
Время обучения,
час; мин; сек
Cunning Eye Solution
(все характеристики)
83.32 61.45 0:0:26
Cunning Eye Solution
(моменты+центр масс)
71.88 55.67 0:0:24
Cunning Eye Solution
(моменты)
66.7 50.93 0:0:24
Cunning Eye Neuro
(784-50-10)
98.57 86.48 5:14:35
Cunning Eye Neuro
(361-50-10)
96.78 79.13 4:06:39
Cunning Eye Neuro
(196-50-10)
95.56 75.19 3:29:06
Cunning Eye Neuro
Plus
(13-15-10)
94.84 69.63 2:04:01
Cunning Eye Neuro
Plus
(9-15-10)
83.12 61.84 1:41:19
Cunning Eye Neuro
Plus
(7-15-10)
75.17 56.18 1:49:59
Прикладне програмне забезпечення
106
1. Ватолин Д.С. Алгоритмы сжатия изобра-
жений.– МГУ, 2002. – С. 30 – 32.
2. Гонсалес Р., Вудс Р. Цифровая обработка
изображений. – М.: Техносфера, 2005. –
С. 1110 – 1148.
3. Форсайт Д., Понс Д. Компьютерное зре-
ние. Современный подход. – М.: Вильямс,
2004. – С. 603 – 610.
4. Dr. Maria Isabel Ribeiro. “Gaussian Prob-
ability Density Functions: Properties and
Error Characterization”, www.imageproces-
singplace.com
5. Wood J. “Invariant pattern recognition: A
review“. Pattern Recognition. – 1996 – Vol.
29(1). – P. 1 – 17.
6. Jamie Shutler. “Statistical moments”, 2002.
http://homepages.inf.ed.ac.uk/rbf/CVonline/
LOCAL_COPIES/SHUTLER3/node5.html.
– P. 1
7. Бондаренко А.В., Галактионов В.А.,
Желтов С.Ю. Исследование подходов к
построению систем автоматического счи-
тывания символьной информации. – М.:
Изд-е ИПМ им. М.В. Келдыша РАН, 2003.
– С. 5 – 10.
8. Alexander G. Mamistvalov. “N-Dimensional
Moment Invariants and Conceptual Ma-
thematical Theory of Recognition
n-Dimensional Solids”. IEEE Press, – 1998.
– Vol. 20. – P. 1 – 9.
9. Саймон Хайкин. «Нейронные сети. Пол-
ный курс». Издание второе (исправлен-
ное). Прэнтис Холл, 2006. – С 239 – 298.
10. George N. Sazaklis “Geometric methods for
optical character recognition”, New York
State University. – 1997. – P. 1 – 19.
11. Sameer Singh. “Shape Detection Using Gra-
dient Features for Handwritten Character
Recognition” School of Computing, Univer-
sity of Plymouth, 2001. – P. 1 – 13.
Получено 03.05.2007
Об авторе:
Прохоров Валерий Георгиевич,
аспирант Института программных
систем НАН Украины,
e-mail: makumazan84@yahoo.com
|
| id | nasplib_isofts_kiev_ua-123456789-304 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1727-4907 |
| language | Russian |
| last_indexed | 2025-12-07T13:21:17Z |
| publishDate | 2007 |
| publisher | Інститут програмних систем, журнал "Проблеми програмування" |
| record_format | dspace |
| spelling | Прохоров, В.Г. 2008-02-22T19:40:51Z 2008-02-22T19:40:51Z 2007 Распознавание графических образов текстовых символов, представленных в виде характеристических векторов / В.Г. Прохоров // Пробл. програмув. — 2007. — N 3. — С. 97-106. — Библиогр.: 11 назв. — рус. 1727-4907 https://nasplib.isofts.kiev.ua/handle/123456789/304 Предложен алгоритм распознавания, который сочетает в себе преимущества алгоритмов теории решений, нейронных сетей и основан на представлении графических образов символов в виде набора характеристик, иллюстрирующих распознавание с помощью данного алгоритма, а также отмечены некоторые аспекты предобработки характеристик. Приведены экспериментальные данные, иллюстрирующие эффективность предложенного алгоритма. ru Інститут програмних систем, журнал "Проблеми програмування" №3 С. 97-106 Прикладне програмне забезпечення Распознавание графических образов текстовых символов, представленных в виде характеристических векторов Article published earlier |
| spellingShingle | Распознавание графических образов текстовых символов, представленных в виде характеристических векторов Прохоров, В.Г. Прикладне програмне забезпечення |
| title | Распознавание графических образов текстовых символов, представленных в виде характеристических векторов |
| title_full | Распознавание графических образов текстовых символов, представленных в виде характеристических векторов |
| title_fullStr | Распознавание графических образов текстовых символов, представленных в виде характеристических векторов |
| title_full_unstemmed | Распознавание графических образов текстовых символов, представленных в виде характеристических векторов |
| title_short | Распознавание графических образов текстовых символов, представленных в виде характеристических векторов |
| title_sort | распознавание графических образов текстовых символов, представленных в виде характеристических векторов |
| topic | Прикладне програмне забезпечення |
| topic_facet | Прикладне програмне забезпечення |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/304 |
| work_keys_str_mv | AT prohorovvg raspoznavaniegrafičeskihobrazovtekstovyhsimvolovpredstavlennyhvvideharakterističeskihvektorov |