Распознавание графических образов текстовых символов, представленных в виде характеристических векторов

Предложен алгоритм распознавания, который сочетает в себе преимущества алгоритмов теории решений, нейронных сетей и основан на представлении графических образов символов в виде набора характеристик, иллюстрирующих распознавание с помощью данного алгоритма, а также отмечены некоторые аспекты предобра...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2007
Автор: Прохоров, В.Г.
Формат: Стаття
Мова:Російська
Опубліковано: Інститут програмних систем, журнал "Проблеми програмування" 2007
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/304
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Распознавание графических образов текстовых символов, представленных в виде характеристических векторов / В.Г. Прохоров // Пробл. програмув. — 2007. — N 3. — С. 97-106. — Библиогр.: 11 назв. — рус.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859640218781483008
author Прохоров, В.Г.
author_facet Прохоров, В.Г.
citation_txt Распознавание графических образов текстовых символов, представленных в виде характеристических векторов / В.Г. Прохоров // Пробл. програмув. — 2007. — N 3. — С. 97-106. — Библиогр.: 11 назв. — рус.
collection DSpace DC
description Предложен алгоритм распознавания, который сочетает в себе преимущества алгоритмов теории решений, нейронных сетей и основан на представлении графических образов символов в виде набора характеристик, иллюстрирующих распознавание с помощью данного алгоритма, а также отмечены некоторые аспекты предобработки характеристик. Приведены экспериментальные данные, иллюстрирующие эффективность предложенного алгоритма.
first_indexed 2025-12-07T13:21:17Z
format Article
fulltext Прикладне програмне забезпечення 97 УДК 004.934 В.Г. Прохоров РАСПОЗНАВАНИЕ ГРАФИЧЕСКИХ ОБРАЗОВ ТЕКСТОВЫХ СИМВОЛОВ, ПРЕДСТАВЛЕННЫХ В ВИДЕ ХАРАКТЕРИСТИЧЕ- СКИХ ВЕКТОРОВ Предложен алгоритм распознавания, который сочетает в себе преимущества алгоритмов теории реше- ний, нейронных сетей и основан на представлении графических образов символов в виде набора харак- теристик. Предложен набор характеристик, иллюстрирующих распознавание с помощью данного алго- ритма и отмечены некоторые аспекты предобработки характеристик. Приведены экспериментальные данные, иллюстрирующие эффективность предложенного алгоритма. Введение Одной из актуальных проблем совре- менных информационных технологий в настоящее время остается распознавание образов, в частности графически представ- ленных символов. Для решения данной задачи используется ряд алгоритмов, кото- рые можно условно разделить на три категории: • алгоритмы, основанные на сравнении шаблонов; • алгоритмы, основанные на методах теории решений; • алгоритмы, использующие нейрон- ные сети. Все вышеперечисленные группы алгорит- мов, имеют, в целом, одинаковую структу- ру и содержат такие блоки: • блок обучения системы на наборе образов, подобным тем, которые будут распознаватся системой в будущем. По за- вершению обучения, его результаты со- храняются; • блок распознавания, который ис- пользуя информацию, полученную на эта- пе обучения, относит незнакомый образ к одному из классов с помощью определен- ного математического аппарата (класси- фикатора). Следует заметить, что шаблонные методы, в силу своей негибкости (привя- занности к шрифту, масштабу, наклону символов) не подходят для общего реше- ния данной задачи, однако в силу своей простоты, небольшой ресурсоемкости, ма- лым вычислительным затратам они, с оп- ределенными модификациями, использу- ются достаточно часто при решении от- дельных задач распознавания [1]. Метод нейронных сетей, использую- щий некоторые принципы искусственного интеллекта, широко используется в боль- шинстве современных систем распознава- ния символов. Среди его преимуществ стоит упомянуть универсальность, а также незначительные требования к проектиро- ванию алгоритмов в силу особенностей нейросетей. Недостатками данного метода являются значительный объем вычисли- тельных ресурсов, необходимых для орга- низации процесса обучения, а также пло- хая предсказуемость результатов распо- знавания. Наибольшим преимуществом таких методов является высокая точность распознавания. Алгоритмы, основанные на методах теории решений, во много раз упрощают процесс обучения, но их точность значи- тельно уступает точности нейросетевых алгоритмов. Важным преимуществом дан- ных алгоритмов является представление символов в векторной форме (в виде набо- ра характеристик), в то время как боль- шинство нейросетевых алгоритмов опери- руют с растровым изображением. При ис- пользовании некоторых классификаторов теории решений, возможно добиться вы- сокой степени предсказуемости результа- тов распознавания. В настоящей работе рассмотрен класс нейросетевых алгоритмов распознавания, Прикладне програмне забезпечення 98 основанный на использовании теории ре- шений для ускорения процесса обучения без существенной потери точности распо- знавания. Далее будут подробно рассмотренны некоторые блоки вышеописанных алгори- тмов, которые использутся для построения альтернативного алгоритма распознавания. 1. Распознавание символов при использовании метода представления в виде характеристических векторов теории решений Суть распознавания в теории реше- ний заключается в анализе символа, расчё- те его характеристик и установлении соот- ветствия между обрабатываемым симво- лом и одним из эталонных (с заранее вы- численными характеристиками) за счёт сравнения их характеристик. Следует от- метить, что речь не идёт об однозначном сопоставлении символов, а лишь о нахож- дении эталона, характеристики которого наиболее точно соответствуют характери- стикам данного символа (стопроцентное совпадение характеристик невозможно в связи с различием шрифтов и почерков, а также в связи с другими факторами). Для понимания нижеописанных ал- горитмов необходимо, прежде всего, четко определить основные понятия теории рас- познавания образов. Под образом подра- зумевается некое упорядоченное множест- во дескрипторов (или признаков), которые описывают определенный объект. Классом образов (или просто классом) называется множество образов, которые обладают не- кими общими свойствами. В дальнейшем, будем обозначать классы символа- ми Nwww ,...,, 21 , где N – число классов. Под машинным распознаванием образов понимаются методы, которые позволяют относить образы к тем или иным классам – автоматически или с минимальным уча- стием человека [2]. Одним из наиболее часто исполь- зуемых способов представления при- знаков объекта является представление его в виде векторов признаков, которые обозначаются , . . . 2 1                     = nx x x x (1) где каждая из компонентов ix представля- ет i-ый дескриптор, а n – общее число де- скрипторов, связанное с данным образом. Образы представляются в виде векторов- столбцов вида (1), или в эквивалентной форме T nxxxx ),...,,( 21= , где T – оператор транспонирования. 1.1. Основная задача теории решений. Подход к задаче распознавания образов с позиции теории решений основан на ис- пользовании дискриминантных (или реша- ющих) функций. Пусть T nxxxx ),...,,( 21= – n-мерний вектор признаков объекта. Ос- новная задача распознавания в теории ре- шений может быть сформулирована сле- дующим образом. Допустим, что сущест- вуют N классов образов Nwww ,...,, 21 . Требуется найти N дискриминантных функций )(),...,(),( 21 xdxdxd W , таких, что если образ x принадлежит классу iw , то )()( xdxd ji > , .;,...,2,1,0 ijNj ≠= (2) Иными словами, незнакомый образ x относят к i-му классу, если при подста- новке x во все дискриминантные функ- ции наибольшее числовое значение дает функция )(xd i . В случае неоднозначно- сти решение принимается произвольным образом. Разделяющая поверхность между классами iw и jw задается множеством значений x, для которых )()( xdxd ji = , или, такими х, для которых 0)()( =− xdxd ji . (3) Прикладне програмне забезпечення 99 Общепринятая практика состоит в том, чтобы описать разделяющую поверх- ность между двумя классами единой функцией 0)()( =−= xdxdd jiij . Тогда 0)( >xd ij для образов из класса iw , и 0)( <xd ij для образов из класса jw . Реше- ние задачи распознавания символов можно рассматривать как поиск различных под- ходов, используемых для нахождения дис- криминантных функций, которые удовле- творяют неравенство (3). Рассмотрим одну из наиболее часто используемых математических моделей алгоритма распознавания теории решений. Символ представляется в виде вектора, со- стоящего из характеристик графического образа этого символа. ),...,,( 21 nxxxX = , здесь 1x – первая характеристика вектора Х, 2x – вторая ха- рактеристика вектора Х. и т.д. Рассмотрим задачу сравнения двух символов, представленных в форме векто- ров ),...,,( 21 nxxxX = и ),...,,( 21 nyyyY = . В качестве критерия близости используем евклидово расстояние. ∑ = −= n i ii yxYXD 1 2)(),( . (4) С учетом того, что одни характери- стики при сравнении имеют большее зна- чение, чем другие, формула расстояния приобретает вид ∑ = −= n i iii yxwYXD 1 2)(),( , (5) где iw – весовой коэффициент важности i-ой характеристики. Поскольку при распо- знавании нас интересует вычисление ми- нимального расстояния между векторами, большее значение весового коэффициента iw соответствует более важному признаку и наоборот. Вышерассмотренные формулы реали- зуют классификатор по минимуму рас- стояния, один из наиболее логичных и ин- туитивно понятных классификаторов тео- рии решений. Среди других, часто исполь- зуемых классификаторов, стоит упомянуть байесовский классификатор [3, 4], работа которого основана на вероятностной оцен- ке принадлежности образа к тому или иному классу. Далее рассмотренны некоторые ха- рактеристики, используемые для распозна- вания символов. 1.2. Инвариантные моменты рас- пределения точек. Моменты различных порядков используются в таких задачах обработки изображений как зрение робо- тов, обнаружение и распознавание лета- тельных аппаратов и судов по снимкам, анализ сцен и распознавание символов. В последнем случае в качестве признаков используют значения статистических мо- ментов совокупности "черных" точек относительно некоторого выбранного центра. Наиболее общеупотребительными в приложениях такого рода являются по- строчные, центральные и нормированные моменты. Для цифрового изображения, храня- щегося в двумерном массиве, построчные моменты являются функциями координат каждой точки изображения следующего вида: ∑∑ − = − = = 1 0 1 0 ),( M x N y qp pq yxfyxm , (6) где p,q = 0,l,...,∞; M и N – размеры изобра- жения по горизонтали и вертикали, f(x,y) – яркость пикселя в точке (х,у) на изображении. Центральные моменты – функция расстояния точки от центра тяжести символа: ∑∑ − = − = −−= 1 0 1 0 ),()()( M x N y qp yxfyyxxµ , (7) где ),( −− yx – координаты центра тяжести. Вследствии, нормированные цен- тральные моменты получаются в результа- те деления центральных моментов на мо- менты нулевого порядка: γµ µ η 00 pq pq = , где 2 qp +=γ . (8) Прикладне програмне забезпечення 100 Отдельный вид моментов – инвари- антный по отношению к операциям мас- штабирования, параллельного переноса, поворота. Такие моменты называют инва- риантными. Они вычисляются через нор- мированные центральные моменты второ- го и третьего порядков. Использование ин- вариантных моментов позволяет распозна- вать слегка повернутые символы, а также символы разных размеров [5, 6]. Инва- риантные моменты вычисляются по формулам 02201 ηηφ += , (9) 2 11 2 02202 4)( ηηηφ +−= , (10) 2 0321 2 12303 )3()3( ηηηηφ −+−= , (11) 2 0321 2 12304 )()( ηηηηφ +++= . (12) Всего в расчетах используется семь инвариантных моментов, значения кото- рых логарифмируются. На практике применение инвариант- ных моментов сопряжено с небольшими различиями значений (которых по идее не должно быть) при небольших углах пово- рота. Данный эффект связан с дискретно- стью рассматриваемого изображения [7, 8]. 1.3. Центр тяжести рисунка. Вы- числения центра тяжести рисунка одна из базовых операций применяемых при ана- лизе статистического распределения точек рисунка. Координаты ),( yx центра тяжести рисунка определяются по формуле: ∑∑ ∑∑ − = − = − = − == 1 0 1 0 1 0 1 0 ),( ),( M x N y M x N y yxf yxxf x , (13) ∑∑ ∑∑ − = − = − = − == 1 0 1 0 1 0 1 0 ),( ),( M x N y M x N y yxf yxyf y , где M и N — размеры изображения по го- ризонтали и вертикали, f(x,y) – яркость пикселя в точке (х,у) на изображении. С практической точки зрения, вычис- ление центра тяжести – «улучшенный ва- риант» вычисления средней яркости изо- бражения, которая подробно описана в [7]. Центр тяжести характеризует распределе- ние черных точек по всему рисунку. 1.4. Структурные характеристики символа. Структурные признаки обычно используются для выделения общей струк- туры образа. Они описывают геометриче- ские и топологические свойства символа. Одними из наиболее используемых признаков являются штрихи и пробелы, применяемые для определения таких ха- рактерных особенностей изображения: концевых точек, пересечения отрезков, замкнутых циклов, а также их положения относительно рамки, объемлющей символ. Пусть матрица, содержащая скелети- зированный символ, разделена на ряд об- ластей, каждой из которых присвоено бук- вы А, B, С и т.д. Символ рассматривается как набор штрихов. При этом штрих явля- ется прямой линией (l) или кривой (c), со- единяет некоторые две точки в начерта- нии символа. Штрих является кривой, ес- ли его точки удовлетворяют следующему выражению: ,69.0| / | 1 22 > +++∑ = n bacbyax ABS n i ii (14) в противном случае – это прямая. В данной формуле (xi,yi) – точка, принадлежащей штриху; 0=++ cbyax – уравнение пря- мой, проходящей через концы штриха, ко- эффициент 0.69 получен опытным путем. При введенных обозначениях при- знаки символа могут быть записаны, на- пример, в виде 'A lC' и 'AcD', что означает наличие прямой, проходящей из области 'А' в область 'С', и кривой, проходящей из области 'А' в область 'D' соответственно. Достоинство структурных признаков по сравнению с другими методами определя- ется устойчивостью к сдвигу, масштабиро- ванию и повороту символа на небольшой угол, а также к возможным дисторсиям и различным стилевым вариациям шрифтов. Прикладне програмне забезпечення 101 Недостатком структурных признаков является повышенное требование к алго- ритмам скелетизации, а также ресурсоем- кость. Поскольку данные характеристики невозможно записать в строгой аналитиче- ской форме, применение таких признаков при распознавании требует использования дополнительных алгоритмов, которые на- ходят соответствие между эталонами сим- волов и распознаваемыми символами. Один из таких алгоритмов – метод маски. 1.5. Метод маски (пересечений).На изображение накладывается маска, которая состоит из прямых, которые выходят из начала координат (верхний левый угол ри- сунка) под углами °0 , °45 , °90 , °135 . За- тем подсчитывается количество пересече- ний скелета символа с прямыми маски. Этот метод инвариантен к дисторсии и не- большим стилистическим вариациям сим- волов, а также обладает достаточно высо- кой скоростью и не требует значительных вычислительных затрат. В данной работе, в качестве начала координат используются все углы изобра- жения с целью избегания возможных оши- бок вызванных, например, скелетизацией или нестандартным написанием символов. 2. Распознавание символов с помощью нейронных сетей. Геометрическая интерпретация обуче- ния и распознавания Распознавание символов – один из классических примеров использования нейронных сетей, нейросетевым алгорит- мам распознавания посвящено значитель- ное число статей и публикаций. Поэтому, вместо объемного описания стандартного алгоритма обратного распространения ошибки, автор считает уместным обратить внимание на некоторые аспекты использо- вания нейронных сетей. Независимо от того, какой классифи- катор используется для распознавания, геометрическое представление символа одинаково. И в случае использования ней- ронных сетей или использования класси- ческих методов теории решений, символ представляется в виде точки n-мерного пространства, где n – количество призна- ков (характеристик), используемых для описания. В классическом варианте ис- пользования нейронных сетей для распо- знавания символов, признаками являются значения всех пикселей графического об- раза символа (предполагается, что графи- ческий образ распознаваемого символа – изображение в оттенках серого, а значения пикселей лежат в диапазоне [0;1]). Данный метод описания имеет два существенных преимущества для дальнейшего обучения и распознавания: • полнота информации о распозна- ваемом образе; • однородность информации. Рассмотрим суть вышеупомянутых преимуществ. Полнота информации гаран- тирует, что на вход нейронной сети посту- пает все изображение и таким образом нейронная сеть будет располагать всей доступной информацией о символе для обучения или распознавания. Однород- ность информации гарантирует то, что во всех измерениях n-мерного пространства единица измерения одна и та же, а именно – пиксел. За счет этого, на каждый из вхо- дов нейросети будут поступать числа, ко- торые лежат в одном диапазоне. Это суще- ственно упрощает процесс обучения ней- ронной сети. Данный способ имеет существен- ный недостаток, а именно – слишком большой объем хранимой информации об образе. Так, при обучении образа размером NxN пикселей (как правило, при распозна- вании или обучении графические образы символов имеют квадратную форму), дан- ный образ хранится в виде 2N характери- стик. Нетрудно посчитать, что хранение в памяти компьютера базы символов, со- стоящей из нескольких десятков тысяч об- разов символов, требует несколько сот ме- габайт оперативной памяти. Но наибольший недостаток такого описания состоит в очень большом коли- честве вычислений, необходимых для обу- чения сети. Причины такой ресурсоемко- сти с вычислительной точки зрения: чем больше число связей, тем больше эпох не- обходимо пройти для их настройки [9]. Для полного понимания проблемы следует Прикладне програмне забезпечення 102 рассмотреть геометрическую трактовку процесса распознавания. Заметим, что в контексте данной задачи, под нейросетью понимаем многослойный персиптрон без обратной связи. При этом, входом каждого узла нейросети (кроме узлов входного слоя) яв- ляется взвешенная сумма всех узлов пред- шествующего слоя. Пусть слой K предше- ствующий слою J сети (заметим, что на рис. 1 не предполагается алфавитной упо- рядоченности), создает на входе активи- рующего элемента каждого узла слоя J си- гнал, обозначаемый jI : ∑ = = kN k kjkj OwI 1 . (15) Для JNj ,...,2,1= , где jN – число узлов в слое J, KN – число узлов в слое К, jkw – веса, модифицирующие выходные сигнали kO узлов слоя К на входе узлов слоя J. Эти выходные сигналы слоя K имеют значения ),( kkk IhO = Nk ,...,2,1= , (16) где )(Ih – активирующая функция нейро- сети, тип которой не играет роли в даль- нейшем. Вышеупомянутый классификатор по минимуму расстояния ищет минималь- ное расстояние между поступившим обра- зом и эталонными образами. Нейросеть, с другой стороны, занимается построением разделяющих поверхностей. Структура нейросети определяет характер разделяю- щих поверхностей. Однослойная сеть реа- лизует разделяющую поверхность в форме гиперплоскости, которая делит на две час- ти все n-мерное пространство признаков объектов. Двухслойная нейросеть строит произвольные выпуклые поверхности, об- разованные перескающимися гиперпло- скостями. Трехслойная сеть реализует раз- деляющие поверхности произвольной сложности. В силу вышеописаного факта, именно трехслойные нейросети чаще всего применяются для распознавания символов при реализации классических алгоритмов распознавания. (Нейронные сети с че- тырьмя и больше слоями применяются в отдельных случаях, обычно компромисс между количеством слоев и количеством узлов в слое достигается методом проб и ошибок). Сопоставив рис. 1 и формулу (15) видно, что разделяющая классы поверх- ность формируется множеством гиперпло- скостей, так как веса в (15) – коэффициен- ты гиперплоскости порядка KN . Слож- ность такой поверхности определяется числом узлов сети: чем больше узлов, тем большее количество гиперплоскостей формируют данную поверхность (раз- деляющую поверхность можно рас- сматривать как некую суперпозицию гиперплоскостей). Порядок гиперплоскости определя- ется количеством характеристик и равен 2N . Учитывая то, что число узлов скрыто- го слоя задает сложность поверхности, можно сделать вывод, что это число в ос- новном связано с размером обучающей выборки, а общее число вычислений, не- обходимых для работы нейросети зависит от числа узлов во всех слоях. При этом, число узлов выходного слоя нельзя уменьшить в принципе, поскольку это противоречит самому смыслу задачи рас- познавания (фактически, в этом случае бу- дет уменьшено число классов). Число ней- ронов скрытого слоя (или нескольких скрытых слоев) можно уменьшить за счет уменьшения размера обучающей выборки, что не всегда приемлемо с точки зрения ожидаемой эффективности распознавания. Число входных узлов можно уменьшить только одним способом: уменьшением числа признаков данного символа. При этом уменьшение разрешения графическо- го образа не является приемлемым путем, так как при уменьшении числа точек про- исходит потеря информации об образе [10, 11]. В качестве решения данной пробле- мы, можно использовать представление символа в виде вектора признаков теории решений. 2.1. Особенности векторного пред- ставления символов. Геометрическая интерпретация обучения и распознава- ния. Наибольшим достоинством представ- ления символов в виде вектора признаков является компактность записи и неболь- шой объем информации, необходимой для Прикладне програмне забезпечення 103 описания отдельного символа. Это позво- ляет уменьшить число вычислений при обучении и распознавании. Как и при рас- тровом подходе, символ представляется в виде точки n-мерного пространства, только в этом случае размерность пространства возможно уменьшить в зависимости от ко- личества выбранных характеристик. При правильно выбранной системе характери- стик, можно получить важную смысловую информацию о символе, недоступную при растровом подходе, например, количество линий, формирующих остов символа, ко- нечные точки и точки перегиба и прочие. Такая информация не теряет своей акту- альности при изменении масштаба, незна- чительном повороте и прочих трансфор- мациях. К недостаткам данного описания можно отнести две особенности: • возможная потеря полноты инфор- мации при формировании характеристик; • неоднородность информации. В отличии от нейросетевого подхода, который использует растровое описание, эффективность распознавания символов при векторном описании напрямую зави- сит от выбранной системы признаков, тем самым предъявляя повышенные требова- ния к алгоритмам, а не вычислительным мощностям системы, на которой будет происходить обучение. Важно понимать, что если признаки выбраны неудачно, рас- познавание будет неэффективным. Оче- видно, что выбранные для описания харак- теристики должны пытаться однозначно описать разные классы символов. Значительной проблемой может стать неоднородность информации, опи- сывающей образ символа. В отличии от растрового представления, информация хранимая в векторе признаков является однородной только при использовании одинаковых по своей сути характеристик. Частично, данная проблема решается за счет нормирования значений характери- стик, однако на практике это зачастую приводит к «выпаданию» определенных символов за границы диапазона значений. Обучение и распознавание симво- лов при использовании теории решений реализуется следующим образом. В про- цессе обучения вычисляются характери- стики символов, принадлежащих обучаю- щей выборке и формируются векторы с характеристиками, которые часто называ- ют эталонами. Во время распознавания среди эталонов ищется тот, характеристи- ки которого минимально отдалены от ха- рактеристик неизвестного символа с точки зрения Евклидовой метрики. Заметим, что если, по сравнению с нейросетями, про- цесс обучения в теории решений является простым с вычислительной точки зрения, то процесс распознавания требует боль- ших вычислительных ресурсов, так как. требуется провести сравнение неизвестно- го символа со всеми эталонами, следст- венно при равном объеме обучающей вы- борки нейросеть всегда будет распознавать быстрее. Преимущество нейросетей в ско- рости показано на рисунке. Рисунок Здесь рассмотренно распознавание неизвестного символа, представленного на рисунке точкой w. В случае использования нейросети, распознавание происходит за счет подстановки координат точки w в уравнение разделяющей поверхности. При использовании методов теории решений необходимо вычислить расстояние от точ- ки w до всех точек областей w1 и w2, а за- тем отнести w к той области, к которой принадлежит ближайший к ней эталон. Очевидно, что количество вычислений во втором случае значительно выше. Прикладне програмне забезпечення 104 3. Построение модифицированого алгоритма. Сравнение с алгоритмами, основаными на теории решений и нейросетевыми алгоритмами Для проверки эффективности алго- ритма разработано три основных програм- мы распознавания символов: Cunning Eye Solution (основана на классификаторе по минимуму расстояния), Cunning Eye Neuro (основана на классическом нейросетевом подходе), Cunning Eye Neuro Plus (основа- на на синтезе вышеописанных алгоритмов распознавания). Для анализа эффективно- сти работы алгоритмов программы Cun- ning Eye Neuro и Cunning Eye Neuro Plus работали с различным количеством вход- ных данных. Вышеописанные системы обуча- лись на одной и той же выборке, затем тестировались на единой для всех прове- рочной выборке. В качестве таких выборок взяты базы рукописных цифр MNIST. Данная база является общепринятой базой среди разработчиков OCR систем. Размер обучающей выборки – 6000 символов, размер тестирующей – 1000 символов. В качестве основных параметров оценки работы системы оценивались такие характеристики: • скорость обучения; • точность распознавания символов из обучающей выборки; • точность распознавания символов из тестировочной выборки. Кратко рассмотрим используемые в экспериментах системы распознавания символов. Cunning Eye Solution. Данная сис- тема реализует распознавание символов с использованием классификатора по мини- муму расстояния. В качестве признаков используются характеристики, описанные в разделах 1.2 – 1.5. Для оценки инвари- антности используемых характеристик при распознавании использовались их различ- ные сочетания. Cunning Eye Neuro. Данная систе- ма проводит распознавание символов с помощью классических трехслойных ней- росетей с архитектурами 784-50-10, 196- 50-10, 361-50-10. В первом случае, цифры с разрешением 28х28 пикселей без изме- нений поступают на вход нейросети. В ос- тальных случаях цифры масштабировались и приводились к размерам 14х14 и 19х19 пикселей. Количество нейронов скрытого слоя было определено методом проб и ошибок. Cunning Eye Neuro Plus. Эта сис- тема проводит распознавание символов с помощью классической трехслойной ней- росети с архитектурами 13-15-10, 9-15-10, 7-15-10. В первом случае, на вход подают- ся (в нормированом для однородности ви- де) 7 инвариантных моментов, координаты центра масс символа, количество пересе- чений с маской, всего 13 характеристик. Во втором случае на вход нейросети по- даются 7 инвариантных моментов, коор- динаты центра масс символа, т.е. данные о пересечении с маской не используются. В третьем случае на вход нейросети подают- ся только 7 инвариантных моментов, ос- тальные характеристики не используются. Количество нейронов скрытого слоя опре- делено методом проб и ошибок. Проанализируем результаты экспе- риментов, записанные в таблице. Необхо- димо отметить, что система Cunning Eye Neuro не смогла обучится распознаванию 63 символам, а Cunning Eye Neuro Plus – 123. В этих случаях в качестве времени обучения бралось время, за которое систе- ма обучалась распознаванию максималь- ного числа символов. Что касается непосредственных ре- зультатов эксперимента, то стоит отметить неэффективность системы, построенной на методах теории решений. В данном случае такое важное достоинство как быстрое обучение, нивелируется недостаточной точностью распознавания. Классический алгоритм распозна- вания на основе нейросетей продемонст- рировал высокую точность распознавания, хорошую способность к обобщению и низ- кую скорость обучения. Алгоритм, синтезирующий различ- ные подходы к распознаванию продемон- стрировал очень высокую, по сравнению с классическим алгоритмом, скорость обу- Прикладне програмне забезпечення 105 чения. Невысокая точность распознавания проверяющей выборки свидетельствует о плохой способности к обобщению, однако точность распознавания обучающей вы- борки довольно высока, поэтому при над- лежащем обучении такая система способна эффективно решать задачу распознавания. Необходимо отметить, что точность распо- знавания такой системы зависит от вы- браных характеристик, поэтому добавле- ние к классификатору новых инвариант- ных признаков также повысит точность распознавания. Выводы Расмотренный алгоритм распозна- вания символов позволяет устранить от- дельные недостатки алгоритмов теории решений и классических нейросетевых ал- горитмов. При построении алгоритма пер- воочередной задачей было существенное ускорение обучения, которое достигнуто за счет небольшого уменьшения точности распознавания. Как было упомянуто ранее, основ- ным фактором, влияющим на точность распознавания символов в предложенном алгоритме, является система выбранных характеристик. При использовании пред- ложенного набора характеристик была по- лучена очень высокая скорость обучения нейронной сети, а также достаточная точ- ность распознавания. При этом, за счет введения большего числа инвариантных характеристик возможно увеличение как точности распознавания, так и скорости обучения. В этом случае, предложенный алгоритм можно улучшить, добавив в ка- честве характеристик признаки, вычисляе- мые методом полиномиальной регрессии, предложенные в [11]. Заметим, что при оп- тимально подобраной системе характери- стик, повышение скорости обучения воз- можно без существенных потерь в точно- сти распознавания. Таблица. Результаты экспериментов Название системы Точность распознавания обучающей выборки, % Точность распознавания проверяющей выборки, % Время обучения, час; мин; сек Cunning Eye Solution (все характеристики) 83.32 61.45 0:0:26 Cunning Eye Solution (моменты+центр масс) 71.88 55.67 0:0:24 Cunning Eye Solution (моменты) 66.7 50.93 0:0:24 Cunning Eye Neuro (784-50-10) 98.57 86.48 5:14:35 Cunning Eye Neuro (361-50-10) 96.78 79.13 4:06:39 Cunning Eye Neuro (196-50-10) 95.56 75.19 3:29:06 Cunning Eye Neuro Plus (13-15-10) 94.84 69.63 2:04:01 Cunning Eye Neuro Plus (9-15-10) 83.12 61.84 1:41:19 Cunning Eye Neuro Plus (7-15-10) 75.17 56.18 1:49:59 Прикладне програмне забезпечення 106 1. Ватолин Д.С. Алгоритмы сжатия изобра- жений.– МГУ, 2002. – С. 30 – 32. 2. Гонсалес Р., Вудс Р. Цифровая обработка изображений. – М.: Техносфера, 2005. – С. 1110 – 1148. 3. Форсайт Д., Понс Д. Компьютерное зре- ние. Современный подход. – М.: Вильямс, 2004. – С. 603 – 610. 4. Dr. Maria Isabel Ribeiro. “Gaussian Prob- ability Density Functions: Properties and Error Characterization”, www.imageproces- singplace.com 5. Wood J. “Invariant pattern recognition: A review“. Pattern Recognition. – 1996 – Vol. 29(1). – P. 1 – 17. 6. Jamie Shutler. “Statistical moments”, 2002. http://homepages.inf.ed.ac.uk/rbf/CVonline/ LOCAL_COPIES/SHUTLER3/node5.html. – P. 1 7. Бондаренко А.В., Галактионов В.А., Желтов С.Ю. Исследование подходов к построению систем автоматического счи- тывания символьной информации. – М.: Изд-е ИПМ им. М.В. Келдыша РАН, 2003. – С. 5 – 10. 8. Alexander G. Mamistvalov. “N-Dimensional Moment Invariants and Conceptual Ma- thematical Theory of Recognition n-Dimensional Solids”. IEEE Press, – 1998. – Vol. 20. – P. 1 – 9. 9. Саймон Хайкин. «Нейронные сети. Пол- ный курс». Издание второе (исправлен- ное). Прэнтис Холл, 2006. – С 239 – 298. 10. George N. Sazaklis “Geometric methods for optical character recognition”, New York State University. – 1997. – P. 1 – 19. 11. Sameer Singh. “Shape Detection Using Gra- dient Features for Handwritten Character Recognition” School of Computing, Univer- sity of Plymouth, 2001. – P. 1 – 13. Получено 03.05.2007 Об авторе: Прохоров Валерий Георгиевич, аспирант Института программных систем НАН Украины, e-mail: makumazan84@yahoo.com
id nasplib_isofts_kiev_ua-123456789-304
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1727-4907
language Russian
last_indexed 2025-12-07T13:21:17Z
publishDate 2007
publisher Інститут програмних систем, журнал "Проблеми програмування"
record_format dspace
spelling Прохоров, В.Г.
2008-02-22T19:40:51Z
2008-02-22T19:40:51Z
2007
Распознавание графических образов текстовых символов, представленных в виде характеристических векторов / В.Г. Прохоров // Пробл. програмув. — 2007. — N 3. — С. 97-106. — Библиогр.: 11 назв. — рус.
1727-4907
https://nasplib.isofts.kiev.ua/handle/123456789/304
Предложен алгоритм распознавания, который сочетает в себе преимущества алгоритмов теории решений, нейронных сетей и основан на представлении графических образов символов в виде набора характеристик, иллюстрирующих распознавание с помощью данного алгоритма, а также отмечены некоторые аспекты предобработки характеристик. Приведены экспериментальные данные, иллюстрирующие эффективность предложенного алгоритма.
ru
Інститут програмних систем, журнал "Проблеми програмування"
№3
С. 97-106
Прикладне програмне забезпечення
Распознавание графических образов текстовых символов, представленных в виде характеристических векторов
Article
published earlier
spellingShingle Распознавание графических образов текстовых символов, представленных в виде характеристических векторов
Прохоров, В.Г.
Прикладне програмне забезпечення
title Распознавание графических образов текстовых символов, представленных в виде характеристических векторов
title_full Распознавание графических образов текстовых символов, представленных в виде характеристических векторов
title_fullStr Распознавание графических образов текстовых символов, представленных в виде характеристических векторов
title_full_unstemmed Распознавание графических образов текстовых символов, представленных в виде характеристических векторов
title_short Распознавание графических образов текстовых символов, представленных в виде характеристических векторов
title_sort распознавание графических образов текстовых символов, представленных в виде характеристических векторов
topic Прикладне програмне забезпечення
topic_facet Прикладне програмне забезпечення
url https://nasplib.isofts.kiev.ua/handle/123456789/304
work_keys_str_mv AT prohorovvg raspoznavaniegrafičeskihobrazovtekstovyhsimvolovpredstavlennyhvvideharakterističeskihvektorov