Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста

В статье описываются знания когнитивной психологии о первичной обработке информации в зрительной системе. Вводится математическое описание этих знаний с помощью нечетких моделей (модель ганглиозной клетки, модель клетки латерального коленчатого тела, модели клеток первичной зрительной коры). Прив...

Full description

Saved in:
Bibliographic Details
Date:2009
Main Authors: Каргин, А.А., Пятикоп, Е.Е.
Format: Article
Language:Russian
Published: Інститут проблем штучного інтелекту МОН України та НАН України 2009
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/7936
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста / А.А. Каргин, Е.Е. Пятикоп // Штучний інтелект. — 2009. — № 2. — С. 161-167. — Бібліогр.: 11 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-7936
record_format dspace
spelling Каргин, А.А.
Пятикоп, Е.Е.
2010-04-22T14:02:05Z
2010-04-22T14:02:05Z
2009
Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста / А.А. Каргин, Е.Е. Пятикоп // Штучний інтелект. — 2009. — № 2. — С. 161-167. — Бібліогр.: 11 назв. — рос.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/7936
004.81:004.932.001.8
В статье описываются знания когнитивной психологии о первичной обработке информации в зрительной системе. Вводится математическое описание этих знаний с помощью нечетких моделей (модель ганглиозной клетки, модель клетки латерального коленчатого тела, модели клеток первичной зрительной коры). Приводятся результаты применения этих моделей для решения задачи локализации строк текста.
У статті описуються знання когнітивної психології про первинну обробку інформації в зоровій системі. Вводиться математичний опис цих знань за допомогою нечітких моделей (модель гангліозної клітки, модель клітки латерального колінчастого тіла, моделі кліток первинної зорової кори). Наводяться результати застосування цих моделей для вирішення задачі локалізації рядків тексту.
The article describes the knowledge of cognitive psychology on the primary information processing in the visual system. A mathematical description of this knowledge by using fuzzy models (model ganglion cells, cells of the model lateral geniculate nucleus, cells of a model primary visual cortex is entered). The results of applying these models to solve problem of line localization in text are presented.
ru
Інститут проблем штучного інтелекту МОН України та НАН України
Нейросетевые и нечеткие системы
Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста
Застосування нечітких моделей когнітивних знань сприйняття зображення в задачі локалізації рядків
Application of Fuzzy Models of Cognitive Knowledge Perception of an Image in Task of String Localization
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста
spellingShingle Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста
Каргин, А.А.
Пятикоп, Е.Е.
Нейросетевые и нечеткие системы
title_short Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста
title_full Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста
title_fullStr Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста
title_full_unstemmed Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста
title_sort применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста
author Каргин, А.А.
Пятикоп, Е.Е.
author_facet Каргин, А.А.
Пятикоп, Е.Е.
topic Нейросетевые и нечеткие системы
topic_facet Нейросетевые и нечеткие системы
publishDate 2009
language Russian
publisher Інститут проблем штучного інтелекту МОН України та НАН України
format Article
title_alt Застосування нечітких моделей когнітивних знань сприйняття зображення в задачі локалізації рядків
Application of Fuzzy Models of Cognitive Knowledge Perception of an Image in Task of String Localization
description В статье описываются знания когнитивной психологии о первичной обработке информации в зрительной системе. Вводится математическое описание этих знаний с помощью нечетких моделей (модель ганглиозной клетки, модель клетки латерального коленчатого тела, модели клеток первичной зрительной коры). Приводятся результаты применения этих моделей для решения задачи локализации строк текста. У статті описуються знання когнітивної психології про первинну обробку інформації в зоровій системі. Вводиться математичний опис цих знань за допомогою нечітких моделей (модель гангліозної клітки, модель клітки латерального колінчастого тіла, моделі кліток первинної зорової кори). Наводяться результати застосування цих моделей для вирішення задачі локалізації рядків тексту. The article describes the knowledge of cognitive psychology on the primary information processing in the visual system. A mathematical description of this knowledge by using fuzzy models (model ganglion cells, cells of the model lateral geniculate nucleus, cells of a model primary visual cortex is entered). The results of applying these models to solve problem of line localization in text are presented.
issn 1561-5359
url https://nasplib.isofts.kiev.ua/handle/123456789/7936
citation_txt Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста / А.А. Каргин, Е.Е. Пятикоп // Штучний інтелект. — 2009. — № 2. — С. 161-167. — Бібліогр.: 11 назв. — рос.
work_keys_str_mv AT karginaa primenenienečetkihmodeleikognitivnyhznaniivospriâtiâizobraženiâvzadačelokalizaciistrokteksta
AT pâtikopee primenenienečetkihmodeleikognitivnyhznaniivospriâtiâizobraženiâvzadačelokalizaciistrokteksta
AT karginaa zastosuvannânečítkihmodeleikognítivnihznanʹspriinâttâzobražennâvzadačílokalízacíírâdkív
AT pâtikopee zastosuvannânečítkihmodeleikognítivnihznanʹspriinâttâzobražennâvzadačílokalízacíírâdkív
AT karginaa applicationoffuzzymodelsofcognitiveknowledgeperceptionofanimageintaskofstringlocalization
AT pâtikopee applicationoffuzzymodelsofcognitiveknowledgeperceptionofanimageintaskofstringlocalization
first_indexed 2025-11-25T23:52:34Z
last_indexed 2025-11-25T23:52:34Z
_version_ 1850587102189715456
fulltext «Штучний інтелект» 2’2009 161 4К УДК 004.81:004.932.001.8 А.А. Каргин 1, Е.Е. Пятикоп 2 1 Донецкий национальный государственный университет, г. Донецк, Украина 2 Приазовский государственный технический университет, г. Мариуполь, Украина Pjatikopelena@rambler.ru Применение нечетких моделей когнитивных знаний восприятия изображения в задаче локализации строк текста В статье описываются знания когнитивной психологии о первичной обработке информации в зрительной системе. Вводится математическое описание этих знаний с помощью нечетких моделей (модель ганглиозной клетки, модель клетки латерального коленчатого тела, модели клеток первичной зрительной коры). Приводятся результаты применения этих моделей для решения задачи локализации строк текста. Введение Проникновение компьютерного зрения в основные сферы человеческой деятель- ности привело к ряду задач, связанных с обработкой и анализом изображений, конечной целью которых является распознавание объекта. Решение последней задачи, в свою очередь, включает ряд таких этапов, как восприятие поля зрения, сегментация, норма- лизация выделенных объектов, распознавание [1]. При выполнении каждого из этапов применяются различные методы. В источниках [1-3] предложены классификации ос- новных методов обработки и распознавания изображений. Среди них такие средства, как линейный дискриминантный анализ, факторный анализ, фильтры, метод главных компонент, скрытые Марковские модели, вейвлет-преобразования, нейронные сети и другие. Каждый из методов имеет определенную область применения, которая зависит от характера различий входных и эталонных изображений, от помеховой обстановки в поле зрения, требований к объемам вычислений и скорости принятия решений. Объе- мы цифровой визуальной информации увеличиваются, меняются условия распознавания, и современные системы требуют более глубокого интеллектуального анализа. Поэтому для обработки изображения исследуется возможность применения методов когнитивных наук [4-6]. В когнитивной психологии на основе наблюдений за человеком за длительный период предложны и апробированы экспериментально модели организации практически всех когнитивных функций человека: восприятие зрительной, звуковой информации, организация памяти разных уровней [7-9]. Эти знания дают возможность моделировать основы биологического зрения и применять полученные модели для обработки изображения с учётом особенностей восприятия человека. В данной статье рассматривается использование когнитивных моделей для решения задачи локализации строк текста на изображении. Каргин А.А., Пятикоп Е.Е. «Искусственный интеллект» 2’2009 162 4К Постановка задачи Задача локализации строк текста на странице изображения ставится следующим образом. Пусть имеется изображение текста в градациях серого цвета 8 бит. Необхо- димо определить ориентацию (угол наклона) и ширину строк текста, а также данные о местоположении строк на изображении. Для анализа изображения применить метод, основанный на знаниях когнитивной психологии. Знания когнитивной психологии Если бросить мимолетный взгляд на изображение, не фиксируя взгляд на деталях, то происходит восприятие наиболее простых (укрупненных) паттернов в рассматривае- мой задаче строк текста, где строки – это чередующиеся полосы одного направления и приблизительно одной ширины. Так происходит, если изображение попадает в об- ласть периферического зрения, а также, если смотреть на изображение мимолетом или издалека. После проецирования изображения на сетчатку в ней происходят такие процессы: 1. Первые фоторецепторы – палочки и колбочки – через промежуточные бипо- лярные клетки активизируют определенные рецептивные поля ганглиозных клеток, которые могут быть типа «ON» или «OFF». Для некоторых ганглиозных клеток, если свет попадает на маленькую область сетчатки, будет отмечаться увеличение частоты генерации разрядов (ON-центр). Но если свет падает на область вокруг этого чувстви- тельного центра, самопроизвольная частота генерации разрядов снижается. Существуют также ганглиозные клетки, у которых самопроизвольная частота разрядов снижается, когда свет попадает в центр (OFF-центр), и увеличивается, когда свет падает в окру- жающую их область. Эти клетки называют еще релейными [7]. Множество активных ганглиозных клеток образует первую «проекцию» изображения. 2. Далее, большинство аксонов ганглиозных клеток образуют синаптические свя- зи с клетками латерального коленчатого тела (ЛКТ), рецептивные поля которых очень похожи на рецептивные поля ганглиозных клеток сетчатки: имеют центральные «зоны включения» и периферийные «зоны выключения» или наоборот. Помимо этого клетки ЛКТ отличаются размерами и делятся на две группы: парвоцеллюлярные и магноцел- люлярные клетки [9]. 3. В ЛКТ первая «проекция» изображения становится пульсирующей [10]. Сразу же после саккады1 в ЛКТ формируется ретинотопическая карта, которая передается в первичную зрительную кору. Диаметр рецептивных полей уменьшается и на основе его формируются новые ретинотопические карты. До очередного скачка зрительная кора перерабатывает данные, полученные из ЛКТ. 4. Для возбуждения клеток зрительной коры требуется более тонкий механизм, что отражается на анатомических особенностях самих клеток и на сигналах, необхо- димых для их возбуждения. Существует несколько типов этих клеток: простые клетки реагируют только на линейные сегменты, ориентированные определенным образом; сложные клетки требуют движения в определенном направлении; гиперсложные клетки требуют, чтобы находящиеся внутри их рецептивных полей стимулы были определен- ной длины. Кроме этого известно [7], [9], что клетки, реагирующие на одну ориентацию, формируют собой колонку зрительной коры (рис. 1). При этом рецептивные поля 1 Движения глаз, переводящие точку фиксации с одного участка изображения на другой, исполь- зуемые преимущественно для обследования и изучения поля зрения, а также для того, чтобы образы селективно отобранных деталей визуальных стимулов оказались на центральной ямке. Применение нечетких моделей когнитивных знаний восприятия изображения... «Штучний інтелект» 2’2009 163 4К прилегающих клеток имеют другие ориентационные предпочтения, которые изменя- ются постепенно. Таким образом, среди множества ориентационных колонок на полосы (строки) текста наиболее активно проявит себя одна колонка (или группа смежных) определенной ориентации. Рисунок 1 – Колонки клеток с разными ориентационными предпочтениями Для применения этих знаний опишем их с помощью нечетких моделей. Формальное описание моделей Модель ганглиозной клетки Представим исходное пиксельное поле Р в виде множества клеток Кj. Каждая клетка сформирована на множестве пикселей {pi} начального изображения, которые характеризуются величиной яркости f  [0,1]. Модель клетки, состоящая из ядра  ipkPk  с радиусом Rk и полости  ipcPc с радиусом Rc, показана на рис. 2. Рисунок 2 – Модель релейной клетки и ее характеристики Для каждой из клеток Kj необходимо определить принадлежность к каждому из типов «ON» или «OFF». Поскольку фрагменты изображения не будут однозначно со- ответствовать приведенным типам, то принадлежность к конкретному типу будет иметь нечеткий характер. Тогда характеристиками каждой клетки являются функция уверенности )( ~ iON  , которая показывает величину принадлежности Kj клетки к типу «включено» (ON), и функция уверенности )( ~ iOFF  , которая показывает величи- ну принадлежности Kj клетки к типу «выключено» (OFF). Функции принадлежности )( ~ iON  и )( ~ iOFF  определяются с помощью выражения (1):       ;5,0 для ;5,0 для 0 )( ~ ii i iON          ,5,0 для ;5,0 для 0 )( ~ ii i iOFF    (1) где 2 )1( PcPk i    , 2 )1( PkPс i    . 00 900 1800 Слои коры головного мозга Колонки Каргин А.А., Пятикоп Е.Е. «Искусственный интеллект» 2’2009 164 4К Величина Pk показывает степень насыщенности ядра белым, а Pc – степень насыщенности белым цветом полости и рассчитывается как n pfnpf iRpRp i R i i         )}({min)( , где  PcPkR , , n – количество пикселей области R, а величина  отвечает за контраст- ность изображения и рассчитывается по формуле )}({min)}({max iKpiKp pfpf iiii   . Модель клетки ЛКТ Математическая модель клеток данного уровня клеток – это есть выражение (1), но с изменением размеров Rk и Rc, следующим образом: RkkR   и cR  Rc  , где для парвоцеллюлярных клеток 1 , а для магноцеллюлярных клеток 1 . Модель клеток первичной зрительной коры Поскольку для активизации клеток этого уровня необходима активность группы смежных релейных клеток [8], то введем понятие детектора. Совокупность смежных клеток показана на рис. 3.  x y Ki+1 Ki+2 Ki+3 Ki r Рисунок 3 – Совокупность смежных клеток Тогда модель детектора – это выражение  )(,,,, *,   DKD r  , (2) где   RkrRkrRkrr KKKK 2,4,2,, * ,   ;  – угол ориентации от 0  до 175  ;  – ширина детектора, определяемая как  = Rk; * – длина детектора, определяемая ко- личеством клеток, смежных raK , , но не менее 4; )(  D – функция уверенности на- личия детектора, вычисляемая по формуле:              ,0)( если ),(1 0)( если ,0 )( ** * 11 * 1 i ii i i i KK K D        (3) где )( iK вычисляется по формулам (1). На одном проведенном луче может быть несколько детекторов. Пусть коли- чество этих детекторов будет равно n . Тогда множество всех детекторов будет   njDD j 1 },{  , определяемых выражением (2). На основе понятия детектора опишем модель различных видов клеток зритель- ной коры. Применение нечетких моделей когнитивных знаний восприятия изображения... «Штучний інтелект» 2’2009 165 4К Так, простая клетка S, реагирующая только на определенную ориентацию, опи- сывается выражением:  )(,,,,,   SKS ra  , (4) где *  , а )}({min)( 1    jnj DS   . Сложные клетки затронуты не будут, поскольку они реагируют на движение, а в данной работе рассматривается обработка статического изображения. Гиперсложные клетки зрительной коры так же, как и простые, чувствительны к направлению сигнала, но существенной их особенностью является реакция на опре- деленную длину  . Поэтому гиперсложная клетка ,G может быть описана выра- жением:  )(,,,, ,,,     GKG r , где )()( , aDG    . (5) В одном направлении  гиперсложных клеток ,G одной длины может быть количество m. Тогда множество всех гиперсложных клеток будет описано G ,  aj mjG  1 },{ ,   . Но также могут быть длины z ,, 21 . Тогда множество гиперсложных клеток, реагирующих на определенные длины, выражается так G i,  aj mjziG i  1 ,1 },{ ,   В итоге можно построить модель изображения в виде множества ориентацион- ных колонок, где каждая колонка описывается выражением:   .175...10,5,0,}{, ,   i i jGSС   (6) Модель представления изображения Тогда модель «проекции» изображения, то есть ретинотопической карты опи- сывается выражением:  )(,,}{     MСM , (7) где  – угол ориентации от 0  до 175  ;  – ширина детектора, определяемая как:  = = Rk; )(  M – функция уверенности наличия наибольшего количества гиперсложных клеток наибольшей длины, вычисляемая по формуле: *)]( 2 1[)( 21    M , (8) где 1 – величина, отображающая, насколько все активные релейные клетки способст- вовали активизации гиперсложных клеток; 2 – среднее значение уверенности всех гиперсложных клеток шириной ; * – угол ориентации от 0  до 175  , выбранный на множестве ориентационных колонок C . Тогда 1 определяется как:    ,,1 G K n n  , где Kn – количество активных ганглиозных клеток K с размером ядра Rk ;  ,,Gn – количество активных ганглиозных клеток K с размером ядра Rk , активи- зировавших гиперсложные клетки i iG   }{ , . В свою очередь, 2 определяется как  j i i jG m )(1 ,, 2     , где m – общее количество гиперсложных клеток одного направления, а угол * оп- ределяется из выражения }}{max{max*  ll  , где  j i i jG m l    ,,1  определяется для  от 0  до 175  . Каргин А.А., Пятикоп Е.Е. «Искусственный интеллект» 2’2009 166 4К После определения для каждой ретинотопической карты iM  ее функции уве- ренности нужно выбрать карту с наибольшей уверенностью. Тогда гиперсложные клетки  ,,G этой карты будут соответствовать полосам шириной  под углом  на изображении, то есть предполагаемым строкам. Результаты исследований и выводы Для проведения экспериментов локализации строк текста было подобрано около 80 графических файлов формата ВМР с градацией серого 8 бит. Среди тестируемых файлов были фрагменты текста отсканированных газет, журналов, книг, а также спам- изображения и файлы, полученные как копии экрана. Высота строк на изображениях колебалась от 8 до 35 пикселей, угол наклона – от 0  до 175  . На рис. 4а показан пример изображения, на котором нет преобладания линий одной ориентации, поэтому на рис. 4б график демонстрирует скачкообразную дина- мику и дальнейший поиск нецелесообразен. а) исходное изображение № 2 б) неоднозначный выбор приоритетной ориентации Рисунок 4 – Примеры применения предлагаемых моделей На рис. 5а представлен пример изображения со строками под углом 165  . Гра- фик на рис. 5б показывает, что практически при всех размерах клетки преобладает приоритет ориентации 165  . Дальнейшее моделирование направлено на определение оптимальной ширины полос (высоты строк). На рис. 5в видно, что наибольшая уве- ренность полос получается при ширине 11 пикселей. На рис. 5г показано покрытие изображения клетками согласно выбранной ориентации и ширины. На основе дан- ных о местоположении клеток следует локализация предполагаемых строк. Другие эксперименты по реализации данной модели приведены в [11]. а) исходное изображение № 1 б) однозначный выбор приоритетной ориентации Применение нечетких моделей когнитивных знаний восприятия изображения... «Штучний інтелект» 2’2009 167 4К в) однозначный выбор оптимальной ширины г) результат локализации Рисунок 5 – Примеры применения предлагаемых моделей Таким образом, по результатам работы можно сделать следующие выводы: – формализованы этапы первичной обработки информации в зрительной системе с помощью нечетких моделей; – описана модель представления изображения текста со строками; – введены и апробированы характеристики определения ориентации и ширины строк. Литература 1. Путятин Е.П. Обработка изображений в робототехнике / Е.П. Путятин, С.И. Аверин. – М. : Маши- ностроение, 1990. – 320 с. 2. Гарячевская И.В. Автоматизация процесса разработки и отладки алгоритмов обработки изображений для СТЗ / И.В. Гарячевская, А.Я. Куземин // Искусственный интеллект. – 2004. – № 2. – С. 269-273. 3. Дудкин А.А. Обработка изображений и идентификация объектов в системах технического зрения / Р.Х. Садыхов, А.А. Дудкин // Искусственный интеллект. – 2006. – № 3. – С. 634-643. 4. Ярмошевич Е.И. Функциональная спектральная пространственно-временная модель формирова- ния изображений объектов зрительной системой человека [Электронный ресурс] / Е.И. Ярмошевич, Е.Е. Михайлова, М.А. Пономаренко // Вестник ВГУ. Серия Системный анализ и информационные технологии. – 2008. – № 1. – С. 74-78. – Режим доступа к статье : www.vestnik.vsu.ru/pdf/analiz/ 2008/01/yarmoshevich.pdf 5. Bednar J.A. Scaling Self-Organizing Maps To Model Large Cortical Networks [Электронный ресурс] / James A. Bednar, Amol Kelkar and Risto Miikkulainen // Neuroinformatics. – 2004.– № 2. – Р. 275-302. – Режим доступа : http://nn.cs.utexas.edu/keyword?bednar:neuroinformatics04 – название экрана. 6. Гладилин С.А. Нейронная сеть, воспроизводящая выходной сигнал ганглиозной клетки [Элект- ронный ресурс] / С.А. Гладилин, Д.Г. Лебедев // Информационные процессы. – 2005. – Т. 5, № 3. – С. 258-264. – Режим доступа к статье : http://www.jip.ru/2005/258-264.pdf. 7. Андерсон Дж. Когнитивная психология / Дж. Андерсон. – [5-е изд.]. – СПб. : Питер, 2002. – 496 с. – (Серия «Мастера психологии»). 8. Солсо Р.Л. Когнитивная психология / Р.Л. Солсо. – СПб. : Питер, 2002. – 592 с. – (Серия «Мастера психологии»). 9. Шиффман Х.Р. Ощущение и восприятие / Х.Р. Шиффман. – [5-е изд.]. – СПб. : Питер, 2003. – 928 с. – (Серия «Мастера психологии»). 10. Демидов В.Е. Как мы видим то, что видим / В.Е. Демидов. – [2-е изд.]. – М. : Знание, 1987. – 240 с. – (Наука и прогресс). 11. Пятикоп Е.Е. Некоторые результаты компьютерных экспериментов локализация строк текста на основе когнитивных моделей восприятия изображения / Пятикоп Е.Е. // Вісник Донецького уні- верситету, Серія А : Природничі науки. – 2008. – № 2. – Ч. 2. – С. 527-532. А.О. Каргін, О.Є. П’ятикоп Застосування нечітких моделей когнітивних знань сприйняття зображення в задачі локалізації рядків У статті описуються знання когнітивної психології про первинну обробку інформації в зоровій системі. Вводиться математичний опис цих знань за допомогою нечітких моделей (модель гангліозної клітки, модель клітки латерального колінчастого тіла, моделі кліток первинної зорової кори). Наводяться результати застосування цих моделей для вирішення задачі локалізації рядків тексту. A.A. Kargin, E.E. Pyatikop Application of Fuzzy Models of Cognitive Knowledge Perception of an Image in Task of String Localization The article describes the knowledge of cognitive psychology on the primary information processing in the visual system. A mathematical description of this knowledge by using fuzzy models (model ganglion cells, cells of the model lateral geniculate nucleus, cells of a model primary visual cortex is entered). The results of applying these models to solve problem of line localization in text are presented. Статья поступила в редакцию 13.03.2009.