К вопросу восприятия и распознавания образов в системах искусственного интеллекта

У статті в рамках біонічного підходу розглянуто питання щодо сприйняття й розпізнавання образів у системах штучного інтелекту. Представлено опис пристрою сенсорної зорової системи сприйняття і попередньої обробки інформації – очі людини. Висунуто робочі гіпотези «Про приведення зображения, що розпі...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Математичні машини і системи
Дата:2012
Автор: Ященко, В.А.
Формат: Стаття
Мова:Російська
Опубліковано: Інститут проблем математичних машин і систем НАН України 2012
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/59356
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:К вопросу восприятия и распознавания образов в системах искусственного интеллекта / В.А. Ященко // Мат. машини і системи. — 2012. — № 1. — С. 16-27. — Бібліогр.: 8 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859623695393226752
author Ященко, В.А.
author_facet Ященко, В.А.
citation_txt К вопросу восприятия и распознавания образов в системах искусственного интеллекта / В.А. Ященко // Мат. машини і системи. — 2012. — № 1. — С. 16-27. — Бібліогр.: 8 назв. — рос.
collection DSpace DC
container_title Математичні машини і системи
description У статті в рамках біонічного підходу розглянуто питання щодо сприйняття й розпізнавання образів у системах штучного інтелекту. Представлено опис пристрою сенсорної зорової системи сприйняття і попередньої обробки інформації – очі людини. Висунуто робочі гіпотези «Про приведення зображения, що розпізнається, до одного розміру в області фовеа» і «Про механізм розпізнавання образів у вищих шарах неокортекса мозку людини». Представлено опис створеної на базі робочих гіпотез апаратно-нейронної моделі сенсорного органа зорової системи людини. Описана нейронна мережа виділення контуру зображення, що розпізнається. В статье в рамках бионического подхода рассмотрены вопросы восприятия и распознавания образов в системах искусственного интеллекта. Представлено описание устройства и функционирования сенсорной зрительной системы восприятия и предварительной обработки информации – глаза человека. Выдвинуты рабочие гипотезы «О приведении распознаваемых изображений к одному размеру в области фовеа» и «О механизме распознавания образов в высших слоях неокортекса мозга человека». Представлено описание созданной на базе рабочих гипотез аппаратно-нейронной модели сенсорного органа зрительной системы человека. Описана простая нейронная сеть для выделения контура распознаваемого изображения. The question of pattern perception and identification in the artificial intelligence systems was regarded in this article in the context of bionic approach. A description of a sensor visual system perception and information preprocessing device – human eyes was represented. The working hypotheses were put forward “About working the recognizable image out to the same size in the field of fovea” and “About the mechanism of pattern recognition in the higher layers of the neocortex of the human brain”. The description created on the basis of working hypotheses of hardware and neural models of visual sensory organ system was represented. The neural network of recognizable image contour detection is described.
first_indexed 2025-11-29T08:26:30Z
format Article
fulltext 16 © Ященко В.А., 2012 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 Рис. 1. Интерфейс системы распознавания УДК 681.3 В.А. ЯЩЕНКО К ВОПРОСУ ВОСПРИЯТИЯ И РАСПОЗНАВАНИЯ ОБРАЗОВ В СИСТЕМАХ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА Анотація. У статті в рамках біонічного підходу розглянуто питання щодо сприйняття й розпізнавання образів у системах штучного інтелекту. Представлено опис пристрою сенсорної зорової системи сприйняття і попередньої обробки інформації – очі людини. Висунуто робочі гіпотези «Про приведення зображения, що розпізнається, до одного розміру в області фовеа» і «Про механізм розпізнавання образів у вищих шарах неокортекса мозку людини». Представлено опис створеної на базі робочих гіпотез апаратно-нейронної моделі сенсорного органа зорової сис- теми людини. Описана нейронна мережа виділення контуру зображення, що розпізнається. Ключові слова: біонічний підхід, сприйняття інформації, розпізнавання образів, гіпотеза, модель зорової системи людини. Аннотация. В статье в рамках бионического подхода рассмотрены вопросы восприятия и распо- знавания образов в системах искусственного интеллекта. Представлено описание устройства и функционирования сенсорной зрительной системы восприятия и предварительной обработки ин- формации – глаза человека. Выдвинуты рабочие гипотезы «О приведении распознаваемых изо- бражений к одному размеру в области фовеа» и «О механизме распознавания образов в высших слоях неокортекса мозга человека». Представлено описание созданной на базе рабочих гипотез аппаратно-нейронной модели сенсорного органа зрительной системы человека. Описана простая нейронная сеть для выделения контура распознаваемого изображения. Ключевые слова: бионический подход, восприятие информации, распознавание образов, гіпотеза, модель зрительной системы человека. Abstract. The question of pattern perception and identification in the artificial intelligence systems was regarded in this article in the context of bionic approach. A description of a sensor visual system percep- tion and information preprocessing device – human eyes was represented. The working hypotheses were put forward “About working the recognizable image out to the same size in the field of fovea” and “About the mechanism of pattern recognition in the higher layers of the neocortex of the human brain”. The de- scription created on the basis of working hypotheses of hardware and neural models of visual sensory or- gan system was represented. The neural network of recognizable image contour detection is described. Keywords: bionic approach, information perception, pattern recognition, hypothesis, human system visual model. 1. Введение Создание систем распознавания образов с элементами искусственного интеллекта является сложной теоретической и техниче- ской проблемой. Необходимость в таком распознавании возникает в самых разных областях. Традиционно задачи распо- знавания образов включают в круг задач искусственного интеллекта, где выделяют два основных направ- ления: первое – развитие теории и методов построения программных комплексов, предназначенных для решения отдельных задач распозна- ISSN 1028-9763. Математичні машини і системи, 2012, № 1 17 вания в прикладных целях; второе – изучение механизмов распознавания, которыми обладают живые существа, с целью их воспроизведения в системах распознавания. Являясь сторонником второго направления, автор, совместно со студентами Киевс- кого национального университета имени Тараса Шевченко, порядка одиннадцати лет на- зад, тщательно изучив существующую на то время литературу по нейрофизиологии, соз- дали программную систему распознавания лиц, которая была соединена с TV, видео- камерой, и в режиме реального времени ус- пешно распознавала изображения лиц теле- ведущих, изображения с видеокамеры и фо- тографии лиц из базы фотоснимков (The Yale Face Database и The PICS images database). На рис. 1 показан интерфейс сис- темы, на котором виден результат процесса распознавания телеведущего того времени. Слева показано изображение телеведущего, полученное из TV в реальном времени, справа его изображение из базы изображе- ний системы распознавания лиц, запомнен- ное при обучении. В реализации системы применен бионический подход к решению задачи восприятия и распознавания обра- зов. 2. Бионический подход к решению задачи восприятия и распознавания образов При бионическом подходе к решению зада- чи восприятия и распознавания образов взоры исследователей обращаются к зри- тельной системе человека. Тем более что 80–90 % воспринимаемой информации по- ступает через глаза. 2.1. Сенсорный орган зрительной систе- мы человека Глаз – сенсорный орган зрительной систе- мы человека состоит из глазного яблока и зрительного нерва (рис. 2). Глазное яблоко имеет диаметр около 24 мм и форму почти правильного шара, но с чуть выпуклой передней частью. Вокруг каждого глазного яблока на- ходится шесть мышц. Глаза двигаются на- ружной и внутренней прямыми мышцами: влево, вправо; нижней и верхней прямыми мышцами – вниз, вверх; косые мышцы вращают глаз. Но на этом работа глазодви- гательных мышц не заканчивается. 30- Рис. 2. Схема глаза человека 18 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 летние исследования У. Бейтса доказали, что прямые мышцы глаза могут укорачивать глазное яблоко вдоль оптической оси глаза, таким образом приближая хрусталик к сетчат- ке, а косые – могут сжимать глаз и отодвигать хрусталик от сетчатки. Наружная оболочка глазного яблока состоит из плотной части – склеры, белкового вещества, придающего форму глазу и защищающего внутреннюю часть глаза от воздейст- вий внешней среды. Склера участвует также в обмене веществ. Передняя часть склеры переходит в прозрачный круг – роговицу. Роговица имеет радиус кривизны 6,82 мм и выполняет роль собирающей линзы. Между роговицей и хрусталиком расположена радужная оболочка. Радужная обо- лочка снабжена мышцами, нервными волокнами, кровеносными сосудами. Радужная обо- лочка глаза регулирует силу светового потока таким образом, что на рецепторы глаза по- ступает почти постоянный световой поток (при сильном освещении радужная оболочка расширяется, суживая зрачок, при слабом освещении она сужается, расширяя зрачок). Пространство, образованное между роговицей и радужкой, называется передней камерой. Она заполнена внутриглазной жидкостью. Через хрусталик изображение проецируется на сетчатку глаза (ретину). Благодаря аккомодации – эластичности хрусталика и действию глазной мышцы, хрусталик приобре- тает форму, обеспечивающую резкую проекцию изображения на светочувствительные преобразователи (рецепторы), расположенные в сетчатке глаза. Процесс аккомодации состоит в изменении оптической силы (рефракции) глаза. Это достигается изменением радиуса кривизны хрусталика в результате действия кольцеобраз- ной мышцы. При расслабленной мышце связки натягивают мешочек хрусталика и кривиз- на его поверхностей становится наименьшей. В этом случае на сетчатке получается резкое изображение удаленных предметов. Фокусное расстояние глаза взрослого человека изме- няется в пределах от 18,7 мм до 20,7 мм, что обеспечивает фокусировку как на дальних, так и на ближних объектах. При максимальном сжатии мускульного кольца глаз отчетливо видит наиболее близкие предметы. Формирование изображения в основном осуществляет- ся роговицей вместе с хрусталиком, которые в комбинации имеют фокусное расстояние около 20 мм. Сетчатка состоит из множества отдельных элементов – рецепторов, каждый из ко- торых реагирует на световой поток независимо друг от друга. Глаз человека содержит све- точувствительные элементы двух типов: колбочки и палочки. Распределение палочек и колбочек в сетчатке неравномерно: палочек больше на периферии, а колбочек – в центре. В центре сетчатки имеется участок, содержащий только колбочки. Этот участок на- зывается центральной ямкой (область фовеа). Разрешающая способность глаза здесь мак- симальна, причем колбочки центральной ямки непосредственно связаны с высшими нерв- ными центрами, в то время как большинство рецепторов сетчатки не имеют «прямой» свя- зи с мозгом. Можно полагать, что основная часть работы по извлечению зрительной ин- формации выполняется той частью рецепторов, которые лежат в середине сетчатки в об- ласти центральной ямки. Зрительный центр головного мозга находится в затылочной части головы, в основа- нии черепа. Основная часть нервных путей пересекается в передней части основания чере- па. Мозг принимает информацию из правого и левого глаза. Затем она объединяется в еди- ный образ. Как раз для пространственного зрения важно взаимодействие обоих глаз, чтобы глаза были направлены в одну точку. Так возникает изображение, в противном же случае увиденное раздваивается. Ранее была выдвинута гипотеза «О приведении распознаваемых изображений к од- ному размеру в области фовеа», реализация которой, на мой взгляд, подтверждается ис- следованиями офтальмологов. ISSN 1028-9763. Математичні машини і системи, 2012, № 1 19 Рис. 3. Схема проекции изображения в область фовеа Рис. 4. Конвергенция глаз Рабочая гипотеза 1. Гипотеза о приведении распознаваемых изображений к одному размеру в области фовеа. Учитывая, что в системе «глаз человека» имеется только одна область (центральная ямка, фовеа), где разрешающая способность глаза максимальна, при- чем колбочки центральной ямки непосредственно связаны с высшими нервными центра- ми, можно предположить, что распознаваемый объект (объект, на котором сконцентриро- вано внимание, обращен взгляд), например, «К1» или «К2» (рис. 2, 3),сканируется сакка- дами – движениями глаз, осуществляя систематический отбор информации о форме, по- ложении и размере объекта, проецируется в область фовеа с учетом этих параметров, затем в высших отделах мозга происходит анализ, синтез и сравнение с запомненными ранее объектами по уровню возбуждения нейронов, отражающих признаки и свойства этих объектов. Это относится к объектам разного разме- ра, находящихся на оди- наковом расстоянии от глаза. Если размер объек- та большой и его проек- ция выходит за пределы области фовеа, то некоторая его часть, выходящая за пределы фо- веа, будет видна не четко. При нормальном функционировании глаза этого не происходит, значит, проекция должна полностью проецироваться в область фовеа за счет изменения фокусного расстояния. А размеры объектов могут определяться не размерами их проекций в области фовеа, а уровнем возбуждения соответ- ствующих командных нейронов глазных мышц, управляющих формой хрустали- ка 1, или, по другим источникам, формой глазного яблока2, что приводит к изменению фокусного расстояния линзы – хрусталика в первом случае, а во втором – к изменению фокусного расстояния системы глаз. Кроме то- го, оценивание расстояния обоими глазами осуществляется за счет конвергенции глаз (со- стояния командных нейронов внутренних прямых глазных мышц). Так, при смотрении обоими глазами в одну и ту же точку А, как показано на рис. 4, необходимо некоторое мускульное усилие внутренних прямых глазных мышц для того, чтобы свести оба глаза внутрь. Глаза расположены на некотором расстоянии друг от друга, и мы на опыте учимся оценивать расстояние до точки А по мускульному усилию, необходимому для сведения (конвергенции) глаз. Для того чтобы увидеть ещё более близкую точку B, приходится употребить ещё большее мускульное усилие для сосредоточения обоих глаз в точке В. Таким образом, на рецепторное поле сетчатки глаза в область фовеа подается резкое изображение рассматриваемого объекта, при необходимости, и его деталей. Информация о цвете, форме, положении, размере и пр. передается в зрительную кору головного мозга. 1 По теории Г. Гельмгольца, при рассмотрении предметов на различных расстояниях оптические параметры хрусталика меняются цилиарной мышцей или, как утверждают некоторые офтальмологи, перемещением внутриглазной жидкости, что для нас никакого значения не имеет, т.к. и то и другое приводит к изменению фокусного расстояния. 2 Американский офтальмолог У. Бейтс на стыке ХІХ – ХХ веков сделал открытие, что изображение в челове- ческом глазе строится за счет изменения длины самого глаза. 20 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 Когда статья была уже готова, мне на глаза попалась информация в «Большом пси- хологическом словаре», которая подтверждает факт установки изображения в область фо- веа. «…Глаз – один из самых подвижных органов тела, не знающий покоя даже во сне (одна из фаз сна получила название «быстрые движения глаз»), но все главные функции движения глаз (ДГ) связаны, прежде всего, со зрительным восприятием, именно оно возла- гает на ДГ определенные функции. 1. Первая очевидная функция ДГ состоит в том, чтобы перевести (установить) рети- нальное изображение объекта, находящегося на периферии поля зрения, в центральную область сетчатки диаметром ок. 4°, называемую «центральной ямкой» (fovea centralis) или просто «фовеа» (лат. fovea – яма), которая обеспечивает высокую остроту зрения. В центре фовеа существует еще более оптимальный для восприятия участок – фовеола (уже не «ям- ка», а «ямочка» – размером ок. 1 в диаметре). Эта установочная функция отсутствует у тех видов животных, глаза которых не имеют центральной ямки (среди млекопитающих фовеа есть только у приматов, но она есть также у птиц, некоторых ящериц и даже рыб). Реали- зуется установочная функция с помощью т.н. баллистических, быстрых ДГ, которые при- нято называть «саккадическими ДГ» (скачкообразными). Когда мы осматриваем достаточ- но большой и сложно структурированный объект, изображение которого превышает раз- меры фовеолы (тем более фовеа, как, напр., страница книги), то приходится совершать много установочных движений. На длительных записях ДГ, совмещенных с осматривае- мым объектом или сценой, можно наблюдать, что точки фиксации (остановок) концентри- руются около наиболее информативных участков, что создает впечатление того, что глаза как бы ощупывают видимые объекты. Поэтому саккадические ДГ иногда называют поис- ковыми, обследующими, гностическими. 2. Если объект движется или же движется наблюдатель (или только его голова) от- носительно объекта, то возникает необходимость поддерживать ретинальное изображение примерно в одном положении, что и делают следящие и компенсационные ДГ (см. Нис- тагм). Можно сказать, что те и др. осуществляют функцию динамической фиксации, кото- рая необходима даже тем видам животных, глаза которых не имеют фовеа. Поскольку при динамической фиксации глаза плавно подстраиваются под направление и скорость отно- сительного движения объекта, то ДГ получили название следящих ДГ (син. плавные ДГ, медленные ДГ), чья минимальная скорость – ок. 5 угл. мин/с, что приблизительно соответ- ствует пороговой скорости восприятия движения объекта; максимальная скорость – ок. 30–40 угл. град/с. Без специальной тренировки человек не способен произвольно вызывать медленные ДГ (вне ситуации слежения). 3. Особые задачи ставит перед ДГ бинокулярное зрение, для которого необходимо, чтобы ретинальное изображение объекта в правом и левом глазах попадало на корреспон- дирующие точки сетчатки. Из-за этого требования движения 2 глаз (как установочные, так и выполняющие функцию динамической фиксации) должны быть синхронными и содру- жественными, а зрительные оси (воображаемая линия, проходящая через центр зрачка, оп- тический центр глаза и центр фовеа; см. Линия взора) 2 глаз должны быть направлены в 1 точку. Если в порядке обеспечения указанных требований зрительные оси вращаются в одну сторону, то ДГ называются версионными движениями, если же зрительные оси схо- дятся или расходятся, т.е. двигаются в разные стороны, то ДГ относятся к типу вергентных движений. Вергентные ДГ требуются, когда новая точка фиксации находится либо дальше, либо ближе к наблюдателю» [1]. Существование фовеолы еще более усиливает эту функцию особенно для форми- рования единого представления при рассматривании больших объектов. Однако есть и противники данной точки зрения. ISSN 1028-9763. Математичні машини і системи, 2012, № 1 21 «…Многочисленными исследованиями показано, что ДГ принимают активную роль в зрительном восприятии, участвуя в поиске и обнаружении объектов (стимулов), измере- нии и анализе пространственных свойств: форма, положение, размер, удаленность, ско- рость движения и др. Высказывались и возражения против этой точки зрения, опирающие- ся на данные о том, что пространственные свойства могут оцениваться с достаточной точ- ностью и без ДГ (напр., при очень краткой экспозиции, в условиях наблюдения последова- тельного образа или искусственно стабилизированного изображения на сетчатке). В свою очередь, защитники «глазодвигательной теории» приводят данные о викарных перцептив- ных действиях, а также обращают внимание на то, что ДГ особенно необходимы на ранних стадиях развития восприятия, а также в условиях наблюдения новых, малоизвестных объ- ектов, когда еще не сформированы механизмы быстрого узнавания и анализа объектов» [1]. И все-таки, в зрительной коре мозга более 50% нейронов занято анализом инфор- мации, поступающей из области, соответствующей 10% поля зрения, принадлежащего его центральной части (центральной ямке), которая наиболее чувствительна к тонкой структу- ре и цвету изображения. В связи с этим зрительная система обладает возможностью пере- водить глаза с одной части поля зрения на другую, поскольку при любом фиксированном положении лишь небольшая часть поля зрения имеет высокое разрешение [2]. Действительно, у человека глаза все время находятся в движении, последовательно переходя с одного участка поля зрения на другой. Движение глаз слагается из скачков (саккад), которые обычно повторяются с частотой четыре – пять раз в секунду. Саккадиче- ское движение происходит за счет активности наружных мышц глаз и, раз начавшись, продолжаются до заданного положения без поправок во время движения (баллистическое движение). В целом характер движения глаз отражает систематический отбор внешней информации, основанный на осмысленной интерпретации поступающих данных [2]. При появлении в поле зрения стимула-цели глаза совершают скачок, в результате которого сетчатки изменяют свое положение так, что стимул-цель проецируется на каждой из них в область фовеа. Если после выполнения саккады стимул-цель все же не попадает в область фовеа, то следует корректирующая саккада. При возникновении акустического сигнала в одной из точек внешнего пространства глаза совершают саккаду и занимают та- кое положение, при котором направление на звук совпадает с направлением взора. При этом потенциально возможный зрительный образ источника звука будет проецироваться в область фовеа. При прикосновении к коже, например, груди, глаза поворачиваются так, что линия взора направлена на место раздражения. При этом фовеа глаз совмещаются с точкой прикосновения. Произвольные саккады реализуются и при осмотре зрительной сцены. Выбор стимула, представленного на константном экране, который подлежит уточнению с использованием фовеа, означает возбуждение такого командного нейрона, который обеспечит совмещение выбранной цели с фовеа при учете исходного положения глаз [3]. Соколов Е.Н. и Шмелев В.А. в книге «Нейробионика» пишут: «Саккадические дви- жения глаз принадлежат к широкому классу баллистических движений, которые не кон- тролируются на участке выполнения движения. Обратная связь при выполнении этих дви- жений вводится через внешнюю среду после завершения элемента движения. Сходство с саккадическими движениями глаз обнаруживают саккадические движения головы, а также целенаправленные движения рук» [4]. (Думаю, что такой вид обратной связи характерен и для других функций головного мозга человека. Например, внутреннее или мысленное про- говаривание читаемого текста, или внутреннее проговаривание мечтаний и мысленных размышлений, составление планов, планирование действий и принятие решений (Ав.)). 22 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 Рис. 5. Запись движений Рис. 6. Запись движений глаз при рассматривании глаз при рассматривании фотографии скульптурного фотографии девочки портрета Нефертити (Ярбус, 1965) (Ярбус, 1965) Далее они пишут, что при появлении нового зрительного стимула возникающие саккадические движения глаз представляют собой скачкообразный перенос взора на цель. Если саккада не приводит к попада- нию цели в область фовеа, генери- руется корректирующая саккада, совмещающая цель с областью наи- лучшего видения в каждом из глаз. При перемещении цели в простран- стве серия саккад выполняет функ- цию обратной связи, смещая проек- цию цели в область фовеа, тем са- мым реализует слежение за целью [4]. Следует заметить, что управление саккадами глаз, движением головы, целе- направленными движениями рук, голосо- вых связок и пр. движениями осуществля- ется по сигналам цепочек командных ней- ронов, управляющих соответствующими перемещениями. При этом состояние це- почек командных нейронов запоминается (с помощью образования и укрепления новых связей между нейронами в нейро- сети) в процессе слежения за целью, при неоднократном повторении этих процес- сов в дальнейшем позволяет прогнозиро- вать перемещение цели, движение рук или пр. изменения рецептивных полей в той или иной ситуации. Например, зная силу удара по мячу, мы свободно прогнозируем траекторию его полета и места приземле- ния. Аналогично, общаясь с другом детст- ва, членами семьи, коллегой, мы можем прогнозировать, о чем будет говорить тот или иной в той или иной обстановке. Про- гнозирование – очень интересная тема, но вернемся к теме распознавания объектов. Итак, при восприятии объекты ска- нируются движением глаз, и их изображе- ние преобразуется в контурное. На рис. 5 и 6 изображены фотогра- фии головы Нефертити и девочки, а рядом записи движений глаз при свободном рас- сматривании фотографий. Оказывается, что взгляд движется по контуру объекта, при этом наибольшее количество остано- вок и повторных возвращений в тех мес- тах контура, где больше всего тональных градаций, так как эти градации, вернее, их контраст и расположение, несут основную Рис. 7. Срез сетчатки глаза и его схематическое представление ISSN 1028-9763. Математичні машини і системи, 2012, № 1 23 Рис. 8. Рецепторы сетчатки глаза информацию о форме и фактуре объекта. Из вышеизложенного можно сделать вывод, что для распознавания лучше то изо- бражение, которое имеет наибольшее количество тональных градаций, то, у которого наи- более четкий контур. Поэтому система преобразования тонального изображения в контур- ное имеет важное значение. В биологических объектах первичная обработка информации осуществляется в сетчатке глаза на шести уровнях (рис.7). Первый уровень – пигментный эпителий сетчатки. Второй уровень – палочки и колбочки. Третий уровень – горизонтальные клетки. Четвертый уровень – амакринные клетки. Пятый уровень – биполярные клетки. Шестой уровень – ганглиозные клетки. В целом назначение каждого уровня понятно. Первый и второй уровни – пигментный эпителий, палочки и колбочки – рецепторы восприятия видеоинформации. Палочки и колбочки не находятся в прямом контакте с корой головного мозга. Они кон- тактируют с биполярными клетками, которые потом отправляют свои сообщения гангли- озным клеткам, аксоны которых составляют оптический нерв. Третий уровень – горизонтальные клетки передают сообщения туда и обратно меж- ду клетками фоторецепторов, биполярным клеткам и друг другу. Горизонтальные клетки путем латерального торможения в окружающих областях останавливают диффузное рас- пространение сигнала по сетчатке, которое могло бы возникнуть в связи с наличием широ- кого ветвления дендритов и аксонов в слоях сетчатки. Это важно для четкого выделения контрастных границ в зрительном образе. Четвертый уровень – амакринные клетки взаи- мосвязаны с биполярными клетками, ганглиозными клетками, а также друг с другом. Амакринные клетки располагаются во внутреннем зернистом слое сетчатки глаза, в плос- кости внутреннего синаптического слоя сетчатки. Они образуют чрезвычайно сложную, соединенную щелевыми контактами сеть, а отросток, не покидая пределов сетчатки, вет- вится в области синаптических контактов биполярных ганглиозных нейронов, они изме- няют характер распространения возбуждения по нервным клеткам ганглиозного слоя. Чис- ло этих клеток особенно велико у животных с высокой остротой зрения, например, у птиц. Третий и четвертый уровни играют важную роль в обработке визуальной информации на уровне сетчатки пе- ред тем, как она передается в мозг для конечной интерпре- тации и служит для повышения соотношения чувствитель- ность – детализация. Чем больше рецепторов присоединено к одной ганглиозной клетке, тем чувствительнее система, т.е. тем более слабые световые сигналы она сможет обнаружить (рис. 8). Сигнал на выходе ганглиозной клетки (острота зрения) будет тем сильнее, чем больше рецепторов к ней присоединено. При этом понятно, что повышение чувствительности приводит к потере детализации. Таким образом, третий и четвертый уровни обеспечивают чувст- вительность, четкость и контрастность воспринимаемого изображеия. Пятый уровень – биполярные клетки являются клетками промежуточного слоя сет- чатки, передающими нервные импульсы от рецепторов ганглиозным клеткам. Шестой уровень – ганглиозные клетки очень разнообразны по характеру ветвления дендритов. Они расположены в сетчатке очень плотно, и их дендритные поля (рецептивные поля) пере- крываются. На одну ганглионарную клетку может конвергировать (замыкаться) от одного до сотни биполярных нейронов. Через биполярные нейроны с одной ганглионарной клет- кой может быть связано от единиц до десятков тысяч фоторецепторов (палочек и колбо- чек). В свою очередь, один фоторецептор через биполярные нейроны может быть связан с десятками ганглиозных клеток. Ганглиозные клетки завершают «трёхнейронную рецеп- 24 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 Рис. 9. Модель сенсорного органа зри- тельной системы человека (объемное представление) Рис. 10. Модель сенсорного органа зрительной системы человека (упрощенное представление) торно-проводящую систему сетчатки»: фоторецептор – биполярный нейрон – ганглиозная клетка [5]. 3. Аппаратно-нейронная модель сенсорного органа зрительной системы человека Часть функций зрительной системы (первый, второй уровни) берут на себя видеокамеры, которые, как правило, используются в системах распознавания объектов. Третий – шестой уровни моделируются нейронной сетью. Полученное с видеокамеры тональное изображе- ние объекта преобразуется в контурное, что позволяет значительно сократить объем необ- ходимой для классификации информации. Задача выделения контуров на изображении уже давно решается классическими ал- горитмами. Среди них пространственное дифференцирование, функциональная аппрокси- мация, высокочастотная фильтрация. Общим для всех этих методов есть стремление рас- сматривать границу как область резкого перепада функции яркости изображения. Основ- ной недостаток этих алгоритмов – относительно низкая скорость работы, которой будет недостаточно для обработки изображений большого размера при высокой частоте их по- ступления в реальном времени. Поэтому для выделения контуров изобра- жения применен бионический подход, в котором обработка информации производится посредством нейронной сети. Такая сеть состоит из трех видов клеток, которые являются аналогом горизонталь- ных, биполярных и ганглиозных клеток (рис. 9). При физической реализации информация в сети обрабатывается на всех уровнях параллельно. В результате ожидается повышение быстродействия системы на несколько порядков. На рис. 10 показана упрощенная схема мо- дели сенсорного органа зрительной системы чело- века. Сигналы от соответствующего рецептора или групп рецепторов через горизонтальные клетки (на схеме не показаны) поступают на дендриты бипо- лярной и ганглиозных клеток, усиливаясь положи- тельным весовым ко- эффициентом цен- трального дендрита, а сигналы, соответст- вующие соседним точкам изображения, тормозятся отрица- тельными весовыми коэффициентами бо- ковых дендритов. По- ступая в ганглиозную клетку, умноженные на соответствующие весовые коэффициен- ты сигналы суммиру- ются и подаются на выход. На выходе нейронной сети получается последовательность чисел, которые отвеча- ют по определенному закону значениям кодов цветов входных точек изображения. Полу- ISSN 1028-9763. Математичні машини і системи, 2012, № 1 25 Рис. 11. Система настройки параметров выделения контуров Рис. 12. Выделение контуров изображения ченные на выходе данные изображены в виде графика (рис. 10). На графике видны резкие перепады полученной функции, совпадающие с резкими сменами цвета. Зафиксировав эти перепады, сравниваем их размер с заданным порогом. Превышение размера порога свиде- тельствует о наличии точки, принадлежащей контуру изображения. 3.1. Реализация модели сенсорного органа зрительной системы человека Для проверки работы модели была создана система выделения контуров изображений. Благодаря полному параллелизму обработки каждой точки изображения, при аппаратной реализации этого подхода будет достигать- ся достаточно высокое быстродействие об- работки в реальном времени входных теле- и видеоизображений. Итак, в бионическом подходе считается, что каждая точка или условная группа точек воспринимаемого глазом изображения отвечает одному ней- рону (ганглиозной клетке). Каждый такой нейрон имеет несколько дендритов, кото- рые через биполярные клетки связаны от- рицательными связями с соседними нейро- нами. Уровень возбуждения нейронов фак- тически соответствует качеству контура. В системе реализована гибкая система на- стройки параметров виделения контура: изменение размера матрицы весовых коэф- фициентов; гибкая настройка пороговых значений; комбинирование разных методов сканирования изображения; сохранение па- раметров настройки (рис. 11). Полученный контур, при оптимальной настройке систе- мы, показан на рис. 12. Таким образом, светочувствитель- ные рецепторы преобразуют световой поток в нервные возбуждения (сигналы). Вот тут – то и возникают основные проблемы понимания функционирования зрительной системы, каким образом из сигналов, посылаемых по зрительным нервам, в неокортексе формиру- ются образы, воспринимаемые зрением. Наиболее вероятной моделью распознавания образов в высших слоях мозга челове- ка является модель сравнения с эталоном. Это наиболее простой из всех способов распо- знавания образов. Распознавание осуществляется сравнением внешнего изображения с на- бором внутренних эталонов. Рабочая гипотеза 2. Гипотеза о механизме распознавания образов в высших слоях не- окортекса мозга человека. Механизмом распознавания образов в высших слоях неокор- текса мозга человека является модель сравнения с эталоном. Данная модель обладает тем достоинством, что внешний образ сравнивается со всеми возможными эталонами одно- временно. В процессе сравнения одновременно активируется некоторая часть эталонов, и тот, который реагирует на данный образ наиболее активно, и есть искомый объект. В то же время модель имеет существенный недостаток, связанный с тем, что при изменении освещения, ориентации или размеров внешнего образа относительно эталона распознавания не произойдет. Эталон – внутреннее представление образа распознаваемого объекта, запомненного ранее в различных положениях. Следовательно, если распознавае- 26 ISSN 1028-9763. Математичні машини і системи, 2012, № 1 Рис. 13. Интерфейс виртуального робота «VITROM» мое изображение объекта приводить к стандартному освещению, размеру и точно совме- щать с эталоном, то модель работает безукоризненно, учитывая, что при зрительном вос- приятии и концентрации внимания на объекте видеоинформация проецируется в цен- тральную ямку сетчатки. При этом изображение приводится к стандартной освещенности, стандартному размеру центральной ямки глаза. Кроме того, осуществляется сканирование изображения с целью выявления наиболее информативных областей и, возможно, фикса- ции и сравнения расстояний между ними, то можно уверенно предположить, что зритель- ная система использует модель сравнения с эталоном. Итак, мы считаем, что метод сравнения с эталоном активно применяется зрительной системой человека. В пользу этого предположения также свидетельствует и тот факт, что при рассмотрении (распознавании) изображения, например, очень сильно искаженной или перевернутой буквы или другого образа, встречающегося впервые, мы долго, с разных сторон, под разными углами зрения крутим его в руках. Но если мы узнали этот образ, то всегда в дальнейшем узнаем его легко, т.е. можно предположить, что искаженный образ сформировал новый эталон или был найден близкий эталон и зафиксированы связи, отве- чающие за распознавание искаженного образа. Конечно, процесс обработки информации в слоях неокортекса не сводится только к сравнению объекта с эталоном. Этот процесс зна- чительно сложнее. В нем на различных уровнях биологической нейронной сети, а в нашем случае – нейроподобной рецепторно-эффекторной растущей сети, осуществляются обра- ботка, анализ, синтез и сравнение информации. Модель сенсорного органа зрительной системы человека совместно с методологией обработки информации в рецепторно-эффекторных нейроподобных растущих сетях [6–8] положена в основу разработки виртуального робота «VITROM». 4. Виртуальный робот «VITROM» Интерфейс виртуального робота «VITROM» показан на рис. 13. При от- сутствии объекта распознавания в зоне видимости видеокамеры («глаза робота») робот призывает объект подойти к нему. При появлении объекта в зоне видимости робот пытается распознать объект. Если объект находится в зоне видимости, но на значительном удалении робот приглашает подойти ближе и пытается распознать объект. Если объект известен роботу, то он здоровается и называет объект по име- ни и отчеству. Если робот не «знает» объект или ошибся, то он предлагает объекту пред- ставиться, запоминает информацию и его изображение. Для проверки правильности распознавания изображений лица человека виртуаль- ный робот «VITROM» ознакомлен с базой «Yale FaceIMAGES_Data» и другими 600-ми изображениями. Распознавание практически безошибочное. 5. Выводы В результате изучения существующей нейрофизиологической литературы сформулирова- ны гипотезы «О приведении распознаваемых изображений к одному размеру в области фовеа» и «О механизме распознавания образов в высших слоях неокортекса мозга челове- ка». На базе рабочих гипотез созданы и реализованы модель и нейронная сеть сенсорного органа зрительной системы человека, подтвердившие правомерность гипотез. Модель сен- ISSN 1028-9763. Математичні машини і системи, 2012, № 1 27 сорного органа зрительной системы человека совместно с методологией обработки ин- формации в рецепторно-эффекторных нейроподобных растущих сетях положена в основу создания программной системы распознавания лиц, которая показала высокую эффектив- ность распознавания. При аппаратной реализации системы информация в рецепторно- эффекторных нейроподобных растущих сетях обрабатывается на всех уровнях параллель- но. В результате ожидается повышение быстродействия системы на несколько порядков. Программная реализация системы демонстрировалась на выставке в Пекине 2000г., в Ганновере на выставках CeBIT 2000–2002 гг., в павильонах ВДНХ Украины 2000–2004 гг. СПИСОК ЛИТЕРАТУРЫ 1. Движения глаз. Большой психологический словарь [Электронный ресурс]. – Режим доступа: wiki.myword.ru/indtx.php. 2. Линдсей П. Переработка информации у человека (Введение в психологию) / П. Линдсей, Д. Норман; под ред. А.Р. Лурия. – М., 1974. – С. 549. 3. Соколов Е.Н. Нейронные механизмы саккадических движений глаз // Вопросы психологии. — 1980. – № 3. – C. 64 – 77. 4. Соколов Е.Н. Нейробионика. Организация нейроподобных элементов и систем / Е.Н. Соколов, В.А. Шмелев. – М.: Наука, 1983. – 279 c. 5. http://ru.wikipedia.org/wiki. 6. Ященко В.А. Рецепторно-эффекторные нейроподобные растущие сети – эффективное средство моделирования интеллекта. I / В.А. Ященко // Кибернетика и системный анализ. – 1995. – № 4. – С. 54 – 62. 7. Ященко В.А. Рецепторно-эффекторные нейроподобные растущие сети – эффективное средство моделирования интеллекта. II / В.А. Ященко // Кибернетика и системный анализ. – 1995. – № 5. – С. 94 – 102. 8. Yashchenko V.A. Receptor-effector neural-like growing network – an efficient tool for building intelligence systems / V.A. Yashchenko // Proc. of the second internatiional conference on information fusion, (July 6–8, 1999, Sunnyvale Hilton Inn, Sunnyvale, California, USA). – California, USA, 1999. – Vol. II. – Р. 1113 – 1118. Стаття надійшла до редакції 26.12.2011
id nasplib_isofts_kiev_ua-123456789-59356
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1028-9763
language Russian
last_indexed 2025-11-29T08:26:30Z
publishDate 2012
publisher Інститут проблем математичних машин і систем НАН України
record_format dspace
spelling Ященко, В.А.
2014-04-07T19:11:47Z
2014-04-07T19:11:47Z
2012
К вопросу восприятия и распознавания образов в системах искусственного интеллекта / В.А. Ященко // Мат. машини і системи. — 2012. — № 1. — С. 16-27. — Бібліогр.: 8 назв. — рос.
1028-9763
https://nasplib.isofts.kiev.ua/handle/123456789/59356
681.3
У статті в рамках біонічного підходу розглянуто питання щодо сприйняття й розпізнавання образів у системах штучного інтелекту. Представлено опис пристрою сенсорної зорової системи сприйняття і попередньої обробки інформації – очі людини. Висунуто робочі гіпотези «Про приведення зображения, що розпізнається, до одного розміру в області фовеа» і «Про механізм розпізнавання образів у вищих шарах неокортекса мозку людини». Представлено опис створеної на базі робочих гіпотез апаратно-нейронної моделі сенсорного органа зорової системи людини. Описана нейронна мережа виділення контуру зображення, що розпізнається.
В статье в рамках бионического подхода рассмотрены вопросы восприятия и распознавания образов в системах искусственного интеллекта. Представлено описание устройства и функционирования сенсорной зрительной системы восприятия и предварительной обработки информации – глаза человека. Выдвинуты рабочие гипотезы «О приведении распознаваемых изображений к одному размеру в области фовеа» и «О механизме распознавания образов в высших слоях неокортекса мозга человека». Представлено описание созданной на базе рабочих гипотез аппаратно-нейронной модели сенсорного органа зрительной системы человека. Описана простая нейронная сеть для выделения контура распознаваемого изображения.
The question of pattern perception and identification in the artificial intelligence systems was regarded in this article in the context of bionic approach. A description of a sensor visual system perception and information preprocessing device – human eyes was represented. The working hypotheses were put forward “About working the recognizable image out to the same size in the field of fovea” and “About the mechanism of pattern recognition in the higher layers of the neocortex of the human brain”. The description created on the basis of working hypotheses of hardware and neural models of visual sensory organ system was represented. The neural network of recognizable image contour detection is described.
ru
Інститут проблем математичних машин і систем НАН України
Математичні машини і системи
Обчислювальні системи
К вопросу восприятия и распознавания образов в системах искусственного интеллекта
До питання щодо сприйняття й розпізнавання образів у системах штучного інтелекту
On the question of pattern perception and identification in artificial intelligence systems
Article
published earlier
spellingShingle К вопросу восприятия и распознавания образов в системах искусственного интеллекта
Ященко, В.А.
Обчислювальні системи
title К вопросу восприятия и распознавания образов в системах искусственного интеллекта
title_alt До питання щодо сприйняття й розпізнавання образів у системах штучного інтелекту
On the question of pattern perception and identification in artificial intelligence systems
title_full К вопросу восприятия и распознавания образов в системах искусственного интеллекта
title_fullStr К вопросу восприятия и распознавания образов в системах искусственного интеллекта
title_full_unstemmed К вопросу восприятия и распознавания образов в системах искусственного интеллекта
title_short К вопросу восприятия и распознавания образов в системах искусственного интеллекта
title_sort к вопросу восприятия и распознавания образов в системах искусственного интеллекта
topic Обчислювальні системи
topic_facet Обчислювальні системи
url https://nasplib.isofts.kiev.ua/handle/123456789/59356
work_keys_str_mv AT âŝenkova kvoprosuvospriâtiâiraspoznavaniâobrazovvsistemahiskusstvennogointellekta
AT âŝenkova dopitannâŝodospriinâttâirozpíznavannâobrazívusistemahštučnogoíntelektu
AT âŝenkova onthequestionofpatternperceptionandidentificationinartificialintelligencesystems