О модификации метода обучения с подкреплением на основе моделей когнитивной психологии

В статье рассматривается задача обучения системы мотивированного контекстного ситуационного
 управления. Описаны модели структурных изменений множества агентов при обучении, показана
 формализация этапа формирования прототипов ситуации и реакции, а также контекстной связи.
 П...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Искусственный интеллект
Дата:2013
Автор: Крачковский, Н.В.
Формат: Стаття
Мова:Російська
Опубліковано: Інститут проблем штучного інтелекту МОН України та НАН України 2013
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/85164
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:О модификации метода обучения с подкреплением на основе моделей когнитивной психологии / Н.В. Крачковский // Искусственный интеллект. — 2013. — № 3. — С. 426–437. — Бібліогр.: 13 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860071281515298816
author Крачковский, Н.В.
author_facet Крачковский, Н.В.
citation_txt О модификации метода обучения с подкреплением на основе моделей когнитивной психологии / Н.В. Крачковский // Искусственный интеллект. — 2013. — № 3. — С. 426–437. — Бібліогр.: 13 назв. — рос.
collection DSpace DC
container_title Искусственный интеллект
description В статье рассматривается задача обучения системы мотивированного контекстного ситуационного
 управления. Описаны модели структурных изменений множества агентов при обучении, показана
 формализация этапа формирования прототипов ситуации и реакции, а также контекстной связи.
 Проведены компьютерные эксперименты, демонстрирующие процесс обучения. У статті розглядається задача навчання системи мотивованого контекстного ситуаційного керування.
 Описані моделі структурних змін множини агентів під час навчання, показана формалізація етапу
 формування прототипів ситуації та реакції, а також контекстного зв’язку. Проведені комп’ютерні
 експерименти, що демонструють процес навчання. We consider the problem of learning of motivated context situational control system. There are described models
 of structural changes in the set of agents at training, shown formalization of situation and reaction prototype as well
 as the context link. The computer experiments demonstrating the learning process are made.
first_indexed 2025-12-07T17:11:14Z
format Article
fulltext ISSN 1561-5359 «Искусственный интеллект» 2013 № 3 426 5К УДК 004.85:004.81 Н.В. Крачковский Донецкий национальный университет, Украина Украина, 83000, г. Донецк, пр. Театральный, 13 О модификации метода обучения с подкреплением на основе моделей когнитивной психологии M.V. Krachkovsky Donetsk National University, Ukraine Ukraine, 83000, c. Donetsk, Teatralnyi av., 13 About Reinforcement Learning Method Modification Based on Cognitive Psychology Models М.В. Крачковський Донецький національний університет, Україна Україна, 83000, м. Донецьк, пр. Театральний, 13 Про модифікацію метода навчання з підкріпленням на основі моделей когнітивної психології В статье рассматривается задача обучения системы мотивированного контекстного ситуационного управления. Описаны модели структурных изменений множества агентов при обучении, показана формализация этапа формирования прототипов ситуации и реакции, а также контекстной связи. Проведены компьютерные эксперименты, демонстрирующие процесс обучения. Ключевые слова: ситуационное управление, обучение с подкреплением, когнитивная психология. We consider the problem of learning of motivated context situational control system. There are described models of structural changes in the set of agents at training, shown formalization of situation and reaction prototype as well as the context link. The computer experiments demonstrating the learning process are made. Key words: situational control, reinforcement learning, cognitive psychology. У статті розглядається задача навчання системи мотивованого контекстного ситуаційного керування. Описані моделі структурних змін множини агентів під час навчання, показана формалізація етапу формування прототипів ситуації та реакції, а також контекстного зв’язку. Проведені комп’ютерні експерименти, що демонструють процес навчання. Ключові слова: ситуаційне керування, навчання з підкріпленням, когнітивна психологія. Введение В статье рассматривается задача обучения поведению сложных робототехнических комплексов, которые могут использоваться либо для снижения производственных затрат, либо в случаях, когда непосредственное управление человеком затруднено. Поведение, которое должна демонстрировать система, заранее запрограммировать затруднительно в условиях отсутствия полной информации на этом этапе (функционирование в откры- той среде). Для управления такими комплексами применяются ситуационные системы управления [1]. Возникновение новых требований к поведению системы в процессе её О модификации метода обучения с подкреплением на основе моделей... «Штучний інтелект» 2013 № 3 427 5К функционирования требует обучения этой системы. Известные подходы к обучению, в основном, базируются на моделях искусственных нейронных сетей [2], [3], поведенческих сетей [4], развивающегося интеллекта [5]. Рассматриваемая модель ситуационного управления [1], [6], модифицирована на основе данных когнитивной психологии [7], [8], которая подобно человеку и высоко- организованным животным хранит в памяти не набор прототипов «ситуация-действие», характерный для классических систем ситуационного управления, а прототип после- довательностей действий, названные скриптами. Особенность модели контекстного ситуационного управления выражена в структуре правил в виде односторонней за- висимости правил (1), если ввести понятие контекста. i Π : ЕСЛИ { ij, cont , ˆ i S S⊂ , M } ТО { i u , li,cont }, (1) где M – мотив, S – текущая ситуация, Ŝ – эталонная ситуация-прототип, u – управляющее воздействие, ij,cont – контекстная связь между правилами jΠ и iΠ . Схематично организацию системы мотивированного контекстного ситуационного управления можно представить в виде, показанном на рис. 1. Она включает следующие компоненты: множество сенсоров { }ns 1=iisn=SN , множество ситуационных агентов { } 1 , na j j= СА= СА множество эффекторов { }nu 1=kku=U , множество мотивов { }nm 1=llm=M . Поведение системы определяется взаимодействием агентов с окружением: ситуацией, формирующей значения нечётких характеристик сенсорных элементов и мотивов. Рисунок 1 – Общая схема системы управления Ситуационный агент представляет упорядоченное контекстом множество ситуа- ционных элементов { }n =ii ce 0 , как показано на рис. 2. Каждый ситуационный элемент описывается правилом (1). Рисунок 2 – Схематичное строение ситуационного агента В статье рассматривается задача обучения такой системы управления. Постановка задачи. Система мотивированного контекстного управления [9], как и традиционная система ситуационного управления, базируется на множестве контекстно-зависимых правил. Управление рассматривается как многошаговый дискретный процесс в моменты времени t , T+t , 2T+t , …, kT+t ,... Последовательность этапов одного шага управ- ления представлена на рис. 3: сформированные физическим датчиком значения фаз- зифицируются в виде нечётких характеристик элементарных сенсоров, которые фор- мируют сенсорную память; на основании сравнения текущей ситуации и прототипов Мотивы M Эффекторная подсистема, U СА1 САN Сенсорная подсистема, SN ce0 ce1 ce2 cen ... Крачковский Н.В. «Искусственный интеллект» 2013 № 3 428 5К ситуации из прототипной памяти, формируется нечёткие характеристики прототипов реакций эффекторной памяти. Последний этап заключается в преобразовании прото- типа реакции в непосредственную реакцию – дефаззифицированные значения подаются исполнительному механизму. Прототипная память системы представлена набором ситуационных элементов, сгруппированных в ситуационные агенты. Отдельный ситуационный агент представ- ляет некоторое отдельное законченное действие – фрагмент поведения. Рисунок 3 – Этапы шага управления Для появления у системы нового поведения требуется создание нового ситуа- ционного агента или модификация одного из существующих ситуационных агентов. Пополнение множества ситуационных агентов выполняется методом обучения. В ка- честве исходного метода обучения, который развивается применительно к рассма- триваемому классу систем, применяется обучение с подкреплением [10]. В статье излагается модель и метод обучения с подкреплением для автономного формирования новых ситуационных агентов из нескольких ситуационных элементов, связанных в контекстную цепочку. Метод базируется на обобщении теорий научения (Э. Торндайка, Б. Скиннера, И. Павлова [11]), изученных в когнитивной психологии. Формальная модель управления Ситуационный элемент ce контекстной цепочки (рис. 2), характеризуется: 1) нечётким прототипом ситуации – Ŝ ; 2) нечётким прототипом управления – R̂ ; 3) контекстной связью – K ; 4) мотивированной связью – M . Каждая из данных характеристик представляет собой множество нечётких ха- рактеристик [12] вида (2): ( ) [ ] ~ ˆ 1, 1 ~ i A i A= = x | µ x ,x +A     ∈ −       , ( ) 1 β2 αx exp2=xµ 2 iA ~ 2 iA ~ iA ~ −                         − −⋅ , (2) О модификации метода обучения с подкреплением на основе моделей... «Штучний інтелект» 2013 № 3 429 5К Из 4-х вариантов рассмотренной концептуальной модели [13] в статье рас- сматривается задача обучения, сводящаяся к формированию нового ситуационного агента, его расширения и модификации контекстной связи. Создание нового ситуационного агента рассматривается как многоэтапный процесс обучения, на каждом этапе которого формируется ситуационный элемент путём нахо- ждения вышеперечисленных характеристик: прототипов ситуации ( Ŝ ) и управления ( R̂ ); нечётких характеристик мотива (M ) и контекстной связи (K ). Первый шаг каждого этапа обучения начинается с обработки информации для выделенного не специфицированного «пустого» ситуационного элемента, который будет служить базой для образования нового элемента. Данный элемент обладает по- тенциальными связями со всеми существующими компонентами: контекстные с агента- ми; информационные с сенсорами и управлением; и связи с мотивами. Изначально эти связи имеют нейтральные значения нечётких характеристик. Структура ситуацион- ного элемента и его потенциальные связи показаны на рис. 4. Рисунок 4 – Ситуационный элемент На последующих i -х шагах обучение происходит в моменты времени kT на основе подкрепления: произошло изменение (падение) нечёткой характеристики активности мотива. Значения перечисленных характеристик ситуационного элемента в моменты времени kT находятся по модели обучения F на основании значений этих характе- ристик в предыдущий момент времени, а также вектора активности сенсоров (MS ), действий (MR ) и мотива (MM ). ( )1 ˆ ˆˆ ˆ kT k T S,R,M,K =F S,R,M,K ,MS,MR,MM −       (3) где ( )( ) d 0=j TjkS=MS − , ( )( ) d 0=j T1kR=MR − , ( )( ) d 0=j TjkM=MM − , ( ) ( ) ns =i sn i kTA=kTS 1~       , ( ) ( ) nu =i u i kTA=kTR 1~       , ( ) ( ) nm =i M i kTA=kTM 1~       . Ниже рассматривается формализация процедуры формирования прототипов Ŝ и R̂ и контекста модели F обучения (3). Эффекторная система М о т и в ы Сенсорная система sn1 sn2 snns Ситуационный элемент sp1 sp2 spns M1 M2 Mnm m1 m2 mnm r1 r2 rnu u1 u2 unu Ситуационные агенты СА1 СА2 САN Крачковский Н.В. «Искусственный интеллект» 2013 № 3 430 5К Концептуальная модель обучения При формализации механизма связанного с изменением базы знаний объекта управления, принято во внимание следующее: обучение происходит в том случае, когда имеет место фактор «неожиданности», так если для активного мотива и сложившейся ситуации существует агент, выполнение функции которого приводит к погашению мотива, то новых знаний система не приобретает. В случае отсутствия такого агента либо реагирование какого-либо другого агента, не приводящее к погашению мотива, означает, что существующие схемы неэффектив- ны и требуется обучение. В таком случае запускается («включается») механизм обуче- ния. Он использует информацию о ситуации, из которой произошёл переход к какой- либо известной ранее. В данном случае должны закрепляться: предыдущая ситуация и выполненное действие в виде ситуационного элемента, а также контекстная связь между данным элементом и существующим ситуационным агентом, которая будет определять ожидаемость погашения мотива. Возможно ещё, когда случайно выработанное управление привело к погашению мотива, – подкреплению. В таком случае полученный ситуационный элемент (СЭ) образует новый ситуационный агент, состоящий из одного ситуационного элемента. В этих двух случаях идёт образование нового элемента. Приведённые выше рассуждения являются обобщением известных теорий на- учения из физиологии и когнитивной психологии [11], а именно теорий Э.Л. Торндайка, К.Л. Халла, Э.Ч. Толмена, А. Бандуры. Анализ этих теорий и вышеприведённые рас- суждения позволили обобщить и выделить 4 варианта обучения: 1. Изменение контекстной связи между ситуационными агентами. Это происходит в случае, когда ситуация, полученная в результате выполнения функции CAi, сопоставима с прототипом ситуации, необходимым для активации другого CAj. Многократное повторение такой последовательности с последующим подкреплением (ослабление мотива) приводит к усилению контекстной связи CAi → CAj и в дальнейшем даже при значительном отклонении ситуации контекстная связь может обеспечить активацию ситуационного агента CAj. 2. Образование нового ситуационного элемента. Если в процессе случайного применения управления образовалась ситуация, подходящая под прототип первого ситуационного элемента агента CAk, поведение согласно которому привёло к погашению мотива, то активный мотив, исходная ситуация и выработанное поиском действие становятся мотивом, прототипами си- туации и реакции соответственно нового ситуационного элемента. Также образуется контекстная связь между вновь созданным СЭ и CAk. 3. Образование нового ситуационного агента. Возможно, что в процессе принятия управления, привело к погашению мотива – подкреплению. В таком случае полученный СЭ образует новый ситуационный агент, состоящий из одного ситуационного элемента. 4. Изменение прототипа существующего ситуационного элемента Происходит, если текущая ситуация была близка к прототипу некоторого су- ществующего ситуационного элемента, и было получено подкрепление. На рис. 5 приведено 3 варианта обучения. На рис. 5 а) показано изменение кон- текстной связи (сплошная стрелка) между ситуационными агентами CAi и CAj. При этом связь формируется односторонняя – в том же порядке, в котором происходит О модификации метода обучения с подкреплением на основе моделей... «Штучний інтелект» 2013 № 3 431 5К выполнение агентов. На рис. 5 б) показано формирование ситуационного агента CAk путём внесения в него нового ситуационного элемента. На рис. 5 в) приведён новый ситуационный агент CAz, сформированный на базе одного элемента. а) б) в) Рисунок 5 – Изменения структуры системы, вносимые обучением В первом варианте механизм обучения формирует нечёткое множество контекст- ной связи j,1n,i,co , которая влияет на активность суммарного контекстного входа ( )j,1)T1(k ~ coA − , входящей в модель управления [9] при расчёте активности ситуацион- ного элемента j,1ce . Во втором варианте механизма обучения формируются нечёткие множества про- тотипа ситуации ,0 ˆ k S , входящего в расчёт активности ситуационного элемента, и прототипа реакции ,0 ˆ k R , входящего в расчёт нечёткой активности эффекторов x u в модели управления [12]. Кроме этого также формируется контекстная связь k,1,0k,co . В третьем варианте, как и во втором, происходит формирование нечётких множеств прототипа ситуации ,1 ˆ z S и реакции ,1 ˆ z R . Однако контекстная связь формируется между контекстным элементом и подкреплением и описывает ожидание подкрепления в случае выполнения данного ситуационного агента. Данная контекстная связь используется при управлении для выбора подходящего агента, в случае наличия альтернатив, а также при дальнейшем обучении. Значения всех сформированных нечётких множеств в каждом из вариантов 1 – 3 зависят от времени, прошедшего между предъявлением стимула и изменением актив- ности ожидаемых значений мотивов (стимулом потребности), величины изменения активности мотива (полученного подкрепления). Формальная модель обучения Прототип ситуации представлен множеством нечётких характеристик элементов { }isp , соответствующих сенсорам { }isn сенсорной системы. Формирование прототипа ситуации, который представлен в виде множества (2), в kT момент времени вычисляется согласно выражению (4). ( ) ( )( )Tjki'A ~d0,=j sp i βnimarg=kTA ~ − , (4) где ( )( )Tjk'A ~ i − – расчётная нечёткая характеристика элемента i sp , модифици- рованная с учётом влияния эффективности обучения и величины подкрепления относительно момента времени ( )Tjk − ; d – глубина сенсорной памяти. Крачковский Н.В. «Искусственный интеллект» 2013 № 3 432 5К Формализация ( )( )Tjk'A i − ~ приведена на (5). ( )( ) ( ) ( )( )( ) ( )( )( )                     ⋅ − −=− − − 2 TjkiA' 2 TjkiA' i β2 αx expxx=Tjk'A ~ µ , (5) где ( )( ) ( ) ( ) ( )( )Tjksn iAkT sp iATjk i 'A αq+αq=α − − ⋅⋅− ~~ ~ 1 ; ( )( ) ( ) ( ) 2 ~~ 1 βq+βq=β kT sp iATjk i 'A ⋅⋅− − ; ( )( ) ( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )jTI β+β + +α+αjTI Tjk β =β S m Tjk∆sn iAkTM j Q Tjk∆sn i AkTQm sn iA M S − −               − ~ ~ ~ ~ 2 11 4 ~ ; 2 β e=q − ⋅ϕ ; ϕ – параметр скорости обучения; ( )( )TjkA ∆sn i − ~ – нечёткая характеристика скорости изменения сенсора i sn в момент времени ( )Tjk − ; ( )kTQ M j ~ – нечёткая характеристика подкрепления. По данным когнитивной психологии [11] процесс научения происходит с раз- личной эффективностью, которая определяется такими параметрами, как время между предъявлением стимула, совершённой реакцией и полученным подкреплением. Предла- гается эту зависимость представить в виде (6). ( ) 0x,m x e m x =xI 1 m ≥⋅ − (6) где x – время от предъявления стимула до подкрепления, для 0<x можно счи- тать значение равным 0; m – параметр, задающий значение оптимального времени. Вторым фактором, влияющим на эффективность научения, является величина подкрепления – явились ли последствия действия полезными для объекта. Формализация представлена ниже (7). ( ) ( ) ( ) ( )                                     ⋅         − −= 2 kTQ 2 kTQ M j M j ~ M j ~ β2 αx exp=xµ|xkTQ ~ , ( ) ( )( ) ( )         − − = kTMA ~ TjkMA ~ kTQ ααmα M j ~ , ( ) ( )( ) ( )kTMA ~ TjkMA ~ kTQ βββ M j ~ −= − , ( ) 0γ<1, 2 x 2 x =xm γ ≤−    ⋅ , (7) О модификации метода обучения с подкреплением на основе моделей... «Штучний інтелект» 2013 № 3 433 5К Параметр γ влияет на эффективность обучения при малых изменениях мотива. Реальное изменение мотива может быть слишком отложено во времени, чтобы привести к обусловливанию, поэтому в работах физиологов вводилось понятие стимула потребности [11]. Он формализован в данной работе при описании подкрепления как суммарный мотив, который определяется на основании реального и фантомного мо- тивов. Под фантомным мотивом понимается ожидаемое значение мотива и является основой упреждения системы (8). ( ) ( ) ( )kTA ~ kTA ~ =kTA ~ M' i M i M i ⊕ , (8) где M' – фантомная активация мотива, ⊕ – операция нечёткого накопления. Данная форма позволяет описать такие явления как стимул потребности, научение при отсутствии реального мотива (например, ситуации опасности), а также отсутст- вие научения в случае эффективности существующих реакций. Прототип реакции, аналогично прототипу ситуации, представлен множеством вида (2). Элемент данного множества определяется по формуле (9). ( ) ( )( )TjkR'A ~ d0,=j r i βnimarg=kTA ~ − , (9) где ( )( )Tjk'A R − ~ – расчётная нечёткая характеристика управления i r , моди- фицированная с учётом влияния эффективности обучения и величины подкрепления на момент времени ( )Tjk − , значение характеристики находится аналогично (5). Параметр эффективности обучения (6) для реакции должен быть меньше, чем параметр для ситуации, так как реакция выполняется с некоторой задержкой после предъявления стимула. При формировании контекстной связи (10) между ситуационными элементами h ce и k ce величина нечёткой характеристики этой связи будет изменяться в соответствии с полученным подкреплением (7). ( ) ( ) ( )( ) ( )kTM jQ ~ T1kco hk,A ~ kTco hk,A ~ αφ+αφ1=α ⋅⋅− − . (10) Компьютерный эксперимент Компьютерный эксперимент проводился на комплексе, состоящем из робота LEGO MINDSTORMS NXT, который удалённо управляется компьютером при помощи Bluetooth. Робот имеет два независимо управляемых колеса. Третье колесо пассив- ное и обеспечивает устойчивость. Из датчиков робота использованы датчик сопри- косновения и расстояния, оба направлены вперёд. Целью эксперимента было обучение робота поведению, которое позволяет избежать столкновения с препятствием. В качестве примера рассмотрим обучение, которое будет выражаться в образо- вании ситуационного агента, вначале состоящего из одного ситуационного элемента. Для формирования данного ситуационного элемента необходимы: мотив, прототип ситуации и прототип реакции. Контекст в данном случае будет «нулевым». Информация от двух датчиков гранулирована так, что по показаниям датчиков фор- мируются нечёткие характеристики 28 элементарных сенсоров: 2 сенсора для датчика со- Крачковский Н.В. «Искусственный интеллект» 2013 № 3 434 5К прикосновения ( 0snt , 1snt ), 20 для датчика расстояния для разного уровня детализации (от 2 до 6 сенсоров на область детектирования датчика: i0,=j,1,5=i,snd ji, ), а также по 3 сенсора на каждое колесо ( 11,-=j,0,1=i,snr ji, ). Подробнее датчики описаны в [9]. В качестве мотива выбран мотив самосохранения робота, который основан на 1snt : если сработал датчик, то есть угроза столкновения. В случае столкновения робота с препятствием, обучение избеганию будет происходить в два этапа: формирование зна- ния о столкновении и собственно обучение избеганию. В случае обучения сложному поведению эти этапы будут повторяться. Обучение было выполнено по следующей схеме. Робот движется по прямой к стенке со средней скоростью. При столкновении со стенкой возрастает активность мотива самосохранения. Ситуация соответствует прототипу изначально закреплённого агента 1 CA , выдаёт управление в соответствии с прототипом реакции – робот останав- ливается и отъезжает от стенки. До обучения траектория движения робота показана на рис. 6 а) и представляет собой горизонтальную линию. Вертикальной линией по- казана стена. В момент активизации мотива самосохранения происходит обучение упреждаю- щей ситуации – формируется прототип, описывающий малое расстояние до препят- ствия и движение вперёд. В процессе компьютерного эксперимента на основании нескольких столкновений данный прототип закрепляется и начинает активизировать фантомный мотив самосохранения до столкновения. Затем, при приближении робота к стене, подаётся команда поворота вправо, ко- торая позволяет избежать столкновения со стеной, траектория показана на рис. 6 б), мотив не активируется, а значит, активность M падает, что соответствует подкреп- лению. В этом случае происходит обучение системы: формируется прототип реакции (9). В качестве мотива используется мотив, который был погашен — мотив самосохране- ния. «Пустой» ситуационный элемент специфицируется. При повторении ситуации, в которой ожидается столкновение, и поворот вправо позволяет избежать его, снова происходит обучение – прототипы ситуационного элемента модифицируются и за- крепляются. На рис. 6 в) показана траектория, выработанная управлением вновь сфор- мированного ситуационного элемента после серии экспериментов обучения. а) б) в) Рисунок 6 – Поведение робота при столкновении со стенкой: до обучения (а), эталонная реакция (б) и после обучения (в) Таким образом, закрепление успешной реакции позволяет системе избегать столкновения с препятствием в дальнейшем без необходимости поиска. О модификации метода обучения с подкреплением на основе моделей... «Штучний інтелект» 2013 № 3 435 5К На следующем этапе аналогичным методом формируется второй ситуационный элемент агента, для ситуации, когда робот движется с высокой скоростью и не успе- вает повернуть. Данная ситуация представлена на рис. 7 а). Обучение в данном случае будет проведено в три этапа. На первом этапе будет произведена дифференцировка прототипа ситуации ранее описанного элемента: вы- сокое значение начальной скорости не является подходящим, так как не получено подкрепление. а) б) Рисунок 7 – Траектория движения при высокой начальной скорости На втором этапе, который будет происходить частично параллельно с первым, происходит выделение нового ситуационного элемента. Данный этап абсолютно анало- гичен рассмотренному ранее процессу, и полученный прототип ситуации данного элемента также значительно отличается только в сенсорах srdi,j. Третий этап заключается в поиске подходящей реакции, которая позволит снизить активность мотива самосохранения. В нашем случае из возможных найденных реше- ний рассмотрим реакцию снижения скорости движения. В этом случае, непосредственно данная реакция не приводит к подкреплению, однако, возникает ситуация, которая соответствует уже известному прототипу. В результате применяется первый ситуацион- ный элемент, который и является подкрепляющим стимулом для второго. Данные ситуационные элементы связываются контекстной связью и второй ситуационный элемент теперь является частью ситуационного агента. Результат работы агента из двух ситуационных элементов показан на рис. 7 б). Выводы Рассмотрены варианты механизма обучения обобщённого ситуационного управ- ления, которые приводят к структурным изменениям системы управления. Формальная модель описывает зависимость начальных значений сформированных прототипов ситуа- ции и реакции ситуационного элемента от других известных величин. При дальнейшем функционировании системы может также происходить обуче- ние, влияние которого отражается не на структуре системы, а на значении прототипов существующих элементов и контекстных связей между ситуационными элементами. Предложен новый подход к обучению в ситуационных системах управления, отличающийся от известных, базирующихся на нейронных сетях и нечетких системах, тем, что в нём формализованы теории научения, освещённые в когнитивной психо- логии. Рассмотрена формализация процедуры формирования прототипов ситуации и управления в задаче самообучения. Крачковский Н.В. «Искусственный интеллект» 2013 № 3 436 5К Литература 1. Поспелов Д. А. Ситуационное управление: Теория и практика [текст] / Д. А. Поспелов – М. : Наука. – Гл. ред. физ.-мат. Лит., 1986. – 288 с. 2. Терехов В.А. Нейросетевые системы управления [текст] / В.А. Терехов, Д.В. Ефимов, И.Ю. Тюкин – М.: Высш. шк., 2002. 3. Tan A.-H. Intelligence through interaction: towards a unified theory for learning [текст] / A.-H. Tan, G.A. Carpenter, S. Grossberg. – Advances in neural networks. – 2007. – № 1. – P. 1094-1103. 4. Maes Р. Learning to Coordinate Behaviors [текст] / Р. Maes, P. Brooks – AAAI Press/MIT Press – Proceedings of the Eighth National Conference on Artificial Intelligence, 1990. – P.796-802. 5. Meng Y. Bio-Inspired Self-Orginizing Robotic Systems [текст] / Yan Meng, Yaochu Jin. – Springer- Verlag Berling Heidelberg – 2011. – 273 p. 6. Мелихов А.Н. Ситуационные советующие системы с нечеткой логикой [текст] / Мелихов А.Н., Берштейн Л.Е., Коровин С.Д. – М. : Наука, 1990. 7. Солсо Р. Когнитивная психология [текст] / Р. Солсо. – СПб. : Питер, 2002. – 592 с. 8. Андерсон Дж. Р. Когнитивная психология [текст] / Дж. Р. Андерсон. – СПб. : Питер, 2002. – 496 с. 9. Каргин А. А. Об одной модели ситуационного управления подвижным роботом [текст] / А. А. Каргин, Н. В. Крачковский// Інформаційно-керуючі системи на залізничному транспорті. – 2011. – № 4(89). – С. 12-17. 10. Саттон Р. Обучение с подкреплением [текст] / Р. Саттон, Э. Барто. – СПб. : Бином, 2011. – 399 с. 11. Хегенхан Б. Теории научения [текст] / Б. Хегенхан, М. Олсон. ; пер. на русс. яз. ЗАО Издательский дом «Питер». – [6-е изд.]. – СПб. : Питер, 2004. – 474 с. : ил. – (Серия «Мастера психологии»). 12. Каргин А. А. Введение в интеллектуальные машины. Книга 1. Интеллектуальные регуляторы [текст] / А. А. Каргин. – Донецк : Норд-Пресс, ДонНУ, 2010. – 526с. 13. Каргин А. А. Модели обучения системы мотивированного контекстного ситуационного управления [текст] / А. А. Каргин, Н. В. Крачковский // Вісник ХНТУ. – 2012. – №1(44). – С.257-260 Literatura 1. Pospelov D. A. Situational control: Theory and practice [text] / D. A. Pospelov – Moscow: Nauka. – Main Publ. Phys.-Math. Lit., 1986. – 288 p. 2. Terekhov V. A. Neural network control system [text] / V. A. Tetekhov, D. V. Yefimov, I. Yu. Tiukin – Moscow: High School, 2002. 3. Tan A.-H. Intelligence through interaction: towards a unified theory for learning [текст] / A.-H. Tan, G.A. Carpenter, S. Grossberg – Advances in neural networks. – N. 1., 2007. – P.1094–1103. 4. Maes Р. Learning to Coordinate Behaviors [текст] / Р. Maes, P. Brooks – AAAI Press/MIT Press – Proceedings of the Eighth National Conference on Artificial Intelligence, 1990, P.796-802. 5. Meng Y. Bio-Inspired Self-Orginizing Robotic Systems [текст] / Yan Meng, Yaochu Jin – Springer- Verlag Berling Heidelberg – 2011. – 273p. – ISBN 978-3-642-20759-4. 6. Melikhov A. N. Situational advise systems with fuzzy logic [text] / A. N. Melikhov, L. Ye. Bershtein, S. D. Korovin – Moscow: Nauka, 1990. 7. Solse R. Cognitive Psychology [text] / R. Solso – St. Petersburg: Piter, 2002. – 592 p. 8. Anderson J. R. Cognitive psychology [text] / J. R. Anderson – St. Petersburg: Piter, 2002. – 496 p. 9. Kargin A. A. About the model of situational control of mobile robot [text] / A. A. Kargin, M. V. Krachkovsky – Kharkiv: Science-technical magazine «Informatsiino-keruiuchi systemy na zaliznychnomu transporti» – 2011. – №4(89).-P.12-17 10. Satton R. Reinforcement learning [text] / R. Satton, E. Barto – St. Petersburg: Binom, 2011, - 399 p. 11. Hergenhahn B. Introduction to the Theories of Learning [text] / B. Hergenhahn, M. Hergenhahn; Russian Translation CJSC Publishing House «Piter». – [6th issue]. – St. Petersburg: Piter, 2004. – 474 p. – («Psychology Masters» series). – ISBN 5-94723-033-X. 12. Kargin A. A. Introduction to intelligent machines. Book 1. Intelligent controllers [text] / A. A. Kargin. – Donetsk: Nord-Press, DonNU, 2010. – 526 p. 13. Kargin A. A. Learning models of motivated context situational control system [text] / A. A. Kargin, N. V. Krachkovsky – Kherson: KhNTU Bulletin – 2012.-№1(44).-P.257–260 О модификации метода обучения с подкреплением на основе моделей... «Штучний інтелект» 2013 № 3 437 5К RESUME M.V. Krachkovsky About Reinforcement Learning Method Modification Based on Cognitive Psychology Models In this article we consider the problem of learning of motivated context situational control system of the complex system behavior. The structural changes occurring in the control system, represented as a set of situational agents at training, are considered. Developed conceptual model is based on the researches of the physiologists and cognitive psychologists. The formal learning model is developed, which describes the changes in the situation and reaction prototypes and the various parameters influence on learning, such as the amount of reinforcement, the time between the stimulus, action and the reinforcement. There is also described the change of the contextual link between situational elements when it’s used. The training consisting in formation of the new situational agent which includes formation of two situational elements from the empty unallocated element is described. Results of experiments of computer modeling of training are shown. Статья поступила в редакцию 10.06.2013.
id nasplib_isofts_kiev_ua-123456789-85164
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Russian
last_indexed 2025-12-07T17:11:14Z
publishDate 2013
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Крачковский, Н.В.
2015-07-21T11:47:56Z
2015-07-21T11:47:56Z
2013
О модификации метода обучения с подкреплением на основе моделей когнитивной психологии / Н.В. Крачковский // Искусственный интеллект. — 2013. — № 3. — С. 426–437. — Бібліогр.: 13 назв. — рос.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/85164
004.85:004.81
В статье рассматривается задача обучения системы мотивированного контекстного ситуационного&#xd; управления. Описаны модели структурных изменений множества агентов при обучении, показана&#xd; формализация этапа формирования прототипов ситуации и реакции, а также контекстной связи.&#xd; Проведены компьютерные эксперименты, демонстрирующие процесс обучения.
У статті розглядається задача навчання системи мотивованого контекстного ситуаційного керування.&#xd; Описані моделі структурних змін множини агентів під час навчання, показана формалізація етапу&#xd; формування прототипів ситуації та реакції, а також контекстного зв’язку. Проведені комп’ютерні&#xd; експерименти, що демонструють процес навчання.
We consider the problem of learning of motivated context situational control system. There are described models&#xd; of structural changes in the set of agents at training, shown formalization of situation and reaction prototype as well&#xd; as the context link. The computer experiments demonstrating the learning process are made.
ru
Інститут проблем штучного інтелекту МОН України та НАН України
Искусственный интеллект
Интеллектуальные робототехнические системы
О модификации метода обучения с подкреплением на основе моделей когнитивной психологии
Про модифікацію метода навчання з підкріпленням на основі моделей когнітивної психології
About reinforcement learning method modification based on cognitive psychology models
Article
published earlier
spellingShingle О модификации метода обучения с подкреплением на основе моделей когнитивной психологии
Крачковский, Н.В.
Интеллектуальные робототехнические системы
title О модификации метода обучения с подкреплением на основе моделей когнитивной психологии
title_alt Про модифікацію метода навчання з підкріпленням на основі моделей когнітивної психології
About reinforcement learning method modification based on cognitive psychology models
title_full О модификации метода обучения с подкреплением на основе моделей когнитивной психологии
title_fullStr О модификации метода обучения с подкреплением на основе моделей когнитивной психологии
title_full_unstemmed О модификации метода обучения с подкреплением на основе моделей когнитивной психологии
title_short О модификации метода обучения с подкреплением на основе моделей когнитивной психологии
title_sort о модификации метода обучения с подкреплением на основе моделей когнитивной психологии
topic Интеллектуальные робототехнические системы
topic_facet Интеллектуальные робототехнические системы
url https://nasplib.isofts.kiev.ua/handle/123456789/85164
work_keys_str_mv AT kračkovskiinv omodifikaciimetodaobučeniâspodkrepleniemnaosnovemodeleikognitivnoipsihologii
AT kračkovskiinv promodifíkacíûmetodanavčannâzpídkríplennâmnaosnovímodeleikognítivnoípsihologíí
AT kračkovskiinv aboutreinforcementlearningmethodmodificationbasedoncognitivepsychologymodels