Перспективи розвитку природно-мовних технологій

A class of information technologies, oriented at natural language processing is investigated. Such systems, generally, model the human speech activity, and their information core consists of a lingual processor and knowledge data, working for each other. Perspectives for this class of information te...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2019
1. Verfasser: Kislenko, Yu. I.
Format: Artikel
Sprache:Russisch
Veröffentlicht: The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2019
Online Zugang:https://journal.iasa.kpi.ua/article/view/171812
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:System research and information technologies
Завантажити файл: Pdf

Institution

System research and information technologies
_version_ 1867334373684019200
author Kislenko, Yu. I.
author_facet Kislenko, Yu. I.
author_institution_txt_mv [ { "author": "Yu. I. Kislenko", "institution": null } ]
author_sort Kislenko, Yu. I.
baseUrl_str http://journal.iasa.kpi.ua/oai
collection OJS
datestamp_date 2019-07-02T15:42:32Z
description A class of information technologies, oriented at natural language processing is investigated. Such systems, generally, model the human speech activity, and their information core consists of a lingual processor and knowledge data, working for each other. Perspectives for this class of information technologies are analyzed from the viewpoint of the formal model of language offered by the author.
first_indexed 2025-07-17T10:25:30Z
format Article
fulltext © Ю.И. Кисленко, 2004 Системні дослідження та інформаційні технології, 2004, № 2 35 TIДC ПРОГРЕСИВНІ ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ, ВИСОКОПРОДУКТИВНІ КОМП’ЮТЕРНІ СИСТЕМИ УДК 004.934: 007: 811 ПЕРСПЕКТИВЫ РАЗВИТИЯ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕХНОЛОГИЙ Ю.И. КИСЛЕНКО Рассматривается класс информационных технологий обработки естественно- языковой информации. В общем случае подобные системы моделируют рече- вое поведение человека, и их информационное ядро должно представляться совокупностью лингвистического процессора и базы знаний, работающих друг на друга. С позиций предложенной автором формальной модели языка анали- зируются перспективы информационных технологий указанного класса. ВВЕДЕНИЕ Повышенный интерес к формированию информационных технологий обра- ботки естественного языка (ЕЯ) и достаточно скромные успехи на этом по- прище обусловливают интеграцию усилий специалистов различных направ- лений (информационщиков, лингвистов, психологов, физиологов и др.) на пути к познанию феномена языка и моделирования речевой деятельности. Такой интеграционный подход как по составу организаторов, так и по тема- тике докладов, характерен для Первого семинара по компьютеризации есте- ственных языков (КЕЯ), состоявшегося в Варне в сентябре 1999 г. Органи- затором этого семинара был пионер болгарской компьютерной школы профессор Шишков Димитар Петров. На семинаре [1] были сформулированы лишь общие направления ком- пьютерной обработки ЕЯ-информации. Однако уже тогда наметились при- оритеты этой важной и сложной области. Это — вопросы, связанные с фун- даментальными проблемами организации естественного языка на всех уровнях (структурном, морфологическом, семантическом), сохранения письменных памятников, извлечения знаний из текстов с последующим их представлением в базах данных и знаний, синтеза и анализа речевой инфор- мации, задачи нормирования языков, интегрирования разноплановой ин- формации и т.п. Конечно же, можно заметить значительную неопределен- ность в выборе задач, отсутствие системного подхода, несколько неоправданную эйфорию в надежде на незамедлительные результаты. Вполне объяснимая ситуация для начального этапа формирования програм- мы исследований, особенно в такой сложной области, как моделирование речевого поведения человека. Ю.И. Кисленко ISSN 1681–6048 System Research & Information Technologies, 2004, № 2 36 Цель настоящей работы — представить современное состояние класса информационных технологий, обработки ЕЯ, показать, что в данной облас- ти моделирования интеллектуальной деятельности человека намечаются обнадеживающие перспективы, позволяющие достаточно уверенно прогно- зировать направления исследований и конструктивного решения некоторых фундаментальных вопросов обработки ЕЯ-информации. Речь идет о фор- мальной модели языка, разработанной автором в НТУУ «КПИ» и представ- ленной на Первом семинаре в качестве продуктивной основы создания со- временных ЕЯ-технологий. За эти годы модель приобрела более законченный вид, получены новые результаты в формировании ЕЯ-технологий. ТЕХНОЛОГИИ ОБРАБОТКИ ЕЯ-ИНФОРМАЦИИ Среди современных информационных технологий особый класс составляют системы обработки естественно-языковой информации. К этому классу принадлежат системы: информационного поиска в INTERNET; экспертные; автоматического перевода; информационно-поисковые; обработки (син- тез/анализ) текстовой информации; обработки (синтез/анализ) речевой информации; «понимания» речевого сообщения; интегрирующие в себе об- работку образной и символьной информации. Перечень подобных систем завершается естественно-языковым интерфейсом и системой накопления знаний, что является приоритетным направлением в создании компьютеров пятого поколения, которые, к сожалению, так и не реализованы до сих пор. Именно последние два направления представляют наибольший интерес в создании ЕЯ-технологий, ибо концентрируют в себе все узловые пробле- мы предыдущих: первое из них — не что иное, как система обработки ЕЯ- информации (лингвистический процессор (ЛП)), второе — база знаний (БЗ), в которой формируется модель внешнего мира, а вместе они составляют информационное ядро технологий обработки ЕЯ. Все перечисленные системы так или иначе связаны с моделированием речевого поведения человека — одной из наиболее сложных форм его ин- теллектуальной деятельности. Речевая деятельность в общем случае бази- руется на двух составляющих, определяющих как наши знания об организа- ции языка (условно эту составляющую определим как языковую компетенцию, ответственную в дальнейшем за формирование ЛП), так и знания относительно внешнего мира (представленные в БЗ в виде соответ- ствующей модели), и любые проявления речевой деятельности (будь-то синтез или анализ речевого сообщения) обязательно актуализируются лишь при условии диалектического взаимодействия обеих составляющих — ЛП и БЗ. Следовательно, и информационное обеспечение соответствующих тех- нологий должно базироваться на этих составляющих и их взаимодействии. ТЕКУЩЕЕ СОСТОЯНИЕ ЕЯ-ТЕХНОЛОГИЙ Появление мощной вычислительной техники снова (в который раз!) возро- ждает иллюзии быстрого и эффективного моделирования интеллектуальных возможностей человека, в частности, моделирования речевой деятельности, что напрямую связано с разработкой ЕЯ-технологий. В западном мире в по- Перспективы развития естественно-языковых технологий Системні дослідження та інформаційні технології, 2004, № 2 37 следнее время наблюдается очередной всплеск эмоций и надежд, связанных с моделированием сложных интеллектуальных, эмоциональных и психиче- ских функций человека. Формируется целое поколение «интеллектуальных агентов», ответственных за выполнение отдельных узкоориентированных операций и процедур, «плодятся» информационные роботы, которые раз- множаются в сети INTERNET и поступают с информацией по своему ус- мотрению, формируются отдельные домены знаний в рамках общей онтоло- гии и т.п. Однако многолетний опыт использования вычислительной техники как средства моделирования убеждает, что эффективные модели строятся там, где четко и однозначно представлена информационно-логическая модель исследуемого объекта. Без внутренней стройности и логической завершен- ности таких моделей не может быть и речи об эффективном создании соот- ветствующих технологий. А в нашем случае объектом исследования (следо- вательно, и моделирования) выступает речевая деятельность человека. Совокупные знания об этой сфере пока совершенно неадекватно отобража- ют потенциальные возможности речевой деятельности, и тем более резуль- таты классической лингвистики весьма далеки от того, чтобы их можно бы- ло переложить на строгий язык компьютера. Это позволяет с определенной долей здравого скепсиса относиться ко всякого рода «прожектам» в области моделирования речевой деятельности. Здесь еще очень много вопросов. Эффективных технологий в этой области не будет, пока не появятся доста- точно строгие модели речевой деятельности, опирающиеся на основные информационные составляющие человека (знания о языке и мире), обла- дающие достаточной объяснительной способностью и сводящие все накоп- ленные знания (не только в лингвистике, но и в пограничных областях) в четкую непротиворечивую систему. Только в случае выполнения этих тре- бований можно предметно говорить о возможности формирования соответ- ствующих технологий. Реальное же положение дел в области ЕЯ-технологий таково: практи- чески все разработки ориентированы на человеко-машинный вариант рабо- ты (редакторы, переводчики, системы поиска и т.п. требуют участия челове- ка на завершающих этапах). Это следует из того, что, во-первых, все современные технологии обработки естественного языка уверенно работают лишь с идеальным языковым материалом [2], во-вторых, классическая лин- гвистика в создание компьютерных технологий внесла довольно-таки не- значительный вклад [3]. В концентрированном виде оценка текущего со- стояния классической лингвистики в области семантических исследований как «кризисного» описана в работе [4]. ПРИЧИНЫ НЕУДОВЛЕТВОРИТЕЛЬНОГО СОСТОЯНИЯ ЕЯ-ТЕХНОЛОГИЙ Речевая деятельность представляется одной из наиболее сложных форм ин- теллектуальной деятельности человека, которая в символьной форме ото- бражает процессы восприятия, переработки и интеграции разноплановой информации. Речевая деятельность [5] в качестве равноправных компонен- Ю.И. Кисленко ISSN 1681–6048 System Research & Information Technologies, 2004, № 2 38 тов содержит процессы как порождения (синтеза), так и восприятия (анали- за) речевой информации. Актуализация речевой деятельности возможна лишь при условии эффективного взаимодействия важнейших информаци- онных составляющих, представляющих как знания об устройстве языка и законах его функционирования (ЛП в нашем представлении), так и знания о внешнем мире (модель мира в БЗ). Если мы хотим моделировать речевую деятельность человека хотя бы в каком-то приближении, предварительно необходимо построить модели каждой из этих составляющих и обеспечить их диалектическое взаимодействие. Последнее означает, что ЛП обеспечи- вает обработку входной ЕЯ-информации, используя накопленные знания в БЗ, а БЗ, в свою очередь, ответственна за накопление знаний и способствует работе ЛП. Лишь при наличии обеих составляющих можно корректно ста- вить вопрос о моделировании речевой деятельности человека в достаточно полном объеме [6]. Пока же все существующие разработки в области ЕЯ- технологий учитывают и моделируют лишь первую составляющую — наши знания о языке (и то не лучшим образом), «забывая» совершенно о другой неотъемлемой составляющей — знаниях о внешнем мире, которые обеспе- чивают надлежащую интерпретацию текстовой информации. Неудовлетворительное состояние дел в области ЕЯ-технологий, конеч- но же, в первую очередь определяется сложностью объекта исследова- ния — речевого поведения человека, обеспечивающего как порождение тек- ста, так и его понимание (это процессы одного порядка сложности). Причины такого состояния современных ЕЯ-технологий кроются в сле- дующем: • отсутствие эффективной методологии исследования речевой дея- тельности человека; • неадекватность наших знаний о языке реалиям речевой организации; • отсутствие четкой системы в организации наших знаний об уст- ройстве языка и особенностях его функционирования; • неполнота информационного обеспечения современных ЕЯ-технологий, не учитывающего диалектическое взаимодействие важнейших составляю- щих информационного обеспечения речевой деятельности — знаний о язы- ке и внешнем мире. ПУТИ ВЫХОДА ИЗ КРИЗИСНОЙ СИТУАЦИИ Четкое осознание причин неудовлетворительного состояния дел в области моделирования речевого поведения, учет критических замечаний и пожела- ний признанных авторитетов открывают новые направления в исследовании речевой деятельности и позволяют внести конструктивные предложения по созданию эффективных ЕЯ-технологий. Существующие знания о языке базируются на результатах классиче- ской лингвистики, которая отличается значительной самодостаточностью и отстаивает принцип: «язык — это высшая форма интеллектуальной дея- тельности человека, и через язык мы познаем самого человека» [3]. Данный подход практически исповедует идеологию «черного ящика» в классиче- Перспективы развития естественно-языковых технологий Системні дослідження та інформаційні технології, 2004, № 2 39 ском его варианте, когда наблюдателю представляется лишь его выход — текстовая информация, а что происходит внутри ящика (в человеческом мозгу) и что подается на вход такой системы совершенно не интересует ис- следователей. Такая концепция утверждает: наблюдая речевой материал (как конечный продукт речевой деятельности), мы сможем понять все тон- кости владения языком и его организацию. Эта точка зрения вызывает опре- деленные возражения из-за своей ограниченности и замкнутости. Кроме то- го, данный подход исключает из рассмотрения анализ процессов порождения текста. В настоящее время все большую популярность и конструктивность приобретает информационный подход к анализу речевой деятельности, учи- тывающий «человеческий фактор» и утверждающий, что только тщательно изучив все системы восприятия и обработки произвольной информации как в отдельности, так и во взаимосвязи, и проанализировав, по возможности, собственно этапы синтеза и анализа речевого сообщения, мы сможем опре- делить весьма сложное интеграционное явление, коим является речевая дея- тельность. Этот подход несколько смягчает идеологию «черного ящика», и чем более «прозрачным» становится он для нас с информационной точки зрения (т.е. чем больше мы будем знать о функциях зрительного, акустиче- ского и других анализаторов), тем полнее будут наши знания об общей ор- ганизации и функционировании языка. По сути, данный подход учитывает информационные процессы в нейронных структурах коры головного мозга, указывая как на конкретные особенности систем восприятия и обработки информации, так и на интеграционный характер их взаимодействия. Вероятно, выход из тупиковой ситуации кроется в симбиозе классиче- ской лингвистики и информационного подхода. Это означает, что все нако- пленные знания об устройстве языка необходимо пропустить через инфор- мационную призму речевой деятельности. При этом, хаотическое нагромождение множества фактов превращается в стройную систему с уди- вительным порядком. Многие спорные вопросы приобретают ясность и со- вершенно иное толкование. Конечно, ради такого сотрудничества необхо- димо отказаться от снобизма классической лингвистики и с пониманием отнестись к усилиям специалистов различных пограничных областей, пы- тающихся со своей стороны понять такое архисложное явление, как речевая деятельность. Этот синтетический подход только начинает формироваться, однако конструктивные предпосылки его появления уже налицо и они встречаются в различных областях исследований, что вызвано критикой от- дельных направлений нашей науки о языке и поиском путей выхода из соз- давшегося положения. В таком аспекте и следует рассматривать предложения ведущих спе- циалистов классической лингвистики и информационного подхода относи- тельно оценки текущего положения науки о языке и перспектив выхода из кризисного состояния. На этом пути следует указать важнейшие вехи оцен- ки речевой деятельности специалистами различных направлений. 1. Л.И. Астахова [7] практически первой забила тревогу относительно текущего положения дел в области синтаксиса и представила в концентри- рованном виде критическую оценку современного состояния синтаксиса простого предложения, указав при этом, что общественное мнение уже дав- Ю.И. Кисленко ISSN 1681–6048 System Research & Information Technologies, 2004, № 2 40 но подготовлено к отрицанию установившегося деления предложений на простые и сложные. Вывод таков: необходимо четко определить сам объ- ект синтаксических исследований и заменить основания существующего подхода. 2. Н.М Перцов [3] убедительно критикует современные семантические концепции и дает реалистическую оценку устремлений и достижений клас- сической лингвистики, подчеркивая ее изоляционизм и весьма скромный вклад в область прикладных разработок. Путь преодоления кризисного со- стояния — в интеграционном подходе к учету достижений специалистов, работающих в различных пограничных областях исследования речевой дея- тельности. 3. В.А. Звегинцев [8] дает глубокий анализ существующих подходов к рассмотрению структурного уровня предложения, вскрывает их недостатки и показывает, что решение важнейших вопросов лингвистики и выход из кризисного состояния кроется в учете триединства: мышление, язык, дейст- вительность. Его «пресуппозиции» выходят за уровень синтаксиса предло- жения и намечают (весьма призрачную) взаимосвязь между базой знаний и лингвистическим процессором как системой обработки языкового материа- ла. 4. Е.С. Кубрякова [9] последовательно отстаивает необходимость учета «человеческого фактора» в языке, т.е. выходит за пределы традиционного объекта исследования классической лингвистики, пытается каким-то обра- зом сломать стереотип «черного ящика», который сложился в классической лингвистике, и перспективы видит в тщательном исследовании речевой дея- тельности человека, содержащей в качестве равноправных составляющих синтез и анализ языкового материала. 5. Ю.Д. Апресян [10], хотя и является идеологом направления семан- тических поисков, которое критикует Н.М. Перцов, приоткрывает тем не менее путь к учету сенсорной информации и ее интеграции с символьной, вводя в орбиту лингвистических интересов «изобразительные средства се- мантики». Это послужило продуктивным началом построения автором мо- дели «Действительность — Текст» для узкой предметной области про- странственных отношений и открыло интересные перспективы в области семантических исследований. Заслуживают серьезного внимания и предложения сторонников ин- формационного подхода к дальнейшим перспективам формирования ЕЯ- технологий. 6. Г.П. Мельников [6] перенес в практическую плоскость исследование соотношения мышление — язык — действительность, дав весьма продук- тивную модель речевой деятельности. Весьма своевременной и продуктив- ной в этой модели представляется концепция взаимодействия лингвистиче- ского процессора, учитывающего языковую компетенцию с базой знаний, где хранится модель внешнего окружения. 7. А.В. Анисимов [11] перспективы прикладной лингвистики видит в структурном объединении всех важнейших разделов лингвистики (морфо- лексики, синтаксиса и семантики) с целью повышения эффективности син- теза и анализа текстовой информации. Продуктивной считает концепцию Перспективы развития естественно-языковых технологий Системні дослідження та інформаційні технології, 2004, № 2 41 базы знаний в виде онтологическо-семантической сети. Весьма значитель- ный интерес представляют также исследования в области рекурсивной орга- низации текстовой информации [12]. 8. В.П. Гладун [13] весьма последовательно и продуктивно работает в области моделирования нейронной организации баз знаний для представле- ния символьной информации. Очень плодотворной может оказаться кон- цепция растущих пирамидальных структур для моделирования процесса накопления знаний. 9. Г.М. Зенкин и А.П. Петров [14] опубликовали цикл работ, посвя- щенных вопросам интеграции образной и символьной информации. В этом цикле профессионально проанализирован информационный аспект работы зрительного анализатора в задачах описания внешнего мира. Можно также выделить раздел, посвященный «гештальт-синтезу», где интегрируются особенности обработки зрительной и символьной информации. К этому же пограничному направлению следует отнести работу В.Д. Глезера [15], где впервые предложена информационная модель процедуры синтеза описания отдельной ситуации внешнего мира. Практически все указанные моменты критического и перспективных планов созвучны позиции автора относительно организации речевой дея- тельности и тем или иным образом учтены в разрабатываемой им формаль- ной модели. Отдавая приоритет информационному подходу, конечно же, нельзя сбрасывать со счетов весь накопленный (как положительный, так и отрицательный) опыт классической лингвистики. Важнейшей платформой предложенного подхода являются следующие аксиомы: • системная организация языка определяется системной организаци- ей памяти человека; • язык в общем случае является средством отображения как внешне- го мира, так и информационного состояния нашего мозга, что налагает оп- ределенные ограничения на структурный уровень его организации; • структурная организация текстовой информации во многом опре- деляется информационными возможностями систем восприятия внешнего мира (в частности, особенностями организации сенсорного уровня воспри- ятия информации); • языковой материал в общем случае отличается рекурсивной схемой организации, где элементом рекурсии выступает четко определенная структура. Это, по сути, отдельные элементы аксиоматики речевой деятельности, представленные еще на Первом семинаре, весьма важные для формирования ЕЯ-технологий. Они стали плодотворной платформой для создания фор- мальной модели языка [16]. Данный подход снимает ряд существенных противоречий современных грамматик, с единых позиций предлагает конструктивные решения в облас- ти создания лингвистического процессора и БЗ, может служить продуктив- ной основой формирования современных технологий, ориентированных на обработку ЕЯ-информации. Ю.И. Кисленко ISSN 1681–6048 System Research & Information Technologies, 2004, № 2 42 ФОРМАЛЬНАЯ МОДЕЛЬ КАК МЕТОДОЛОГИЧЕСКАЯ ОСНОВА ЕЯ- ТЕХНОЛОГИЙ На кафедре технической кибернетики факультета информатики НТУУ «КПИ» автором разработана формальная модель, которая с системных по- зиций анализирует такое сложное явление, как язык, четко определяет кон- структивные элементы и их взаимосвязь и обладает достаточной объясни- тельной силой. Эта модель отличается от других следующими ключевыми позициями. 1. Предлагаемая модель базируется на общих принципах восприятия и обработки разноплановой информации человеком (зрительной, акустиче- ской, тактильной, символьной) с последующей ее интеграцией. 2. Данный подход определяет модель филогенеза языка, объективной основой которой являются важнейшие этапы онтогенеза речи ребенка, тогда как все существующие модели носят сугубо субъективный характер. 3. Ключевым понятием модели представляется некий синтаксический шаблон — базовая семантико-синтаксическая структура, определенная на формальном уровне и выступающая в качестве основы формирования про- извольного сообщения. Базовая семантико-синтаксическая структура — это двусоставная монопредикатная структура описания произвольной си- туации внешнего мира, все элементы которой не выходят за атрибутив- ный уровень их описания. Такое описание отличается от известных (а их к настоящему времени насчитывается около трехсот) двумя позициями: во- первых, это максимально полная схема представления произвольной ситуа- ции, во-вторых, элементами подобной структуры не могут быть словосо- четания. 4. Модель рассматривает, с одной стороны, возможные схемы транс- формирования базовой структуры, которые определяют монопредикатный уровень формирования сообщения, а с другой — определяет потенциально возможные схемы их взаимосвязи (полипредикатный срез формирования сообщения). Дихотомия монопредикатный/полипредикатный уровни зна- чительно полнее и четче существующего разграничения простое/сложное предложение). 5. Предлагаемый подход рассматривает связность текстовой информа- ции как следствие отображения целостности внешнего мира. 6. Модель снимает проблему словосочетания, которое рассматривает- ся как один из возможных вариантов структур монопредикатного уровня. Это одна из сложнейших проблем современного языкознания, которая была сформулирована еще в 1660 г., но не разрешена и по сей день. 7. Предлагаемая модель определяет произвольный текстовый материал как рекурсивно-организованную систему, где элементом рекурсии высту- пает базовая структура, что позволяет выйти на формальный уровень представления структуры сообщения, где центральным становится единый синтаксический шаблон [17] . 8. Модель определяет аксиоматику формирования структурного уров- ня организации текста, основанную на признании факта, что язык — уни- версальная форма представления произвольной информации относительно Перспективы развития естественно-языковых технологий Системні дослідження та інформаційні технології, 2004, № 2 43 окружающего мира. Возможность построения аксиоматики переводит язы- кознание из разряда нечетких гуманитарных дисциплин в разряд точных наук. 9. Предлагаемый подход отличается от существующих четко выра- женной системной организацией представления структурного уровня сооб- щения, базирующегося на иерархии: базовая структура, монопредикатный уровень, полипредикатный уровень. Каждый из этих пунктов — практически, важнейшая проблема, сформулированная, но нерешенная классической лингвистикой на современ- ном этапе, и одновременно — конструктивные элементы информационных технологий, ибо формальная модель собственно и создавалась, в первую очередь, для информационных технологий. По широте охвата тематики предложенная модель выходит за рамки представления структурного уровня организации текстовой информации, рассматривая многие важнейшие во- просы актуализации речевой деятельности человека. Таким образом, пред- ложенная модель представляется продуктивной методологической основой исследования речевой деятельности человека и, следовательно, основой формирования современных ЕЯ-технологий. ИСПОЛЬЗОВАНИЕ ФОРМАЛЬНОЙ МОДЕЛИ В ЕЯ-ТЕХНОЛОГИЯХ Следствиями предложенного подхода к структурной организации языкового материала явились весьма конструктивные предложения. 1. Модель, практически, определяет возможность формирования структуры ЛП, учитывающего формализмы предложенного подхода (базо- вая структура, монопредикатный, полипредикатный уровни) и ориентиро- ванного, главным образом, на обработку базовой структуры. 2. Указанный подход определяет также архитектуру БЗ, где единицей восприятия, накопления и обработки информации выступает базовая се- мантико-синтаксическая структура. В БЗ закладывается концепция струк- турного единства морфологии, синтаксиса и семантики и возможности взаимодействия с ЛП. 3. Одним из важнейших прикладных аспектов является возможность приведения произвольного текста к канонической форме, представленной совокупностью базовых структур или их трансформаций. Данное преобра- зование получается в результате декомпозиции входного текста по базовым семантико-синтаксическим структурам с учетом диалектического взаимо- действия ЛП и БЗ. Важность подобного преобразования определяется тем, что для флективных языков исключается жесткий порядок актуализации синтаксического шаблона. Это автоматически приводит к «проклятию мно- гомерности», как только мы пытаемся перечислить возможные варианты заполнения такого синтаксического шаблона. Для структуры шаблона из восьми составляющих возможные варианты актуализации сообщения дос- тигают астрономических цифр в сорок миллиардов вариантов [18]. Вот по- чему при разработке ЕЯ-технологий важно уметь приводить произвольную структуру к ее единственному варианту. Такая задача входит в компетен- цию ЛП. В общем случае ЛП должен решать задачу декомпозиции сообще- Ю.И. Кисленко ISSN 1681–6048 System Research & Information Technologies, 2004, № 2 44 ния по базовым структурам с последующей процедурой их канонизации. Ка- ноническая форма однозначно определяет порядок учета составляющих синтаксического шаблона. 4. Важным следствием предложенного подхода явилась возможность использования изобразительных средств семантики для моделирования соотношения «Действительность — Текст» в том или ином направлении (здесь моделируется связь между образной и символьной БЗ). ПЕРСПЕКТИВЫ РАЗВИТИЯ ЕЯ-ТЕХНОЛОГИЙ Использование предложенной модели в качестве методологической основы анализа речевой деятельности позволяет совершенно по-иному с конструк- тивных позиций подойти к формированию информационного ядра (ЛП — БЗ) ЕЯ-технологий, что дает возможность по-новому планировать развитие ЕЯ-технологий во многих приложениях. 1. Разработка лингвистического процессора с позиций предложен- ной модели базируется на учете формализмов определения базовой струк- туры, монопредикатного и полипредикатного уровней. Использование дан- ной модели позволяет процедуру анализа текстовой информации перевести из области случайного поиска нечетко определенных структур в разряд про- гнозируемого поиска конечного перечня формально определенных струк- тур. 2. Формирование базы знаний. Предложенная модель позволяет со- вершенно с других позиций подойти к формированию архитектуры БЗ, где единицей восприятия, накопления и обработки информации выступает ба- зовая семантико-синтаксическая структура, а собственно знание представ- ляется последовательностью однотипных базовых структур. Разработка ЛП и БЗ должна формироваться с учетом их диалектического взаимодействия. Связка ЛП–БЗ, по существу, основа формирования ЕЯ-интерфейса и систе- мы накопления знаний. 3. Каноническое представление текста — один из важнейших эта- пов практически любых информационных технологий обработки ЕЯ-информации. Результат преобразования — декомпозиция входного тек- ста по базовым структурам с указанием их связи. Причем каждая из таких структур «разворачивается» в строго определенном порядке учета как атри- бутивных членов, так и актантов совместно с сирконстантами. Такая проце- дура «канонизации» произвольного сообщения позволяет последнее привес- ти к единственно возможному варианту из практически неисчислимого количества схем актуализации описания произвольной ситуации. По сути, данная процедура представляется обязательным этапом предварительной обработки текстов любых ЕЯ-технологий. Можно предположить, что про- цедура канонизации входного сообщения автоматически актуализируется в нейронных структурах нашего мозга, иначе как объяснить столь эффектив- ные процедуры обработки текстовой информации человеком. 4. Поиск информации в INTERNET. Технология поиска — это по- следовательность этапов: стандартная процедура поиска по ключевым сло- вам или их комбинации; после нахождения релевантных документов выпол- Перспективы развития естественно-языковых технологий Системні дослідження та інформаційні технології, 2004, № 2 45 няется процедура канонизации входного текста и найденных документов и, наконец, процедура информационного поиска канонизированного запроса на массиве канонизированных текстов. Принципиальное отличие такой схе- мы от существующих процедур в том, что поиск по ключевым словам заме- няется поиском среди канонизированных структур. 5. Информационно-поисковые системы. Технология поиска анало- гична предыдущему случаю, где массивы документов и запросы предвари- тельно подвергаются процедуре канонизации. 6. Автоматический перевод состоит из последовательных этапов: ка- нонизация входного текста на Я1, перевод отдельных элементов канониче- ского представления с Я1 на Я2, переход к каноническому представлению текста на Я2. В отличие от поисковых процедур, где технология скрыта от пользователя, в задачах перевода после выполнения преобразований над входным текстом на Я1, необходимо уже на языке Я2 снова вернуться от канонизированного представления к актуализации сообщения за схемой, представленной входным текстом. 7. Системы обработки речевой информации. Проблемой подобных технологий является адекватность анализа сложных конструкций. Канони- ческая форма представления текста используется для более качественного анализа входного текста. Кроме того, в системах обработки речевой инфор- мации (как для синтезаторов, так и анализаторов) явно ощущается отсутст- вие второй составляющей речевой деятельности — БЗ. 8. Интеграция систем обработки речевой и текстовой информации (системы распознавания речи). Предлагается использовать связку ЛП — БЗ в системах обработки речевой информации (БЗ в таких системах практи- чески не используются). 9. Интеграция систем обработки зрительной и символьной инфор- мации. Продуктивной представляется концепция использования изобрази- тельных средств в качестве создания семантического описания отдельных предметных областей. В рамках предложенной модели проверена возмож- ность реализации соотношения «Действительность — Текст» в направлени- ях синтеза или анализа сообщения. ЛИТЕРАТУРА 1. Тр. Первого междунар. семинара «Компьютеризация естественных языков». — Болгария, Варна, 3–7 сентября 1999 г. — Информационное обслужива- ние — АД. — 1999. — 147 с. 2. Леонтьева Н.Н. О предмете «прикладная лингвистика» (отвечая Н.В. Перцову) // Московский лингвистический альманах. — 1996. — Вып. 1. С. 234–244. 3. Перцов Н.В. О некоторых проблемах современной семантики и компьютерной лингвистики // Московский лингвистический альманах. — 1996. — Вып. 1. — С. 9–66. 4. Кибрик А.Е. О «невыполненных обещаниях» лингвистики 50 – 60 годов // Мос- ковский лингвистический альманах. — 1996. — Вып. 1. — С. 230–233. 5. Щерба Л.В. Языковая система и речевая деятельность. — Л.: Наука, 1974. — С. 230–233. 6. Мельников Г.П. Системология и языковые проблемы кибернетики. — М.: Энергия, 1979. — 368 с. Ю.И. Кисленко ISSN 1681–6048 System Research & Information Technologies, 2004, № 2 46 7. Астахова Л.И. Предложение и его членение (прагматика, семантика, синтак- сис). — ДГУ, 1992. — 160 c. 8. Звегинцев В.А. Предложение и его отношение к языку и речи. — М.: МГУ, 1976. — 308 с. 9. Кубрякова Е.С., Шахнарович А.М., Сахарный Л.В. Человеческий фактор в язы- ке: язык и порождение речи. — М.: Наука, 1991. — 239 с. 10. Апресян Ю.Д. Лексическая семантика. — М.: Наука, 1974. — 367 с. 11. Анисимов А.В., Марченко А.А. Система обработки текстов на естественном языке // Искусственный интеллект. — 2002. — № 4. — С. 157–163. 12. Анисимов А.В. Информатика, Творчество, Рекурсия. — Киев: Наук. думка, 1988. — 224 c. 13. Гладун В.П. Процессы формирования новых знаний. — София: СД «Педагог- 6», 1994. — 189 с. 14. Зенкин Г.М., Петров А.П. Функциональная организация зрительного процесса и принцип гештальта // Интеллектуальные процессы и их моделирова- ние. — М.: Наука, 1987. — 397 с. 15. Глезер В. Д. «Зрение и мышление». — Санкт-Петербург : Наука, 1993. — 284 с. 16. Кисленко Ю.І. Архітектура мови (лінгвістичне забезпечення інтелектуальних інтегрованих систем) : Учбовий посібник. — Київ: Віпол, 1998. — 343 с. 17. Кисленко Ю.И. Рекурсивный синтаксический анализатор // Наук. вісник кафед- ри ЮНЕСКО Київського держ. лінгв. ун-ту. — 2000. — Вип. 1. — Київ. — С. 157–164. 18. Кисленко Ю.І. Кількісні оцінки актуалізації базової структури // Искусствен- ный интеллект. — 1999. — № 1. — С. 55–60. Поступила 1.09.2003
id journaliasakpiua-article-171812
institution System research and information technologies
keywords_txt_mv keywords
language Russian
last_indexed 2025-07-17T10:25:30Z
publishDate 2019
publisher The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
record_format ojs
resource_txt_mv journaliasakpiua/c0/6cd33122334bd14ba6fd07eea230bcc0.pdf
spelling journaliasakpiua-article-1718122019-07-02T15:42:32Z Perspectives of natural language technologies development Перспективы развития естественно-языковых технологий Перспективи розвитку природно-мовних технологій Kislenko, Yu. I. A class of information technologies, oriented at natural language processing is investigated. Such systems, generally, model the human speech activity, and their information core consists of a lingual processor and knowledge data, working for each other. Perspectives for this class of information technologies are analyzed from the viewpoint of the formal model of language offered by the author. Рассматривается класс информационных технологий обработки естественно-языковой информации. В общем случае подобные системы моделируют речевое поведение человека, и их информационное ядро должно представляться совокупностью лингвистического процессора и базы знаний, работающих друг на друга. С позиций предложенной автором формальной модели языка анализируются перспективы информационных технологий указанного класса. Розглядається клас інформаційних технологій опрацювання природно-мовної інформації. У загальному випадку подібні системи моделюють мовну поведінку людини, і їх інформаційне ядро повинне спиратися на лінгвістичний процесор та базу знань, що працюватимуть одне на одне. З позицій запропонованої автором формальної моделі мови аналізуються перспективи інформаційних технологій вказаного класу. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2019-07-02 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/171812 System research and information technologies; No. 2 (2004); 35-46 Системные исследования и информационные технологии; № 2 (2004); 35-46 Системні дослідження та інформаційні технології; № 2 (2004); 35-46 2308-8893 1681-6048 ru https://journal.iasa.kpi.ua/article/view/171812/171522 Copyright (c) 2021 System research and information technologies
spellingShingle Kislenko, Yu. I.
Перспективи розвитку природно-мовних технологій
title Перспективи розвитку природно-мовних технологій
title_alt Perspectives of natural language technologies development
Перспективы развития естественно-языковых технологий
title_full Перспективи розвитку природно-мовних технологій
title_fullStr Перспективи розвитку природно-мовних технологій
title_full_unstemmed Перспективи розвитку природно-мовних технологій
title_short Перспективи розвитку природно-мовних технологій
title_sort перспективи розвитку природно-мовних технологій
url https://journal.iasa.kpi.ua/article/view/171812
work_keys_str_mv AT kislenkoyui perspectivesofnaturallanguagetechnologiesdevelopment
AT kislenkoyui perspektivyrazvitiâestestvennoâzykovyhtehnologij
AT kislenkoyui perspektivirozvitkuprirodnomovnihtehnologíj