Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка
Рассматривается класс объектно-ориентированных лингвистических процессоров, выделяющих структуры знаний из текстов естественного языка (ЕЯ). Важной компонентой таких систем является блок лексико-морфологического анализа. В процессе разработки приложений этот блок постоянно совершенствовался и прио...
Gespeichert in:
| Veröffentlicht in: | Штучний інтелект |
|---|---|
| Datum: | 2011 |
| Hauptverfasser: | , , , |
| Format: | Artikel |
| Sprache: | Russian |
| Veröffentlicht: |
Інститут проблем штучного інтелекту МОН України та НАН України
2011
|
| Schlagworte: | |
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/60258 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка / И.П. Кузнецов, Н.В. Сомин, Е.Б. Козеренко, А.Г. Мацкевич // Штучний інтелект. — 2011. — № 4. — С. 105-116. — Бібліогр.: 9 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-60258 |
|---|---|
| record_format |
dspace |
| spelling |
Кузнецов, И.П. Сомин, Н.В. Козеренко, Е.Б. Мацкевич, А.Г. 2014-04-13T07:46:39Z 2014-04-13T07:46:39Z 2011 Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка / И.П. Кузнецов, Н.В. Сомин, Е.Б. Козеренко, А.Г. Мацкевич // Штучний інтелект. — 2011. — № 4. — С. 105-116. — Бібліогр.: 9 назв. — рос. 1561-5359 https://nasplib.isofts.kiev.ua/handle/123456789/60258 681.3.01 Рассматривается класс объектно-ориентированных лингвистических процессоров, выделяющих структуры знаний из текстов естественного языка (ЕЯ). Важной компонентой таких систем является блок лексико-морфологического анализа. В процессе разработки приложений этот блок постоянно совершенствовался и приобрел много новых функций, выходящих за рамки возможностей существующих блоков подобного типа. Данный блок генерирует лексические, морфологические, семантические признаки слов, выявляет простейшие формы естественного языка, имеет специальные средства настройки на предметную область и на особенности текстов ЕЯ. В работе рассматриваются эти функции. Розглядається клас об’єктно-орієнтованих лінгвістичних процесорів, які виділяють структури знань з текстів природної мови (ПМ). Важливою компонентою таких систем є блок лексико-морфологічного аналізу. У процесі розробки застосувань цей блок постійно удосконалювався і набув багато нових функцій, які виходять за межі можливостей існуючих блоків подібного типу. Даний блок генерує лексичні, морфологічні, семантичні ознаки слів, визначає найпростіші форми природної мови, має спеціальні засоби настройки на предметну область і на особливості текстів ПМ. У роботі розглядаються ці функції. The paper analyses the experience of using the linguistic processor, which retrieves knowledge (information objects or essences and their links) from natural language texts. Significant part of the processor is the procedure of lexical-grammatical analysis, which has been modified in process of tuning to various subject fields. Now the procedure has many peculiarities, which are considered in the paper. The procedure generates lexical, morphological and semantic word attributes. It analyses some forms of natural language. It has special means of tuning to subject fields and to text features. These functions play a significant role in enhancing the quality of the linguistic processor. ru Інститут проблем штучного інтелекту МОН України та НАН України Штучний інтелект Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка Особливості лексико-морфологічного аналізу в задачах добування структур знань з текстів природної мови Features of Lexical-Grammatical Analysis for Knowledge Retrieval from Texts in Natural Language Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка |
| spellingShingle |
Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка Кузнецов, И.П. Сомин, Н.В. Козеренко, Е.Б. Мацкевич, А.Г. Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск |
| title_short |
Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка |
| title_full |
Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка |
| title_fullStr |
Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка |
| title_full_unstemmed |
Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка |
| title_sort |
особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка |
| author |
Кузнецов, И.П. Сомин, Н.В. Козеренко, Е.Б. Мацкевич, А.Г. |
| author_facet |
Кузнецов, И.П. Сомин, Н.В. Козеренко, Е.Б. Мацкевич, А.Г. |
| topic |
Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск |
| topic_facet |
Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск |
| publishDate |
2011 |
| language |
Russian |
| container_title |
Штучний інтелект |
| publisher |
Інститут проблем штучного інтелекту МОН України та НАН України |
| format |
Article |
| title_alt |
Особливості лексико-морфологічного аналізу в задачах добування структур знань з текстів природної мови Features of Lexical-Grammatical Analysis for Knowledge Retrieval from Texts in Natural Language |
| description |
Рассматривается класс объектно-ориентированных лингвистических процессоров, выделяющих структуры знаний из текстов естественного языка (ЕЯ). Важной компонентой таких систем является блок лексико-морфологического анализа. В процессе разработки приложений этот блок постоянно совершенствовался
и приобрел много новых функций, выходящих за рамки возможностей существующих блоков подобного типа. Данный блок генерирует лексические, морфологические, семантические признаки слов, выявляет простейшие формы естественного языка, имеет специальные средства настройки на предметную область и на особенности текстов ЕЯ. В работе рассматриваются эти функции.
Розглядається клас об’єктно-орієнтованих лінгвістичних процесорів, які виділяють структури знань з текстів природної мови (ПМ). Важливою компонентою таких систем є блок лексико-морфологічного аналізу. У процесі розробки застосувань цей блок постійно удосконалювався і набув багато нових функцій, які виходять за межі можливостей існуючих блоків подібного типу. Даний блок генерує лексичні, морфологічні, семантичні ознаки слів, визначає найпростіші форми природної мови, має спеціальні засоби настройки на предметну область і на особливості текстів ПМ. У роботі розглядаються ці функції.
The paper analyses the experience of using the linguistic processor, which retrieves knowledge (information objects or essences and their links) from natural language texts. Significant part of the processor is the procedure of lexical-grammatical analysis, which has been modified in process of tuning to various subject fields. Now the procedure has many peculiarities, which are considered in the paper. The procedure generates
lexical, morphological and semantic word attributes. It analyses some forms of natural language. It has special means of tuning to subject fields and to text features. These functions play a significant role in enhancing the quality of the linguistic processor.
|
| issn |
1561-5359 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/60258 |
| citation_txt |
Особенности лексико-морфологического анализа в задачах извлечения структур знаний из текстов естественного языка / И.П. Кузнецов, Н.В. Сомин, Е.Б. Козеренко, А.Г. Мацкевич // Штучний інтелект. — 2011. — № 4. — С. 105-116. — Бібліогр.: 9 назв. — рос. |
| work_keys_str_mv |
AT kuznecovip osobennostileksikomorfologičeskogoanalizavzadačahizvlečeniâstrukturznaniiiztekstovestestvennogoâzyka AT sominnv osobennostileksikomorfologičeskogoanalizavzadačahizvlečeniâstrukturznaniiiztekstovestestvennogoâzyka AT kozerenkoeb osobennostileksikomorfologičeskogoanalizavzadačahizvlečeniâstrukturznaniiiztekstovestestvennogoâzyka AT mackevičag osobennostileksikomorfologičeskogoanalizavzadačahizvlečeniâstrukturznaniiiztekstovestestvennogoâzyka AT kuznecovip osoblivostíleksikomorfologíčnogoanalízuvzadačahdobuvannâstrukturznanʹztekstívprirodnoímovi AT sominnv osoblivostíleksikomorfologíčnogoanalízuvzadačahdobuvannâstrukturznanʹztekstívprirodnoímovi AT kozerenkoeb osoblivostíleksikomorfologíčnogoanalízuvzadačahdobuvannâstrukturznanʹztekstívprirodnoímovi AT mackevičag osoblivostíleksikomorfologíčnogoanalízuvzadačahdobuvannâstrukturznanʹztekstívprirodnoímovi AT kuznecovip featuresoflexicalgrammaticalanalysisforknowledgeretrievalfromtextsinnaturallanguage AT sominnv featuresoflexicalgrammaticalanalysisforknowledgeretrievalfromtextsinnaturallanguage AT kozerenkoeb featuresoflexicalgrammaticalanalysisforknowledgeretrievalfromtextsinnaturallanguage AT mackevičag featuresoflexicalgrammaticalanalysisforknowledgeretrievalfromtextsinnaturallanguage |
| first_indexed |
2025-11-26T15:03:33Z |
| last_indexed |
2025-11-26T15:03:33Z |
| _version_ |
1850627409775165440 |
| fulltext |
«Штучний інтелект» 4’2011 105
3К
УДК 681.3.01
И.П. Кузнецов, Н.В. Сомин, Е.Б. Козеренко, А.Г. Мацкевич
Институт проблем информатики РАН, г. Москва, Россия
igor-kuz@mtu-net.ru, somin@post.ru, kozerenko@mail.ru
Особенности лексико-морфологического
анализа в задачах извлечения структур
знаний из текстов естественного языка
Рассматривается класс объектно-ориентированных лингвистических процессоров, выделяющих структуры
знаний из текстов естественного языка (ЕЯ). Важной компонентой таких систем является блок лексико-
морфологического анализа. В процессе разработки приложений этот блок постоянно совершенствовался
и приобрел много новых функций, выходящих за рамки возможностей существующих блоков подобного
типа. Данный блок генерирует лексические, морфологические, семантические признаки слов, выявляет
простейшие формы естественного языка, имеет специальные средства настройки на предметную область и
на особенности текстов ЕЯ. В работе рассматриваются эти функции.
Введение
На протяжении многих лет в ИПИ РАН активно развивается область, связанная
с построением систем, обеспечивающих извлечения полезной информации из текстов
естественного языка (ЕЯ) с формированием структур знаний и их использованием
для решения прикладных задач – поисковых, логико-аналитических. Для таких систем
требовались специальные языки представления знаний и инструментальные средства
их обработки. Учитывался тот факт, что язык – это структурный объект на всех его
уровнях: от поверхностного до семантического. Для обработки конструкций языка
были созданы язык расширенных семантических сетей (РСС), обеспечивающий пред-
ставление текстов ЕЯ на уровне структур знаний с любой требуемой точностью, и
язык ДЕКЛ – для преобразования структур в виде РСС [1-3].
Важной составляющей логико-аналитических систем, имеющих дело с инфор-
мацией на ЕЯ, является лингвистический процессор, отображающий тексты ЕЯ на
структуры знаний [4-6]. При разработке таких процессоров учитывался тот факт, что
определенные категории пользователей интересуются конкретной информацией, кото-
рая встречается в текстах ЕЯ. Нужно извлекать из текстов только эту информацию.
Данное направление возникло в связи с прикладными разработками для ГУВД
г. Москвы. Их проблемы заключались в наличии потоков документов на ЕЯ (сводок
происшествий, справок по уголовным делам, обвинительных заключений и др.), в
которых было много полезной информации. Это фигуранты, их адреса, телефоны,
оружие, автотранспорт и др. Будем называть их информационными объектами
(другое название – сущности). Следователей и аналитиков интересовали именно
такого сорта объекты и связи между ними. Использование типовых БД требовало
громадной работы для их заполнения.
В связи с этим в ИПИ РАН была инициирована работа по созданию лингви-
стических процессоров (ЛП), обеспечивающих автоматическое выделение их текстов
ЕЯ информационных объектов и связей с формированием структур знаний. Такие ЛП
Кузнецов И.П., Сомин Н.В., Козеренко Е.Б., Мацкевич А.Г.
«Искусственный интеллект» 4’2011 106
3К
были названы объектно-ориентированными. Были созданы системы «Криминал»,
«Аналитик» и др., обеспечивающие автоматическое извлечение структур знаний из
текстов ЕЯ и их использование для решения логико-аналитических задач [3], [6], [7].
Важной компонентой ЛП является блок лексико-морфологического анализа (ЛМА),
который анализирует текст и строит семантическую сеть (РСС), названную прост-
ранственной структурой текста (ПС-текста) [6]. Последняя обрабатывается блоком
синтактико-семантического анализа (ССА), который (на языке ДЕКЛ) анализирует
ПС-текста и формирует на РСС структуру, представляющую объекты и связи между
ними. Такие структуры образуют базу знаний (БЗ).
Отметим, что блок ЛМА написан на языке Си++, при использовании которого
на определенных этапах формализации текстов возникают существенные трудности.
В то же время чем больше функций берет на себя блок ЛМА, тем в большей степени
снимает трудности дальнейшего процесса формализации, который осуществляется
блоком ССА [3], [5], [6].
1 Компоненты объектно-ориентированных
лингвистических процессоров
Опыт многих разработчиков показывает, что при автоматическом анализе потока
документов учесть все формы и особенности ЕЯ и построить сколь либо полную
«модель языка» – неразрешимая задача. Поэтому требуется постоянное совершенство-
вание ЛП. В связи с этим перспективным представляется направление, когда про-
грамма объектно-ориентированного ЛП отделяется от лингвистических знаний (ЛЗ).
Последние определяют всю процедуру анализа (см. ниже). ЛЗ имеют вид деклара-
тивных структур, которые легко менять и настраивать. В нашем случае роль таких
структур выполняют фрагменты РСС [3], [5], [6]. Настройка ЛП осуществляется только
за счет разработки ЛЗ.
Задача ЛП – поддерживать ЛЗ. При использовании подобных ЛП облегчается
настройка на корпуса текстов, особенности предметной области. Корректировать ЛЗ
может человек, обученный формализму РСС и знакомый с элементами математи-
ческой лингвистики. Ему не нужно уметь программировать.
Рассмотрим основные компоненты объектно-ориентированных ЛП.
1.1. Блок лексико-морфологического анализа (ЛМА) выделяет из документа
слова и предложения и выдает в виде семантической сети (ПС-документа), пред-
ставляющей последовательность компонент (слов в нормальной форме, чисел, знаков)
и их основные признаки. Блок ЛМА имеет три основных подсистемы:
– Лексический анализатор, который ответственен за правильное деление входного
текстового потока на абзацы, предложения и слова (формирует лексические признаки
слов);
– Морфологический анализатор, осуществляющий морфологический анализ всех
слов текста (приводит слова в нормальную форму и формирует для них морфоло-
гические признаки).
Блок ЛМА имеет свои лингвистические знания (ЛЗ) – средства параметрической
настройки, позволяющие учитывать разнообразие текстовой типологии, и набор пред-
метных словарей (словарь стран, регионов России, имен, профессий и др.) для при-
дания словам и словосочетаниям дополнительных семантических признаков [4], [5].
1.2. Блок синтактико-семантического анализа (ССА) путем анализа ПС-доку-
мента выделяет объекты и связи. На их основе строит другую семантическую сеть,
представляющую семантическую структуру документа (СС-документа), называемую
Особенности лексико-морфологического анализа в задачах извлечения...
«Штучний інтелект» 4’2011 107
3К
также содержательным портретом [3], [6], [7]. Этот блок включает в себя базу линг-
вистических знаний (ЛЗ), которая содержит правила анализа текста во внутреннем
представлении (РСС). Они определяют работу ЛП.
Блок ССА управляется ЛЗ, за счёт которых обеспечивается:
– извлечение информационных объектов (лиц, организаций, событий, их места);
– выявление связей объектов; например, связей лиц с организациями, адреса-
ми и др.;
– анализ глагольных форм, причастных и деепричастных оборотов с выявлением
фактов участия объектов в тех или иных действиях;
– идентификация объектов с учетом анафорических ссылок и сокращенных
наименований;
– выявление связей действий с их местом или временем (где и когда проис-
ходило данное действие или событие);
– анализ причинно-следственных и временных связей между действиями и
событиями.
Особенности блока ССА описаны во многих статьях [3], [5], [6]. Гораздо меньше
внимания уделялось описанию работы блока ЛМА. В данной статье будет восполнен
этот пробел.
Блок ЛМА [4], [5] основан на традиционной для таких блоков схеме словарей.
Однако, помимо этого, в блоке ЛМА присутствует еще словарь обобщенных основ,
позволяющий обрабатывать и новые слова (п. 4).
Блок ЛМА приводит слова в нормальную форму и присваивает им признаки,
которые делятся на три группы:
– лексические признаки (слово с большой буквы, большими буквами, с точкой
на конце или это отдельная буква и др.)
– морфологические признаки (грамматическая категория слова, число для суще-
ствительных и т.д.);
– семантические признаки (имя, организация, оружие и др., а также ключевые
слова, относящиеся к соответствующему типу объектов).
Предусмотренный лексикографический анализ обеспечивает автоматическое
деление текста на самостоятельные части (например, выделение документов из сводок)
и определение начала и конца предложения, а также начала и конца абзаца.
Выходная информация блока ЛМА (т.е. ПС-текста) сохраняет порядок предло-
жений в тексте, разделяя их фрагментами типа SENT, и порядок слов в предложении.
При этом каждое слово представляется с его признаками (п. 6).
2 Прикладные области и тексты
В настоящее время имеется большой опыт использования объектно-ориенти-
рованных ЛП в прикладных областях, где требуется выделение различных объектов
из корпусов текстов со своими особенностями. В данном разделе мы постараемся
обобщить эти особенности и связанные с ними трудности, которые требовали посто-
янного совершенствования блока ЛМА. Мы имели дело с такими предметными
областями и текстами:
2.1. Документы криминальной милиции. Работа делалась по заказу ГУВД
г. Москвы [3], [7]. Была создана система «Криминал», в БЗ которой были введены:
сводки происшествий (более 500 тыс. происшествий), справки по уголовным делам,
обвинительные заключения, записные книжки фигурантов и др. Система обеспечивает
Кузнецов И.П., Сомин Н.В., Козеренко Е.Б., Мацкевич А.Г.
«Искусственный интеллект» 4’2011 108
3К
выделение фигурантов, их примет, связей, организаций, дат, документов, номеров
счетов, оружия (всего до 40 типов объектов) с указанием характера их участия в
криминальных действиях.
2.2. Резюме (для приема на работу) на русском и английском языках.
Работа имела целью автоматическую обработку архивов произвольно написанных
резюме и их представление в формате сайта одной из компаний, осуществляющей
поиск работы для клиентов [3]. Была создана система, выделяющая из резюме атри-
буты человека, места его работы, учебы, соответствующие периоды времени, знание
языков и т.д. Система отлаживалась на выборках в различных областях: информа-
ционные технологии, банковское дело, финансы, юриспруденция и др. Система рабо-
тала на сайте упомянутой компании, чтобы автоматически переводить резюме поль-
зователей, поступающих через Интернет, в формат сайта.
2.3. Документы о терроризме на русском языке. Работа носила инициативный
характер с целью внедрения в крупный проект. Система дополнительно выделяла
руководящих лиц, правительственные организации, террористов (как свойство фи-
гурантов), террористические организации, орудия преступления, время и место собы-
тий и т.д., а также связи и участие лиц в тех или иных действиях.
2.4. Документы о памятниках культуры. Работа делалась для Министерства
культуры. Система выделяет из текстов тип памятника (скульптура, монумент), кто
является автором, создателем, время, место и многое другое.
Во всех случаях (за счет средств настройки блоков ЛМА и ССА) удавалось
добиться требуемого качества работы ЛП [3], [6], [7].
Отметим высокое разнообразие перечисленных предметных областей, которое
определяется не только различием выделяемых объектов и связей. Еще большие
отличия можно наблюдать в «стиле» текстовых сообщений, связанных с предметными
областями. В понятие «стиль» мы включаем весь комплекс особенностей, присущих
определенной группе текстов. Сюда входят:
– лексика предметной области, включая всю совокупность специфических тер-
минов предметной области;
– коммуникативный тип текста: художественное произведение, техническая или
аналитическая статья, новостное сообщение, приказ, PR-текст (например реклама);
– структурный тип текста: связный текст, список, таблица, математическая
формула;
– инструмент создания текста (имеется в виду текстовый редактор или гене-
ратор текста, с помощью которого получен текст);
– способ грамматического оформления текста, под которым понимается следо-
вание стандартным правилам орфографии языка (проставление необходимых знаков
препинания и разделителей, позволяющих структурировать текст);
– следование принятой в языке орфографии, что выражается в количестве орфо-
графических ошибок или нарочитом введении искаженной лексики.
Отметим резкое увеличение разнообразия текстовой типологии, с которой мы
столкнулись в различных предметных областях. В значительной степени это вызвано
бурным распространением Интернета и тем фактом, что порождение текстов все в
большей мере стали осуществлять люди различной степени подготовки и грамотности.
Как следствие – наличие значительного количества специальных разделителей, от-
сутствие знаков препинания, большое количество сокращений, ошибок и многое
другое. Отсюда следуют дополнительные требования к компонентам блока ЛМА и
средствам их настройки. Рассмотрим их подробнее.
Особенности лексико-морфологического анализа в задачах извлечения...
«Штучний інтелект» 4’2011 109
3К
3 Особенности лексического анализатора
Лексический анализатор имеет дело с целым рядом взаимосвязанных задач,
решение которых совершенно необходимо для успешной работы всего ЛП. Рассмотрим
их особенности.
Прежде всего, решается задача структуризации текста. Дело в том, что текст
в современной информационной среде – сложно структурированный объект. И его
структура должна быть распознана и аккуратно передана блоку ССА. От правильного
распознавания структуры текста в значительной степени зависит корректность всего
анализа по извлечению знаний. Поэтому задача структуризации распадается на
цепочку локальных задач.
3.1. Трудности выделения лексем. Рассмотрим трудности выделения из вход-
ного потока лексем: слов, знаков препинания, разного рода разделителей и др. Совре-
менный деловой текст содержит большое количество лексем, являющихся техни-
ческими, административными и фирменными названиями, телефонами, шифрами,
номерами автомобилей, адресами электронной почты и Интернета, содержащими
цифры, буквы и разделители практически в произвольной комбинации. Такие знаки,
как «-», «.» и «,», доставляют много хлопот при их анализе, в одних случаях являясь
разделителями лексем, а в других – нет.
3.2. Задача выделения предложений. Ввиду огромного разнообразия текстовых
«стилей», по отношению к современным текстам становится трудно говорить о пред-
ложении. Скорее следует говорить о «сильносвязанных» отрезках текста, в которых
идет речь об одном объекте или одной ситуации, в которой участвуют несколько
взаимодействующих объектов. В результате само понятие «предложение» резко рас-
ширяется, включая в себя, помимо обычных предложений (с точкой в конце), еще
массу различных текстовых отрывков: ячеек таблицы, элементов списка и прочих,
грамматическое оформление которых нетрадиционно.
3.3. Задача выделения абзацев. Абзацем мы называем отрезок текста из одного
или нескольких предложений, связанных единой темой. Расплывчатость этого опре-
деления позволяет трактовать его достаточно широко. Однако для блока ССА понятие
абзаца является весьма важным, поскольку многие его механизмы направлены
именно на идентификацию и совмещение объектов внутри одной темы. Лексический
анализатор содержит в своем составе ряд алгоритмов, выделяющих абзацы, причем –
разных типов.
Как оказалось, задачи выделения предложений и абзацев весьма нетривиальны.
Трудности выделения абзацев главным образом связаны с тем, что хорошо разли-
чимые разделители абзаца – пустые строки, отступы, границы клеток таблицы –
теряются или искажаются при преобразовании текстов. Но гораздо большие трудности
возникают при идентификации предложений. Дело в том, что современные пользова-
тели Интернета вообще не считают необходимым ставить точки в конце предложения.
В то же время точка активно используется в качестве ограничителя сокращений, разде-
лителя между частями электронного адреса, многозначного числа, банковского номера
и др. Кроме того, разделителем предложения может являться не только точка, но и
другие знаки («;», «:», «!», «?», «|» и т.д.). В результате задача разбиения текста на
предложения становится просто головоломной шарадой, требующей учета массы
разного рода частных правил и исключений.
3.4. Проблемы унификации текста. Естественный язык – система необычайно
многовариантная. Задача лексического анализатора: унифицировать написание отдель-
Кузнецов И.П., Сомин Н.В., Козеренко Е.Б., Мацкевич А.Г.
«Искусственный интеллект» 4’2011 110
3К
ных слов и сокращений, привести к стандартной форме написание ряда стандартных
словосочетаний. Трудности возникают при выявлении наиболее употребительных
лексем и словосочетаний, требующих унификации.
К этим трудностям добавляется проблема обнаружения и (по возможности) ис-
правления опечаток и грамматических ошибок. В современных текстах их громадное
количество, и бороться с ними – задача из сложнейших. Кроме того, в современных
текстах, особенно из Интернета, намечается тенденция нарочитого переделывания и
перевирания слов, типа «ацкий ужос» или «падстол». Начинает формироваться целая
интернетная «феня». В связи с этим потребуется постоянная корректировка языковых
словарей и правил составления предложений.
Еще одна важная функция лексического анализатора – определение лексических
признаков слов. Примеры такого рода признаков: «слово из кириллицы с прописной
буквы», «слово из кириллицы из прописных букв», «разделитель», «слово из латин-
ских букв» и проч., всего – около 20 лексических признаков. Лексические типы
являются важной дополнительной информацией, облегчающей работу как морфоло-
гического анализатора, так и блока ССА.
Наконец, лексический анализатор для ряда слов способен выполнить семантиче-
ский анализ, определяя по формальному виду слова его семантическую категорию.
К этому случаю относятся сокращения имен и отчеств: прописная буква, за которой
идет «.». Например «А.», «Н.», «J.». Еще примеры идентифицируемых семантических
классов: «адрес электронной почты», «Интернет-адрес» (URL), «целое число», «число
с дробной частью». Собственно, определение семантического класса каждого слова
или словосочетания является одной из задач всего ЛП. И чем раньше такой класс
будет определен, тем легче дальнейший анализ.
4 Особенности морфологического анализатора
Задача морфологического анализатора – нормализация слов, определение морфо-
логических признаков лексем, а также (в ряде случаев) нахождение их семанти-
ческих классов. Отметим, что к настоящему времени разработан целый ряд морфо-
логических анализаторов русского языка [8], [9].
4.1. Схема анализа. Первоначально была реализована базовая схема анализа [6].
Считается, что каждое слово имеет постоянную часть (основу) и переменную часть.
Последняя образует словоизменительную парадигму или класс окончаний. Были накоп-
лены два словаря: словарь классов окончаний (СКО), в котором хранятся все возмож-
ные парадигмы русского языка и словарь основ (СО), в котором хранятся основы
слов со ссылками на соответствующий класс окончаний.
Например, слово «бытие» имеет основу «быти» и класс окончаний за номером
1759, содержащий окончания в именительном, родительном, дательном, винительном,
творительном и предложном падежах, а именно: «е», «я», «ю», «е», «ем», «и»
(множественного числа это слово не имеет). Соответственно в СО имеется запись
«быти 1759», а в СКО под номером 1759 закодирована парадигма с указанными
окончаниями.
Отметим, что в общем случае в СО может быть несколько записей с одинаковой
основой (но с разными классами окончаний), а на один и тот же класс окончаний
может ссылаться несколько слов с разными основами. Возможны случаи пустой основы
(пример: «хорошо»-«лучше») и пустого класса окончаний (для неизменяемых слов).
Кроме основы и вариантов окончаний, в СКО хранятся морфологические признаки,
Особенности лексико-морфологического анализа в задачах извлечения...
«Штучний інтелект» 4’2011 111
3К
соответствующие определенному классу окончаний в целом (постоянная морфоло-
гическая информация) и каждому окончанию парадигмы в отдельности (переменная
морфологическая информация). Так, для класса 1759 в качестве постоянной информа-
ции хранятся признаки существительного, среднего рода, неодушевленности и второго
склонения, а для каждого окончания хранится признак соответствующего падежа.
Алгоритм морфологического анализа при наличии данных словарей сводится к
следующему. Для слова рассматриваются все варианты его разбиения на основу и
окончание. Если для данного варианта разбиения находится основа, а в соответ-
ствующем ей классе окончаний находится вариант окончания, то данный морфоло-
гический разбор является корректным и слово получает морфологические признаки,
взятые из постоянной и переменной частей морфологической информации. В общем
случае может быть найдено и выдано несколько вариантов морфологического разбора,
что известно как морфологическая омонимия.
4.2. Морфологический анализ незнакомых слов. В принципе предложенная
схема анализа вполне корректна. Однако на практике ее успешное использование
достаточно проблематично. Дело в том, что такая схема предполагает ручную раз-
работку обоих словарей. И заметим – не только первоначальную разработку, но и их
постоянное пополнение. Последнее обстоятельство особенно неприятно: в русском
языке – более 100 тыс. слов общеупотребительного назначения и миллионы специаль-
ных терминов. Кроме того, за последнее время в русскоязычных текстах стало исполь-
зоваться огромное количество англоязычных слов, которые никогда не входили
в классические словари русского языка. Фактически требовалось ежедневное попол-
нение словаря.
Выход из описанной ситуации известен – обработка незнакомых системе слов
«по аналогии» [8], [9]. В нашей реализации этого метода использовался третий сло-
варь – «словарь хвостов основ» (СХО). В словарь записываются все 1-буквенные,
2-буквенные, 3-буквенные и т.д. «хвосты» основ (первые буквы основ отбрасываются)
с указанием соответствующего класса окончаний. Было решено, что в СХО не будет
одинаковых «хвостов», а его класс окончаний вычисляется из статистических сооб-
ражений – по максимуму основ в СО, имеющих данный «хвост» и данный класс
окончаний. Если слово не находится в словаре СО, то та же схема анализа повто-
ряется, но уже с помощью пары словарей СХО-СКО.
В реализации словари СО и СХО были слиты в один словарь, за которым закре-
пилось название обобщенного словаря основ (ОСО), в результате чего все варианты
анализа, – как точные, так и по аналогии, – выявляются за один проход по словарю.
4.3. Способы устранения морфологической омонимии. Ясно, что использо-
вание обобщенного словаря основ ОСО может приводить к лишним вариантам морфо-
логического анализа. Было предложено два достаточно эффективных способа борьбы
с морфологической омонимией.
Первый способ – эмпирический алгоритм, отбрасывающий наименее вероятные
варианты морфологического анализа. Такая «зачистка» вариантов выполняется по
многим критериям, учитывающим наличие слова в СО, длину основы с СХО, часть
речи. Кроме того, эмпирический алгоритм расставляет все варианты разбора в по-
рядке их вероятности.
Второй способ – частичный синтаксический анализ, позволяющий отбросить
варианты морфологического анализа, которые не удовлетворяют критериям согла-
сования слов. Для этого было реализовано распознавание двух конструкций: полного
согласования и генетической цепочки [4].
Кузнецов И.П., Сомин Н.В., Козеренко Е.Б., Мацкевич А.Г.
«Искусственный интеллект» 4’2011 112
3К
5 Предметные словари
Предметные словари (стран, имен собственных, организаций, профессий, видов
оружия и др.) состоят из терминов. Множество словарей образует систему.
Система предметных словарей (СПС) предназначена для распознавания в тексте
слов и словосочетаний, специфичных для конкретной предметной области. Им присва-
иваются признаки принадлежности к определенной семантической категории. Будем
называть этот процесс идентификацией терминов словаря. Такая принадлежность
является основой выделения объекта. В предметном словаре может быть или термин,
представляющий объект определенного типа (таких объектов может быть достаточ-
но много), или характеристическое слово, опираясь на которое можно начинать рас-
познавание объекта – на уровне синтактико-семантического анализа.
Как показывает опыт, СПС является необходимой компонентой любого объектно-
ориентированного ЛП. В нашей разработке СПС встроена в блок ЛМА. Причина
этого – главным образом в быстродействии. Поиск в СПС предполагает частые обра-
щения к ней, а потому требуется высокая эффективность поиска, чего трудно достичь
без использования универсальных языков программирования. В нашем случае про-
граммное обеспечение СПС написано на Си++.
Структурно СПС состоит из произвольного количества словарей, представля-
ющих собой определенный семантический класс. В каждом из словарей может содер-
жаться произвольное количество словарных записей. Под записью в тривиальном
случае понимается термин (однословный или многословный). Однако простыми тер-
минами словарные объекты не ограничиваются. Допускаются записи в виде словарных
шаблонов, описывающих группу терминов (п. 5.2). В настоящее время разработаны
более 20 предметных словарей; среди них: «улицы г. Москвы», «террористические
организации», «оружие», «известные личности» и т.д.
5.1. Требования к предметным словарям. К СПС, помимо эффективности,
предъявляются еще ряд требований, важнейшим из которых является требование
вариативности поиска. Должна быть предусмотрена корректная обработка случаев,
когда написание термина в тексте так или иначе не соответствует его каноническо-
му виду в словаре. Основная трудность – когда имеет место множество вариантов
употребления одного и того же термина. Их нужно приводить к одному виду.
Рассмотрим примеры.
Как правило, названия улиц записаны в именительном падеже. Например,
«проживает по адресу Б. Академическая ул. д. 6-18». Иногда встречается дательный
падеж: «по Б. Академической». Гораздо более усложняет дело вариативность сокра-
щений и перестановки слов. Например, канонический вид названия одной из улиц
Москвы – «Щипковский 1-й пер.». Однако встречаются в текстах написания: «1-й
Щипковский пер.», «1-ый Щипковский переулок», «п-к 1-вый Щипковский» и другие
варианты. Отметим, что возможна не только перестановка и вариативное написание
слов, но и выпадение или добавление слов. Например, «Туполева Академика наб.»
может быть названа как «набережная Туполева», а в название «Тихий туп.» иногда
добавляют пояснение «ул. Тихий туп.». Кроме того, некоторые сокращения, применя-
емые авторами текстов, далеко не однозначны. Например «С.» может означать «Север-
ный» или «Старый»; «Б.» может означать «Большой», а может быть сокращением
имени, например «ул. Б. Галушкина».
5.2. Возможности предметных словарей. Подключение новых словарей может
значительно усилить ЛП в плане выделения объектов. Однако для того, чтобы словари
Особенности лексико-морфологического анализа в задачах извлечения...
«Штучний інтелект» 4’2011 113
3К
в самом деле стали действенным и удобным механизмом, необходимо, чтобы они
обладали рядом нетривиальных возможностей.
В нашей версии СПС реализованы несколько таких возможностей.
Во-первых, идентификация термина в любом числе и падеже. Например, если в
словаре есть термин «программный продукт», то в тексте будут распознаваться и соот-
ветствующим образом идентифицироваться термины «программного продукта», «про-
граммных продуктов» и т.д. Распознавание выполняет программное обеспечение
системы предметных словарей, использующее блок морфологического анализа.
Во-вторых, допускается несколько вариантов написания одного и того же тер-
мина. Дело в том, что в средствах СМИ и многих других текстах пользуются различ-
ными вариантами именования одного и того же объекта, в том числе сокращенным
описанием. Например, если в тексте встретилось Путин, Меркель, президент Франции
и т.д., то понятно, о ком идет речь. Для приведения таких словосочетаний к стандарт-
ному виду в словари введена специальная запись. Например, в словаре ФИО может
иметь место запись:
Меркель Ангела
= Ангела Меркель
= А. Меркель
= Меркель
В данном примере основной термин – «Меркель Ангела». К нему будут приводить-
ся все остальные написания этого имени, записанные после символа «=». Эта возмож-
ность особенно эффективна при выявлении не только ФИО известных деятелей, но и
названий организаций (включая их сокращения), географических названий и др. При
этом блок ССА осуществляет дополнительную фильтрацию, например, когда в тексте
несколько лиц с фамилией Меркель или рядом со словом Меркель стоит какое-либо
имя, не представленное в предметном словаре.
В-третьих, в предметные словари введена возможность описания группы терми-
нов, у которых лишь первое слово фиксировано, а остальные могут быть описаны с
помощью совокупности признаков (лексических и морфологических). Реализованы
так называемые словарные шаблоны. Например, в словаре допустима запись:
заведующий {NOUN, КЕМ}.
Такая запись в словаре профессий означает, что подходящими под этот шаблон
терминами могут быть все словосочетания, начинающиеся со слова «заведующий»,
за которым идёт существительное (NOUN) в творительном падеже (КЕМ): «заведу-
ющий складом», «заведующий библиотеками» и т.д. Кроме того, в качестве шаблона
можно употреблять имя другого (или того же самого) словаря. Фактически на словари
возлагаются элементы синтаксического анализа, позволяющие значительно уменьшить
количество записей в словаре, а также облегчить работу блока ССА.
В-четвертых, имеется возможность управлять лексическим и морфологическим
анализами в процессе распознавания терминов словарей. Так, например, в словаре
террористических организаций может быть указано:
Организация эта\
= ЭТА\!
Это означает, что, благодаря признаку «\», слово «эта» в процессе идентифика-
ции морфологическому анализу не подвергается (т.е. его каноническая форма совпадает
с написанием). И кроме того, благодаря признаку «!», идентификация совершается,
если в тексте слово «ЭТА» записано прописными буквами. Эти возможности позво-
ляют повысить точность распознавания, отсеивая ложные вхождения.
Кузнецов И.П., Сомин Н.В., Козеренко Е.Б., Мацкевич А.Г.
«Искусственный интеллект» 4’2011 114
3К
Отметим, что язык записи терминов в словарях чрезвычайно прост. Термин
пишется в своей канонической форме на отдельной строке (включая, разумеется, ука-
занные выше дополнительные возможности). Поэтому ввод новых терминов или даже
создание новых словарей может быть выполнено пользователем или оператором-
лингвистом, не знакомым с особенностями работы ЛП.
Помимо указанных возможностей имеется еще ряд специальных операторов наст-
ройки, позволяющих управлять идентификацией терминов для тех или иных словарей.
6 Представление пространственных структур
Текст ЕЯ – это сложный структурный объект, который в процессе его формали-
зации проходит множество уровней преобразования. На первом уровне работает блок
ЛМА, который формирует РСС, называемую пространственной структурой текста
(ПС-текста). Далее следуют преобразования, осуществляемые блоком ССА, которые
приводят к формированию семантической структуры (СС-текста) для БЗ.
Рассмотрим особенности ПС-текста. Информация об абзацах и предложениях
представляется в виде фрагмента SENT, с помощью которого представляется:
– позиция первого слова предложения относительно начала входного потока;
– признак начала абзаца и количество разделительных строк;
– номер строки, на которой расположено первое слово предложения.
Для каждого слова (и для каждого варианта его разбора) блок выдает фрагменты
типа LR, задающие последовательность слов. В каждом из фрагментов представлено:
нормализованное слово и его порядковый номер. Далее следуют его признаки. Вот
некоторые из них: NAME0 – слово начинается с прописной буквы, HEAD_ – слово
полностью состоит из прописных букв, NAME1 – инициалы, POINT – пункт,
HEAD_1 – слово с прописной буквой, NUM) – целое число, NUM_F – число с
дробной частью, ENGL – слово из букв латинского алфавита, WEB_C – URL (адрес
Интернет), MAIL_E – адрес электронной почты, FIRST_ – признак первого слова на
новой строке, LETT – слово из одной буквы и т.д. (морфологические и семанти-
ческие признаки).
Фрагменты типа LR и SENT вместе с выделенными признаками – это семан-
тическая сеть (РСС), которая в дальнейшем проходит множество уровней преобразо-
вания, осуществляемое блоком ССА.
В общем случае блок ЛМА выдает несколько вариантов разбора. Например,
слово «стекло» является и существительным, и глаголом. Тогда в ПС-текста, помимо
фрагмента LR для первого варианта разбора, генерируются фрагменты LD (с их при-
знаками) для других вариантов. Отсев вариантов осуществляется блоком ССА в про-
цессе обработки ПС-текста и построения семантической структуры [5].
7 Особенности параметрической настройки
Опираясь на опыт построения ЛП для различных предметных областей (п. 2),
чтобы постоянно учитывать все новые особенности текстовой типологии, в блок ЛМА
были введены средства управления лексико-морфологическим анализом, названные
средствами параметрической настройки. Эти средства относятся к ЛЗ и размеща-
ются в отдельном файле. Они имеют вид списков, оформленных в виде фрагментов
РСС со своими именами. Имена играют роль операторов и определяют вид анализа.
Рассмотрим некоторые из них, разделив операторы на смысловые группы.
Особенности лексико-морфологического анализа в задачах извлечения...
«Штучний інтелект» 4’2011 115
3К
7.1. Средства идентификации начала и конца предложения.
Если слово, указанное во фрагменте NEW_SENT, записано в тексте с прописной
буквы и находится в начале строки, то оно рассматривается как начало нового пред-
ложения.
Если в тексте встречается одно из слов (символов, знаков), указанных во фраг-
менте END_SENT, то оно считается концом предложения.
Фрагмент ABBR задает список сокращений с точками на конце, которые счита-
ются цельными словами, и точки не рассматриваются как конец предложения.
Фрагмент SEPARATOR задает символы, которые всегда являются разделите-
лями слов.
7.2. Средства для замены или удаления некорректных символов или слов.
Фрагменты LETTER_CH и WORD_BAD задают замены (или удаление) нежела-
тельных слов или знаков в тексте.
Фрагменты BEG_SYMB задают набор удаляемых знаков в начале слова, а
END_SYMB – в конце.
7.3. Средства унификации и синонимичных замен.
Фрагмент SYNON задает список синонимичных слов, которые заменяются на
слово из первой позиции.
Фрагмент TERMIN_ заменяет слова, записанные на второй и последующих по-
зициях, на слово в первой позиции.
Фрагмент SIGN_MANY задает повторяющиеся символы, следующие один за
другим (например, набор черточек) на один символ (черточку).
7.4. Средства настройки морфологического анализатора.
Фрагмент MORF определяет генерацию морфологических признаков слова в
виде фрагментов ПС-текста.
Фрагмент NOMO задает список слов, для которых устанавливается запрет на
нормализацию и морфологический анализ.
Это необходимый набор операторов, без которых (как оказалось) трудно обес-
печить качественный лексико-морфологический анализ многих текстов ЕЯ, и следо-
вательно, качественную работу всего объектно-ориентированного ЛП.
Заключение
В данной статье рассмотрены направления развития блока лексико-морфологи-
ческого анализа, используемого в объектно-ориентированных лингвистических про-
цессорах (ЛП) при формализации текстов ЕЯ, т.е. для извлечения из них инфор-
мационных объектов, признаков и связей. В блок введены дополнительные средства,
с помощью которых обеспечивается устойчивая и качественная работа ЛП при обра-
ботке массивов документов на ЕЯ в различных предметных областях: «Кримина-
листика», «Резюме», «Терроризм», «Памятники культуры» и др.
Литература
1. Кузнецов И.П. Семантические представления / Кузнецов И.П. – М. : Наука, 1986. – 290 с.
2. Кузнецов И.П. Продукционный язык программирования ДЕКЛ / И.П. Кузнецов, М.М. Шарнин //
Система обработки декларативных структур знаний Деклар-2. – М. : ИПИ РАН, 1988.
3. Кузнецов И.П. Семантико-ориентированные системы на основе баз знаний : [монография] / И.П. Куз-
нецов, А.Г. Мацкевич. – М. : МТУСИ, 2007. – 173 с.
4. Сомин Н.В. Система морфологического анализа: опыт эксплуатации и модификации / Н.В. Сомин,
Н.С. Соловьева, М.М. Шарнин // Системы и средства информатики. – 2005. – Вып. 15. – С. 20-30.
Кузнецов И.П., Сомин Н.В., Козеренко Е.Б., Мацкевич А.Г.
«Искусственный интеллект» 4’2011 116
3К
5. Кузнецов И.П. Средства настройки семантико-ориентированного лингвистического процессора
на выделение и поиск объектов / И.П. Кузнецов, Н.В. Сомин // Сб. ИПИ РАН. – 2008. – Вып. 18. –
С. 119-143.
6. Кузнецов И.П. Принципы организации объектно-ориентированных систем обработки неформализо-
ванной информации / И.П. Кузнецов, Е.Б. Козеренко, А.Г. Мацкевич // Искусственный интеллект. –
2010. – № 3. – С. 227-237.
7. Kuznetsov Igor. The system for extracting semantic information from natural language texts / Igor Kuzne-
tsov, Elena Kozerenko // Proceeding of International Conference on Machine Learning. MLMTA-03, Las
Vegas US, 23 – 26 June 2003 г. – P. 75-80.
8. Коваленко А. Вероятностный морфологический анализатор русского и украинского языков [Элект-
ронный ресурс] / А. Коваленко. – Режим доступа : http://www.keva.ru/stemka/stemka.html.
9. Сегалович И. Русский морфологический анализ и синтез с генерацией моделей словоизменения
для не описанных в словаре слов [Электронный ресурс] / И. Сегалович, М. Маслов // Диалог’98. –
Казань : ООО «Хэтер», 1998. – Режим доступа : http://download.yandex.ru/company/DLG98-MM2.pdf.
Literatura
1. Kuznetsov I.P. Semanticheskie predstavlenija. M.: Nauka. 1986. 290 s.
2. Kuznetsov I.P. Produkcionnyj jazyk programmirovanija DEKL. Sb. Sistema obrabotki deklarativnyh struktur
znanij Deklar-2. IPI RAN. 1988.
3. Somin N.V. Sistemy i sredstva informatiki. 2005. Vyp. 15. S. 20-30.
4. Kuznetsov I.P. Sb. IPI RAN. 2008. Vyp. 18. S. 119-143.
5. Kuznetsov I.P. Iskusstvennyj intellect. 2010. № 3. S. 227-237.
6. Kuznetsov I.P. Semantiko-orientirovannye sistemy na osnove baz znanij : [monografija]. M.: MTUSI. 2007.
173 s.
7. Kuznetsov I.P. Proceeding of International Conference on Machine Learning. MLMTA-03. Las Vegas US.
23 – 26 June 2003. P. 75-80.
8. Kovalenko A. Verojatnostnyj morfologicheskij analizator russkogo i ukrainskogo jazykov. http://www.keva.ru/
stemka/stemka.html.
9. Segalovich I. Russkij morfologicheskij analiz i sintez s generaciej modelej slovoizmenenija dlja ne opisannyh v
slovare slov. Dialog’98. Kazan’: OOO “Hjeter”.1998. http://download.yandex.ru/company/DLG98-MM2.pdf.
І.П. Кузнєцов, Н.В. Сомін, О.Б. Козеренко, А.Г. Мацкевич
Особливості лексико-морфологічного аналізу в задачах добування структур знань
з текстів природної мови
Розглядається клас об’єктно-орієнтованих лінгвістичних процесорів, які виділяють структури знань з
текстів природної мови (ПМ). Важливою компонентою таких систем є блок лексико-морфологічного
аналізу. У процесі розробки застосувань цей блок постійно удосконалювався і набув багато нових
функцій, які виходять за межі можливостей існуючих блоків подібного типу. Даний блок генерує лексичні,
морфологічні, семантичні ознаки слів, визначає найпростіші форми природної мови, має спеціальні засоби
настройки на предметну область і на особливості текстів ПМ. У роботі розглядаються ці функції.
I.P. Kuznetsov, N.V. Somin, E.B. Kozerenko, A.G. Matskevich
Features of Lexical-Grammatical Analysis for Knowledge Retrieval from Texts in Natural Language
The paper analyses the experience of using the linguistic processor, which retrieves knowledge (information
objects or essences and their links) from natural language texts. Significant part of the processor is the
procedure of lexical-grammatical analysis, which has been modified in process of tuning to various subject
fields. Now the procedure has many peculiarities, which are considered in the paper. The procedure generates
lexical, morphological and semantic word attributes. It analyses some forms of natural language. It has special
means of tuning to subject fields and to text features. These functions play a significant role in enhancing the
quality of the linguistic processor.
Статья поступила в редакцию 31.05.2011.
|