Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»

Статья посвящена выявлению и коррекции ошибок словарной базы модуля морфологического анализа РДМА_ИПИИ. В работе сгенерированы правила определения некорректных значений морфологической информации, выполнена классификация видов ошибок и разработаны рекомендации по коррекции словарной базы. Статтю...

Full description

Saved in:
Bibliographic Details
Published in:Штучний інтелект
Date:2010
Main Authors: Дорохина, Г.В., Акчурин, В.А.
Format: Article
Language:Russian
Published: Інститут проблем штучного інтелекту МОН України та НАН України 2010
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/56284
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ» / Г.В. Дорохина, В.А. Акчурин // Штучний інтелект. — 2010. — № 3. — С. 191-195. — Бібліогр.: 8 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-56284
record_format dspace
spelling Дорохина, Г.В.
Акчурин, В.А.
2014-02-15T17:55:25Z
2014-02-15T17:55:25Z
2010
Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ» / Г.В. Дорохина, В.А. Акчурин // Штучний інтелект. — 2010. — № 3. — С. 191-195. — Бібліогр.: 8 назв. — рос.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/56284
004.912
Статья посвящена выявлению и коррекции ошибок словарной базы модуля морфологического анализа РДМА_ИПИИ. В работе сгенерированы правила определения некорректных значений морфологической информации, выполнена классификация видов ошибок и разработаны рекомендации по коррекции словарной базы.
Статтю присвячено виявленню та корекції помилок словникової бази бібліотеки морфологічного аналізу РДМА_ІПШІ. В роботі сгенеровано правила визначення некоректних значень морфологічної інформації, класифіковано знайдені помилки та розроблено рекомендації щодо корекції словникової бази.
The article is devoted to vocabulary database of the morphological analysis module «RDMA_IAI» errors detection and correcting. The rules for the incorrect morphological information values search were generated. The founded errors were classified. There were made the recommendations to correct a vocabulary database.
ru
Інститут проблем штучного інтелекту МОН України та НАН України
Штучний інтелект
Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»
Корегування словникової бази модуля морфологічного аналізу «РДМА_ІПШІ»
A Morphological Analysis Module «RDMA_IAI» Vocabulary Database Correcting
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»
spellingShingle Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»
Дорохина, Г.В.
Акчурин, В.А.
Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
title_short Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»
title_full Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»
title_fullStr Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»
title_full_unstemmed Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»
title_sort коррекция словарной базы модуля морфологического анализа «рдма_ипии»
author Дорохина, Г.В.
Акчурин, В.А.
author_facet Дорохина, Г.В.
Акчурин, В.А.
topic Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
topic_facet Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
publishDate 2010
language Russian
container_title Штучний інтелект
publisher Інститут проблем штучного інтелекту МОН України та НАН України
format Article
title_alt Корегування словникової бази модуля морфологічного аналізу «РДМА_ІПШІ»
A Morphological Analysis Module «RDMA_IAI» Vocabulary Database Correcting
description Статья посвящена выявлению и коррекции ошибок словарной базы модуля морфологического анализа РДМА_ИПИИ. В работе сгенерированы правила определения некорректных значений морфологической информации, выполнена классификация видов ошибок и разработаны рекомендации по коррекции словарной базы. Статтю присвячено виявленню та корекції помилок словникової бази бібліотеки морфологічного аналізу РДМА_ІПШІ. В роботі сгенеровано правила визначення некоректних значень морфологічної інформації, класифіковано знайдені помилки та розроблено рекомендації щодо корекції словникової бази. The article is devoted to vocabulary database of the morphological analysis module «RDMA_IAI» errors detection and correcting. The rules for the incorrect morphological information values search were generated. The founded errors were classified. There were made the recommendations to correct a vocabulary database.
issn 1561-5359
url https://nasplib.isofts.kiev.ua/handle/123456789/56284
citation_txt Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ» / Г.В. Дорохина, В.А. Акчурин // Штучний інтелект. — 2010. — № 3. — С. 191-195. — Бібліогр.: 8 назв. — рос.
work_keys_str_mv AT dorohinagv korrekciâslovarnoibazymodulâmorfologičeskogoanalizardmaipii
AT akčurinva korrekciâslovarnoibazymodulâmorfologičeskogoanalizardmaipii
AT dorohinagv koreguvannâslovnikovoíbazimodulâmorfologíčnogoanalízurdmaípší
AT akčurinva koreguvannâslovnikovoíbazimodulâmorfologíčnogoanalízurdmaípší
AT dorohinagv amorphologicalanalysismodulerdmaiaivocabularydatabasecorrecting
AT akčurinva amorphologicalanalysismodulerdmaiaivocabularydatabasecorrecting
first_indexed 2025-11-24T17:37:02Z
last_indexed 2025-11-24T17:37:02Z
_version_ 1850490336112017408
fulltext «Штучний інтелект» 3’2010 191 3Д УДК 004.912 Г.В. Дорохина1, В.А. Акчурин2 1Институт проблем искусственного интеллекта МОН Украины и НАН Украины, г. Донецк 2Государственный университет информатики и искусственного интеллекта, г. Донецк, Украина sgv@iai.donetsk.ua Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ» Статья посвящена выявлению и коррекции ошибок словарной базы модуля морфологического анализа РДМА_ИПИИ. В работе сгенерированы правила определения некорректных значений морфологической информации, выполнена классификация видов ошибок и разработаны рекомендации по коррекции словарной базы. Введение Обработку естественно-языковых текстов (ЕЯТ) относят к области искусственного интеллекта. Технологии обработки ЕЯТ нашли своё применение в системах машинного перевода, поисковых системах в сети Интернет, роботах-автоответчиках [1] и т.д. Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, содержащихся в тексте. В настоящее время средства морфологического анализа рус- скоязычных текстов являются достаточно развитыми – результаты их оценки пред- ставлены в [2], [3]. К настоящему времени ИПИИ разработаны модуль декларативного морфологи- ческого анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологичес- кого анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов – около 3 млн словоформ, синтезированных по словарю А.А. Зализняка [6]. Оценка применения упомянутых модулей в рамках форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» показала, что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с неверным заданием морфологической информации (МИ) словоформ – набора грам- матических характеристик, присущих словоформе. Источником этих ошибок могли служить поэтапное расширение набора грамматических характеристик, используе- мых в модуле, а также многочисленные процедуры пополнения и корректировки словарной базы, в ходе совершенствования её наполнения. Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные результаты морфологического анализа. Так как словарная база РДМА_ИПИИ явля- ется источником для наполнения базы данных модуля морфологического анализа без словаря, ошибки в ней впоследствии распространятся и на результаты бессловарного морфологического анализа. В связи с этим актуальной является разработка методик проверки словарных баз на наличие некорректных МИ и методики корректировки словарной базы. Объект исследования – словарная база модуля морфологического анализа. Предмет исследования – корректность морфологической информации. Дорохина Г.В., Акчурин В.А. «Искусственный интеллект» 3’2010 192 3Д Цель работы – коррекция словарной базы модуля морфологического анализа РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи: − генерация правил выявления некорректных значений МИ на основе теорети- ческих данных и классификация видов ошибок; − разработка рекомендаций по коррекции словарной базы. Правила выявления некорректных значений МИ Для анализа словарной базы на наличие некорректных значений МИ выберем из неё все значения МИ без повторений. В результате количество различных значе- ний МИ составило 1359. На основе теоретических данных [7], [8] был сформирован набор из 96 правил. Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обя- зательных и недопустимых грамматических категорий для частей речи. В этой таб- лице грамматическая категория, обязательная для некоторой части речи, отмечена цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая грамматическая категория для некоторой части речи – цифрой «0». Пустые ячейки таблицы на пересечении столбца и строки указывают на то, что грамматическая категория не является обязательной для всех словоформ данной части речи, в то же время парадигма слов данной части речи содержит хотя бы одну словоформу, которой присуща указанная грамматическая категория. В табл. 2 пред- ставлены правила определения некорректных значений МИ для случаев, соответ- ствующих пустым ячейкам табл. 1. Таблица 1 – Обязательные и недопустимые категории для частей речи 1 2 3 4 5 6 7 8 9 10 11 12 Грамматическая категория Часть речи П ад еж В ре мя Л иц о С те пе нь с ра вн ен ия В ид г ла го ла Ти п чи сл ит ел ьн ог о Ти п ме ст ои ме ни я За ло г Чи сл о Ро д В оз вр ат на я фо рм а гл аг ол а О ду ш ев ле нн ос ть 1 Наречие 0 0 0 0 0 0 0 0 0 0 0 2 Деепричастие 0 1 0 1 0 0 0 0 0 0 3 Причастие 1 1 0 0 1 1 0 4 Местоимение-прилагательное 0 0 0 0 0 0 0 0 5 Глагол 0 0 1 0 0 0 6 Местоимение-существительное 1 0 0 0 0 0 0 0 0 7 Существительное 1 0 0 0 0 0 0 0 0 8 Прилагательное 0 0 0 0 0 0 0 9 Числительное 1 0 0 0 0 0 0 0 Для последующей ссылки на правила данной таблицы необходимо каждому из них присвоить некоторый идентификатор. Правилам табл. 1 присвоим двойной номер. Первая часть будет обозначать часть речи, к которой применяется правило, вторая – номер морфологической категории. Таким образом, правило, запрещающее ненулевое значение категории «Падеж» у глаголов будем обозначать П5.1. Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ» «Штучний інтелект» 3’2010 193 3Д Таблица 2 – Правила определения некорректных значений МИ Часть речи Условие Ошибка № Число = Множественное И Род≠0 Определен род во множественном числе прилагательного 1 Число = Единственное И Род=0 Не определен род в единственном числе прилагательного 2 Одушевленность=0 И Падеж=В.п. И (Число=Мн. ИЛИ Род=м.р.) Не определена одушевленность 3 Одушевленность≠0 И (Падеж≠В.п. ИЛИ Число=Ед. И Род≠м.р.) Определена одушевленность 4 Степень сравнения = Сравнительная Степень И Род≠0 Определен род в сравнительной степени прилагательного 5 Степень сравнения = Сравнительная И Число≠0 Определено число в сравнительной степени прилагательного 6 Степень сравнения = Сравнительная И Краткость≠0 Определена краткость в сравни- тельной степени прилагательного 7 Степень сравнения = Сравнительная И Падеж≠0 Определен падеж в сравнительной степени прилагательного 8 П ри ла га те ль но е Краткая форма И Падеж≠0 Определен падеж 9 Тип Числительного = Порядковое И Число = Множественное И Род ≠ 0 Определен признак рода 10 Тип Числительного = Порядковое И Число = Единственное И Род = 0 Не определен признак рода 11 Тип Числительного = Порядковое И Число = 0 Не определено число 12 Падеж=В.п. И Одушевленность=0 И (Число=Мн. ИЛИ Род=м.р.) Не определена одушевленность 13 Чи сл ит ел ьн ое Одушевленность≠0 И (Падеж≠В.п. ИЛИ Число=Ед. И Род≠м.р.) Определена одушевленность 14 Вид глагола = Совершенный И Время = Наст. вр. Настоящее время у глагола совершенного вида 15 Вид глагола = Несовершенный И Время = Буд. Будущее время у глагола несовершенного вида 16 Наклонение = Повелительное И Время≠0 Определено время в повелительном наклонении глагола 17 Лицо≠0 И Род≠0 Не заданы лицо и род глагола 18 Лицо = 0 И (Время = Наст. вр. ИЛИ Время = Буд. ИЛИ Наклонение = Повелительное) Не определено лицо 19 Время = Прош. вр. И Род = 0 Не определен род 20 Переходн. = Непереходный И Залог = Страдательный Неверный залог 21 Гл аг ол Форма глаг. = Возвратная И Залог = Страдательный Неверный залог 22 Залог = 0 Не определен залог 23 Непереходный И Залог = Страдательный Неверный залог причастия 24 Вид=Совершенный И Время≠Прош.вр. Неверное время 25 Число=ед. И Род=0 Не определен род 26 Число=мн. И Род≠0 Определен род 27 Число=0 Не определено число 28 НЕ Краткая форма И Падеж=0 Не определен падеж 29 П ри ча ст ие Краткая форма И Падеж≠0 Определен падеж 30 В табл. 2 знаки равенство нулю («=0») значения некоторой грамматической ка- тегории обозначает, что эта категория не определена в анализируемой МИ, а нера- венство нулю («≠0») говорит об определенности категории в анализируемой МИ. Ссылки на правила табл. 2 будем делать по их порядковому номеру (4-й столбец). Например, П28. Дорохина Г.В., Акчурин В.А. «Искусственный интеллект» 3’2010 194 3Д С применением описанных выше правил (табл. 1, 2) проведена проверка сло- варной базы РДМА_ИПИИ на наличие некорректных МИ. В результате было выяв- лено 211 значений МИ и около 44 500 словоформ, требующих корректировки. Корректировка словарной базы РДМА_ИПИИ Внесение автоматических изменений в словарную базу может явиться источни- ком новых ошибок. В связи с этим идеология модуля РДМА_ИПИИ требует про- верки человеком запланированных изменений. Так как количество записей, отнесённых к ошибочным, исчисляется десятками тысяч, необходимо автоматизировать процесс классификации некорректных МИ и формирования рекомендаций по корректировке словарной базы. При этом будем использовать следующую методику. 1. Упорядочим таблицу некорректных МИ по убыванию количества словоформ с данной МИ. Назовём её Исходной таблицей МИ. Таблицу словоформ с ошибочными МИ назовём Таблицей словоформ. 2. Скопируем эту таблицу в таблицу, которую назовём Остатком некорректных МИ. 3. Выберем из таблиц 1, 2 правило, согласно которому первый элемент Остатка некорректных МИ является некорректным. 4. Из Исходной таблицы выберем все записи, удовлетворяющие выбранному правилу. Сформулируем рекомендации по коррекции ошибки. Из Таблицы словоформ выберем все записи с данной ошибкой и убедимся, что применение рекомендации по коррекции ошибки устранит ошибку и не приведёт к появлению новых. 5. Добавим правило к Множеству применённых правил. 6. Сформируем Остаток некорректных МИ путём выбора из Исходной таблицы запи- сей, которые не удовлетворяют ни одному из Множества применённых правил. 7. Если Остаток некорректных МИ не пуст и для его первого элемента количество словоформ с данной МИ больше порогового, перейти на шаг 3. Таблица 3 – Корректировка словарной базы Правило Количество словоформ Рекомендация П9, П30 38 468 Заменить значение категории падежа на неопределенное. П1, П10 4 794 Заменить значение категории рода на неопределенное. П24 899 Набор словоформ разделен по леммам – получено 27 лемм. Из них: − 8 являются исключениями из правила и корректировке не подлежат; − для 1 ошибочно построены страдательные формы причастия (слово- формы подлежат удалению); − в 18 ошибочно отнесены к непереходным (заменить значение кате- гории переходности на «переходный»). П13 123 Заменить значение категории одушевленности на «неодушевленное». П14 42 Заменить значение категории одушевленности на неопределенное. П7.11 120 Данная группа содержит cловоформы существительных группы plura- lia tantum («имеющие только множественное число»). Часть слово- форм этой группы определены как имеющие единственное число (подлежат удалению). Для остальных обнулить в МИ признак воз- вратной формы глагола. П23 44 Данная группа содержит причастия от леммы «врезать», с которой словарная база работает некорректно. Результаты применения данной методики отражены в табл. 3, где также указан порядок применения правил и рекомендации по исправлению ошибок. Данные реко- мендации позволяют исправить выявленные ошибки. Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ» «Штучний інтелект» 3’2010 195 3Д Выводы Научная новизна данной работы состоит в следующем. 1. На основе теоретических сведений сгенерированы правила выявления некор- ректных значений морфологической информации. 2. Разработана методика корректировки словарной базы модуля морфологи- ческого анализа. Практическая значимость работы состоит в применимости сгенерированных правил и методики для выявления, анализа и исправления ошибок в МИ словарных баз систем обработки русскоязычных текстов на морфологическом уровне. Литература 1. Антонов А. Диалог 2 роботов о всякой ерунде [Электронный ресурс] / Антонов А. – Режим дос- тупа : http://www.roboter.ru/news/arch_spri_08/dialog_08_04_18.htm 2. Оценка методов автоматического анализа текста: морфологические парсеры русского языка [Элек- тронный ресурс] / О. Ляшевская, И. Астафьева, А. Бонч-Осмоловская [и др.] // Компьютерная лингвистика и интеллектуальные технологии : материалы ежегодной Международной конференции «Диалог» (Бекасово, 26 – 30 мая 2010 г.). – Вып. 9 (16). – М. : РГГУ, 2010. – Режим доступа : http://ru-eval.ru/Dialog2010.pdf 3. Форум «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» : Таблицы оценок 2010 [Электронный ресурс]. – Режим доступа : http://ru-eval.ru/tables_index.html 4. Дорохина Г.В. Модуль морфологического анализа слов русского языка / Г.В. Дорохина, А.П. Пав- люкова // Искусственный интеллект. – 2004. – № 3. – С. 636-642. 5. Дорохина Г.В. Модуль морфологического анализа без словаря слов русского языка / Г.В. Доро- хина, В.Ю. Трунов, Е.В. Шилова // Искусственный интеллект. – 2010. – № 2. – С. 32-36. 6. Зализняк А.А. Грамматический словарь русского языка: словоизменение, около 100 000 слов / А.А. Зализняк. – М. : Русский язык, 1977. – 880 с. 7. Литневская Е. И. Морфология // Русский язык: краткий теоретический курс для школьников [Элек- тронный ресурс] / Е.И. Литневская. – Режим доступа : http://www.gramota.ru/book/litnevskaya.php?part4.htm 8. Розенталь Д.Э. Справочник по правописанию, произношению, литературному редактированию / Розенталь Д.Э., Джанджакова Е.В., Кабанова Н.П. – [2-е изд., дополнен.]. – М. : ЧеРо, 1998. – 400 с. Г.В. Дорохіна, В.О. Акчурін Корегування словникової бази модуля морфологічного аналізу «РДМА_ІПШІ» Статтю присвячено виявленню та корекції помилок словникової бази бібліотеки морфологічного аналізу РДМА_ІПШІ. В роботі сгенеровано правила визначення некоректних значень морфологічної інформації, класифіковано знайдені помилки та розроблено рекомендації щодо корекції словникової бази. G.V. Dorokhina, V.A. Akchurin A Morphological Analysis Module «RDMA_IAI» Vocabulary Database Correcting The article is devoted to vocabulary database of the morphological analysis module «RDMA_IAI» errors detection and correcting. The rules for the incorrect morphological information values search were generated. The founded errors were classified. There were made the recommendations to correct a vocabulary database. Статья поступила в редакцию 02.07.2010.