Автоматическая коррекция орфографических ошибок

Предоставление читателям библиотек возможности использования каталогов и полнотекстовых документов на электронных носителях облегчает поиск необходимой информации, экономит время, позволяет произвести наиболее полный отбор и изучение материалов. При создании баз данных производится ввод текстовой ин...

Full description

Saved in:
Bibliographic Details
Date:2004
Main Authors: Гниловская, Л.П., Гниловская, Н.Ф.
Format: Article
Language:Russian
Published: Кримський науковий центр НАН України і МОН України 2004
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/6692
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Автоматическая коррекция орфографических ошибок / Л.П. Гниловская, Н.Ф. Гниловская // Культура народов Причерноморья. — 2004. — № 48, Т. 2. — С. 171-180. — Бібліогр.: 5 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860146453576417280
author Гниловская, Л.П.
Гниловская, Н.Ф.
author_facet Гниловская, Л.П.
Гниловская, Н.Ф.
citation_txt Автоматическая коррекция орфографических ошибок / Л.П. Гниловская, Н.Ф. Гниловская // Культура народов Причерноморья. — 2004. — № 48, Т. 2. — С. 171-180. — Бібліогр.: 5 назв. — рос.
collection DSpace DC
description Предоставление читателям библиотек возможности использования каталогов и полнотекстовых документов на электронных носителях облегчает поиск необходимой информации, экономит время, позволяет произвести наиболее полный отбор и изучение материалов. При создании баз данных производится ввод текстовой информации. Орфографические ошибки, появляющиеся в таких текстах, не редкость. Современные текстовые редакторы предлагают варианты для их исправления, что требует вмешательства пользователя. Автор статьи предлагает автоматическую коррекцию орфографических ошибок, основанную на морфемном анализе. Granting to readers of libraries of an opportunity of use of catalogues and text-through documents on electronic carriers facilitates search of the necessary information, saves time, allows to make the fullest selection and studying of materials. At creation of databases input of the text information is made. The spelling errors appearing in such texts, not a rarity. Modern text editors offer variants for their correction that demands intervention of the user. The author of clause offers the automatic correction of spelling errors based on the morphemic analysis.
first_indexed 2025-12-07T17:49:39Z
format Article
fulltext Автоматическая коррекция орфографических ошибок © Гниловская Л.П., Гниловская Н.Ф. Культура народов Причерноморья, 2004 г. № 48. Т.2 171 УДК 004.4’412 АВТОМАТИЧЕСКАЯ КОРРЕКЦИЯ ОРФОГРАФИЧЕСКИХ ОШИБОК. Гниловская Л.П. Факультет вычислительной математики и кибернетики Московского государственного универ- ситета им. М.В. Ломоносова, Москва, Россия Гниловская Н.Ф. Крымская Республиканская универсальная научная библиотека им. И. Франко, Симферополь, Ук- раина Предоставление читателям библиотек возможности использования каталогов и полнотексто- вых документов на электронных носителях облегчает поиск необходимой информации, экономит вре- мя, позволяет произвести наиболее полный отбор и изучение материалов. При создании баз данных про- изводится ввод текстовой информации. Орфографические ошибки, появляющиеся в таких текстах, не редкость. Современные текстовые редакторы предлагают варианты для их исправления, что требует вмешательства пользователя. Автор статьи предлагает автоматическую коррекцию орфографиче- ских ошибок, основанную на морфемном анализе. Granting to readers of libraries of an opportunity of use of catalogues and text-through documents on electronic carriers facilitates search of the necessary information, saves time, allows to make the fullest selection and studying of materials. At creation of databases input of the text information is made. The spelling errors appearing in such texts, not a rarity. Modern text editors offer variants for their correction that demands inter- vention of the user. The author of clause offers the automatic correction of spelling errors based on the mor- phemic analysis. Проникновение электронной информации во все слои человеческой деятельно- сти заставляет библиотечные учреждения активно осваивать современные информаци- онные технологии, внедрять автоматизированные системы, создавать электронные библиотеки, развивать Интернет-услуги. Цивилизованный библиотечный мир одно- значно воспринимает эти изменения как одну из характерных тенденций общества бу- дущего, как систему, облегчающую доступ пользователей к информационному ресурсу. Нарастание потоков электронной информации во всех сферах человеческой дея- тельности резко повышает статус библиотеки как информационного и общественного института. Чтобы полно и оперативно удовлетворять информационные запросы со- временного пользователя, библиотека должна быть в центре внедрения современных технологий и использования электронной информации. Реальностью сегодняшнего дня стали электронные издания, число которых постоянно увеличивается. Библиотеки, не имеющие в фонде тех или иных электронных изданий и предоставляющие к ним дос- туп через Интернет, уже с полным на это основанием включают их библиографические описания в свои каталоги и предоставляют их пользователям. Дальнейшая информатизация общества и расширение сферы применения ин- формационных технологий в библиотечной практике в современных условиях порож- дают новые виды и формы обслуживания пользователей библиотек. Главная особен- ность – самостоятельность пользователя в работе с компьютерными ресурсами библио- Гниловская Л.П., Гниловская Н.Ф. Культура народов Причерноморья, 2004 г. № 48. Т.2 172 теки. Это требует обеспечения определенного уровня обслуживания и заставляет биб- лиотекарей более тщательно относится к системе автоматизации, к возможностям ин- формационных технологий, внедряемых в библиотечную практику. Научная библиотека Московского университета им. М. В. Ломоносова - одна из старейших библиотек России: основана в 1756 году. Она является подразделением МГУ, самоуправляемого государственного вуза Российской федерации. Ежегодно здесь обслуживается более 60 тысяч постоянных читателей, из которых 52 тысячи - сотруд- ники и учащиеся университета. Количество посещений составляет 1,8 млн. в год. Кни- говыдача - 4 млн. экземпляров. За год читателям выдается более 80 тыс. справок. К их услугам 16 абонементов и 60 читальных залов на 3300 мест. В штате библиотеки более 700 сотрудников, работающих в 38 отделах: 19 отделах обслуживания, 17 функцио- нальных, 2 научных - редких книг и рукописей и компьютеризации информационно- библиотечных процессов. Универсальный фонд научной и учебной литературы насчи- тывает 8,5 млн. единиц хранения, в том числе 2,5 млн. на иностранных языках. В отде- ле редких книг и рукописей более 200 тыс. единиц хранения: средневековые, греческие, латинские, французские, немецкие, восточные и славянские рукописи, русские рукопи- си XVIII-XIX вв., архивные материалы XVIII-XIX вв., западноевропейские инкунабулы и палеотипы, славянские и русские старопечатные книги; редкие русские издания XVIII-XX вв. Библиотека обеспечивает литературой работу 21 учебного подразделения МГУ: механико-математический факультет, факультет вычислительной математики и кибернетики, физический факультет, химический факультет, биологический факультет, факультет фундаментальной медицины, факультет почвоведения, геологический фа- культет, географический факультет, высший колледж наук о материалах, исторический факультет, филологический факультет, факультет иностранных языков, философский факультет, социологический факультет, экономический факультет, юридический фа- культет, факультет журналистики, факультет психологии, институт стран Азии и Аф- рики, институт государственного управления и социальных исследований. Одним из главных направлений работы библиотеки является пополнение ее фондов. Комплекто- вание отечественной литературой ведется на основе государственного бесплатного обя- зательного экземпляра, который библиотека получает с 1920 года, прямых контактов с издательствами, книготорговыми организациями. Фонд иностранной литературы в зна- чительной степени пополняется за счет изданий, получаемых по международному кни- гообмену, (библиотека имеет около 1000 партнеров по обмену в 63 странах), благодаря дарам различных организаций и частных лиц, а также в результате валютной подписки на периодические издания. В 1987 году началась компьютеризация библиотеки МГУ. Был организован от- дел компьютеризации информационно-библиотечных процессов, создано современное программное обеспечение, позволяющее комплексно решить вопрос перевода библио- течного дела на компьютерную технологию. В эксплуатации находится система "Биб- Автоматическая коррекция орфографических ошибок Культура народов Причерноморья, 2004 г. № 48. Т.2 173 лиотека 4.0", получившая широкое распространение в библиотеках России. Данная сис- тема использует формат US MARC библиотеки Конгресса США. Она может приме- няться как на отдельном персональном компьютере, так и в локальной сети, позволяет компьютеризировать все библиотечные процессы, начиная с комплектования литерату- ры и заканчивая информационным обслуживанием читателей. С 1990 года все новые поступления книг заносятся в электронный каталог. В на- стоящее время объем электронного каталога составляет около 280 тысяч названий. Кроме основного каталога книг ведутся отдельные каталоги по различным областям знаний на основе росписи журнальных статей. Имеется полнотекстовая база данных учебников. В помещениях научной библиотеки МГУ читатели имеют доступ к полным текстам статей журналов Научной Электронной Библиотеки eLIBRARY.RU. Предос- тавление читателям возможности пользоваться электронными каталогами, различными по тематике базами данных и полными текстами учебников и отраслевых журналов значительно облегчает тематический поиск необходимой информации, экономит время, позволяет произвести наиболее полный отбор и изучение документов. При создании различных по назначению баз данных производится ввод тексто- вой информации, осуществляемый двумя способами – набором вручную или сканиро- ванием. Как правило, при этом возникают одни и те же проблемы. Если набирать текст вручную, то возможны опечатки и появляется необходимость вычитывать весь текст. При этом непроизводительно тратится уйма времени. Другой способ – сканирование. Время, которое уходит на ввод в компьютер информации, значительно сокращается. Однако и в этом случае возможны орфографические ошибки. Современные текстовые редакторы (например, WinWord) при проверке текстов не корректируют ошибки, а предлагают варианты для их исправления. Это требует вмешательства пользователя, что не всегда удобно. Автоматическая коррекция орфо- графических ошибок, основанная на морфемном анализе, может быть более эффектив- ным средством минимизации опечаток и их исправлений при создании текстовых фай- лов. Данная тема и стала целью исследования. Морфемой называется минимальная значимая часть слова. Морфемный анализ – это операция, цель которой состоит в определении инвентаря морфем того или иного языка. Для достижения этой цели необходимо решить задачи, состоящие в выявлении и систематизации морфем в языке, в установлении законов из функционирования и со- единения. Известно, что в русском языке около 5 000 морфем позволяют построить примерно 52 000 слов, то есть, разлагая слово на морфемы, можно достичь более чем десятикратного сокращения словаря. Слова русского языка с точки зрения морфологической структуры делятся на слова, имеющие формы словоизменения и не имеющие словоизменения. Слова первой группы распадаются на две части: основу и окончание, или флек- сию, слова второй группы представляют собой чистую основу. Гниловская Л.П., Гниловская Н.Ф. Культура народов Причерноморья, 2004 г. № 48. Т.2 174 Основа – это часть слова, которая выражает его лексическое значение. Основа выделяется путём вычета окончания. Окончание, или флексия, – это изменяемая часть слова, которая указывает на отношение данного слова к другим, то есть является средством выражения синтаксиче- ских свойств слова в предложении. Окончание может быть нулевым. Основа слова распадается на отдельные значимые части: приставка, корень, суффикс. Корень слова – общая часть всех родственных слов. Слова, происходящие от одного корня, составляют словообразовательное гнез- до. Корень может присоединять к себе различные аффиксы. Аффикс – общее название всех значимых частей слова, за исключением корня. Аффиксы подразделяются на приставки или префиксы – части слова, стоящие перед корнем, суффиксы – части слова, стоящие между корнем и окончанием, и окончания. Например, слово поведение имеет корень – вед – (осведомляться, сведедение, введение и так далее), приставку по–, суффикс –ениj–, и окончание –е. По–, –ениj– и –е являются аффиксами. Каждая значимая часть слова – приставка, корень, суффикс или окончание – на- зываются морфемой. Слово поведение состоит из четырех морфем: по–вед–ениj–е. Аффикс –ся, –сь имеет особое значение – частица, потому что часто помещается после других частей слова, в том числе и окончания. В большинстве сложных слов выделяется ещё одна часть – словосоединительная гласная (интерфикс): пар–о–воз, сам–о–лёт, труб–о–провод, нитк–о–вдеватель. Выделение морфем из состава слова и определение их значения производится на основе его сопоставления с другими словами и с другими формами данного слова. Учет морфемной структуры слов позволяет компактно представлять совокуп- ность словоформ, группируя их в словообразовательные гнезда. Такое представление реализуется в виде словаря морфем, содержащего три части – корневую, префиксаль- ную и суффиксальную. В корневой части морфемного словаря корни расположены в лексикографиче- ском порядке. В словарной статье под каждым заглавным корнем приводятся одноко- ренные слова, расчлененные на морфемы. Аффиксальная часть словаря состоит из префиксальной и суффиксальной час- тей. В префиксальной части словаря под каждым заглавным префиксом дается в ал- фавитном порядке перечень всех аффиксальных окружений корня, в которых встреча- ется данный префикс; рядом перечисляются все корни, употребляющиеся в соответст- вующем окружении. Слова, начинающиеся прямо с корня, приводятся вначале. Префиксы даются в словаре по следующей схеме: Автоматическая коррекция орфографических ошибок Культура народов Причерноморья, 2004 г. № 48. Т.2 175 – сначала идут модели, начинающиеся на заглавный префикс, который является единственным в слове; – потом приводятся модели, начинающиеся с заглавного префикса, но сопрово- ждаемые одним или двумя другими префиксами, стоящими по алфавиту; – далее идут модели, в которых заглавный префикс расположен не на первом месте в словаре; такие модели располагаются строго по алфавиту префиксов. В суффиксальной части словаря под заглавным суффиксом помещены модели, в которых данный суффикс встречается сначала в беспрефиксальных моделях на 1-ом месте, затем идут все суффиксы на 2-ом, 3-ем и так далее, вплоть до 6-ого места в сло- варе (по отношению к корню). Выделяют четыре типа случайных ошибок: 1. пропуск символа (асемблер); 2. замена одного символа любым другим (конпьютер); 3. удвоение символа (клаввиатура); 4. перестановка двух соседних символов (аглоритм). Алгоритмы исправления этих ошибок, основанные на хранении в памяти ком- пьютера всех возможных словоформ, имеют существенные недостатки. Первый недостаток состоит в том, что каждая словоформа из списка должна со- поставляться со словами словаря. Если слово состоит из L букв, то пропущенная буква могла стоять на одном из L+1 мест. Поскольку неизвестно, какая буква была пропуще- на, то на каждом месте может стоять почти любая буква алфавита. То есть ошибка пер- вого типа порождает (28+32L) словоформ. Ошибка второго типа порождает (27+31(L- 1)) словоформ. Для установления ошибки третьего типа нужно поочередно вычерки- вать каждую из L букв, этот процесс добавит ещё L словоформ. Если возникает ошибка четвёртого типа, то при перестановке всех пар соседних букв появляется L-1 слово- форм. Всего список кандидатов содержит (65L + 33) словоформ, для каждой из кото- рых нужно осуществлять сопоставление со словарём. Знание длины слов позволяет не делать сравнение со всеми словами словаря, а выбирать из словаря только слова той же длины. Кроме того, лексикографическое упорядочение слов словаря позволяет исполь- зовать индекс для поиска всех словоформ, кроме тех, которые призваны исправить ошибку в первой букве. Учитывая, что средняя длина слова в русском языке составляет 6 букв, можно ожидать, что этот недостаток не будет приводить к тупиковым ситуаци- ям. Второй недостаток таких алгоритмов в том, что список словоформ-кандидатов будет содержать более одного слова из словаря. В этом случае ошибка должна исправ- ляться оператором. Разложение словоформы на морфемы, помимо того, что существенно сокращает объем словаря, позволяет сокращать объем комбинаторного перебора при генерации кандидатов. Гниловская Л.П., Гниловская Н.Ф. Культура народов Причерноморья, 2004 г. № 48. Т.2 176 Для алгоритма коррекции ошибок, опирающегося на результаты морфемного анализа, достаточно взять только префиксальную часть словаря, разбив её на три уров- ня: 1. словарь первого уровня содержит наиболее часто используемые слова язы- ка; 2. словарь второго уровня является подсловарем словаря третьего уровня и создается в процессе обработки конкретного документа либо пакета доку- ментов из одной и той же предметной области; 3. словарь третьего уровня должен содержать все слова языка, за исключени- ем тех, что вошли в словарь первого уровня. Этот словарь необходимо дополнить следующим образом: каждой основе сопос- тавить группу окончаний, совместимых с данной основой. Известно, что имена сущест- вительные в русском языке имеют три типа склонения. В пределах одного типа каждый падеж чаще всего имеет одно окончание, общее для всех слов, входящих в этот тип. Однако не редки и колебания в использовании определенных падежных окончаний. Например, в первом и втором склонениях различается склонение слов на твердую и мягкую основы. Кроме того, в первом склонении различается склонение имен сущест- вительных мужского рода и имен существительных среднего рода. Десять имен суще- ствительных на –мя, такие, как знамя, имя, семя и другие, находятся вообще вне этих трёх типов склонений так же, как и слово путь. Аналогичная ситуация наблюдается в других изменяемых частях речи. Более точную информацию о формах изменяемых частей речи можно получить, разбив их на флективные классы слова, имеющие одинаковые окончания во всех формах изменения, объединяются в один класс. Каждому классу сопоставляется номер и список оконча- ний, добавляемых к основе при склонении, спряжении, изменении рода и числа. Пример. Модель на – √ – а – л – ь – н – ый1, –я2; –ков2 – 54, –ч1– 66 представля- ет два слова, одно из них – существительное наковальня – получается, если вместо символа радикала подставить корень –ков– и, поскольку корень ков снабжен верхним индексом 2, то берем окончание с верхним индексом 2, то есть –я. Цифра 54 после – ков– означает, что получающееся после подстановки этого корня и окончания слово относится к пятьдесят четвертому флективному классу. Подставляя вместо символа ра- дикала корень –ч– и взяв в качестве окончания –ый, получим начальный – это второе слово, представленное данной моделью. Оно относится к 66 флективному классу. Другое изменение, вносимое в префиксальную часть словаря морфем, состоит в том, что несколько последовательно стоящих префиксов рассматривается как один со- ставной префикс (этот термин – составной префикс вводится для удобства алгоритми- зации и изложения, но ничего общего с лингвистикой не имеет). В связи с этим заглав- ный префикс всегда стоит на первом месте. Таким образом, представляемый в компью- Автоматическая коррекция орфографических ошибок Культура народов Причерноморья, 2004 г. № 48. Т.2 177 тере префиксальный словарь морфем имеет порядок словарных статей, определяемый лексикографическим упорядочением составных префиксов, начинающимся с нулевого префикса. Помимо упрощения алгоритма поиска слова в словаре это приводит к сокраще- нию словаря: ведь в словаре морфем словарная статья встречается столько раз, из скольких префиксов состоит составной префикс. Например, слово перевооружение встречается в префиксальной части словаря морфем 3 раза: сначала в форме пере–ВО– о–√–ени –е, –руж–, дальше – в форме ПЕРЕ–во–о–√–ени–е, –руж– и ещё в форме пере–во–О–√–ени–е, –руж–. Определение. Будем называть отображением ошибки категории еrr_i (еrr_i = 1, 2, 3, 4) данной словоформы множество словоформ, порождаемых этой словоформой в результате всех возможных ошибок категории еrr_i. Определение. Будем называть полным отображением одиночной ошибки дан- ной словоформы множество словоформ, порождаемых этой словоформой в результате всех возможных ошибок четырех категорий. Таким образом, если через SL1 (словоформа) обозначить множество словоформ, порождаемых данной словоформой в результате ошибки категории 1 (отображение ошибки категории 1), через SL2 – отображение ошибки категории 2, через SL3 – ото- бражение ошибки категории 3 и через SL4 – отображение ошибки категории 4, то пол- ное отображение одиночной ошибки SL (словоформа) есть объединение всех четырёх множеств: SL (словоформа) = SL1 (словоформа) ∪ SL2 (словоформа) ∪ ∪SL3 (слово- форма) ∪ SL4 (словоформа). Пример. Найдем отображение ошибки категории 4 (перестановка двух соседних символов) словоформы село: SL1(село) = есло, слео, сеол. Определение. Назовём обратным полным отображением одиночной ошибки данной словоформы множество словоформ, порождающих данную словоформу в ре- зультате одиночной ошибки любой из четырех категорий. Так как в дальнейшем будут рассматриваться только одиночные ошибки, то для краткости будем говорить «обратное полное отображение», опуская «одиночной ошиб- ки». В основе алгоритма обнаружения и коррекции ошибок, опирающегося на пре- фиксальную часть словаря морфем, лежат два положения. Во-первых, поскольку в слове по условию возможна только одна ошибка, то она может находиться или в префиксе, или в корне, или в суффиксе, или в окончании. Это сокращает объем необходимых комбинаторных вычислений при поиске правильного слова. Гниловская Л.П., Гниловская Н.Ф. Культура народов Причерноморья, 2004 г. № 48. Т.2 178 Во-вторых, знания о сочетаемости каждого префикса с определенными корнями слов и основы – с определенными окончаниями довольно часто позволяют делать за- ключения о правильности того или иного варианта коррекции ошибки. Алгоритм обнаружения и коррекции одиночных ошибок включает этапы: Этап 1. На первом этапе предполагается, что в рассматриваемом слове нет пре- фикса, и поэтому в нем пытаемся выделить одну из основ с нулевым префиксом. Если это не удается, то либо в слове есть ошибка, либо в слове есть префикс (этап 2). Сначала проверяется гипотеза об ошибке в основе. Для этого: А) производятся все возможные разбиения анализируемого слова на основу и окончание; Б) для каждой из полученных основ находится обратное полное преобразование, то есть генерируются все основы, могущие породить данную в результате оди- ночной ошибки. Если сгенерированная основа есть в словаре, то она проверяется на совмести- мость (принадлежность к флективному классу) с окончанием анализируемого слова. Если сгенерированная основа несовместима с окончанием анализируемой основы, то она из рассмотрения исключается и генерируется следующая основа; если же сгенери- рованная основа совместима с окончанием, то есть она находится в одном флективном классе с анализируемой основой, то она заносится в список кандидатов и совершается переход к генерации следующей основы. По окончании процесса генерации проверяет- ся число основ в списке кандидатов. Если в этом списке окажется больше одной осно- вы, то после присоединения окончаний (совпадающих с окончанием анализируемого слова), все они выдаются на экран вместе с анализируемым словом и сообщением «Ва- рианты исправления ошибки». Если в списке кандидатов – только одна основа, то по- сле присоединения к ней окончания замещаем этой словоформой анализируемую. Ошибка исправлена. Если же в списке кандидатов не оказалось ни одной основы, то это значит, что окончание было выбрано неверно, нужно испытать другое окончание. Если в результате перебора всех допустимых пар основа-окончание не удалось найти ни од- ного кандидата, то это значит, что в слове есть префикс, переходим к этапу 2. Вернёмся теперь к началу этапа и рассмотрим случай, когда в слове удалось вы- делить основу с нулевым префиксом. В этом случае нужно проверить соответствие окончания анализируемого слова флективному классу основы. Проверка на совмести- мость основы с окончанием может дать следующие результаты: либо подтвердится, что основа определена правильно, либо обнаружится ошибка в окончании и, возможно, бу- дет исправлена. Сложность исправления ошибки в окончании состоит в том, что в ре- зультате ошибки в окончании возможна замена одного окончания на другое из той же самой группы окончаний, определяющие флективный класс. Этап 2. На втором этапе проверяется наличие в словоформе префикса. Сначала предполагается, что в префиксе нет ошибки. Начиная с префикса наибольшей длины с Автоматическая коррекция орфографических ошибок Культура народов Причерноморья, 2004 г. № 48. Т.2 179 той же начальной буквой, что и слово, пытаемся выделить префикс в словоформе. Если это удалось, то среди основ, совместимых с данным префиксом, пытаемся найти ту, ко- торая входит в анализируемую словоформу. Если это удается, то осуществляется про- верка окончания на принадлежность к группе окончаний, определяющих флективный класс найденной основы. Положительный результат проверки свидетельствует о том, что в слове нет ошибки, поэтому осуществляется переход к анализу следующего слова; отрицательный результат проверки свидетельствует об ошибке в окончании. Если пе- ребор основ, совместимых с данным префиксом не дал результата, то это значит, что либо в основе есть ошибка, либо префикс выбран ошибочно. Сначала обращаемся к модулю проверки гипотезы об ошибке в основе. Если не удалось найти ошибку в осно- ве, то возвращаемся из модуля для выбора следующего префикса. Если перебор всех префиксов с той же начальной буквой, что и слово, не дает результата, то осуществля- ется переход к этапу проверки гипотезы об ошибке в префиксе. Этап 3. Проверку гипотезы об ошибке в префиксе начинаем с того, что пытаем- ся отделить префикс от основы. Для этого последовательно убираем начальные буквы слова, и для каждого начального отрезка из 1, 2, … k букв находим обратное полное отображение (ОПО). Каждый элемент этого отображения рассматривается как возмож- ный правильный префикс. Эта последовательность символов сравнивается со всеми префиксами языка. В случае совпадения начинается перебор основ, совместимых с этим префиксом, и осуществляется проверка вхождения основ с этим префиксом, и осуществляется проверка вхождения основ в анализируемое слово. Если найдется ос- нова, входящая в анализируемое слово, то проверяется принадлежность окончания флективному классу этой основы. При положительном результате проверки найденный префикс присоединяется вместо удалённых букв, анализируемое слово заменяется по- лученным, осуществляется переход к анализу следующего слова. Если окончание не принадлежит флективному классу, то считается, что в окончании ошибка, а это значит, что в слове более одной ошибки. Вернемся к случаю, когда элемент ОПО не совпал ни с одним из префиксов язы- ка. В этом случае осуществляется переход к генерации следующего элемента ОПО. Ес- ли генерация всех элементов ОПО для начального отрезка словоформы длиной s не да- ла элемента, совпадающего с одним из префиксов, то длина отрезка, рассматриваемого как возможный префикс (но с ошибкой), увеличивается на единицу и процесс повторя- ется. Эвристически предполагается, что в любом слове, помимо префикса, есть ещё не менее трех букв. Поэтому, если в остатке словоформы после удаления s букв ока- жется менее трех букв, то либо слова нет в словаре, либо в нем более одной ошибки. Художественное значение в системе индивидуально-авторского словаря © Петрова Л.А. Культура народов Причерноморья, 2004 г. № 48. Т.2 180 Вывод: алгоритм коррекции орфографических ошибок, основанный на морфем- ном анализе, намного лучше справляется с данной задачей, нежели алгоритмы, осно- ванные на хранении в памяти компьютера всех возможных словоформ. Его с успехом можно использовать при создании электронных каталогов и полнотекстовых баз дан- ных, в подготовке словарей, рубрикаторов, справочников. Литература и источники: 1. Маршак Б. И. Современные проблемы разработки и внедрения автоматизи- рованных библиотечно-информационных систем: системный подход и оцен- ка программного окружения. // Научные и технические библиотеки.- 2003.- №2. - С. 5-11. 2. Шварце Х., Хольцгрефе Г. Использование компьютеров в регулировании и управлении. - М., 1990. 3. Шрайберг Я. Л. Библиотеки, компьютерные технологии и информационное общество: год прошедший и год грядущий. // Научные и технические биб- лиотеки.- 2003.- №1.- С. 28-58. 4. Файн В. С., Рубанов Л. И. Машинное понимание текстов с ошибками. – М., 1991. 5. www.lib.msu.su УДК 811.161.1 + 81'373.7 + 81'374 ХУДОЖЕСТВЕННОЕ ЗНАЧЕНИЕ В СИСТЕМЕ ИНДИВИДУЛЬНО- АВТОРСКОГО СЛОВАРЯ Петрова Л.А. Институт русского языка им. А.С. Пушкина, Москва, Россия В статье рассматриваются особенности формирования художественного значения слова, ко- торое является одной из единиц описания индивидуально-авторского словаря. Выявляются семантиче- ские процессы, соотносящие художественное значение с лексическим значением. Обосновывается воз- можность создания индивидуально-авторского словаря в электронной версии. Ключевые слова: лексическое значение, художественное значение, семантико-стилистическая система писателя, электронные словари The article deals with the features of formation of art meaning of a word. This art meaning is one of units of the description of the individual - author's dictionary. The semantic processes, correlating art meaning with lexical meaning, come to light. Keywords: lexical meaning, art meaning, semantical-stylistic system of the writer, the electronic dic- tionaries http://www.lib.msu.su
id nasplib_isofts_kiev_ua-123456789-6692
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1562-0808
language Russian
last_indexed 2025-12-07T17:49:39Z
publishDate 2004
publisher Кримський науковий центр НАН України і МОН України
record_format dspace
spelling Гниловская, Л.П.
Гниловская, Н.Ф.
2010-03-15T11:18:28Z
2010-03-15T11:18:28Z
2004
Автоматическая коррекция орфографических ошибок / Л.П. Гниловская, Н.Ф. Гниловская // Культура народов Причерноморья. — 2004. — № 48, Т. 2. — С. 171-180. — Бібліогр.: 5 назв. — рос.
1562-0808
https://nasplib.isofts.kiev.ua/handle/123456789/6692
004.4’412
Предоставление читателям библиотек возможности использования каталогов и полнотекстовых документов на электронных носителях облегчает поиск необходимой информации, экономит время, позволяет произвести наиболее полный отбор и изучение материалов. При создании баз данных производится ввод текстовой информации. Орфографические ошибки, появляющиеся в таких текстах, не редкость. Современные текстовые редакторы предлагают варианты для их исправления, что требует вмешательства пользователя. Автор статьи предлагает автоматическую коррекцию орфографических ошибок, основанную на морфемном анализе.
Granting to readers of libraries of an opportunity of use of catalogues and text-through documents on electronic carriers facilitates search of the necessary information, saves time, allows to make the fullest selection and studying of materials. At creation of databases input of the text information is made. The spelling errors appearing in such texts, not a rarity. Modern text editors offer variants for their correction that demands intervention of the user. The author of clause offers the automatic correction of spelling errors based on the morphemic analysis.
ru
Кримський науковий центр НАН України і МОН України
Лингвистическое обеспечение технологии создания электронных документов
Автоматическая коррекция орфографических ошибок
Article
published earlier
spellingShingle Автоматическая коррекция орфографических ошибок
Гниловская, Л.П.
Гниловская, Н.Ф.
Лингвистическое обеспечение технологии создания электронных документов
title Автоматическая коррекция орфографических ошибок
title_full Автоматическая коррекция орфографических ошибок
title_fullStr Автоматическая коррекция орфографических ошибок
title_full_unstemmed Автоматическая коррекция орфографических ошибок
title_short Автоматическая коррекция орфографических ошибок
title_sort автоматическая коррекция орфографических ошибок
topic Лингвистическое обеспечение технологии создания электронных документов
topic_facet Лингвистическое обеспечение технологии создания электронных документов
url https://nasplib.isofts.kiev.ua/handle/123456789/6692
work_keys_str_mv AT gnilovskaâlp avtomatičeskaâkorrekciâorfografičeskihošibok
AT gnilovskaânf avtomatičeskaâkorrekciâorfografičeskihošibok