Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению
Рассматривается модель процесса чекинга в системе проверки орфографии и соотношения, определяющие показатель дисфункции референтного словаря. Формулируется задача согласования критериев формирования референтного словаря, предлагается алгоритм ее решения, приводятся результаты моделирования алгоритма...
Збережено в:
| Опубліковано в: : | Математичні машини і системи |
|---|---|
| Дата: | 2017 |
| Автори: | , , |
| Формат: | Стаття |
| Мова: | Russian |
| Опубліковано: |
Інститут проблем математичних машин і систем НАН України
2017
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/125559 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению / В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава // Математичні машини і системи. — 2017. — № 2. — С. 39-48. — Бібліогр.: 7 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-125559 |
|---|---|
| record_format |
dspace |
| spelling |
Литвинов, В.А. Майстренко, С.Я. Хурцилава, К.В. 2017-10-28T20:48:09Z 2017-10-28T20:48:09Z 2017 Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению / В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава // Математичні машини і системи. — 2017. — № 2. — С. 39-48. — Бібліогр.: 7 назв. — рос. 1028-9763 https://nasplib.isofts.kiev.ua/handle/123456789/125559 681.3 Рассматривается модель процесса чекинга в системе проверки орфографии и соотношения, определяющие показатель дисфункции референтного словаря. Формулируется задача согласования критериев формирования референтного словаря, предлагается алгоритм ее решения, приводятся результаты моделирования алгоритма на конкретных словарях украинского и русского языков. Розглядається модель процесу чекінга в системі перевірки орфографії і співвідношення, що визначають показник дизфункції референтного словника. Формулюється задача узгодження критеріїв формування референтного словника, пропонується алгоритм її вирішення, наводяться результати моделювання алгоритму на конкретних словниках української і російської мов. The checking process model in the system of orthography spellchecking and correlations which determine the index of dysfunction of the referential vocabulary is cosidered. The task of agreeing the criteria for forming the referential vocabulary is stated; its solution algorithm has been proposed; the results of algorithm modeling have been cited for specific vocabularies of the Ukrainian and Russian lan-guages. ru Інститут проблем математичних машин і систем НАН України Математичні машини і системи Інформаційні і телекомунікаційні технології Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению Дисфункція референтного словника системи перевірки орфографії і підхід до її зниження Dysfunction of the referential vocabulary of the spelling checking system and the approach to its reduction Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению |
| spellingShingle |
Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению Литвинов, В.А. Майстренко, С.Я. Хурцилава, К.В. Інформаційні і телекомунікаційні технології |
| title_short |
Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению |
| title_full |
Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению |
| title_fullStr |
Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению |
| title_full_unstemmed |
Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению |
| title_sort |
дисфункция референтного словаря системы проверки орфографии и подход к ее снижению |
| author |
Литвинов, В.А. Майстренко, С.Я. Хурцилава, К.В. |
| author_facet |
Литвинов, В.А. Майстренко, С.Я. Хурцилава, К.В. |
| topic |
Інформаційні і телекомунікаційні технології |
| topic_facet |
Інформаційні і телекомунікаційні технології |
| publishDate |
2017 |
| language |
Russian |
| container_title |
Математичні машини і системи |
| publisher |
Інститут проблем математичних машин і систем НАН України |
| format |
Article |
| title_alt |
Дисфункція референтного словника системи перевірки орфографії і підхід до її зниження Dysfunction of the referential vocabulary of the spelling checking system and the approach to its reduction |
| description |
Рассматривается модель процесса чекинга в системе проверки орфографии и соотношения, определяющие показатель дисфункции референтного словаря. Формулируется задача согласования критериев формирования референтного словаря, предлагается алгоритм ее решения, приводятся результаты моделирования алгоритма на конкретных словарях украинского и русского языков.
Розглядається модель процесу чекінга в системі перевірки орфографії і співвідношення, що визначають показник дизфункції референтного словника. Формулюється задача узгодження критеріїв формування референтного словника, пропонується алгоритм її вирішення, наводяться результати моделювання алгоритму на конкретних словниках української і російської мов.
The checking process model in the system of orthography spellchecking and correlations which determine the index of dysfunction of the referential vocabulary is cosidered. The task of agreeing the criteria for forming the referential vocabulary is stated; its solution algorithm has been proposed; the results of algorithm modeling have been cited for specific vocabularies of the Ukrainian and Russian lan-guages.
|
| issn |
1028-9763 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/125559 |
| citation_txt |
Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению / В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава // Математичні машини і системи. — 2017. — № 2. — С. 39-48. — Бібліогр.: 7 назв. — рос. |
| work_keys_str_mv |
AT litvinovva disfunkciâreferentnogoslovarâsistemyproverkiorfografiiipodhodkeesniženiû AT maistrenkosâ disfunkciâreferentnogoslovarâsistemyproverkiorfografiiipodhodkeesniženiû AT hurcilavakv disfunkciâreferentnogoslovarâsistemyproverkiorfografiiipodhodkeesniženiû AT litvinovva disfunkcíâreferentnogoslovnikasistemiperevírkiorfografííípídhíddoííznižennâ AT maistrenkosâ disfunkcíâreferentnogoslovnikasistemiperevírkiorfografííípídhíddoííznižennâ AT hurcilavakv disfunkcíâreferentnogoslovnikasistemiperevírkiorfografííípídhíddoííznižennâ AT litvinovva dysfunctionofthereferentialvocabularyofthespellingcheckingsystemandtheapproachtoitsreduction AT maistrenkosâ dysfunctionofthereferentialvocabularyofthespellingcheckingsystemandtheapproachtoitsreduction AT hurcilavakv dysfunctionofthereferentialvocabularyofthespellingcheckingsystemandtheapproachtoitsreduction |
| first_indexed |
2025-11-24T16:37:14Z |
| last_indexed |
2025-11-24T16:37:14Z |
| _version_ |
1850486646379642880 |
| fulltext |
© Литвинов В.А., Майстренко С.Я., Хурцилава К.В., 2017 39
ISSN 1028-9763. Математичні машини і системи, 2017, № 2
ІНФОРМАЦІЙНІ І ТЕЛЕКОМУНІКАЦІЙНІ ТЕХНОЛОГІЇ
УДК 681.3
В.А. ЛИТВИНОВ
*
, С.Я. МАЙСТРЕНКО
*
, К.В. ХУРЦИЛАВА
*
ДИСФУНКЦИЯ РЕФЕРЕНТНОГО СЛОВАРЯ СИСТЕМЫ ПРОВЕРКИ
ОРФОГРАФИИ И ПОДХОД К ЕЕ СНИЖЕНИЮ
*
Институт проблем математических машин и систем НАН Украины, Киев, Украина
Анотація. Розглядається модель процесу чекінга в системі перевірки орфографії і співвідношення,
що визначають показник дизфункції референтного словника. Формулюється задача узгодження
критеріїв формування референтного словника, пропонується алгоритм її вирішення, наводяться
результати моделювання алгоритму на конкретних словниках української і російської мов.
Ключові слова: помилки користувача, спелл-чекінг, референтний словник, задача «про ранець».
Аннотация. Рассматривается модель процесса чекинга в системе проверки орфографии и соот-
ношения, определяющие показатель дисфункции референтного словаря. Формулируется задача
согласования критериев формирования референтного словаря, предлагается алгоритм ее реше-
ния, приводятся результаты моделирования алгоритма на конкретных словарях украинского и
русского языков.
Ключевые слова: ошибки пользователя, спелл-чекинг, референтный словарь, задача «о ранце».
Abstract. The checking process model in the system of orthography spellchecking and correlations which
determine the index of dysfunction of the referential vocabulary is cosidered. The task of agreeing the
criteria for forming the referential vocabulary is stated; its solution algorithm has been proposed; the
results of algorithm modeling have been cited for specific vocabularies of the Ukrainian and Russian lan-
guages.
Keywords: user errors, spellchecking, referential vocabulary, knapsack task.
1. Введение
В настоящее время системы проверки орфографии (СПО) являются как востребованным
самостоятельным продуктом (ОРФО, Language Tool и др.), так и обязательным компонен-
том текстовых редакторов, поисковых систем, почтовых клиентов, электронных словарей
и т.п. [1, 2]. Центральный элемент таких систем – референтный орфографический словарь
(РОС), содержащий «правильные» слова некой предметной области, с которыми сравни-
ваются проверяемые слова.
Имеющаяся в доступных источниках проблемно-ориентированная информация от-
ражает, в основном, знания об инструментах СПО – функционал, технология, используе-
мые словари, особенности использования и т.п. Лингвистические и лексикографические
аспекты формирования РОС для СПО пока остаются без видимого внимания исследовате-
лей, и пользователи располагают, в целом, лишь предоставляемыми возможностями об-
новления РОС (добавления, исключения и т.п.).
В предлагаемой статье, развивающей тематику [3], представлено изложение воз-
можного подхода к определению качества РОС на основе оценки показателя его дисфунк-
ции, связанной с принципиальной невозможностью полного обнаружения ошибок в про-
веряемых словах.
2. Модель процесса чекинга
Определим качество РОС двумя факторами:
40 ISSN 1028-9763. Математичні машини і системи, 2017, № 2
– способностью обнаруживать как можно больше наиболее вероятных (типовых)
ошибок;
– способностью выдавать как можно меньше ложных сообщений об ошибках.
Первый фактор оценим показателем дисфункции РОС, который определим через
значение ρ относительного количества слов, искаженных определенными ошибками и сов-
павших с другими, реально допустимыми словами; соответствующие ошибки системой не
обнаруживаются.
Второй фактор оценим вероятностью отсутствия востребованного слова в РОС.
Для уточнения понятия дисфункции и вопросов, связанных с ее количественной
оценкой, рассмотрим следующую модель искажения слов и обнаружения ошибок (чекин-
га).
Для пояснения принятых обозначений рассмотрим следующую интерпретацию
функций представленных на рис. 1 объектов.
Представим генератор слов
jA в виде некой урны, в которой находятся некие фиш-
ки со словами
jA ; значение
j определяет относительное количество фишек с конкрет-
ным словом
jA . При заместительном извлечении фишек из урны (генерации последова-
тельности проверяемых слов) фишки могут повредиться, причем конкретная фишка
jA
повреждается j jA A с вероятностью
jq .
В выходном потоке слов генератора относительное количество jp поврежденных
фишек jA определяется произведением j j jp p q (с точностью до условий нормировки).
Чекер сравнивает фишки ,j jA A c эталонными и отделяет поврежденные, причем некото-
рая часть повреждений ( )r не распознается из-за того, что поврежденная фишка lA совпа-
дает с эталонной sA . Показатель дисфункции определяет относительное количество не-
независимые
независимые
Рис. 1. Схема вероятностной модели искажения слов
Зис.1 независимые
Безошибочные слова
, 1 jp
Генератор случай-
ной последова-
тельности слов
Чекер
,j jA p
Слова с обнаруженны-
ми ошибками
Слова с необнаружен-
ными ошибками
jA
,1jA r
,jA r
РОС
специфические
ОШИБКИ
…
ISSN 1028-9763. Математичні машини і системи, 2017, № 2 41
обнаруженных повреждений (ошибок) по отношению к полному количеству поврежден-
ных фишек (ошибочных слов).
Определим величину через свойства слов ,j jA A словаря РОС. Обозначим через
jr
относительное количество необнаруживаемых ошибок в слове jA по отношению ко всем
возможным ошибкам в этом слове. Тогда
1
N
j j
j
r r p
. (1)
Ошибки в словах jA разделим на 2 класса: определенные (специфические) ошибки
с относительной долей P и произвольные ошибки с относительной долей (1 )P . Контро-
лирующие свойства РОС по отношению к произвольным всевозможным ошибкам принци-
пиально не поддаются учету и анализу, поскольку, если не накладывать ограничений на
характер рассматриваемых ошибок, можно утверждать, что для каждого слова
jA суще-
ствуют ошибки, переводящие его в любое другое слово. Поэтому ограничимся рассмотре-
нием показателя дисфункции по отношению к первому классу ошибок, для общности
разделив его на K подклассов с относительной долей, равной
kP , с нормирующим усло-
вием
k
k
P P
.
Тогда для (1) примем
kj k
j j
k
P
r
P
и
,
kj k
j
j k
P
r p
P
(2)
где
kj – относительное количество необнаруживаемых ошибок подкласса k в слове
jA
по отношению к всевозможным ошибкам данного подкласса.
Из очевидных соображений
k j
kj
k j
v
V
, (3)
где k jv – количество совпадений слова jA , искаженного ошибками подкласса k , с други-
ми неискаженными словами A ;
k jV – полное количество всевозможных искажений слова
jA в подклассе ошибок k
(количество вариаций
~
kjA ) [3].
Таким образом, выражения (2), (3) определяют принятый смысл и значение показа-
теля дисфункции произвольного РС и произвольной функции
jq .
Для процесса последовательного ввода (передачи) символов проверяемых слов
можно принять известное допущение о прямой зависимости вероятности искажения слова
от его длины:
j c jq n ,
42 ISSN 1028-9763. Математичні машини і системи, 2017, № 2
где
c – статистическая вероятность искажения произвольного символа в процессе после-
довательного ввода;
jn – количество символов в слове
jA ;
– нормирующий множитель.
Тогда с учетом нормирующего условия 1.j
j
q
1
j
j N
j
j
n
q
n
. (4)
В частном случае для
jn const n получим
1
jq
N
.
Если еще и , то нормированное значение jp тоже равно
1
N
3. Задача согласования критериев формирования РОС и подход к ее решению
В настоящее время для одних и тех же предметных областей (в частности, понятий и слов
украинского, русского и других естественных языков) существуют различные готовые ор-
фографические словари, отличающиеся широтой охвата тезауруса (объемами) и контроли-
рующими свойствами. Так, например, для русского языка в [3] были рассмотрены свойства
«Словаря Зализняка» [4] ( N =92555 для оригинального словаря и N =84575 – для украин-
ской версии), «Словаря Лопатина» [5] ( N =150213 и N =135401 – украинская версия),
«Словаря русской литературы» [4] ( N =161730 и N =1292440 – украинская версия). Про-
веденное моделирование показало, что из 1000 ошибочных слов, искаженных типовыми
ошибками пользователя в процессах тайпинга, первый словарь не обнаруживает 5,4 слов,
второй – 6,0, третий – 18,4. Показано, что уменьшение объема словаря при прочих равных
условиях противоположным образом влияет на факторы качества – значения и . С
одной стороны, за счет увеличения относительной избыточности представления слов и
соответствующего уменьшения случайных совпадений ошибочных слов с допустимыми
уменьшается показатель дисфункции . С другой стороны, исключение из РОС слов с
ненулевой востребованностью (вероятностью обращения) увеличивает значение .
Представим тезаурус T некой предметной области, состоящий из двух частей: дей-
ствительной (видимой) и мнимой (скрытой). Действительная часть представляет собой
конкретный реальный РОС, а мнимая (МРС) – часть слов T , не представленных в РОС, но
потенциально востребованных.
Задачу согласования критериев формирования РОС сформулируем, как задачу ис-
ключения и перемещения в МРС слов исходного базового словаря БРС, которые больше
других уменьшают и меньше других увеличивают Иными словами, речь идет о по-
строении парето-оптимальной траектории значений , по мере перемещения выбран-
ных слов БРС МРС с целью возможного выбора приемлемого сочетания , .
Результаты моделирования для ряда русских и украинских словарей, приведенные в
[3], получены при использовании простого критерия «тупой силы» – исключения слова jA
с минимальным значением вероятности обращения jp . В силу простоты критерия эти ре-
зультаты иллюстрируют, скорее, возможное существование задачи совершенствования БС
за счет исключения малозначимых слов, чем ее решение.
ISSN 1028-9763. Математичні машини і системи, 2017, № 2 43
С целью формирования «точечного» критерия, оценивающего конкретный вклад
потенциально исключаемых слов в значения факторов качества, рассмотрим следующий
пример.
Таблица 1. Исключение слов
1 0,2 0,2 57
2 0,2 0,2 316
3 0,15 0,15 676
4 0,15 0,15 516
5 0,1 0,1 311
6 0,1 0,1 428
7 0,05 0,05 328
8 0,05 0,05 119
1. Исключение нейтрального слова (в словаре это 119), k -искажения которого не
вызывают совпадений (то есть необнаруживаемых ошибок с реальными словами, не
уменьшают значения , но увеличивают значение . Следовательно, исключение
нейтральных слов не входит в парето-оптимальные решения.
2. Для каждого слова
s
lA
(например, 576) необнаруживаемые прямые k -искажения
которого ( )l sA A вызывают совпадения со словами sA (в данном случае 676 и 516),
существуют необнаруживаемые обратные k -искажения слов
l
sA (676, 516), совпадающие
со словом lA .
Это положение справедливо и для остальных классов рассматриваемых типовых
ошибок тайнинга. Так, легко показать, что любой прямой транспозиции соседних симво-
лов в слове
s
lA соответствует обратная транспозиция в слове
l
sA ; вставке символа в слове
соответствует пропуск слова в слове .s
lA
3. Исключение слова
s
lA
(например, 516) уменьшает значение за счет уменьше-
ния количества совпадений обратных k -искажений слов
l
sA со словом lA (здесь слов 676,
316).
Для пояснения этого положения рассмотрим потенциальные последствия исключе-
ния слова, например, 311. В результате ошибка 316→311 будет обнаруживаться, но по-
скольку слово 316 остается в РС, ошибка 311→316 остается необнаруживаемой.
Из приведенной в табл. 1 структуры совпадений k -искажений видно, что среднее
абсолютное значение количества необнаруживаемых ошибок равно 1,5s
абс j j
j s
p v .
Будем искать слово, исключение которого с учетом положения 3 дает наименьшее отно-
шение
l
абс
P
.
В гипотетическом словаре табл. 1 это слово 4A (516), для которого Р =0,15,
абс =0,4 и l =0,375. В результате исключения слова 4A из РОС aбс =1,1 и =0,15.
Приведенные качественные рассуждения обобщает следующий критерий соответ-
ствия (~), который может быть положен в основу пошагового алгоритма решения задачи
выбора для исключения слова lA :
Пусть
jn const n , 8N , 1K ( k -искажения
ограничены однократными транскрипциями).
Соответствующий гипотетический «словарь»,
упорядоченный по убыванию jp , представлен в таблице.
Как видно из таблицы, в приведенном словаре не
обнаруживаются однократные транскрипции 576↔676,
576↔516 и т.д.
Таблица иллюстрирует следующие положения.
44 ISSN 1028-9763. Математичні машини і системи, 2017, № 2
~ min , ,l ks
l l l l k s
k sl ks
p v
A p p
V
(5)
где ksV – полное количество всевозможных k -искажений слов sA .
В приведенной постановке задачу можно рассматривать как некоторое обобщение
задачи «о ранце» (Knapsack Problem [5]), а пошаговый алгоритм еѐ решения на основе (1) –
как разновидность «жадного» алгоритма GA (Greedy algorithm [6]), в котором в рюкзак
помещаются предметы с максимальным отношением цены (в нашем случае ) к весу
( )lp . Рассматриваемая задача отличается от классической Knapsack Problem тем, что там
цена и вес предметов остаются постоянными в процессе укладки рюкзака, а в нашем слу-
чае цена предметов, оставшихся после частичной загрузки рюкзака, может меняться в за-
висимости от того, что было загружено перед этим. Последнее связано с тем, что исключе-
ние слова lA изменяет распределение последствий возможных k -искажений в оставшейся
части РОС.
4. Алгоритм решения задачи
В основу алгоритма решения поставленной задачи положен алгоритм GA, адаптированной
к отмеченным особенностям, – зависимости параметров (цены и веса) от шага решения.
Общая схема алгоритма приведена на рис. 2. Приведенные на рис. 2 дополнитель-
ные обозначения имеют следующие смысл и значения.
ПП – промежуточный пул объемом m слов, в который помещаются слова
jA –
кандидаты на исключение на данном шаге;
ДТ – диагностическая таблица дисфункций слов
jA ;
lB – слова ПП;
LC – исключенные слова.
Корректировка
Рис. 2. Обобщенная схема алгоритма
ПП
МРС Lp
БРС, ДТ,
РОС
, ,j j jA p p
1j jp p
1...j N
, ,l l lA p p
1...l m
1l lp p
, ,L L LA p p
1...L Y
ISSN 1028-9763. Математичні машини і системи, 2017, № 2 45
На начальном шаге в ПП из БРС перемещается m слов с минимальными значения-
ми . Далее на каждом очередном шаге выполняется следующая последовательность дей-
ствий.
1. Поиск в ПП слова
l LB C , для которого выполняется (4), и перенесение его в
МРС.
2. Исключение слова
l l LA B C из БРС и корректировка параметров ДТ.
3. Расчет значений , .
4. Пополнение пула очередным словом, переход к п. 1.
Физически БРС, ПП и МРС являются единым целым, объединенным вместе с диа-
гностической таблицей ДТ. В частности, БРС представляет собой упорядоченный список
слов
jA . ДТ содержит информацию о возможных совпадениях слов
jA , искаженных рас-
сматриваемыми типовыми ошибками, с другими словами, а ПП и МРС реализуются соот-
ветствующими метками – признаками.
На рис. 3 приведен пример фрагмента интегрированного БРС для словаря Лопатина.
Рис. 3. Фрагмент интегрированного БРС для словаря Лопатина
Результаты моделирования алгоритма приведены в табл. 2–5. Данные таблицы
имеют следующий смысл.
46 ISSN 1028-9763. Математичні машини і системи, 2017, № 2
Таблица 2. Словарь Лопатина
8
( )
N
310Y
310)( YN
N
YN
Случайное уменьшение Расчетное уменьшение
210Y NY
210 210Y NY
410
0 84,57 1 0,277 1,0 0 0,277 1,0 0,0
5,08 79,50 0,94 0,261 0,942 5,660 0,225 0,812 4,00
10,16 74,42 0,88 0,246 0,888 11,909 0,156 0,563 28,38
15,24 69,35 0,82 0,232 0,838 17,901 0,062 0,224 299,36
16,16 68,41 0,81 0,229 0,827 19,064 0,035 0,126 632,099
Таблица 3. Словарь Лопатина
24
( )
N
310Y
310)( YN
N
YN
Случайное уменьшение Расчетное уменьшение
210Y NY
210 210Y
NY
410
0 84,57 1 0,269 1,0 0,0 0,269 1,0 0,0
5,08 79,50 0,94 0,252 0,937 6,229 0,221 0,822 0,000014
10,16 74,42 0,88 0,236 0,877 12,525 0,149 0,554 0,003772
15,24 69,35 0,82 0,221 0,822 17,957 0,053 0,197 9,72321
16,18 68,40 0,81 0,219 0,814 19,009 0,011 0,041 229,8810
Таблица 4. Украинская версия словаря Лопатина
8
( )
N
310Y
310)( YN
N
YN
Случайное уменьшение Расчетное уменьшение
210Y NY
210 210Y
NY
410
0 84,57 1 0,214 1,0 0,0 0,214 1,0 0,0
5,08 79,50 0,94 0,201 0,939 6,077 0,152 0,710 5,881
10,16 74,42 0,88 0,188 0,879 12,150 0,070 0,327 108,187
11,65 72,93 0,86 0,185 0,864 14,001 0,027 0,126 449,207
Таблица 5. Украинская версия словаря Лопатина
24
( )
N
310Y
310)( YN
N
YN
Случайное уменьшение Расчетное уменьшение
210Y NY
210 210Y
NY
410
0 84,57 1 0,214 1,0 0,0 0,214 1,0 0,0
5,08 79,50 0,94 0,203 0,949 5,487 0,150 0,701 0,000065
10,16 74,42 0,88 0,192 0,897 11,314 0,069 0,322 0,663742
15,24 69,35 0,82 0,187 0,874 13,122 0,009 0,042 1749,524
Параметр определяет «крутизну» экспоненциальной кривой, аппроксимирующей
ступенчатое распределение плотности вероятности обращений к словам БРС. Для 8
N
ISSN 1028-9763. Математичні машини і системи, 2017, № 2 47
распределение характеризуется отношением 20/80 (80% обращений к БС охватывают всего
20% слов), а для 24
N
– отношением 10/90 (с аналогичным смыслом) [3].
При «случайном» уменьшении БРС слова «переносились» в МРС случайным обра-
зом, при «расчетном» – в соответствии с результатами работы описанного выше алгоритма
(точечным подбором).
Моделирование проводилось для словаря Лопатина (табл. 2, 3) и его украиноязыч-
ной версии (табл. 4, 5). Абсолютную результативность работы алгоритма иллюстрируют
столбцы 7 (значения показателя дисфункции) и 9 (суммарная вероятность ложных сигна-
лов об ошибке), а относительную – столбцы 5 и 8. В частности, для
N
8
выборочное
исключение 6% слов БРС приводит к снижению значения показателя дисфункции на 18%
(русский словарь Лопатина) и 29% (украиноязычная версия словаря), а произвольное –
всего на 5,8% и 6,1 %. Соответствующие значения составляют 45,7 10 и 45,9 10 для
выборочного исключения и 25,7 10 и 26,1 10 для случайного.
5. Выводы
Построенные модели и приведенный алгоритм дают возможность для конкретного слова-
ря, избранного в качестве базового при формировании РОС системы проверки орфогра-
фии, получить данные о значении ожидаемого показателя дисфункции и возможностях его
уменьшения за счет приемлемого повышения вероятности ложного сигнала об ошибочно-
сти слова. Такие данные могут быть полезны для принятия обоснованных решений с уче-
том особенностей конкретной СПО. К соответствующим решениям относятся:
– выбор готового базового словаря, описывающего заданную предметную область;
– решение о возможности и целесообразности его улучшения на основе критериев
, с последующим формированием рабочего референтного словаря РОС;
– частные решения при адаптивном сопровождении РОС (пополнения, исключения)
на основе критерия (5).
Точность принимаемых решений зависит от точности знаний о востребованности
слов РОС. Грубая оценка дисфункции словаря может быть произведена для и
j
j
j
n
q
n
. С другой стороны, возможно и повышение точности рассмотренных моделей
за счет дополнительного учета вероятностной структуры конкретных ошибок в рамках
одного класса, например, транскрипций «соседних» (по клавиатуре) и «отдаленных» сим-
волов.
СПИСОК ЛИТЕРАТУРЫ
1. Системы проверки орфографии [Электронный ресурс]. – Режим доступа:
http://compress.ru/article.aspx?id=9511.
2. Проверка орфографии [Электронный ресурс]. – Режим доступа:
http://www.bestfree.ru/artide/computer/spell-check.php.
3. Литвинов В.А. Оценка контролирующих свойств базового словаря допустимых слов в системе
автоматического обнаружения ошибок пользователя / В.А. Литвинов, С.Я. Майстренко, К.В. Хур-
цилава // Математичні машини і системи. – 2014. – № 2. – С. 65 – 70.
4. Словари русского языка [Электронный ресурс]. – Режим доступа: http://speakrus.ru/dict.
5. Словарь Лопатина [Электронный ресурс]. – Режим доступа: http://royallib.ru/book/lo-
patin_vladimir/russkiy_ orfograficheskiy_slovar.html.
6. Knapsack problem [Электронный ресурс]. – Режим доступа: http://en.wikipedia.org/
wiki/Knapsack_problem.
http://compress.ru/
http://www.bestfree.ru/
http://en.wikipedia.org/
48 ISSN 1028-9763. Математичні машини і системи, 2017, № 2
7. Задача о рюкзаке: жадный алгоритм [Электронный ресурс]. – Режим доступа: http://traditio-
ru.org/wiki/Задача_о_рюкзаке: жадный_алгоритм.
Стаття надійшла до редакції 12.04.2017
|