Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению

Рассматривается модель процесса чекинга в системе проверки орфографии и соотношения, определяющие показатель дисфункции референтного словаря. Формулируется задача согласования критериев формирования референтного словаря, предлагается алгоритм ее решения, приводятся результаты моделирования алгоритма...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Математичні машини і системи
Дата:2017
Автори: Литвинов, В.А., Майстренко, С.Я., Хурцилава, К.В.
Формат: Стаття
Мова:Russian
Опубліковано: Інститут проблем математичних машин і систем НАН України 2017
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/125559
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению / В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава // Математичні машини і системи. — 2017. — № 2. — С. 39-48. — Бібліогр.: 7 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-125559
record_format dspace
spelling Литвинов, В.А.
Майстренко, С.Я.
Хурцилава, К.В.
2017-10-28T20:48:09Z
2017-10-28T20:48:09Z
2017
Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению / В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава // Математичні машини і системи. — 2017. — № 2. — С. 39-48. — Бібліогр.: 7 назв. — рос.
1028-9763
https://nasplib.isofts.kiev.ua/handle/123456789/125559
681.3
Рассматривается модель процесса чекинга в системе проверки орфографии и соотношения, определяющие показатель дисфункции референтного словаря. Формулируется задача согласования критериев формирования референтного словаря, предлагается алгоритм ее решения, приводятся результаты моделирования алгоритма на конкретных словарях украинского и русского языков.
Розглядається модель процесу чекінга в системі перевірки орфографії і співвідношення, що визначають показник дизфункції референтного словника. Формулюється задача узгодження критеріїв формування референтного словника, пропонується алгоритм її вирішення, наводяться результати моделювання алгоритму на конкретних словниках української і російської мов.
The checking process model in the system of orthography spellchecking and correlations which determine the index of dysfunction of the referential vocabulary is cosidered. The task of agreeing the criteria for forming the referential vocabulary is stated; its solution algorithm has been proposed; the results of algorithm modeling have been cited for specific vocabularies of the Ukrainian and Russian lan-guages.
ru
Інститут проблем математичних машин і систем НАН України
Математичні машини і системи
Інформаційні і телекомунікаційні технології
Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению
Дисфункція референтного словника системи перевірки орфографії і підхід до її зниження
Dysfunction of the referential vocabulary of the spelling checking system and the approach to its reduction
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению
spellingShingle Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению
Литвинов, В.А.
Майстренко, С.Я.
Хурцилава, К.В.
Інформаційні і телекомунікаційні технології
title_short Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению
title_full Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению
title_fullStr Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению
title_full_unstemmed Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению
title_sort дисфункция референтного словаря системы проверки орфографии и подход к ее снижению
author Литвинов, В.А.
Майстренко, С.Я.
Хурцилава, К.В.
author_facet Литвинов, В.А.
Майстренко, С.Я.
Хурцилава, К.В.
topic Інформаційні і телекомунікаційні технології
topic_facet Інформаційні і телекомунікаційні технології
publishDate 2017
language Russian
container_title Математичні машини і системи
publisher Інститут проблем математичних машин і систем НАН України
format Article
title_alt Дисфункція референтного словника системи перевірки орфографії і підхід до її зниження
Dysfunction of the referential vocabulary of the spelling checking system and the approach to its reduction
description Рассматривается модель процесса чекинга в системе проверки орфографии и соотношения, определяющие показатель дисфункции референтного словаря. Формулируется задача согласования критериев формирования референтного словаря, предлагается алгоритм ее решения, приводятся результаты моделирования алгоритма на конкретных словарях украинского и русского языков. Розглядається модель процесу чекінга в системі перевірки орфографії і співвідношення, що визначають показник дизфункції референтного словника. Формулюється задача узгодження критеріїв формування референтного словника, пропонується алгоритм її вирішення, наводяться результати моделювання алгоритму на конкретних словниках української і російської мов. The checking process model in the system of orthography spellchecking and correlations which determine the index of dysfunction of the referential vocabulary is cosidered. The task of agreeing the criteria for forming the referential vocabulary is stated; its solution algorithm has been proposed; the results of algorithm modeling have been cited for specific vocabularies of the Ukrainian and Russian lan-guages.
issn 1028-9763
url https://nasplib.isofts.kiev.ua/handle/123456789/125559
citation_txt Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению / В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава // Математичні машини і системи. — 2017. — № 2. — С. 39-48. — Бібліогр.: 7 назв. — рос.
work_keys_str_mv AT litvinovva disfunkciâreferentnogoslovarâsistemyproverkiorfografiiipodhodkeesniženiû
AT maistrenkosâ disfunkciâreferentnogoslovarâsistemyproverkiorfografiiipodhodkeesniženiû
AT hurcilavakv disfunkciâreferentnogoslovarâsistemyproverkiorfografiiipodhodkeesniženiû
AT litvinovva disfunkcíâreferentnogoslovnikasistemiperevírkiorfografííípídhíddoííznižennâ
AT maistrenkosâ disfunkcíâreferentnogoslovnikasistemiperevírkiorfografííípídhíddoííznižennâ
AT hurcilavakv disfunkcíâreferentnogoslovnikasistemiperevírkiorfografííípídhíddoííznižennâ
AT litvinovva dysfunctionofthereferentialvocabularyofthespellingcheckingsystemandtheapproachtoitsreduction
AT maistrenkosâ dysfunctionofthereferentialvocabularyofthespellingcheckingsystemandtheapproachtoitsreduction
AT hurcilavakv dysfunctionofthereferentialvocabularyofthespellingcheckingsystemandtheapproachtoitsreduction
first_indexed 2025-11-24T16:37:14Z
last_indexed 2025-11-24T16:37:14Z
_version_ 1850486646379642880
fulltext © Литвинов В.А., Майстренко С.Я., Хурцилава К.В., 2017 39 ISSN 1028-9763. Математичні машини і системи, 2017, № 2 ІНФОРМАЦІЙНІ І ТЕЛЕКОМУНІКАЦІЙНІ ТЕХНОЛОГІЇ УДК 681.3 В.А. ЛИТВИНОВ * , С.Я. МАЙСТРЕНКО * , К.В. ХУРЦИЛАВА * ДИСФУНКЦИЯ РЕФЕРЕНТНОГО СЛОВАРЯ СИСТЕМЫ ПРОВЕРКИ ОРФОГРАФИИ И ПОДХОД К ЕЕ СНИЖЕНИЮ * Институт проблем математических машин и систем НАН Украины, Киев, Украина Анотація. Розглядається модель процесу чекінга в системі перевірки орфографії і співвідношення, що визначають показник дизфункції референтного словника. Формулюється задача узгодження критеріїв формування референтного словника, пропонується алгоритм її вирішення, наводяться результати моделювання алгоритму на конкретних словниках української і російської мов. Ключові слова: помилки користувача, спелл-чекінг, референтний словник, задача «про ранець». Аннотация. Рассматривается модель процесса чекинга в системе проверки орфографии и соот- ношения, определяющие показатель дисфункции референтного словаря. Формулируется задача согласования критериев формирования референтного словаря, предлагается алгоритм ее реше- ния, приводятся результаты моделирования алгоритма на конкретных словарях украинского и русского языков. Ключевые слова: ошибки пользователя, спелл-чекинг, референтный словарь, задача «о ранце». Abstract. The checking process model in the system of orthography spellchecking and correlations which determine the index of dysfunction of the referential vocabulary is cosidered. The task of agreeing the criteria for forming the referential vocabulary is stated; its solution algorithm has been proposed; the results of algorithm modeling have been cited for specific vocabularies of the Ukrainian and Russian lan- guages. Keywords: user errors, spellchecking, referential vocabulary, knapsack task. 1. Введение В настоящее время системы проверки орфографии (СПО) являются как востребованным самостоятельным продуктом (ОРФО, Language Tool и др.), так и обязательным компонен- том текстовых редакторов, поисковых систем, почтовых клиентов, электронных словарей и т.п. [1, 2]. Центральный элемент таких систем – референтный орфографический словарь (РОС), содержащий «правильные» слова некой предметной области, с которыми сравни- ваются проверяемые слова. Имеющаяся в доступных источниках проблемно-ориентированная информация от- ражает, в основном, знания об инструментах СПО – функционал, технология, используе- мые словари, особенности использования и т.п. Лингвистические и лексикографические аспекты формирования РОС для СПО пока остаются без видимого внимания исследовате- лей, и пользователи располагают, в целом, лишь предоставляемыми возможностями об- новления РОС (добавления, исключения и т.п.). В предлагаемой статье, развивающей тематику [3], представлено изложение воз- можного подхода к определению качества РОС на основе оценки показателя его дисфунк- ции, связанной с принципиальной невозможностью полного обнаружения ошибок в про- веряемых словах. 2. Модель процесса чекинга Определим качество РОС двумя факторами: 40 ISSN 1028-9763. Математичні машини і системи, 2017, № 2 – способностью обнаруживать как можно больше наиболее вероятных (типовых) ошибок; – способностью выдавать как можно меньше ложных сообщений об ошибках. Первый фактор оценим показателем дисфункции РОС, который определим через значение ρ относительного количества слов, искаженных определенными ошибками и сов- павших с другими, реально допустимыми словами; соответствующие ошибки системой не обнаруживаются. Второй фактор оценим вероятностью отсутствия востребованного слова в РОС. Для уточнения понятия дисфункции и вопросов, связанных с ее количественной оценкой, рассмотрим следующую модель искажения слов и обнаружения ошибок (чекин- га). Для пояснения принятых обозначений рассмотрим следующую интерпретацию функций представленных на рис. 1 объектов. Представим генератор слов jA в виде некой урны, в которой находятся некие фиш- ки со словами jA ; значение j определяет относительное количество фишек с конкрет- ным словом jA . При заместительном извлечении фишек из урны (генерации последова- тельности проверяемых слов) фишки могут повредиться, причем конкретная фишка jA повреждается  j jA A с вероятностью jq . В выходном потоке слов генератора относительное количество jp поврежденных фишек jA определяется произведением j j jp p q  (с точностью до условий нормировки). Чекер сравнивает фишки ,j jA A c эталонными и отделяет поврежденные, причем некото- рая часть повреждений ( )r не распознается из-за того, что поврежденная фишка lA совпа- дает с эталонной sA . Показатель дисфункции определяет относительное количество не- независимые независимые Рис. 1. Схема вероятностной модели искажения слов Зис.1 независимые Безошибочные слова , 1 jp Генератор случай- ной последова- тельности слов Чекер ,j jA p Слова с обнаруженны- ми ошибками Слова с необнаружен- ными ошибками jA ,1jA r ,jA r РОС специфические ОШИБКИ … ISSN 1028-9763. Математичні машини і системи, 2017, № 2 41 обнаруженных повреждений (ошибок) по отношению к полному количеству поврежден- ных фишек (ошибочных слов). Определим величину через свойства слов ,j jA A словаря РОС. Обозначим через jr относительное количество необнаруживаемых ошибок в слове jA по отношению ко всем возможным ошибкам в этом слове. Тогда 1 N j j j r r p    . (1) Ошибки в словах jA разделим на 2 класса: определенные (специфические) ошибки с относительной долей P и произвольные ошибки с относительной долей (1 )P . Контро- лирующие свойства РОС по отношению к произвольным всевозможным ошибкам принци- пиально не поддаются учету и анализу, поскольку, если не накладывать ограничений на характер рассматриваемых ошибок, можно утверждать, что для каждого слова jA суще- ствуют ошибки, переводящие его в любое другое слово. Поэтому ограничимся рассмотре- нием показателя дисфункции  по отношению к первому классу ошибок, для общности разделив его на K подклассов с относительной долей, равной kP , с нормирующим усло- вием k k P P        . Тогда для (1) примем kj k j j k P r P      и , kj k j j k P r p P       (2) где kj – относительное количество необнаруживаемых ошибок подкласса k в слове jA по отношению к всевозможным ошибкам данного подкласса. Из очевидных соображений k j kj k j v V   , (3) где k jv – количество совпадений слова jA , искаженного ошибками подкласса k , с други- ми неискаженными словами A ; k jV – полное количество всевозможных искажений слова jA в подклассе ошибок k (количество вариаций ~ kjA ) [3]. Таким образом, выражения (2), (3) определяют принятый смысл и значение показа- теля дисфункции произвольного РС и произвольной функции jq . Для процесса последовательного ввода (передачи) символов проверяемых слов можно принять известное допущение о прямой зависимости вероятности искажения слова от его длины: j c jq n    , 42 ISSN 1028-9763. Математичні машини і системи, 2017, № 2 где c – статистическая вероятность искажения произвольного символа в процессе после- довательного ввода; jn – количество символов в слове jA ;  – нормирующий множитель. Тогда с учетом нормирующего условия 1.j j q  1 j j N j j n q n    . (4) В частном случае для jn const n  получим 1 jq N  . Если еще и , то нормированное значение jp тоже равно 1 N 3. Задача согласования критериев формирования РОС и подход к ее решению В настоящее время для одних и тех же предметных областей (в частности, понятий и слов украинского, русского и других естественных языков) существуют различные готовые ор- фографические словари, отличающиеся широтой охвата тезауруса (объемами) и контроли- рующими свойствами. Так, например, для русского языка в [3] были рассмотрены свойства «Словаря Зализняка» [4] ( N =92555 для оригинального словаря и N =84575 – для украин- ской версии), «Словаря Лопатина» [5] ( N =150213 и N =135401 – украинская версия), «Словаря русской литературы» [4] ( N =161730 и N =1292440 – украинская версия). Про- веденное моделирование показало, что из 1000 ошибочных слов, искаженных типовыми ошибками пользователя в процессах тайпинга, первый словарь не обнаруживает 5,4 слов, второй – 6,0, третий – 18,4. Показано, что уменьшение объема словаря при прочих равных условиях противоположным образом влияет на факторы качества – значения  и  . С одной стороны, за счет увеличения относительной избыточности представления слов и соответствующего уменьшения случайных совпадений ошибочных слов с допустимыми уменьшается показатель дисфункции  . С другой стороны, исключение из РОС слов с ненулевой востребованностью (вероятностью обращения) увеличивает значение  . Представим тезаурус T некой предметной области, состоящий из двух частей: дей- ствительной (видимой) и мнимой (скрытой). Действительная часть представляет собой конкретный реальный РОС, а мнимая (МРС) – часть слов T , не представленных в РОС, но потенциально востребованных. Задачу согласования критериев формирования РОС сформулируем, как задачу ис- ключения и перемещения в МРС слов исходного базового словаря БРС, которые больше других уменьшают  и меньше других увеличивают  Иными словами, речь идет о по- строении парето-оптимальной траектории значений  ,  по мере перемещения выбран- ных слов БРС  МРС с целью возможного выбора приемлемого сочетания  ,  . Результаты моделирования для ряда русских и украинских словарей, приведенные в [3], получены при использовании простого критерия «тупой силы» – исключения слова jA с минимальным значением вероятности обращения jp . В силу простоты критерия эти ре- зультаты иллюстрируют, скорее, возможное существование задачи совершенствования БС за счет исключения малозначимых слов, чем ее решение. ISSN 1028-9763. Математичні машини і системи, 2017, № 2 43 С целью формирования «точечного» критерия, оценивающего конкретный вклад потенциально исключаемых слов в значения факторов качества, рассмотрим следующий пример. Таблица 1. Исключение слов 1 0,2 0,2 57 2 0,2 0,2 316 3 0,15 0,15 676 4 0,15 0,15 516 5 0,1 0,1 311 6 0,1 0,1 428 7 0,05 0,05 328 8 0,05 0,05 119 1. Исключение нейтрального слова (в словаре это 119), k -искажения которого не вызывают совпадений (то есть необнаруживаемых ошибок с реальными словами, не уменьшают значения  , но увеличивают значение  . Следовательно, исключение нейтральных слов не входит в парето-оптимальные решения. 2. Для каждого слова s lA (например, 576) необнаруживаемые прямые k -искажения которого ( )l sA A вызывают совпадения со словами sA (в данном случае 676 и 516), существуют необнаруживаемые обратные k -искажения слов l sA (676, 516), совпадающие со словом lA . Это положение справедливо и для остальных классов рассматриваемых типовых ошибок тайнинга. Так, легко показать, что любой прямой транспозиции соседних симво- лов в слове s lA соответствует обратная транспозиция в слове l sA ; вставке символа в слове соответствует пропуск слова в слове .s lA 3. Исключение слова s lA (например, 516) уменьшает значение  за счет уменьше- ния количества совпадений обратных k -искажений слов l sA со словом lA (здесь слов 676, 316). Для пояснения этого положения рассмотрим потенциальные последствия исключе- ния слова, например, 311. В результате ошибка 316→311 будет обнаруживаться, но по- скольку слово 316 остается в РС, ошибка 311→316 остается необнаруживаемой. Из приведенной в табл. 1 структуры совпадений k -искажений видно, что среднее абсолютное значение количества необнаруживаемых ошибок равно 1,5s абс j j j s p v    . Будем искать слово, исключение которого с учетом положения 3 дает наименьшее отно- шение l абс P      . В гипотетическом словаре табл. 1 это слово 4A (516), для которого Р =0,15, абс =0,4 и l =0,375. В результате исключения слова 4A из РОС aбс =1,1 и  =0,15. Приведенные качественные рассуждения обобщает следующий критерий соответ- ствия (~), который может быть положен в основу пошагового алгоритма решения задачи выбора для исключения слова lA : Пусть jn const n  , 8N , 1K ( k -искажения ограничены однократными транскрипциями). Соответствующий гипотетический «словарь», упорядоченный по убыванию jp , представлен в таблице. Как видно из таблицы, в приведенном словаре не обнаруживаются однократные транскрипции 576↔676, 576↔516 и т.д. Таблица иллюстрирует следующие положения. 44 ISSN 1028-9763. Математичні машини і системи, 2017, № 2 ~ min , ,l ks l l l l k s k sl ks p v A p p V           (5) где ksV – полное количество всевозможных k -искажений слов sA . В приведенной постановке задачу можно рассматривать как некоторое обобщение задачи «о ранце» (Knapsack Problem [5]), а пошаговый алгоритм еѐ решения на основе (1) – как разновидность «жадного» алгоритма GA (Greedy algorithm [6]), в котором в рюкзак помещаются предметы с максимальным отношением цены (в нашем случае  ) к весу ( )lp . Рассматриваемая задача отличается от классической Knapsack Problem тем, что там цена и вес предметов остаются постоянными в процессе укладки рюкзака, а в нашем слу- чае цена предметов, оставшихся после частичной загрузки рюкзака, может меняться в за- висимости от того, что было загружено перед этим. Последнее связано с тем, что исключе- ние слова lA изменяет распределение последствий возможных k -искажений в оставшейся части РОС. 4. Алгоритм решения задачи В основу алгоритма решения поставленной задачи положен алгоритм GA, адаптированной к отмеченным особенностям, – зависимости параметров (цены и веса) от шага решения. Общая схема алгоритма приведена на рис. 2. Приведенные на рис. 2 дополнитель- ные обозначения имеют следующие смысл и значения. ПП – промежуточный пул объемом m слов, в который помещаются слова jA – кандидаты на исключение на данном шаге; ДТ – диагностическая таблица дисфункций слов jA ; lB – слова ПП; LC – исключенные слова. Корректировка Рис. 2. Обобщенная схема алгоритма ПП МРС Lp  БРС, ДТ, РОС , ,j j jA p p 1j jp p  1...j N , ,l l lA p p 1...l m 1l lp p  , ,L L LA p p 1...L Y ISSN 1028-9763. Математичні машини і системи, 2017, № 2 45 На начальном шаге в ПП из БРС перемещается m слов с минимальными значения- ми . Далее на каждом очередном шаге выполняется следующая последовательность дей- ствий. 1. Поиск в ПП слова l LB C , для которого выполняется (4), и перенесение его в МРС. 2. Исключение слова l l LA B C  из БРС и корректировка параметров ДТ. 3. Расчет значений  ,  . 4. Пополнение пула очередным словом, переход к п. 1. Физически БРС, ПП и МРС являются единым целым, объединенным вместе с диа- гностической таблицей ДТ. В частности, БРС представляет собой упорядоченный список слов jA . ДТ содержит информацию о возможных совпадениях слов jA , искаженных рас- сматриваемыми типовыми ошибками, с другими словами, а ПП и МРС реализуются соот- ветствующими метками – признаками. На рис. 3 приведен пример фрагмента интегрированного БРС для словаря Лопатина. Рис. 3. Фрагмент интегрированного БРС для словаря Лопатина Результаты моделирования алгоритма приведены в табл. 2–5. Данные таблицы имеют следующий смысл. 46 ISSN 1028-9763. Математичні машини і системи, 2017, № 2 Таблица 2. Словарь Лопатина 8 ( ) N   310Y 310)( YN N YN  Случайное уменьшение Расчетное уменьшение   210Y    NY   210   210Y    NY   410 0 84,57 1 0,277 1,0 0 0,277 1,0 0,0 5,08 79,50 0,94 0,261 0,942 5,660 0,225 0,812 4,00 10,16 74,42 0,88 0,246 0,888 11,909 0,156 0,563 28,38 15,24 69,35 0,82 0,232 0,838 17,901 0,062 0,224 299,36 16,16 68,41 0,81 0,229 0,827 19,064 0,035 0,126 632,099 Таблица 3. Словарь Лопатина 24 ( ) N   310Y 310)( YN N YN  Случайное уменьшение Расчетное уменьшение   210Y    NY   210   210Y    NY   410 0 84,57 1 0,269 1,0 0,0 0,269 1,0 0,0 5,08 79,50 0,94 0,252 0,937 6,229 0,221 0,822 0,000014 10,16 74,42 0,88 0,236 0,877 12,525 0,149 0,554 0,003772 15,24 69,35 0,82 0,221 0,822 17,957 0,053 0,197 9,72321 16,18 68,40 0,81 0,219 0,814 19,009 0,011 0,041 229,8810 Таблица 4. Украинская версия словаря Лопатина 8 ( ) N   310Y 310)( YN N YN  Случайное уменьшение Расчетное уменьшение   210Y    NY   210   210Y    NY   410 0 84,57 1 0,214 1,0 0,0 0,214 1,0 0,0 5,08 79,50 0,94 0,201 0,939 6,077 0,152 0,710 5,881 10,16 74,42 0,88 0,188 0,879 12,150 0,070 0,327 108,187 11,65 72,93 0,86 0,185 0,864 14,001 0,027 0,126 449,207 Таблица 5. Украинская версия словаря Лопатина 24 ( ) N   310Y 310)( YN N YN  Случайное уменьшение Расчетное уменьшение   210Y    NY   210   210Y    NY   410 0 84,57 1 0,214 1,0 0,0 0,214 1,0 0,0 5,08 79,50 0,94 0,203 0,949 5,487 0,150 0,701 0,000065 10,16 74,42 0,88 0,192 0,897 11,314 0,069 0,322 0,663742 15,24 69,35 0,82 0,187 0,874 13,122 0,009 0,042 1749,524 Параметр  определяет «крутизну» экспоненциальной кривой, аппроксимирующей ступенчатое распределение плотности вероятности обращений к словам БРС. Для 8 N   ISSN 1028-9763. Математичні машини і системи, 2017, № 2 47 распределение характеризуется отношением 20/80 (80% обращений к БС охватывают всего 20% слов), а для 24 N   – отношением 10/90 (с аналогичным смыслом) [3]. При «случайном» уменьшении БРС слова «переносились» в МРС случайным обра- зом, при «расчетном» – в соответствии с результатами работы описанного выше алгоритма (точечным подбором). Моделирование проводилось для словаря Лопатина (табл. 2, 3) и его украиноязыч- ной версии (табл. 4, 5). Абсолютную результативность работы алгоритма иллюстрируют столбцы 7 (значения показателя дисфункции) и 9 (суммарная вероятность ложных сигна- лов об ошибке), а относительную – столбцы 5 и 8. В частности, для N 8  выборочное исключение 6% слов БРС приводит к снижению значения показателя дисфункции на 18% (русский словарь Лопатина) и 29% (украиноязычная версия словаря), а произвольное – всего на 5,8% и 6,1 %. Соответствующие значения  составляют 45,7 10 и 45,9 10 для выборочного исключения и 25,7 10 и 26,1 10 для случайного. 5. Выводы Построенные модели и приведенный алгоритм дают возможность для конкретного слова- ря, избранного в качестве базового при формировании РОС системы проверки орфогра- фии, получить данные о значении ожидаемого показателя дисфункции и возможностях его уменьшения за счет приемлемого повышения вероятности ложного сигнала об ошибочно- сти слова. Такие данные могут быть полезны для принятия обоснованных решений с уче- том особенностей конкретной СПО. К соответствующим решениям относятся: – выбор готового базового словаря, описывающего заданную предметную область; – решение о возможности и целесообразности его улучшения на основе критериев  ,  с последующим формированием рабочего референтного словаря РОС; – частные решения при адаптивном сопровождении РОС (пополнения, исключения) на основе критерия (5). Точность принимаемых решений зависит от точности знаний о востребованности слов РОС. Грубая оценка дисфункции словаря может быть произведена для и j j j n q n   . С другой стороны, возможно и повышение точности рассмотренных моделей за счет дополнительного учета вероятностной структуры конкретных ошибок в рамках одного класса, например, транскрипций «соседних» (по клавиатуре) и «отдаленных» сим- волов. СПИСОК ЛИТЕРАТУРЫ 1. Системы проверки орфографии [Электронный ресурс]. – Режим доступа: http://compress.ru/article.aspx?id=9511. 2. Проверка орфографии [Электронный ресурс]. – Режим доступа: http://www.bestfree.ru/artide/computer/spell-check.php. 3. Литвинов В.А. Оценка контролирующих свойств базового словаря допустимых слов в системе автоматического обнаружения ошибок пользователя / В.А. Литвинов, С.Я. Майстренко, К.В. Хур- цилава // Математичні машини і системи. – 2014. – № 2. – С. 65 – 70. 4. Словари русского языка [Электронный ресурс]. – Режим доступа: http://speakrus.ru/dict. 5. Словарь Лопатина [Электронный ресурс]. – Режим доступа: http://royallib.ru/book/lo- patin_vladimir/russkiy_ orfograficheskiy_slovar.html. 6. Knapsack problem [Электронный ресурс]. – Режим доступа: http://en.wikipedia.org/ wiki/Knapsack_problem. http://compress.ru/ http://www.bestfree.ru/ http://en.wikipedia.org/ 48 ISSN 1028-9763. Математичні машини і системи, 2017, № 2 7. Задача о рюкзаке: жадный алгоритм [Электронный ресурс]. – Режим доступа: http://traditio- ru.org/wiki/Задача_о_рюкзаке: жадный_алгоритм. Стаття надійшла до редакції 12.04.2017