Оцінювання контролювальних і коригувальних властивостей референтного словника системи перевірки і виправлення орфографії
The models for evaluating the properties of the reference orthographic dictionary (ROD) of the spelling check and correction system are considered. RODs’ detecting properties are determined by the probability of not detecting the typical error and the probability of a false error notification. The t...
Saved in:
| Date: | 2019 |
|---|---|
| Main Authors: | , , , |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
2019
|
| Subjects: | |
| Online Access: | https://journal.iasa.kpi.ua/article/view/153835 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | System research and information technologies |
| Download file: | |
Institution
System research and information technologies| _version_ | 1867334346051944448 |
|---|---|
| author | Lytvynov, Valery A. Maystrenko, Svitlana Ya. Khurtsylava, Konstantin V. Kostenko, Sviatoslav V. |
| author_facet | Lytvynov, Valery A. Maystrenko, Svitlana Ya. Khurtsylava, Konstantin V. Kostenko, Sviatoslav V. |
| author_institution_txt_mv | [
{
"author": "Valery A. Lytvynov",
"institution": "Інститут проблем математичних машин і систем НАН України, Київ"
},
{
"author": "Svitlana Ya. Maystrenko",
"institution": "Інститут проблем математичних машин і систем НАН України, Київ"
},
{
"author": "Konstantin V. Khurtsylava",
"institution": "Інститут проблем математичних машин і систем НАН України, Київ"
},
{
"author": "Sviatoslav V. Kostenko",
"institution": "Національний університет харчових технологій, Київ"
}
] |
| author_sort | Lytvynov, Valery A. |
| baseUrl_str | http://journal.iasa.kpi.ua/oai |
| collection | OJS |
| datestamp_date | 2020-08-11T22:49:24Z |
| description | The models for evaluating the properties of the reference orthographic dictionary (ROD) of the spelling check and correction system are considered. RODs’ detecting properties are determined by the probability of not detecting the typical error and the probability of a false error notification. The task is formulated to optimize a ROD according to Pareto, a step by step algorithm is proposed for solving it, the results of the experimental evaluation of the algorithm’s effectiveness are given. RODs’ correcting properties are determined by the probabilities of the correct and erroneous correction of the typical errors. Models of their estimation are offered and simulation results are given for the selected dictionaries. It has been shown that ROD optimized for detecting properties also has better correcting properties. In general, the obtained results can be used as the basis for a tool for the comparative assessment, selection and improvement of the potential properties of a specific ROD for a given subject matter. |
| doi_str_mv | 10.20535/SRIT.2308-8893.2019.2.05 |
| first_indexed | 2025-07-17T10:24:19Z |
| format | Article |
| fulltext |
В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава, С.В. Костенко, 2019
Системні дослідження та інформаційні технології, 2019, № 2 49
УДК 681.3
DOI: 10.20535/SRIT.2308-8893.2019.2.05
ОЦІНЮВАННЯ КОНТРОЛЮВАЛЬНИХ І КОРИГУВАЛЬНИХ
ВЛАСТИВОСТЕЙ РЕФЕРЕНТНОГО СЛОВНИКА
СИСТЕМИ ПЕРЕВІРКИ І ВИПРАВЛЕННЯ ОРФОГРАФІЇ
В.А. ЛИТВИНОВ, С.Я. МАЙСТРЕНКО, К.В. ХУРЦИЛАВА, С.В. КОСТЕНКО
Анотація. Розглянуто моделі оцінювання властивостей референтного орфо-
графічного словника (РОС) системи перевірки і виправлення орфографії.
Контролювальні властивості РОС визначаються ймовірністю невиявлення ти-
пової помилки і ймовірністю хибного сигналу про помилку. Поставлено завдан-
ня оптимізації РОС за Парето, запропоновано покроковий алгоритм його
розв’язання, наведено дані експериментальної оцінки результативності алго-
ритму для обраних словників російської й української мов. Коригувальні влас-
тивості визначаються ймовірностями правильного і неправильного коригуван-
ня типових помилок. Запропоновано моделі оцінювання, наведено результати
моделювання для обраних словників. Показано, що РОС, оптимізований за ко-
нтролювальними властивостями, має і кращі коригувальні властивості. Отри-
мані результати можуть бути покладені в основу інструменту порівняльної
оцінки, вибору і поліпшення потенційних властивостей конкретного РОС для
заданої предметної галузі.
Ключові слова: помилка тайпінгу, перевірка орфографії, контролювальні вла-
стивості, коригувальні властивості.
ВСТУП
Натепер системи перевірки орфографії (СПО) є як затребуваним самостій-
ним продуктом (ОРФО, Language Tool та ін.), так і обов’язковим компонен-
том текстових редакторів, пошукових систем, поштових клієнтів, елект-
ронних словників та ін. Центральний елемент таких систем — референтний
орфографічний словник, що містить коректні слова деякої предметної галу-
зі, з якими порівнюються слова, що перевіряються. Наявна в доступних
джерелах інформація відображає передусім орієнтовані на користувача ві-
домості про інструменти СПО — функціонал, технологію роботи, особливо-
сті використання тощо.
Разом з виявленням орфографічних помилок багато загальних і спеціа-
лізованих текстових редакторів та інших програм оброблення текстів про-
понують функцію автоматичного і напівавтоматичного виправлення поми-
лок. Короткий огляд основних методів автоматичного виправлення і
нечіткого пошуку (fuzzy string search) на основі оцінки відстаней Левенш-
тейна і Дамерау–Левенштейна наведено у працях [1, 2]. Типовим рішенням
щодо вибору алгоритмів для конкретної реалізації є використання фонетич-
них алгоритмів [3, 4]. Дослідження різних модифікацій таких алгоритмів та
альтернативних алгоритмічних підходів і систем (наприклад, [5, 6]) відобра-
жені у ряді публікацій в пострадянських і зарубіжних джерелах.
В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава, С.В. Костенко
ISSN 1681–6048 System Research & Information Technologies, 2019, № 2 50
Загалом публікації за темою присвячені користувацьким та алгоритмі-
чним аспектам проблематики СПО. Питанням же кількісної оцінки і можли-
вого поліпшення потенційних контролювальних і коригувальних властивос-
тей самих РОС мало приділяється уваги.
Запропонована робота спрямована на часткове заповнення відзначеного
пропуску щодо типових помилок тайпінгу.
Надалі використаємо загальні позначення:
jA — слово РОС )..1( Nj ;
jA — слово РОС, спотворене помилкою;
q — алфавіт символів РОС.
Поділимо різноманітні помилки jA на дві групи: ансамбль специфіч-
них помилок K , що підлягають коригуванню, та інші помилки. Традиційно
(та у відповідності зі складовими показника відстані Дамерау–Левенштейна)
віднесемо до ансамблю K типові орфографічні помилки тайпінгу — одно-
кратні транскрипції 1E , уставки 2E і випадіння 3E символу та суміжні
транспозиції 4E . Властивості РОС стосовно різноманітних довільних поми-
лок принципово не обліковують і не аналізують, оскільки, якщо не наклада-
ти обмежень на характер цих помилок, можна стверджувати, що для кожно-
го слова jA існують помилки, що переводять його у будь-яке інше слово.
Тому контролювальні і коригувальні властивості РОС надалі оцінюватиме-
мо щодо здатності виявляти і виправляти саме базові помилки ансамблю K .
КОНТРОЛЮВАЛЬНІ ВЛАСТИВОСТІ РОС
Дисфункція референтного словника
Контролювальні властивості РОС визначаються ймовірністю невиявлення
помилки в результаті випадкового збігу спотвореного слова з деяким сто-
роннім допустимим словом. Груба оцінка значення )0(
нвQ такої ймовірності
може ґрунтуватися на припущенні щодо випадкового характеру спотворень
слова jA та зіставленні потужностей зQ заборонених (відсутніх у РОС)
комбінацій символів і рQ допустимих [7]:
,
зД
Д)0(
нв nq
N
QQ
Q
Q
(1)
де n — середня кількість символів у слові.
Для РОС із цілеспрямовано введеною надмірністю і відносно рівномір-
ним (випадковим) розподілом N реальних слів серед nq різних значень
комбінацій n символів в алфавіті q — зокрема для кодових довідників —
оцінка (1) може бути достатньо близькою до істини. Для природномовних
слів (слів у текстовому редакторі, ключового слова в пошуковій системі і
т.ін.) і специфічних спотворень, викликаних типовими помилками користу-
вача, припущення про випадковий характер розподілів значень слів та їх
Оцінювання контролювальних і коригувальних властивостей референтного словника …
Системні дослідження та інформаційні технології, 2019, № 2 51
можливих спотворень не виконуються. Тут найбільш імовірні прості спо-
творення можуть дати значно більшу кількість неправдивих збігів з реально
існуючими словами і, відповідно, набагато гіршу результативність контролю.
Реальні значення Q і нвQ можуть бути оцінені безпосередньо за допо-
могою моделі, що імітує процес спотворення кожного зі слів РОС помилка-
ми ансамблю K та виявлення цих помилок шляхом пошуку збігів помилко-
вих слів із словами РОС.
Повновибіркове )...1( Nj моделювання проведено у праці [7] для
імовірно рівнозатребуваних слів трьох словників російської мови і адапто-
ваних україномовних версій цих словників, сформованих за допомогою ро-
сійсько-української конвертації (перекладу). Зокрема, досліджені Словари
русского языка. Словарь А.А. Зализняка [8] (СЗр — російський, СЗу —
українська версія), Лопатин Владимир — Русский орфографический словарь
[9] (СЛр — російський, СЛу — українська версія), Словари русского язика.
Словарь русской литературы [10] (СРЛр — російський, СРЛЗу — україн-
ська версія). Для орієнтовних оцінок імовірності kP помилок класів kE
взято значення із праці [11].
Результати моделювання наведено у табл. 1
Т а б л и ц я 1 . Результати повновибіркового моделювання
k kP
СЗр
92555N
61,9n
СЛр
150213N
06,10n
СРЛр
161730N
44,8n
СЗу
84575N
49,9n
СЛу
135401N
93,9n
СРЛу
129244N
31,8n
1 0,56 0,39 0,41 1,2 0,28 0,28 1,0
2 0,16 0,06 0,07 0,27 0,04 0,04 0,15
3 0,12 2,14 2,16 8,8 1,39 1,40 5,2
4 0,06 0,95 1,55 1,2 0,91 1,22 1,1
нвQ 0,9 0,54 0,6 1,84 0,38 0,41 0,77
Як видно з даних, наведених у табл. 1, реальні значення нвQ значно
(на порядки) перевищують ідеалізовані значення )0(
нвQ . Це є наслідком того,
що ланцюжок взаємних спотворень слів типу , , , , фолголмолполкол
долтолвол , , дає значно більшу кількість збігів зі словником, ніж, напри-
клад, випадковий малоймовірний гіпотетичний перехід крахкол ,
у результаті контролювальна здатність словників як російської, так і україн-
ської мови виявляється значно нижчою, ніж можна було б припустити, ви-
ходячи з виразу (1). При цьому різні словники мають контролювальні влас-
тивості, що помітно розрізняються. Так, із 1000 випадкових помилкових
слів словників, спотворених помилками 1, 2, 3, 4 (у вказаній пропорції),
у середньому не виявляються 5,4 помилок для Словника Залізняка і 18,4 по-
милки для Словника російської літератури. Виходячи з отриманих даних,
можна припустити, що діапазон значень нвQ для досліджених словників
визначається як чисто лінгвістичними чинниками (мовою, структурою), так
і різницею в обcягах. Зменшення обсягу словника за інших однакових умов
прогнозовано повинно зменшувати нвQ за рахунок явного збільшення від-
В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава, С.В. Костенко
ISSN 1681–6048 System Research & Information Technologies, 2019, № 2 52
носної надмірності подання слів і відповідного зменшення можливостей ви-
падкових збігів помилкових слів з допустимими. З іншого боку, вилучення
зі словника слів з ненульовою затребуваністю збільшує ймовірність хибних
повідомлень про помилки. Тому комплексна оцінка контролювальних влас-
тивостей РОС, що оцінює його якість, визначається двома чинниками [12]:
– здатністю виявляти якнайбільше найімовірніших (типових) помилок;
– здатністю виявляти якнайменше хибних повідомлень про помилки.
Перший чинник оцінимо показником дисфункції РОС, який визначимо
через значення ρ відносної кількості слів, що спотворені певними помилка-
ми і збіглися з іншими, реально допустимими словами; відповідні помилки
системою не виявляються.
Другий чинник оцінимо ймовірністю відсутності запитаного слова
у РОС.
Для уточнення і розвитку поняття дисфункції і питань, пов’язаних з її
кількісною оцінкою, розглянемо наступну модель спотворення слів і вияв-
лення помилок (чекінгу) (рис. 1).
Для пояснення позначень розглянемо інтерпретацію функцій, поданих
на рис. 1 об’єктів.
Уявимо генератор слів jA у вигляді деякої урни, у якій містяться деякі
фішки зі словами jA ; значення , jp визначає відносну кількість фішок
з конкретним словом jA . Під час замісного витягання фішок з урни (гене-
рації послідовності слів) фішки можуть пошкодитися, причому конкретна
фішка jA пошкоджується ) ( jj AA з імовірністю jq .
У вихідному потоці слів генератора відносна кількість jp пошкодже-
них фішок jA визначається добутком jjj qpp (з точністю до умов норму-
вання). Чекер порівнює фішки jA , jA з еталонними і виокремлює пошко-
довільні специфічні
ПОМИЛКИ
P1P
1P 2P
kP
РОС
,j jp q
Безпомилкові слова
,j jA p
jA
,jA r
,1jA r
Слова з виявленими
помилками
,1j jA p
Слова з невиявленими
помилками
Чекер
Генератор
випадкової
послідовності слів
NjAj 1,
Рис. 1. Схема ймовірнісної моделі спотворення слів
Оцінювання контролювальних і коригувальних властивостей референтного словника …
Системні дослідження та інформаційні технології, 2019, № 2 53
джені, причому деяка частина пошкоджень r не розпізнається, оскільки
пошкоджена фішка lA збігається з деякою еталонною sA . Показник дисфу-
нкції r визначає відносну кількість невиявлених пошкоджень (помилок) до
повної кількості пошкоджених фішок (помилкових слів).
Визначимо величину r через властивості слів jA , jA словника РОС.
Позначимо через jr відносну кількість невиявлених помилок у слові jA до
всіх можливих помилок у цьому слові. Тоді
jj
N
j
prr
1
. (2)
За визначенням, обмежуючись помилками ансамблю K , для виразу (2)
беремо
P
P
r kkj
k
jj
та
,
P
P
pr kkj
j
kj
(3)
де kj — відносна кількість невиявлених помилок підкласу k до різномані-
тних помилок цього підкласу у слові jA .
З очевидних міркувань
,
kj
kj
kj V
v
(4)
де kjv — кількість збігів слова , jA спотвореного помилками підкласу k , з
іншими словами РОС; kjV — повна кількість різноманітних спотворень
слова jA у підкласі помилок k (кількість варіацій kjA
~
) [7].
Таким чином, вирази (3), (4) визначають зміст та значення показника
дисфункції довільного РОС та довільної функції jq .
Для процесу послідовного введення (передавання) символів слів, що
перевіряються, можна скористатися відомим допущенням про пряму залеж-
ність імовірності спотворення слова від його довжини:
jсj nq ,
де с — статистична ймовірність спотворення довільного символу у проце-
сі послідовного введення; jn — кількість символів у слові jA ; — норму-
вальний множник.
Тоді з урахуванням нормувальної умови 1 j
j
q
.
1 j
N
j
j
j
n
n
q
В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава, С.В. Костенко
ISSN 1681–6048 System Research & Information Technologies, 2019, № 2 54
В окремому випадку для nn j const отримаємо
N
q j
1
.
Якщо ще і
N
p j
1
, то нормоване значення jp також дорівнює .
1
N
Задача узгодження критеріїв якості РОС та підхід до її розв’язання
Нині для одних і тих самих предметних галузей (зокрема, понять і слів укра-
їнської, російської та інших природних мов) існують різні готові орфографі-
чні словники, що розрізняються широтою охоплення тезауруса (обсягами) і
контролювальними властивостями. Зменшення обсягу словника за інших
однакових умов протилежним чином впливає на показники якості — зна-
чення і . З одного боку, за рахунок збільшення відносної надмірності
подання слів і відповідного зменшення випадкових збігів помилкових слів з
допустимими зменшується показник дисфункції , з другого боку, вилу-
чення з РОС слів з ненульовою затребуваністю (імовірністю звернення) збі-
льшує значення .
Уявимо тезаурус T деякої предметної галузі, складеним з двох час-
тин — дійсної (видимої) і уявної (прихованої). Дійсна частина є конкретним
реальним РОС, а уявна (УРОС) — частина слів T , не поданих у РОС, але
потенційно затребуваних. Задача узгодження критеріїв якості РОС форму-
люється як завдання вилучення і переміщення в УРОС слів, які більше за
інших зменшують і менше ніж інші збільшують . Інакше кажучи, ідеть-
ся про побудову парето-оптимальної траєкторії значень , у міру пере-
міщення вибраних слів в УРОС з метою можливого вибору прийнятного
поєднання , . Формування точкового критерію, що оцінює конкретний
внесок слів, які потенційно вилучаються, у значення показників якості, ґру-
нтується на таких положеннях:
1. Вилучення нейтрального слова, помилки у якому не спричиняють
збігів з реальними словами, не зменшують значення , але збільшують зна-
чення . Отже, вилучення таких слів не входить у парето-оптимальні
розв’язки.
2. Для кожного слова lA , пряма помилка sl AA у якому викликає
збіг зі словами sA (наприклад, },,{ лечьувлечьслечьвлечь ), існують обер-
нені помилки, що не виявляються, ls AA ( влечьлечьувлечьслечь },,{ ).
3. Із вилученням слова lA (зокрема, влечь) обернені помилки будуть
виявлятися (оскільки слова влечь не буде у РОС), а прямі помилки sl AA —
ні (оскільки затребуваність слова влечь не зникає, а пов’язані слова sA за-
лишаються у РОС).
Наведені якісні міркування узагальнює критерій відповідності (~), який
може бути покладений в основу покрокового алгоритму розв’язання задачі
вибору для вилучення слова lA :
,,min~
s
v
sp
k
l
ks
ks
k
l
l
l
l
l Vp
p
A (5)
Оцінювання контролювальних і коригувальних властивостей референтного словника …
Системні дослідження та інформаційні технології, 2019, № 2 55
де ksV — повна кількість різноманітних спотворень слів sA у класах поми-
лок kE .
У наведеній постановці задачу можна розглядати як деяке узагальнення
задачі рюкзака (Knapsack Problem [13]), а покроковий алгоритм її
розв’язання на основі критерію (5) — як різновид жадібного алгоритму GA
(Greedy algorithm [14]), у якому в рюкзак поміщають предмети з максималь-
ним співвідношенням ціни (у розгляданому випадку ) до маси ( lp ). Ця
задача відрізняється від класичної Knapsack Problem тим, що там ціна і маса
предметів залишаються постійними в процесі укладання рюкзака, а в цьому
випадку ціна предметів, що залишилися після часткового завантаження рю-
кзака, може змінюватися залежно від того, що було завантажено перед цим.
Останнє зумовлено тим, що вилучення слова lA змінює розподіл наслідків
можливих помилок у частині РОС, що залишилася.
Результати моделювання алгоритму GA з критерієм (5) наведено
у табл. 2, 3.
Т а б л и ц я 2 . Словник Лопатіна
N
8
N
24
Випадкове
зменшення
Розрахункове
зменшення
Випадкове
зменшення
Розрахункове
зменшення N
YN
)()( / NY 210 )()( / NY 410 )()( / NY 210 )()( / NY 410
1 1,0 0 1,0 0,0 1,0 0,0 1,0 0,0
0,94 0,942 5,660 0,812 4,00 0,937 6,229 0,822 0,000014
0,88 0,888 11,909 0,563 28,38 0,877 12,525 0,554 0,003772
0,82 0,838 17,901 0,224 299,36 0,822 17,957 0,197 9,72321
0,81 0,827 19,064 0,126 632,099 0,814 19,009 0,041 229,8810
Таблиця 3. Українська версія словника Лопатіна
N
8
N
24
Випадкове
зменшення
Розрахункове
зменшення
Випадкове
зменшення
Розрахункове
зменшення N
YN
)()( / NY 210 )()( / NY 210 )()( / NY 210 )()( / NY 210
1 1,0 0,0 1,0 0,0 1,0 0,0 1,0 0,0
0,94 0,939 6,077 0,710 5,881 0,949 5,487 0,701 0,000065
0,88 0,879 12,150 0,327 108,187 0,897 11,314 0,322 0,663742
0,86 0,864 14,001 0,126 449,207 0,874 13,122 0,042 1749,524
Дані табл. 2 мають такий зміст. Параметр визначає крутизну експо-
ненціальної кривої, що апроксимує ступеневий розподіл щільності ймовір-
ності звернень до слів. Для N
8 розподіл характеризується відношенням
20/80 (80% звернень охоплює всього 20% слів), а для N
24 — співвід-
ношенням 10/90 (з аналогічним змістом) [12].
В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава, С.В. Костенко
ISSN 1681–6048 System Research & Information Technologies, 2019, № 2 56
У разі випадкового зменшення Y слів переносилися в УРОС випадко-
вим чином, за розрахункового — відповідно до результатів роботи описано-
го вище алгоритму (точковим підбиранням).
Моделювання проводилося для словника Лопатіна (табл. 2) і його укра-
їномовної версії (табл. 3). Дані таблиць ілюструють відносну результатив-
ність роботи алгоритму. Зокрема, наприклад, для
N
8
вибіркове вилучен-
ня 6% слів призводить до зниження значення показника дисфункції на 18%
(російський словник Лопатіна) і 29% (україномовна версія словника), а ви-
падкове — усього на 5,8% і 6,1 %. Відповідне значення становить
107.5 4 і 109.5 4 для вибіркового вилучення і 107.5 2 і 2101.6 для ви-
падкового.
КОРИГУВАЛЬНІ ВЛАСТИВОСТІ РОС
Загальні положення. Логіко-імовірнісна модель коригування
Уведемо такі поняття та позначення:
),( j
i
j AAd — функція відстані, що визначає в деякій метриці орфогра-
фічну близькість слів jA та слів РОС )1( Ni ;
),(1 j
i
j AAF — функція попереднього вибору, що визначає множину слів
РОС, для яких max),( dAAd i
j ;
l
j — слова РОС, для яких );,(min),ˆ( j
i
j
i
j
l
j AAdAAd ;1 zl
,1,0z Для 0z таких слів не знайдено;
)ˆ(2 j
l
j AAF функція преференцій, що визначає вибір із z слів конкре-
тного слова l
j для коригування (заміни) помилкового слова jA .
Унаслідок коригування помилкового слова jA можливі такі резуль-
тати:
помилка jj AA не виявлена (фінальна подія нвjS , імовірність ре-
зультату нвjQ );
помилка jj AA виявлена (подія 0S ), знайдено одне або більше
слів-кандидатів )1(ˆ mAil
j , функція ),ˆ(2 j
l
j AAF визначила правильний вибір,
коригування виконано правильно (фінальна подія пкjS , імовірність резуль-
тату пкjQ );
помилка jj AA виявлена, 1z , функція )ˆ(2 j
il
j AAF визначила
помилковий розв’язок, коригування виконано помилково (фінальна подія
хкjS , імовірність результату хкjQ );
Оцінювання контролювальних і коригувальних властивостей референтного словника …
Системні дослідження та інформаційні технології, 2019, № 2 57
помилка jj AA виявлена, не знайдено жодного )0( z слова-
кандидата, для якого max),( dAAd j
i
j ; коригування не виконується (фіналь-
на подія нкjS , імовірність результату нкjQ ).
Мета побудови й аналізу конкретної логіко-імовірнісної моделі полягає
у визначенні для конкретного РОС значень імовірності відповідних резуль-
татів, що визначають коригувальні властивості РОС для окремих слів і сло-
вника в цілому.
Унаслідок реалізації процесу коригування можливі різні рішення щодо
вибору функцій відстаней і переваг. Для оцінювання властивостей РОС кон-
кретизуємо узагальнену модель (рис. 2) для таких умов.
1. Визначаючи функцію попереднього вибору, обмежимося базовими
помилками ансамблю K , що за визначенням звужують зону пошуку варіан-
тів коригування помилкового слова.
2. Покладемо
випадку. іншому в
слова (вваріація яcппотворен
вторинне; дедля
;
_
~
,
~
0
),(
max
0
d
A
AAA
AAd j
i
j
i
j
i
j
j
i
j (6)
Рівність 0),(0 j
i
j AAd означає, що варіація i
jA
~
збігається зі словом
i
jA . У межах уведених умов відстань Даме-
рау–Левенштейна мінімальна для слів i
jA , з
якими збігається варіація i
jA
~
у класах
41 EE ансамблю коригованих помилок.
3. Для функції переваги визначимо
найгірше рішення — рівноймовірний вибір
із z збігів. Оскільки генеруються усі варіа-
ції помилкового слова, принаймні один збіг
тут забезпечений, тобто 1z .
Логіко-імовірнісну модель, конкретизовану для прийнятих умов, наве-
дено на рис. 3.
Додаткові позначення для окремих подій:
0jS і нвjS — помилка виявлена/не виявлена;
1jS і 12 jj SS — помилка належить/не належить до ансамблю K відпо-
відно;
k
jS 1 — помилка належить до класу kE ;
11jS і 1112 jj SS — помилка однозначна )1( z / неоднозначна )1( z ;
k
jS 1пк — помилка класу kE коригується однозначно правильно;
k
jS 121 — фактично багатозначній помилці класу kE відповідає перший
)1( l зі збігів;
)( jj AS нвjS
0jS
пкjS
xкjS нкjS
Рис. 2. Узагальнена модель подій
В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава, С.В. Костенко
ISSN 1681–6048 System Research & Information Technologies, 2019, № 2 58
k
j
k
j SS 11122 — фактично багатозначній помилці класу k відповідають
збіги з zl 2 .
Таким чином,
;11101пк
k
j
k
jj
k
j SSSS
))()( 12112101110пк
k
j
k
j
k
j
k
j
k
j
k
jj
k
j SSSSSSSS
))(()( 121121110
k
j
k
j
k
j
k
jj SSSSS ;
,12212101лк
k
j
k
j
k
j
k
j
k
j SSSSS
.лкпк,лкпк,
k
jj
kj
SS
Натурно-імітаційне моделювання
Натурно-імітаційне моделювання
процесу спотворення та коригу-
вання слів РОС ґрунтується на
генерації для кожного слова jA
можливих коригованих помилок
ансамблю K, перевірці можливо-
сті виявлення помилки, генерації
для кожної помилки можливих
варіантів коригування (зворотних
спотворень) і пошуку збігів
у словнику. При цьому ймовір-
ність проміжних і фінальних по-
дій визначається де-факто для
конкретного словника через від-
повідні кількості збігів.
Приклади можливих окре-
мих випадків для конкретного
слова аракAj : :
мракAjks , помилка не ви-
являється;
аеакAjks : , }{
~
аракAjks ,
1z , помилка коригується одно-
значно;
пракAjks : , ,{
~
аракAjks
},,,, паркрактракмракбрак ,
6z , за випадкового вибору по-
милка коригується правильно
з імовірністю 1/6 і неправильно
з імовірністю 5/6;
Рис. 3. Логіко-імовірнісна модель визначення
коригувальних властивостей РОС моделювання
k
jS 122
k
jS 11
нS
нкS
нкjS
пкS
н0jS)( jj AS
0jS
1jS
2jS
k
jS 1
k
jS 12
k
jS 1пк
k
jS 121
хкjS пкjS
k
jS хк k
jS пк
хкS
Оцінювання контролювальних і коригувальних властивостей референтного словника …
Системні дослідження та інформаційні технології, 2019, № 2 59
ааркAjks : , },,,,,{
~
арактаркпаркмарккаркбаркAjks , 6z , за ви-
падкового вибору помилка коригується правильно з імовірністю 1/6 і непра-
вильно з імовірністю 5/6;
Оскільки під час моделювання генеруються усі можливі кориговані
помилки та всі варіанти їх виправлення, результат моделювання (зокрема,
значення ймовірності пкQ і хкQ ) повністю характеризує коригувальні влас-
тивості конкретного РОС.
Моделювання виконано для наборів словників і значень kP . У зв’язку
з відносно високою обчислювальною трудомісткістю процесу генерації по-
милок і варіантів їх виправлення оброблялися випадковим чином сформова-
ні вибірки обсягом 20000 слів (з оцінкою відповідної довірчої ймовірності).
Результати моделювання наведено у табл. 4.
Т а б л и ц я 4 . Результати моделювання для натурно-імітаційного коригу-
вання
Словник пк0Q лк0Q пкQ хкQ нвQ нкQ
Словник російської літератури, 161730N 0,7549 0,14430,74100,1416 0,0184 ~01
Словник Лопатіна, 150213N 0,8282 0,07090,82330,0706 0,0060 ~01
Словник Залізняка, 92555N 0,8281 0,07100,82360,0706 0,0054 ~01
Словник Лопатіна скорочений, 84575N 0,8518 0,04740,84830,0472 0,0038 ~01
Українська версія Словника Лопатіна
84575N
0,8610 0,03820,85850,0381 0,0028 ~01
Довірчі інтервали для отримання середніх загальних значень пк0Q ,
хк0Q , обчислені на основі припущення про близький до нормального закон
розподілу окремих значень пк0jQ , xк0jQ , з імовірністю 0,99 становлять
%5,0 для словника російської літератури, %3,0 для словників Лопатіна
та Залізняка і %2,0 для скорочених словників.
Із даних табл. 4 видно, що коригувальні властивості так само, як і конт-
ролювальні помітно розрізняються для різних словників. Так, для словника
російської літератури з 1000 довільних помилок не виявляється 18,4 по-
милки, правильно коригується 741 помилка і неправильно — 141 помилка.
Відповідні значення для скороченого словника Лопатіна складають 2,5;
850 і 47.
Розкид значень пкQ , хкQ для різних словників пояснюється двома
чинниками. З одного боку, словник меншого обсягу за інших однакових
умов повинен мати більш високі значення пкQ і менші хкQ за рахунок
більшого значення відносної надмірності подання слів і відповідного змен-
шення можливостей збігу згенерованих варіантів виправлення помилок
з реальними словами словника. Так, для словника Лопатіна обсягом 92555
слів значення 8233,0пк Q , а для скороченого (випадковим чином) цього ж
словника обсягом 84575 8483,0пк Q . Із другого боку, відіграють роль і чи-
сто лінгвістичні чинники (мова, тезаурус). Так, для української версії скоро-
ченого словника Лопатіна, що має такий самий обсяг і такий самий набір
В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава, С.В. Костенко
ISSN 1681–6048 System Research & Information Technologies, 2019, № 2 60
слів, що і російськомовна версія 8594,0пк Q . У цілому, як видно з даних
табл. 4, існує явно високий ступінь кореляції між значеннями нвQ і хкQ .
Цей чинник у поєднанні із впливом відносної надмірності словника дає під-
стави для таких попередніх висновків:
– словник, оптимізований (за Парето) щодо контролювальних власти-
востей, має і кращі коригувальні властивості;
– показник відносної надмірності словника може бути використаний як
основа для оцінювання його коригувальних властивостей.
Натурно-аналітична модель коригувальних властивостей
Зупинимося детальніше на значенні згаданого поняття «відносна надмір-
ність словника» і його кількісного зв’язку з контролювальними і коригува-
льними властивостями. Розглянемо ідеалізований гіпотетичний словник об-
сягом N слів однакової довжини n символів в алфавіті q.
На рис. 4 показано лінійну модель такого словника, у якій nq активних
комірок позначають різноманітні значення комбінацій n символів, а виділе-
ні комірки jA позначають комбінації, що відповідають реально існуючим
словам ( Nj 1 ).
Акт перевірки правильності слова jA , спотвореного довільною помил-
кою jj AA , можна розглядати тут як акт очищення комірки jA і «кидан-
ня» комбінації jA на регістр комірок. За припущення випадкового характе-
ру розподілу активних комірок в інтервалі 1..0 nq імовірність потрапити
комбінацією jA в зайняту комірку nq
Nr , а відносну надмірність словни-
ка C можна оцінити як .11
nq
N
rC
Чим більше N за інших однакових умов, тим більше r , тим гірші і
контролювальні властивості (вища ймовірність випадкового збігу помилко-
вого слова з реально існуючим) та коригувальні властивості (більша кіль-
кість рівноправних варіантів коригування помилкового слова, зокрема варі-
антів повного збігу).
Для функції (6) і гіпотетичного ідеалізованого словника можлива ймо-
вірнісна оцінка кількості випадкових збігів довільного помилкового слова
(генерованої варіації) зі словником на основі моделі незалежних випробу-
вань Бернуллі і відповідної формули біноміального розподілу
,)1(),,( gVgg
V rrCVrgP (7)
1A
2A NAjA
1nq0
Рис. 4. Лінійна інтерпретація словника
Оцінювання контролювальних і коригувальних властивостей референтного словника …
Системні дослідження та інформаційні технології, 2019, № 2 61
де ),,( VrgP — імовірність отримання точно g випадкових збігів у резуль-
таті V дослідів, у кожному з яких імовірність сприятливого наслідку дорів-
нює r ; g
VC — кількість сполучень з V за g .
Проте для реального словника така оцінка значень пкQ , хкQ є надто
грубою, оскільки випробування не є однорідними: згенеровані варіації так
само, як і слова словника, мають різну довжину і різну лексикографічну вра-
зливість у сенсі можливостей взаємних збігів. Для підвищення адекватності
моделі (7) регістр (рис. 4) слід розглядати у двох вимірах (номер комірки і
довжина комірки), а значення V і r — індивідуально для кожного слова сло-
вника і варіації помилкового слова.
Припустімо заданими ймовірність j1 збігу зі словником помилкового
слова та ймовірність j2 збігу варіації помилкового слова jA
~
. Тоді
у відповідності з логічними виразами для подій (див. рис. 2) і моделі випро-
бувань (7) можемо записати такі вирази для ймовірності окремих подій:
PQ jj 1нв ;
)1,,(
1
1
)1()1( 2
1
1
1
2нвпк jj
V
g
V
jjj VgP
g
PQQ
j
j ;
)1,,(
1
)1( 2
1
1
нвпк
jj
V
g
jj VgP
g
g
PQQ
j
;
)1)(1( нвнк PQQ jj .
Під час виведення виразів ураховано, що із z можливих збігів слів, що
перевіряються, одне правильне, таке, що відповідає спотвореному слову jA ,
і g випадкових збігів — неправильні. Правильним є коригування в разі,
якщо 0g (імовірність події
1
22 )1()1,,0(
jV
jjj VP , або якщо з 1g
варіантів зроблено правильний вибір (імовірність
1
1
g
).
Для визначення величин j1 і j2 розглянемо таку інтерпретацію за-
лежності значень імовірності )(xxj збігу зі словником x разів спотвореного
типовою помилкою слова jA (рис. 5).
Якщо 0x , то 10 j , оскільки неспотворене слово безперечно збіга-
ється зі словником.
Якщо 1x , величина j1 дорівнює відносній кількості збігів слів jA ,
спотворених типовими помилками. Ця величина визначається безпосеред-
ньо за допомогою імітаційної моделі (табл. 4).
Якщо 1 jmx , величина mj асимптотично прагне до значення
nj
j
j
q
nN
r
)(
,
В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава, С.В. Костенко
ISSN 1681–6048 System Research & Information Technologies, 2019, № 2 62
де )(ˆ
jnN — кількість слів словника довжиною 1jn .
На підставі попередніх міркувань для 2x покладемо
,
)(ˆ
: 112
nj
j
jjj
q
nN
де коефіцієнт визначає крутизну спадан-
ня кривої )(xxj .
Для розрахунків за моделлю беремо
)(1
j
k
kj
j nV
v
,
де kjv — кількість збігів зі словником слова jA , спотвореного типовою по-
милкою kE ; jj VnV )( — сумарна кількість різноманітних типових поми-
лок слова довжиною jn символів;
)(
)(
)1(
)(
)(
)1(
)(
)()(
)()(ˆ 3241
j
j
j
j
j
j
j
jj
jj nV
nV
nN
nV
nV
nN
nV
nVnV
nNnN
,
де )( jnN , )1( jnN , )1( jnN — фактична кількість слів довжиною jn ,
1jn , 1jn ; 87,0 .
У виразі для )(ˆ
jnN взято до уваги зміну довжини слова jA , спотворе-
ного пропусками та вставками символів, а значення коефіцієнта підбира-
лось у процесі моделювання (за траєкторією 87,086,088,09,0 ).
xj
j2
j1
x
1
31 2
1
jm
j
r
0
Рис. 5. Графічна інтерпретація залежності значення ймовірності збігу зі словником
Оцінювання контролювальних і коригувальних властивостей референтного словника …
Системні дослідження та інформаційні технології, 2019, № 2 63
Результати моделювання наведено в табл. 5.
Т а б л и ц я 5 . Результати моделювання для натурно-аналітичного кори-
гування
Словник пк0Q пкQ хкQ нвQ
Словник російської літератури, 161730N 0,7490 0,7355 0,1470 0,0184
Словник Лопатіна, 150213N 0,8373 0,8323 0,0628 0,0600
Словник Залізняка, 92555N 0,8383 0,8338 0,0614 0,0054
Словник Лопатіна скорочений, 84575N 0,8608 0,8576 0,0394 0,0038
Українська версія скороченого Словника
Лопатіна, 84575N
0,8698 0,8674 0,0300 0,0028
Як видно з даних табл. 2, результати розрахунків за аналітичною мо-
деллю близькі до результатів табл. 4. Так, відхилення значень основного
показника коригувальних властивостей пкQ становить %75,0 для словника
російської літератури і не перевищує %2,1 для інших словників. При цьому
оброблення словника потребує на порядки менше часу — для використову-
ваного малопотужного комп’ютера і послідовної схеми моделювання час
оброблення одного слова за імітаційною моделлю становило 6 с, а за аналі-
тичною моделлю — 0,04 с. Крім того, відхилення могло б бути ще меншим
(до %1 ) за ретельнішого підбору значень . Із порівняльних даних випро-
бувань і їх інтерполяційних оцінок випливає, що оптимальне значення, яке
відповідає мінімальному сумарному відхиленню, 867,0865,0 . Істотно,
що відхилення результатів мало залежить від лінгвістичної структури і зміс-
ту словників, їх обсягів і мов. Подібна «універсальність» дає підстави для
підтвердження правомірності пропонованого підходу до побудови аналітич-
ної моделі. У свою чергу, це означає, що аналітична модель може бути по-
кладена в основу оцінки коригувальних властивостей щодо більш складних
помилок, що мають відстань Дамерау–Левенштейна більшу, ніж типові по-
милки.
ВИСНОВКИ
1. Подані моделі можуть бути покладені в основу інструменту
порівняльної оцінки потенційних контролювальних і коригувальних властиво-
стей конкретного орфографічного словника щодо типових помилок тайпінгу.
В оцінюванні контролювальних властивостей (див. табл. 1–3) моделі та
алгоритм дають можливість для конкретного словника отримати дані про
значення очікуваного показника дисфункції і можливості його зменшення за
рахунок прийнятного підвищення ймовірності неправдивого сигналу про
помилковість слова. Такі дані можуть бути корисні для прийняття обґрунто-
ваних рішень для вибору готового словника, що описує задану предметну
галузь, оцінювання можливості та доцільності його поліпшення з урахуван-
ням критеріїв , та адаптивного супроводу РОС (поповнення, вилучення)
на основі критерію (5).
Під час оцінювання коригувальних властивостей моделі дозволяють
оцінити потенційне співвідношення ймовірності правильного і неправиль-
ного коригування. При цьому аналітична модель може слугувати для попе-
редніх рішень, а імітаційна для уточнених оцінок, повнота яких визначаєть-
ся урахуванням усіх можливих типових помилок і внеску кожного слова
В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава, С.В. Костенко
ISSN 1681–6048 System Research & Information Technologies, 2019, № 2 64
в підсумкове значення пкQ . За заданих імовірностей спотворення слів jA
цей внесок може бути відповідним чином зважений.
2. Існує високий ступінь кореляції між значеннями показників контро-
лювальних і коригувальних властивостей нвQ і пкQ . З одного боку, це дає
підстави вважати, що словники, поліпшені щодо контролювальних власти-
востей, мають і відповідно кращі коригувальні властивості, з другого боку,
говорити про деякий загальний показник орфографічної вразливості слов-
ника щодо як до окремих типових помилок, так і їх кратних комбінацій.
Якщо взяти за основу прийняту інтерпретацію залежності значень
імовірності збігу зі словником від кратності типової помилки (рис. 5) —
інтерпретацію, правомірність якої попередньо підтверджують результати
моделювання, тоді як загальний показник можна брати значення зваженої
ймовірності збігу довільного слова, спотвореного типовою помилкою ан-
самблю K. Кількісна оцінка можливого зв’язку цього показника з коригу-
вальними властивостями словника за іншими функціями попереднього ви-
бору і преференцій (наприклад, властивих застосуванню фонетичних
алгоритмів) потребує окремого дослідження.
ЛІТЕРАТУРА
1. Нечёткий поиск в тексте и словаре [Електронний ресурс]. — Режим доступу:
https://habrahabr.ru/post/114997/.
2. Расстояние Левенштейна в MySQL и алгоритмы нечёткого поиска средствами
PHP [Електронний ресурс]. — Режим доступу: https://habrahabr.ru/post/342434/.
3. Фонетические алгоритмы [Електронний ресурс]. — Режим доступу:
https://habrahabr.ru/post/114947/.
4. Phonetic Algorithms [Електронний ресурс]. — Available at:
https://deparkes.co.uk/2017/12/01/phonetic-algorithms/.
5. Hodge V.J. A comparison of standard spell checking algorithms and a novel binary
neural approach / V.J. Hodge, J. Austin // IEEE Transactions on Knowledge and
Data Engineering. — 2003. — С. 1073–1081.
6. de Amorim R.C. Effective Spell Checking Methods Using Clustering Algorithms
[Електронний ресурс] / R.C. de Amorim, M. Zampieri. — Available at:
http://www.aclweb.org/anthology/R13-1023.
7. Литвинов В.А. Оценка контролирующих свойств базового словаря допустимых
слов в системе автоматического обнаружения ошибок пользователя /
В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава // Математичні машини i
системи. — 2014. — № 2. — С. 65–70.
8. Словари русского языка [Електронний ресурс]. — Режим доступу:
http://speakrus.ru/dict.
9. Словарь Лопатина [Електронний ресурс]. — Режим доступу: http://royallib.
ru/book/ lopatin_vladimir/russkiy_orfograficheskiy_slovar.html.
10. Словари русского языка [Електронний ресурс]. — Режим доступу:
http://speakrus.ru/dict.
11. Литвинов В.А. Контроль достоверности и восстановления информации
в человеко-машинных системах / В.А. Литвинов, В.В. Крамаренко. — К.:
Техніка, 1986. — 200 с.
12. Литвинов В.А. Дисфункция референтного словаря системы проверки орфогра-
фии и подход к ее снижению / В.А. Литвинов, С.Я. Майстренко, К.В. Хур-
цилава // Математичнi машини i системи. — 2017. — № 2. — С. 39–48.
13. Knapsack problem [Електронний ресурс]. — Режим доступа:
http://en.wikipedia.org/wiki/Knapsack_problem.
14. Задача о рюкзаке: жадный алгоритм [Електронний ресурс]. — Режим доступу:
http://traditioru.org/wiki/Задача_о_рюкзаке: жадный_алгоритм.
Надійшла 15.01.2019
|
| id | journaliasakpiua-article-153835 |
| institution | System research and information technologies |
| keywords_txt_mv | keywords |
| language | Ukrainian |
| last_indexed | 2025-07-17T10:24:19Z |
| publishDate | 2019 |
| publisher | The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" |
| record_format | ojs |
| resource_txt_mv | journaliasakpiua/10/e9479972d1a9808f85bb98f71e946310.pdf |
| spelling | journaliasakpiua-article-1538352020-08-11T22:49:24Z Evaluation of the detection and correction properties of the reference dictionary of the system for checking and correcting orthography Оценка контролирующих и корректирующих свойств референтного словаря системы проверки и исправления орфографии Оцінювання контролювальних і коригувальних властивостей референтного словника системи перевірки і виправлення орфографії Lytvynov, Valery A. Maystrenko, Svitlana Ya. Khurtsylava, Konstantin V. Kostenko, Sviatoslav V. typing errors spell checking spelling dictionary detecting properties correcting properties ошибки тайпинга проверка орфографии контролирующие свойства корректирующие свойства помилка тайпінгу перевірка орфографії контролюючі властивості коригувальні властивості The models for evaluating the properties of the reference orthographic dictionary (ROD) of the spelling check and correction system are considered. RODs’ detecting properties are determined by the probability of not detecting the typical error and the probability of a false error notification. The task is formulated to optimize a ROD according to Pareto, a step by step algorithm is proposed for solving it, the results of the experimental evaluation of the algorithm’s effectiveness are given. RODs’ correcting properties are determined by the probabilities of the correct and erroneous correction of the typical errors. Models of their estimation are offered and simulation results are given for the selected dictionaries. It has been shown that ROD optimized for detecting properties also has better correcting properties. In general, the obtained results can be used as the basis for a tool for the comparative assessment, selection and improvement of the potential properties of a specific ROD for a given subject matter. Рассмотрены модели оценивания свойств референтного орфографического словаря (РОС) системы проверки и исправления орфографии. Контролирующие свойства РОС определяются вероятностью необнаружения типовой ошибки и вероятностью ложного сигнала об ошибке. Поставлена задача оптимизации РОС по Парето, предложен пошаговый алгоритм ее решения, приведены данные экспериментальной оценки результативности алгоритма для выбранных словарей русского и украинского языков. Корректирующие свойства определяются вероятностями правильной и ложной коррекции типовых ошибок. Предложены модели оценки, приведены результаты моделирования для выбранных словарей. Показано, что РОС, оптимизированный по контролирующих свойствам, обладает и лучшими корректирующими свойствами. Полученные результаты могут быть положены в основу инструмента сравнительной оценки, выбора и улучшения потенциальных свойств конкретного РОС для заданной предметной области. Розглянуто моделі оцінювання властивостей референтного орфографічного словника (РОС) системи перевірки і виправлення орфографії. Контролювальні властивості РОС визначаються ймовірністю невиявлення типової помилки і ймовірністю хибного сигналу про помилку. Поставлено завдання оптимізації РОС за Парето, запропоновано покроковий алгоритм його розв’язання, наведено дані експериментальної оцінки результативності алгоритму для обраних словників російської й української мов. Коригувальні властивості визначаються ймовірностями правильного і неправильного коригування типових помилок. Запропоновано моделі оцінювання, наведено результати моделювання для обраних словників. Показано, що РОС, оптимізований за контролювальними властивостями, має і кращі коригувальні властивості. Отримані результати можуть бути покладені в основу інструменту порівняльної оцінки, вибору і поліпшення потенційних властивостей конкретного РОС для заданої предметної галузі. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2019-06-25 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/153835 10.20535/SRIT.2308-8893.2019.2.05 System research and information technologies; No. 2 (2019); 49-64 Системные исследования и информационные технологии; № 2 (2019); 49-64 Системні дослідження та інформаційні технології; № 2 (2019); 49-64 2308-8893 1681-6048 uk https://journal.iasa.kpi.ua/article/view/153835/175463 Copyright (c) 2021 System research and information technologies |
| spellingShingle | помилка тайпінгу перевірка орфографії контролюючі властивості коригувальні властивості Lytvynov, Valery A. Maystrenko, Svitlana Ya. Khurtsylava, Konstantin V. Kostenko, Sviatoslav V. Оцінювання контролювальних і коригувальних властивостей референтного словника системи перевірки і виправлення орфографії |
| title | Оцінювання контролювальних і коригувальних властивостей референтного словника системи перевірки і виправлення орфографії |
| title_alt | Evaluation of the detection and correction properties of the reference dictionary of the system for checking and correcting orthography Оценка контролирующих и корректирующих свойств референтного словаря системы проверки и исправления орфографии |
| title_full | Оцінювання контролювальних і коригувальних властивостей референтного словника системи перевірки і виправлення орфографії |
| title_fullStr | Оцінювання контролювальних і коригувальних властивостей референтного словника системи перевірки і виправлення орфографії |
| title_full_unstemmed | Оцінювання контролювальних і коригувальних властивостей референтного словника системи перевірки і виправлення орфографії |
| title_short | Оцінювання контролювальних і коригувальних властивостей референтного словника системи перевірки і виправлення орфографії |
| title_sort | оцінювання контролювальних і коригувальних властивостей референтного словника системи перевірки і виправлення орфографії |
| topic | помилка тайпінгу перевірка орфографії контролюючі властивості коригувальні властивості |
| topic_facet | typing errors spell checking spelling dictionary detecting properties correcting properties ошибки тайпинга проверка орфографии контролирующие свойства корректирующие свойства помилка тайпінгу перевірка орфографії контролюючі властивості коригувальні властивості |
| url | https://journal.iasa.kpi.ua/article/view/153835 |
| work_keys_str_mv | AT lytvynovvalerya evaluationofthedetectionandcorrectionpropertiesofthereferencedictionaryofthesystemforcheckingandcorrectingorthography AT maystrenkosvitlanaya evaluationofthedetectionandcorrectionpropertiesofthereferencedictionaryofthesystemforcheckingandcorrectingorthography AT khurtsylavakonstantinv evaluationofthedetectionandcorrectionpropertiesofthereferencedictionaryofthesystemforcheckingandcorrectingorthography AT kostenkosviatoslavv evaluationofthedetectionandcorrectionpropertiesofthereferencedictionaryofthesystemforcheckingandcorrectingorthography AT lytvynovvalerya ocenkakontroliruûŝihikorrektiruûŝihsvojstvreferentnogoslovarâsistemyproverkiiispravleniâorfografii AT maystrenkosvitlanaya ocenkakontroliruûŝihikorrektiruûŝihsvojstvreferentnogoslovarâsistemyproverkiiispravleniâorfografii AT khurtsylavakonstantinv ocenkakontroliruûŝihikorrektiruûŝihsvojstvreferentnogoslovarâsistemyproverkiiispravleniâorfografii AT kostenkosviatoslavv ocenkakontroliruûŝihikorrektiruûŝihsvojstvreferentnogoslovarâsistemyproverkiiispravleniâorfografii AT lytvynovvalerya ocínûvannâkontrolûvalʹnihíkoriguvalʹnihvlastivostejreferentnogoslovnikasistemiperevírkiívipravlennâorfografíí AT maystrenkosvitlanaya ocínûvannâkontrolûvalʹnihíkoriguvalʹnihvlastivostejreferentnogoslovnikasistemiperevírkiívipravlennâorfografíí AT khurtsylavakonstantinv ocínûvannâkontrolûvalʹnihíkoriguvalʹnihvlastivostejreferentnogoslovnikasistemiperevírkiívipravlennâorfografíí AT kostenkosviatoslavv ocínûvannâkontrolûvalʹnihíkoriguvalʹnihvlastivostejreferentnogoslovnikasistemiperevírkiívipravlennâorfografíí |