Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок

Показано, що введення фільтрації варіантів виправлення помилок за семантичним критерієм до схеми орфокорекції забезпечує високий рівень точності роботи програмного коректора та уможливлює його функціонування у реальному часі. Відступ від традиційної послідовності аналізу текстових даних дозволяє про...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Системні дослідження та інформаційні технології
Дата:2009
Автори: Тарасенко, В.П., Михайлюк, А.Ю., Заболотня, Т.М.
Формат: Стаття
Мова:Українська
Опубліковано: Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України 2009
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/42221
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок / В.П. Тарасенко, А.Ю. Михайлюк, Т.М. Заболотня // Систем. дослідж. та інформ. технології. — 2009. — № 3. — С. 21–30. — Бібліогр.: 14 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860247705158156288
author Тарасенко, В.П.
Михайлюк, А.Ю.
Заболотня, Т.М.
author_facet Тарасенко, В.П.
Михайлюк, А.Ю.
Заболотня, Т.М.
citation_txt Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок / В.П. Тарасенко, А.Ю. Михайлюк, Т.М. Заболотня // Систем. дослідж. та інформ. технології. — 2009. — № 3. — С. 21–30. — Бібліогр.: 14 назв. — укр.
collection DSpace DC
container_title Системні дослідження та інформаційні технології
description Показано, що введення фільтрації варіантів виправлення помилок за семантичним критерієм до схеми орфокорекції забезпечує високий рівень точності роботи програмного коректора та уможливлює його функціонування у реальному часі. Відступ від традиційної послідовності аналізу текстових даних дозволяє проводити контекстно-асоціативну обробку оточення спотвореного слова на будь-якому етапі орфокорекції. Запропоновано спосіб оцінювання точності роботи алгоритму виправлення помилок. Визначені актуальні питання реалізації контекстноорієнтованої орфокорекції, які мають бути вивчені при подальшій розробці подібних програмних засобів. Показано, что внесение фильтрации вариантов исправления ошибок по семантическому критерию в схему орфокоррекции обеспечивает высокий уровень точности работы программного корректора, а также делает возможным его функционирование в режиме реального времени. Отклонение от традиционной последовательности анализа текстовых данных позволяет проводить контекстно-ассоциативную обработку окружения искаженного слова на любом этапе орфокоррекции. Предложен способ оценки точности работы алгоритма исправления ошибок. Определены актуальные вопросы реализации контекстноориентированной орфокоррекции, которые должны быть изучены при дальнейшей разработке подобных программных средств. Addition of filtration for versions of errors correction (by the semantic criterion) into the spelling correction scheme provides a high level of programmatic proof-reader accuracy and makes its functioning possible. The deviation from the traditional sequence of text data analysis allows one to perform a context-associative processing the surroundings of a distorted word at any stage of spelling correction. Techniques for evaluation of the correction algorithm accuracy are offered and up-to-date problems concerning realization of the context-oriented spelling correction are determined. They will be studied in further work.
first_indexed 2025-12-07T18:39:13Z
format Article
fulltext © В.П. Тарасенко, А.Ю. Михайлюк, Т.М. Заболотня, 2009 Системні дослідження та інформаційні технології, 2009, № 3 21 УДК 004.421 КОНТЕКСТНО-АСОЦІАТИВНИЙ ПІДХІД ДО АВТОМАТИЗОВАНОГО ВИПРАВЛЕННЯ ОРФОГРАФІЧНИХ ПОМИЛОК В.П. ТАРАСЕНКО, А.Ю. МИХАЙЛЮК, Т.М. ЗАБОЛОТНЯ Показано, що введення фільтрації варіантів виправлення помилок за сема- нтичним критерієм до схеми орфокорекції забезпечує високий рівень точності роботи програмного коректора та уможливлює його функціонування у реаль- ному часі. Відступ від традиційної послідовності аналізу текстових даних дозволяє проводити контекстно-асоціативну обробку оточення спотвореного слова на будь-якому етапі орфокорекції. Запропоновано спосіб оцінювання точності роботи алгоритму виправлення помилок. Визначені актуальні питан- ня реалізації контекстноорієнтованої орфокорекції, які мають бути вивчені при подальшій розробці подібних програмних засобів. ВСТУП Характер постановки та шляхи вирішення задачі автоматизованого виправ- лення орфографічних помилок у текстових даних різняться у залежності від масштабу та призначення відповідних інформаційних систем. Основою функціонування більшості автокоректорів є використання морфологічних моделей частин природної мови та результатів синтаксичного аналізу кон- тексту слова з помилкою. Перевірка узгодженості за змістом варіантів ви- правлення спотвореного слова з його контекстним оточенням, як правило, не входить до функціональних профілів систем реального часу через висо- кий ступінь складності алгоритмів її реалізації. Сучасні досягнення у галузі створення lingware дозволяють вивести на якісно новий рівень розв’язання задачі встановлення семантичної відповідності варіантів виправлення спотвореного слова його контексту. У даній роботі доводиться доцільність використання контекстно- асоціативного підходу до відбору варіантів виправлення під час проведення орфокорекції в реальному часі, а також пропонується модифікація загально- прийнятої схеми корекції для підвищення точності виправлення орфографі- чних помилок прикладними програмними засобами із покращенням часових характеристик їх роботи. СУЧАСНИЙ СТАН ПРОБЛЕМИ ПОБУДОВИ ПРОГРАМНИХ АВТОКОРЕКТОРІВ На сьогоднішній день більшість систем автоматичної обробки текстів (АОТ), зокрема орфокоректори, працюють відповідно до класичної послідо- вної схеми аналізу даних (морфологічний, синтаксичний, семантичний рівні аналізу, причому «результати кожного попереднього рівня є вихідною В.П. Тарасенко, А.Ю. Михайлюк, Т.М. Заболотня ISSN 1681–6048 System Research & Information Technologies, 2009, № 3 22 інформацією для наступних» [1]). Звідси перевірка семантичної узгоджено- сті варіантів виправлення із контекстним оточенням спотвореного слова (якщо вона взагалі передбачена) має розміщуватися наприкінці алгоритму орфокорекції [2]. Але, не дивлячись на сучасний прогрес у галузі побудови lingware, розробники систем реального часу найчастіше взагалі уникають використання семантичного аналізу даних та віддають перевагу підвищен- ню ефективності роботи коректорів за рахунок створення нових алгоритмів формального підбору варіантів виправлення спотвореного слова. На жаль, у такий спосіб не вдається істотно покращити точність отримуваних результа- тів, тому коректори повертають користувачеві список усіх варіантів виправ- лення, які задовольняють формальним критеріям близькості слів, але за змі- стом не відповідають контексту [3–5]. У таких випадках остаточний вибір правильного варіанту покладається на людину. Між тим, фахівці у галузі побудови систем АОТ наголошують на відсу- тності функціональної ізольованості етапів аналізу природномовного тексту. Згідно з цим морфологічний аналіз може не лише надавати вихідні дані для синтаксичного та семантичного аналізу, але й використовувати результати їх роботи [6–9]. Звідси, на думку авторів, порушення класичної схеми аналі- зу тексту повинно сприяти використанню у повній мірі можливостей семан- тичного рівня аналізу для підвищення точності та швидкості роботи про- грамного забезпечення виправлення орфографічних помилок. ВИХІДНА СХЕМА АВТОМАТИЗОВАНОГО ВИПРАВЛЕННЯ ОРФОГРАФІЧНИХ ПОМИЛОК Загальноприйнята схема автоматизованої корекції спотвореного слова [10] передбачає реалізацію таких етапів: • висунення гіпотез (вірогідних варіантів виправлення помилки); • перевірка гіпотез та ухвалення однієї (декількох) з них як виправ- лення, що пропонується програмою до внесення. На першому етапі послідовно виконуються підбір первинної множини варіантів виправлення із словника та попередня фільтрація її вмісту. Для реалізації даного етапу використовуються найпростіші та найшвидші мето- ди пошуку варіантів корекції слова (наприклад, підбір гіпотез за критерієм альфакоду, довжини слова, збігу першої літери слова тощо) [10]. На другому етапі виконується перевірка гіпотез на подібність до спо- твореного слова за певними критеріями. Тут задіяні більш складні, але вод- ночас і більш точні методи аналізу набору гіпотез (наприклад, відстань ре- дагування В.Левенштейна) [5, 10, 11]. Таким чином, умовне віднесення методів визначення варіантів виправ- лення орфографічних помилок до певного етапу процесу орфокорекції здій- снюється на основі їх характеристик (швидкості, точності тощо). З іншого боку, всі методи перевірки гіпотез виправлення (на обох ета- пах) за своєю суттю є фільтрами заданої множини слів, адже в результаті застосування кожного з них відбувається звуження поточної множини варі- антів корекції спотвореного слова. З огляду на це у даній роботі пропону- ється внести уточнення в подання вихідної схеми орфокорекції (рис. 1): бу- Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок Системні дослідження та інформаційні технології, 2009, № 3 23 демо вважати таким, що відноситься до етапу висунення гіпотез, тільки ме- тод підбору гіпотез виправлення із словника; усі ж методи фільтрації мно- жини слів, отриманої на першому етапі, перенесемо до другого етапу — етапу перевірки гіпотез. Для оцінки ефективності роботи програмних засобів машинної корекції помилок введемо функцію фільтрації заданої множини слів за певною озна- кою. Визначення 1. Функція yx WW →:filter називається фільтром множи- ни xW , якщо за її допомогою з елементів xW проводиться формування мно- жини слів yW , які відповідають певному критерію схожості із спотвореним словом error_word ( xy WW ⊆ ). xyyx WWWW ⊆→ ,:filter , (1) де yx WW , — множини природномовних слів. Властивості даної функції: 1) )(filter)(filter)(filter BABA WWWW ∪=∪ ; (2) 2) якщо BA WW < , то час, необхідний для виконання фільтрації да- них множин, характеризується нерівністю )(filter)(filter AWAW tt < ; (3) 3) при застосуванні композиції фільтрів …1filterfilter −= nnF xyyx WWWW ⊆→ ,:filterfilter 12… до множини слів xW від перестановки складових ifilter місцями результат yW не змінюється. Тривалість виконан- ня даних функцій, навпаки, змінюється у залежності від порядку їх застосу- вання. Оскільки функції, які застосовуються в межах етапу перевірки гіпотез (рис. 1), є фільтрами, їм притаманні властивості визначеної вище функції filter. Позначимо функцію, за допомогою якої проводиться підбір гіпотез ви- правлення hypW зі словника, як dicthyphypdict ,: WWWWfI ⊆→ . (4) I. Висунення гіпотез виправлення ( hypW ) II. Перевірка гіпотез виправлення на подібність до спотвореного слова за формальними ознаками та ухвалення варіантів виправлення ( retrW ) Підбір гіпотез виправлення із словника за пев- ним формальним критерієм (один єдиний метод) Формальні методи перевірки гіпотез на подіб- ність до спотвореного слова Рис. 1. Вихідна схема виправлення орфографічних помилок В.П. Тарасенко, А.Ю. Михайлюк, Т.М. Заболотня ISSN 1681–6048 System Research & Information Technologies, 2009, № 3 24 Вважатимемо, що fI забезпечує висунення оптимальної (за показни- ками кількості слів, міри їх формальної схожості на спотворене слово error_word та швидкості отримання) множини гіпотез hypW для її ефективної перевірки на наступному етапі орфокорекції. Час, протягом якого триває виконання fI , позначимо )( dictWfItt I = . Фільтри, які використовуються на етапі перевірки гіпотез, позначимо 1 ,:...... retrhyp121 ≥→= − mWWfIIfIIfIIfIIfIIFII imm , (5) де iii WIIWIIfII →−1: ( mi ,,2,1 …= ) — фільтр множини слів, отриманої у результаті виконання 1−ifII (для 1fII — множини hypW ); retrW — множина слів, визначених коректором як можливі варіанти виправлення за формаль- ними ознаками їх близькості до спотвореного слова. Будемо вважати, що FII містить необхідний та достатній набір функ- цій, послідовне застосування яких до множини hypW забезпечує оптимальне співвідношення часу ∑ = − += m k kkII WIIfIIWfII t tt 2 1hyp )()(1 , витраченого на ви- конання зазначених функцій та точності отриманого результату. Оскільки визначення гіпотез виправлення здійснюється шляхом їх по- шуку в словнику (а не за допомогою безсловникової генерації), при визна- ченні показників ефективності орфокорекції можна провести певні паралелі з оцінками результатів роботи програм у теорії інформаційного пошуку [12]. Визначення 2. Під точністю машинної орфографічної корекції спо- твореного слова матимемо на увазі відношення числа запропонованих ор- фокоректором вірних варіантів написання слова (це одиниця або нуль) до загальної кількості підібраних слів. || || PRECISION retr retrcorr W WW ∩ = , (6) де corrW — множина вірних варіантів корекції спотвореного слова у слов- нику. Відповідно до формули (6), для того, щоб досягти високого показника точності роботи орфокоректора, необхідно, по-перше, забезпечити постійне входження вірного слова до сформованого масиву варіантів виправлення ( 1|| retrcorr =∩WW ), а по-друге — зменшити загальну кількість слів, які про- понуються програмою як найбільш вірогідні кандидати виправлення помил- ки ( retrW ). МІСЦЕ СЕМАНТИЧНОЇ СКЛАДОВОЇ У МОДИФІКОВАНІЙ СХЕМІ ВИПРАВЛЕННЯ ОРФОГРАФІЧНИХ ПОМИЛОК Розглянемо можливі варіанти модифікації вихідної схеми орфокорекції шляхом введення до різних її етапів семантичної складової, а також проана- лізуємо, як дані зміни вплинуть на показники точності та швидкості роботи відповідної програми. Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок Системні дослідження та інформаційні технології, 2009, № 3 25 Формування множини гіпотез виправлення за семантичним критерієм із заданого набору слів здійснюватимемо за допомогою функції contf . Ви- значимо дану функцію як фільтр вихідного набору слів для відбору тих лек- сем, що узгоджені з контекстним оточенням спотвореного слова. І варіант (рис. 2,а) — введення контекстно-асоціативної фільтрації до етапу перевірки гіпотез виправлення. Оскільки склад композиції функцій FII за визначенням (5) є необхідним та достатнім для ефективної обробки гіпотез виправлення, будь-які зміни у ньому спричинять зниження ефективності роботи орфокоректора хоча б за одним із показників. Крім того, повна заміна формальних процедур перевір- ки слів FII семантичною contf неможлива, через те що варіанти виправ- лення мають відповідати як вимогам контекстної близькості, так і формаль- ним критеріям схожості слів. Тому проаналізуємо можливість поєднання contf та FII без внесення змін до складу останньої. 1,: xtretr_contehyp11cont ≥→=′ − mWWfIIfIIffIIfIIIFI iim …… ,(7) де xtretr_conteW — множина слів, визначених як можливі варіанти виправлення спотвореного слова з урахуванням семантики його контексту. Твердження 1. Введення функції contf до послідовності формальних фільтрів FII сприяє підвищенню точності роботи коректора (PRECISION). Доведення. Нехай 1−iWII — результат фільтрації множини hypW із ви- користанням композиції функцій 1hyp121 :... −− → ii WIIWfIIfIIfII (для 1=i роль 1−iWII виконує безпосередньо hypW ). Для FII та IFI ′ вміст 1−iWII є однаковим, адже вихідна множина гіпотез і набір функцій, які до неї застосовуються, у цих двох випадках не відрізняються. contf за визначен- ням є фільтром, тому справедливе твердження 1-cont1cont : i WIIWIIf i →− , 1cont 1- −⊆ iWIIWII i , де 1-cont i WII — результат фільтрації слів з 1−iWII за озна- кою близькості за змістом до контекстного оточення спотвореного слова. Рис. 2. Варіанти модифікації схеми виправлення орфографічних помилок I. Висунення гіпотез виправлення ( hypW ) II. Перевірка гіпотез виправлення на подібність до спотвореного слова за формальними і семантичними ознаками та ухвалення варіантів виправлення ( xtretr_conteW ) I. Висунення гіпотез виправлення за ознакою близькості до контекстного оточення спотвореного слова ( hypW ) II. Перевірка гіпотез виправлення на подібність до спотвореного слова за формальними ознаками та ухвалення варіантів виправлення ( xtretr_conteW ) а б В.П. Тарасенко, А.Ю. Михайлюк, Т.М. Заболотня ISSN 1681–6048 System Research & Information Technologies, 2009, № 3 26 Звідси маємо 1cont_outcont 1- −=∆∪ iWIIWWII i , (8) де cont_outW∆ — частина множини 1−iWII , яка була виключена із подальшої обробки через невідповідність семантичному критерію фільтрації слів. Перевірка множин 1−iWII та 1-contiWII за допомогою функцій, які вхо- дять до складу композицій FII та IFI ′ , відповідно, проводиться, починаю- чи з фільтру ifII . 1,1 −− ⊆⎯⎯→⎯ iii fII i WIIWIIWIIWII i , 1-1- contcontcontcont , iii i i WIIWIIWIIWII fII ⊆⎯⎯→⎯ . Відповідно до (2) та (8) можна записати ⇒∆∪=− )()()( cont_outcont1 1- WfIIWIIfIIWIIfII iiii i iii WIIWIIWfIIWIIWII ii ⇐⇒∆∪=⇒ contcont_outcont )( . Застосування фільтру 1+ifII характеризується аналогічно. iii fII i WIIWIIWIIWII i ⊆⎯⎯ →⎯ ++ + 1,1 1 , iii i i WIIWIIWIIWII fII contcontcontcont 11 1 , ⊆⎯⎯ →⎯ ++ + . Звідси ⇒∆∪= +++ )()()( cont_out1cont11 WfIIfIIWIIfIIWIIfII iiiii i .)( 1contcont_out1cont1 11 +++ <=⇒∆∪=⇒ ++ iiii WIIWIIWfIIfIIWIIWII ii У результаті отримуємо ⇒∆∪= −− )(...)()( cont_out1cont1 1- WfIIfIIfIIWIIfIIWIIfII immmmm m =∆∪==⇒ − )(... cont_out1contretr WfIIfIIfIIWIIWIIW immm m retrxtretr_contecont_out1xtretr_conte )(... WWWfIIfIIfIIW imm ≤⇒∆∪= − . Отже, відповідно до (6) введення семантичної функції contf до послі- довності формальних фільтрів FII забезпечує підвищення точності роботи коректора (PRECISION), завдяки проведенню більш ретельної фільтрації гіпотез виправлення, що і необхідно було довести. Відмітимо, що місце розташування функції contf у композиції фільтрів FII , згідно з властивістю (3) функції filter, не впливає на точність роботи відповідної програми. Проаналізуємо, як зміниться швидкодія машинного орфокоректора при доповненні композиції FII фільтром contf . Твердження 2. Для збереження швидкодії даної модифікованої схеми необхідно виконати нерівність )cont_out()( 11cont WifIIfIIfIItWIIf mmi t ∆⇐ −− … . (9) Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок Системні дослідження та інформаційні технології, 2009, № 3 27 Доведення. Будемо порівнювати час виконання FII та IFI ′ , починаючи від наступної за 1−ifII функції ( ifII та contf відповідно), адже частина 1hyp121 :... −− → ii WIIWfIIfIIfII є спільною для обох композицій. Для то- го щоб швидкість роботи коректора за наведеною модифікованою схемою була не нижчою за швидкість роботи вихідної схеми, має виконуватися нерівність ∑∑ == −− ⇐+ − m ik WIIfII m ik WIIfII kkkk ttt iWIIf )()( 11contcont )1( . (10) Вище було доведено, що kWIIWII k cont ⇐ , де miik ,,,1 …−= . Тому, виходячи з властивості функції filter (3), отримуємо ∑ = ⇐ − m ik WIIfII kk t )( 1cont ∑ = − ⇐ m ik WIIfII kk t )( 1 . А на основі того, що kWIIcont відрізняється від kWII на множину )(... cont_out1 WfIIfIIfII iik ∆+ , де ik ≥ , можна зробити такий висновок: час, витрачений на фільтрацію contf має бути компенсова- но за рахунок того, що певна частина гіпотез з 1−iWII потрапила до cont_outW∆ і не буде оброблятися наступними функціями, що і відображено у (9). Виконанню нерівності (9) сприятиме невисока (така, що не перевищує складності формальних фільтрів) складність алгоритму семантичної фільтрації. Як наслідок даного твердження можна розглядати таку залежність: чим ближче до початку послідовності формальних фільтрів FII розташовано семантичну функцію contf , тим більше функцій входять до композиції )(... cont_out1 WfIIfIIfII iim ∆+ з правої частини нерівності (9) і, отже, тим вища ймовірність успішної компенсації часу )( 1cont −iWIIft . Звідси розташування contf наприкінці послідовності FII (тобто )(... hyp11cont WfIIfIIfIIf mm − ) не забезпечує покращення швидкодії орфокоректора, оскільки на виконання функції contf витрачається додатко- вий час. Отже, такий варіант модифікації схеми орфокорекції є окремим ви- падком введення контекстно-асоціативної фільтрації до етапу перевірки гі- потез виправлення і може бути використаний при побудові коректорів, для яких високий показник точності результатів має вищий пріоритет, ніж шви- дкість роботи програми. Таким чином, введення семантичного фільтру до етапу перевірки гіпо- тез забезпечує підвищення точності орфокорекції, а за виконання умови (9) і прискорення роботи програми. При цьому множина гіпотез виправлення формується шляхом підбору лексем із словника за формальною ознакою схожості із спотвореним словом. Розглянемо інший випадок модифікації схеми автоматизованої орфоко- рекції, коли визначення варіантів виправлення error_word починається з ви- конання contf (тобто, коли contf виконує роль fI і, відповідно, розташо- вана на етапі висунення гіпотез). В.П. Тарасенко, А.Ю. Михайлюк, Т.М. Заболотня ISSN 1681–6048 System Research & Information Technologies, 2009, № 3 28 ІІ варіант (рис. 2,б) — висунення гіпотез виправлення за ознакою се- мантичної близькості до контекстного оточення спотвореного слова er- ror_word. Необхідно зазначити, що при введенні contf замість fI до етапу перевірки гіпотез має бути додана функція фільтрації множини варіантів виправлення за формальним критерієм, відповідно до якого виконувалося висунення гі- потез. Це обумовлено тим, що відсутність перевірки лексем за критерієм подібності до error_word, яку реалізовувала fI під час підбору гіпотез із словника, може негативно вплинути на точність роботи орфокоректора. Окремо зупинимося на тому, що ефективне висунення гіпотез виправ- лення за ознакою семантичної близькості до контексту спотвореного слова можливе лише за умови використання коректором якісно укладеного лекси- ко-семантичного словника. Цей лінгвістичний ресурс, як правило, має прос- ту та зрозумілу форму опису знань і подається у вигляді орієнтованого гра- фа ),( dict EWG = , вершинами якого є лексеми природної мови dictW , пов’язані між собою лексико-семантичними відношеннями з множини Е [13]. Така архітектура словника відповідає принципам організації пам’яті людини, є близькою до семантичної структури природномовних фраз, а та- кож дозволяє кількісно обчислювати міру близькості слів за змістом. Твердження 1а. Введення семантичної функції contf до етапу вису- нення гіпотез схеми орфокорекції сприяє підвищенню точності роботи ко- ректора (PRECISION). Доведення. Відправною точкою доведення є факт, що потужність множини dict_cont W , отриманої шляхом аналізу вмісту словника функцією contf , є меншою, ніж вміст цілого словника, а значить можна стверджувати, що dictcont_outdict_cont WWW =∆∪ . Даний вираз є подібним до (8). Звідси по- дальше доведення твердження 1а відбувається аналогічно до доведення тве- рдження 1. Твердження 2а. Для прискорення функціонування коректора, алгоритм роботи якого передбачає висунення гіпотез за ознакою семантичної близь- кості до контексту спотвореного слова, у порівнянні із коректором, що пра- цює за вихідною схемою, необхідна справедливість нерівності )W()W)()( hyp_cont1hyp(1dictdictcont fIfII...mfIIfII...mfIIWfIWf tttt −− ⇐ . (11) Доведення. Мета, відповідно до якої ми модифікуємо схему орфо- корекції, — це зменшення сумарного часу виконання етапів виправлення помилок. )W()()W()( hyp1dicthyp_cont1dictcont fII...mfIIWfIfIfII...mfIIWf tttt +⇐+ , (12) де hyp_cont W — множина лексем, відібраних за семантичним критерієм із словника. Перенесення певних доданків з однієї частини нерівності до іншої дозволяє отримати запис (11), що і потрібно було довести. Визначення позиції семантичної функції у загальній схемі машинної орфокорекції, яка забезпечила б оптимальне співвідношення швидкодії ор- фокоректора та рівня точності результатів виправлення, слід проводити, ви- ходячи з того, який принцип формування набору слів, близьких за змістом до заданого контексту, покладений в основу роботи функції contf . Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок Системні дослідження та інформаційні технології, 2009, № 3 29 На основі властивості 2 функції filter, а також згідно з (6) можна зроби- ти висновок про те, що показники швидкості та точності роботи програмно- го забезпечення орфокорекції залежать від потужності множин слів, які ним обробляються. Таким чином, враховуючи особливості реалізації contf , а також характеристики текстових даних та лексико-семантичних ресурсів, неважко визначити ефективний варіант модифікації схеми орфокорекції для кожного конкретного випадку. Наприклад, у коректорі, що працює на базі лексико-семантичного ре- сурсу формату WordNet 3.0, а міру семантичної близькості до контексту об- числює як мінімальну з довжин найкоротших шляхів від заданого слова до елементів контексту за структурою графа G , семантичну функцію доцільно застосовувати на етапі висунення гіпотез виправлення. Зробимо декілька зауважень відносно подальшого вивчення контекстно орієнтованого підходу до визначення варіантів виправлення спотвореного слова. 1. Залучення елементів семантичного аналізу тексту на початкових кроках процесу корекції у жодному разі не виключає подальшого проведен- ня синтаксичного та семантичного аналізу тексту. Це пояснюється тим, що помилки, які перетворюють слово на іншу лексему, присутню у словнику, можуть бути виявлені та виправлені виключно на синтактико-семантичному рівні аналізу тексту. Отже, з точки зору розробки кінцевого програмного продукту практичний інтерес становить вивчення можливості використання допоміжних даних, отриманих під час орфокорекції на наступних кроках автоматизованої обробки тексту. 2. Вважаємо, що сферою застосування підходу до висунення гіпотез виправлення за семантичним критерієм, у межах якої він ефективний, є ал- горитми роботи інформаційно-пошукових систем (ІПС). По-перше, корекція слів у такому випадку не потребує синтаксичного узгодження варіантів виправлення, адже для ІПС важливим є визначення базової форми слова. По-друге, у ролі контексту можуть виступати всі слова запиту. Віднос- но невелика кількість слів у запитах (~ 71% запитів складається з 2–4 слів [14]) не є перешкодою для застосування семантичного аналізу, тому що на- віть одне вірно написане ключове слово може визначити область пошуку варіантів виправлення. По-третє, користувач під час складання запиту до ІПС намагається вживати ключові слова, які найбільш адекватно відображають його інфор- маційну потребу та є максимально семантично навантаженими. Тому ймові- рність швидкої та точної обробки пошукових запитів є високою. 3. Алгоритми роботи lingware часто є евристичними і базуються на ем- піричних дослідженнях [7, 8]. Тому доцільно проведення практичного ви- вчення закономірностей у послідовності вживання типів семантичних від- ношень у процесі руху словником. 4. Визначення оптимальної комбінації фільтрів, використання якої по- кращувало б роботу орфокоректора за показниками швидкодії та точності, є багатокритеріальною задачею, що не має універсального розв’язку. Звідси її потрібно вирішувати, виходячи з конкретних умов роботи програми. 5. Для налаштування автокоректора на роботу з текстами певної пред- метної галузі у відповідному словнику необхідно ввести додаткове ранжу- вання слів за критерієм відповідності їх тематиці галузі. В.П. Тарасенко, А.Ю. Михайлюк, Т.М. Заболотня ISSN 1681–6048 System Research & Information Technologies, 2009, № 3 30 ВИСНОВКИ 1. Обґрунтовано доцільність відхилення від класичної схеми аналізу текстових даних у межах машинного виправлення орфографічних помилок, а отже і введення контекстно-асоціативного аналізу оточення спотвореного слова до будь-якого етапу корекції. 2. Дано визначення показника ефективності функціонування орфокоре- ктора — точності результатів його роботи (як і швидкодія, вона залежить від кількості слів, що обробляється під час корекції). 3. Доведено факт підвищення точності та визначено умови покращення часових характеристик роботи відповідної програми при введенні до схеми орфокорекції додаткової функції відбору варіантів виправлення за семанти- чним критерієм. Таким чином, показана можливість реалізації семантичної складової в алгоритмах роботи орфокоректорів у реальному часі. 4. Розглянуто перспективні напрямки подальшого вивчення проблеми контекстно-асоціативного визначення варіантів виправлення спотвореного слова. ЛІТЕРАТУРА 1. Грязнухіна Т., Дарчук Н., Олексієнко Л. Система автоматичного аналізу україн- ського наукового тексту // Проблеми українізації комп’ютерів: Тези доп. наук. конф. — Л., 1991. — С. 19–20. 2. Johannes Schaback and Fang Li. Multi-Level Feature Extraction for Spelling Cor- rection In Proceedings of the IJCAI-2007 Workshop on Analytics for Noisy Unstructured Text Data. — Hyderabad, India. — January 8, 2007. — Р. 79–86. 3. Лавошникова Э.К. Об организации системных словарей компьютерных орфо- корректоров // НТИ: Сер. 2. — 2004. — № 9. — С. 31–38. 4. Лавошникова Э.К. О компьютерной коррекции «популярных» ошибок в тек- стах на русском языке // НТИ: Сер. 2. — 2003. — № 9. — С. 28–34. 5. Кондратюк Д. Корекція орфографічних помилок в українському тексті // Про- блеми українізації комп’ютерів: Матеріали 2-ї міжнар. конф. — Львів, 29 вересня–1 жовтня 1992 р. — Ін-т кібернетики ім. В.М. Глушкова. — Київ. — 1992. — С. 51–55. 6. Марченко О.О. Алгоритми семантичного аналізу природномовних текстів: Ав- тореф. дис.канд.фіз.-мат. наук. — Київ, 2005. — 150 с. 7. Леонтьева Н.Н. «Политекст»: информационный анализ политических текстов // НТИ: Сер.2. — 1995. — №4. — С. 4–17. 8. Экспериментальная система автоматизированного обнаружения и исправления орфографических ошибок в текстах / Г.Г. Белоногов и др. // НТИ: Сер. 2. — 1984. — № 3. — С. 20–22. 9. Бондаренко М.Ф., Осыка А.Ф. Автоматическая обработка информации на есте- ственном языке. — Киев: УМК ВО, 1991. — 144 с. 10. Файн В.С., Рубанов Л.И. Машинное понимание текстов с ошибками — М.: Наука, 1991. — 151 с. 11. Михайлюк А.Ю., Заболотня Т.М. Комбінований метод виправлення орфо- графічних помилок у текстових даних // Вісн. Хмельницького національно- го ун-ту. — 2007.— 2, № 2. — С. 21–26. 12. Пещак М.М. Нариси з комп’ютерної лінгвістики. — Ужгород: Закарпаття, 1999. — 200 с. 13. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. — СПб.: Питер, 2000. — 384 с. 14. Ландэ Д.В. Поиск знаний в Internet. — М.: Диалектика, 2005. — 271 с. Надійшла 13.12.2007
id nasplib_isofts_kiev_ua-123456789-42221
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1681–6048
language Ukrainian
last_indexed 2025-12-07T18:39:13Z
publishDate 2009
publisher Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
record_format dspace
spelling Тарасенко, В.П.
Михайлюк, А.Ю.
Заболотня, Т.М.
2013-03-13T10:44:56Z
2013-03-13T10:44:56Z
2009
Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок / В.П. Тарасенко, А.Ю. Михайлюк, Т.М. Заболотня // Систем. дослідж. та інформ. технології. — 2009. — № 3. — С. 21–30. — Бібліогр.: 14 назв. — укр.
1681–6048
https://nasplib.isofts.kiev.ua/handle/123456789/42221
004.421
Показано, що введення фільтрації варіантів виправлення помилок за семантичним критерієм до схеми орфокорекції забезпечує високий рівень точності роботи програмного коректора та уможливлює його функціонування у реальному часі. Відступ від традиційної послідовності аналізу текстових даних дозволяє проводити контекстно-асоціативну обробку оточення спотвореного слова на будь-якому етапі орфокорекції. Запропоновано спосіб оцінювання точності роботи алгоритму виправлення помилок. Визначені актуальні питання реалізації контекстноорієнтованої орфокорекції, які мають бути вивчені при подальшій розробці подібних програмних засобів.
Показано, что внесение фильтрации вариантов исправления ошибок по семантическому критерию в схему орфокоррекции обеспечивает высокий уровень точности работы программного корректора, а также делает возможным его функционирование в режиме реального времени. Отклонение от традиционной последовательности анализа текстовых данных позволяет проводить контекстно-ассоциативную обработку окружения искаженного слова на любом этапе орфокоррекции. Предложен способ оценки точности работы алгоритма исправления ошибок. Определены актуальные вопросы реализации контекстноориентированной орфокоррекции, которые должны быть изучены при дальнейшей разработке подобных программных средств.
Addition of filtration for versions of errors correction (by the semantic criterion) into the spelling correction scheme provides a high level of programmatic proof-reader accuracy and makes its functioning possible. The deviation from the traditional sequence of text data analysis allows one to perform a context-associative processing the surroundings of a distorted word at any stage of spelling correction. Techniques for evaluation of the correction algorithm accuracy are offered and up-to-date problems concerning realization of the context-oriented spelling correction are determined. They will be studied in further work.
uk
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
Системні дослідження та інформаційні технології
Прогресивні інформаційні технології, високопродуктивні комп’ютерні системи
Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок
Контекстно-ассоциативный подход к автоматизированному исправлению орфографических ошибок
Context-associative approach to automated correction of spelling errors
Article
published earlier
spellingShingle Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок
Тарасенко, В.П.
Михайлюк, А.Ю.
Заболотня, Т.М.
Прогресивні інформаційні технології, високопродуктивні комп’ютерні системи
title Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок
title_alt Контекстно-ассоциативный подход к автоматизированному исправлению орфографических ошибок
Context-associative approach to automated correction of spelling errors
title_full Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок
title_fullStr Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок
title_full_unstemmed Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок
title_short Контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок
title_sort контекстно-асоціативний підхід до автоматизованого виправлення орфографічних помилок
topic Прогресивні інформаційні технології, високопродуктивні комп’ютерні системи
topic_facet Прогресивні інформаційні технології, високопродуктивні комп’ютерні системи
url https://nasplib.isofts.kiev.ua/handle/123456789/42221
work_keys_str_mv AT tarasenkovp kontekstnoasocíativniipídhíddoavtomatizovanogovipravlennâorfografíčnihpomilok
AT mihailûkaû kontekstnoasocíativniipídhíddoavtomatizovanogovipravlennâorfografíčnihpomilok
AT zabolotnâtm kontekstnoasocíativniipídhíddoavtomatizovanogovipravlennâorfografíčnihpomilok
AT tarasenkovp kontekstnoassociativnyipodhodkavtomatizirovannomuispravleniûorfografičeskihošibok
AT mihailûkaû kontekstnoassociativnyipodhodkavtomatizirovannomuispravleniûorfografičeskihošibok
AT zabolotnâtm kontekstnoassociativnyipodhodkavtomatizirovannomuispravleniûorfografičeskihošibok
AT tarasenkovp contextassociativeapproachtoautomatedcorrectionofspellingerrors
AT mihailûkaû contextassociativeapproachtoautomatedcorrectionofspellingerrors
AT zabolotnâtm contextassociativeapproachtoautomatedcorrectionofspellingerrors