Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань
У статті обґрунтовано функціональну структуру інтелектуальної системи лінгвістичного аналізу розгорнутої текстової відповіді із застосуванням моделей штучного інтелекту. Розроблено алгоритм семантичного порівняння нечіткої текстової інформації (відповідей на запитання, що подані студентом природною...
Збережено в:
| Опубліковано в: : | Мовознавство |
|---|---|
| Дата: | 2015 |
| Автор: | |
| Формат: | Стаття |
| Мова: | Ukrainian |
| Опубліковано: |
Інститут мовознавства ім. О.О. Потебні НАН України
2015
|
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/183987 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань / О.І. Комарницька // Мовознавство. — 2015. — № 1. — С. 85-90. — Бібліогр.: 3 назв. — укр. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-183987 |
|---|---|
| record_format |
dspace |
| spelling |
Комарницька, О.І. 2022-04-28T15:35:35Z 2022-04-28T15:35:35Z 2015 Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань / О.І. Комарницька // Мовознавство. — 2015. — № 1. — С. 85-90. — Бібліогр.: 3 назв. — укр. 0027-2833 https://nasplib.isofts.kiev.ua/handle/123456789/183987 У статті обґрунтовано функціональну структуру інтелектуальної системи лінгвістичного аналізу розгорнутої текстової відповіді із застосуванням моделей штучного інтелекту. Розроблено алгоритм семантичного порівняння нечіткої текстової інформації (відповідей на запитання, що подані студентом природною мовою, з варіантами правильних відповідей), в якому формалізовано опис лінгвістичної структури навчального контенту та відповіді. Для формування частотної матриці індексованих слів удосконалено алгоритм нечіткого латентно-семантичного порівняння текстової інформації. A functional structure of an intellectual system of linguistic analysis of a deployed text response utilizing models of artificial intelligence has been developed in this article. An algorithm of fuzzy semantic comparison of textual information - answers to questions submitted by a student in natural language, with options of correct answers, which formalizes description of linguistic structure of the study content and answers has been elaborated. In order to form a frequency matrix of the indexed words there has been improved the algorithm of fuzzy latent-semantic comparison of textual information. uk Інститут мовознавства ім. О.О. Потебні НАН України Мовознавство Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань Models and Methods of text linguistic analysis in knowledge evalution systems Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань |
| spellingShingle |
Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань Комарницька, О.І. |
| title_short |
Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань |
| title_full |
Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань |
| title_fullStr |
Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань |
| title_full_unstemmed |
Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань |
| title_sort |
моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань |
| author |
Комарницька, О.І. |
| author_facet |
Комарницька, О.І. |
| publishDate |
2015 |
| language |
Ukrainian |
| container_title |
Мовознавство |
| publisher |
Інститут мовознавства ім. О.О. Потебні НАН України |
| format |
Article |
| title_alt |
Models and Methods of text linguistic analysis in knowledge evalution systems |
| description |
У статті обґрунтовано функціональну структуру інтелектуальної системи лінгвістичного аналізу розгорнутої текстової відповіді із застосуванням моделей штучного інтелекту. Розроблено алгоритм семантичного порівняння нечіткої текстової інформації (відповідей на запитання, що подані студентом природною мовою, з варіантами правильних відповідей), в якому формалізовано опис лінгвістичної структури навчального контенту та відповіді. Для формування частотної матриці індексованих слів удосконалено алгоритм нечіткого латентно-семантичного порівняння текстової інформації.
A functional structure of an intellectual system of linguistic analysis of a deployed text response utilizing models of artificial intelligence has been developed in this article. An algorithm of fuzzy semantic comparison of textual information - answers to questions submitted by a student in natural language, with options of correct answers, which formalizes description of linguistic structure of the study content and answers has been elaborated. In order to form a frequency matrix of the indexed words there has been improved the algorithm of fuzzy latent-semantic comparison of textual information.
|
| issn |
0027-2833 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/183987 |
| citation_txt |
Моделі та методи лінгвістичного аналізу тексту в системах оцінювання знань / О.І. Комарницька // Мовознавство. — 2015. — № 1. — С. 85-90. — Бібліогр.: 3 назв. — укр. |
| work_keys_str_mv |
AT komarnicʹkaoí modelítametodilíngvístičnogoanalízutekstuvsistemahocínûvannâznanʹ AT komarnicʹkaoí modelsandmethodsoftextlinguisticanalysisinknowledgeevalutionsystems |
| first_indexed |
2025-11-26T08:47:17Z |
| last_indexed |
2025-11-26T08:47:17Z |
| _version_ |
1850616262291357696 |
| fulltext |
О. І. КОМАРНИЦЬКА
МОДЕЛІ ТА МЕТОДИ ЛІНГВІСТИЧНОГО АНАЛІЗУ
ТЕКСТУ В СИСТЕМАХ ОЦІНЮВАННЯ ЗНАНЬ ___
У статті обґрунтовано функціональну структуру інтелектуальної системи лінгвістичного
аналізу розгорнутої текстової відповіді із застосуванням моделей штучного інтелекту. Роз
роблено алгоритм семантичного порівняння нечіткої текстової інформації (відповідей на за
питання, що подані студентом природною мовою, з варіантами правильних відповідей), в яко
му формалізовано опис лінгвістичної структури навчального контенту та відповіді. Для
формування частотної матриці індексованих слів удосконалено алгоритм нечіткого латент
но-семантичного порівняння текстової інформації.
К л ю ч о в і сл ов а : алгоритм, лексична одиниця, метод, модель, семантика, текст, фрейм,
штучний інтелект.
Стрімкий розвиток науки, упровадження інформаційних та високих технологій
ведуть до зростання обсягів неструктурованої науково-технічної інформації, що
подається переважно природномовними текстами. Зазначений, дуже слабко
контрольований процес створює багато складних проблем, які подекуди зводять
нанівець переваги, що надають інформаційно-комп’ютерні технології, адже
проаналізувати за припустимий час «вручну» надвеликі масиви інформації лю
дина не здатна, а забезпечити повну формалізацію змісту природномовних до
кументів і в такий спосіб адаптувати його до автоматичного опрацювання
неможливо навіть теоретично. На думку деяких дослідників для цього необ
хідно навчити комп’ютери використовувати знання про предметну сферу,
зокрема вміти в автоматичному режимі пов’язувати текстові фрагменти з кон
цептами відповідних предметних галузей. Одним із способів концептуалізації
текстових документів є семантична розмітка тексту, або семантичне анотування
(маркування). Прикладом системи, в якій використовується семантичне марку
вання, є Semantic W iki1 2.
Слід, однак, визнати, що на сьогодні не існує моделей та засобів, які б достат
ньою мірою враховували особливості природної мови при інтелектуальному оп-
1 Добров Б. В., Лукашевич Н. В. Онтологии для автоматической обработки текстов: опи
сание понятий и лексических значений.— www.dialog21.ru/dialog2006/-materials/html/
Dobrov_files/editdata.mso; Лесько О. М., РогушинаЮ. В. Использование онтологий для ана
лиза семантики естественно-языковых текстов // Пробл. програмування.— 2009.— № 3.—
С. 59-65.; Марченко О. О., Дерев’янченко О. В. Застосування семантико-синтаксичної мо
делі для поліпшення розпізнавання рукописних текстів // Вісн. Київ, ун-ту.— 1999.—
Вил. 4.— С. 200-205.; Палагін О. В., Світла С. Ю. та ін. Про один підхід до аналізу та
розуміння природномовних об’єктів // Комп’ютерні засоби, мережі та системи.— 2008.—
№7,— С. 128-137.
2 KrötzschМ., SchaffertS., VrandečićD. Reasoning in Semantic W ikis// G. Antoniou et al.
Reasoning Web 2007 : Lecture Notes.— Berlin, 2007.— T. 4636.— S. 310-329.
О О. І. КОМАРНИЦЬКА, 2015
ISSN 0027-2833. Мовознавство, 2015, № 1 85
http://www.dialog21.ru/dialog2006/-materials/html/
рацюванні текстової інформації. Це пояснюється труднощами, що виникають
при формальному описі системи природної мови, зумовленими її сутністю.
Адже особливістю природної мови є її принципова нечіткість3. Свідомість лю
дини здатна сприймати нечіткі судження та з контексту робити цілком певні
висновки про змісти, актуалізовані в природномовних конструкціях. Але маши
на здатна сприймати лише те, що чітко задано в описах відповідних моделей. Ба
гатозначність та непрогнозованість контекстної семантики мовних конструкцій
не просто знижує якість роботи систем автоматичного опрацювання текстів, а й
часто робить їх функціонування неможливим.
Сказане цілком стосується й проблематики інформатизації освітньої сфери.
Окремою її ділянкою є інтелектуалізація засобів контролю освітнього процесу,
одним із аспектів якого є впровадження мовно-інформаційних методів діагнос
тування навчальних досягнень студентів. До них належать методи і засоби авто
матизованого контролю знань, здатних обробляти і оцінювати відповіді, подані
природною мовою в довільній формі.
Вважається, що перевагами таких систем є можливість повнішого охоплен
ня змісту навчальної дисципліни, мінімізація витрат часу на проведення проце
дури тестування, можливість автоматизації контролю і оцінювання результатів,
інтеграція систем тестування з авторитетними інформаційними масивами з
предметних галузей та ін. Проте слід визнати, що існуючі комп’ютерні системи
тестування мають чимало недоліків: більшість із них містять запитання, що пе
редбачають короткі відповіді з дуже обмеженим лінгвістичним репертуаром.
Часто в системі передбачено лише вибір із запропонованих варіантів; трудо
місткою є підготовка тестів, спрямованих на перевірку творчих здібностей і ло
гічного мислення та ін. Деякі із сучасних автоматизованих систем контролю
знань містять також і завдання відкритого типу, однак у більшості з них відпо
відь зараховується як правильна, якщо вона цілком збігається з одним із еталон
них варіантів тексту.
Таким чином, у процесі автоматизованого контролю знань студентів вини
кають суперечності: між ефективністю процедур тестового контролю знань та
об’єктивністю їх оцінки; між великими обсягами інформації, що потребують
лінгвістичного аналізу при оцінюванні знань та недосконалістю технологій його
здійснення. З цього випливає необхідність побудови комплексних лінгвістич
них моделей, адаптованих до формального представлення в системах, вільних
від перелічених вище вад. Отже, метою статті є аналіз моделей та методів ком
плексного лінгвістичного аналізу природномовного тексту в системах оціню
вання знань студентів, курсантів та слухачів, де враховуються морфологічні, се
мантичні, синтаксичні та прагматичні його властивості.
У статті запропоновано концепцію побудови інтелектуальної системи
оцінювання знань з функціональною структурою (див. рис. 1).
Ця структура інтелектуальної системи оцінювання знань, умінь та навичок
студентів вищих навчальних закладів містить такі модулі: базу даних (предмети,
модулі, теми, навчальні групи); базу знань (предмети, модулі, теми); лінгвістич
ну підсистему (аналізатори граматики, орфографії, семантики та прагматики);
систему навчання; систему оцінювання.
3 Аверкин А. Н , Батыршин И. 3., БлишунА. Ф. та ін. Нечеткие множества в моделях
управления и искусственного интеллекта.— Μ., 1986.— 312 с.; ЗадеЛ. Понятие
лингвистической переменной и его применение к принятию приближенных решений.— М.,
1976.— 165 с.; Рыжов А. П. Элементы теории нечетких множеств и измерения нечеткости.—
М., 1998,— 116 с.
О. І. Комарницька______________________________________________________________
86 ISSN 0027-2833. Мовознавство, 2015, № 1
Моделі та методи лінгвістичного аналізу тексту...
Рис. 1. Функціональна структура інтелектуальної системи оцінювання знань
Для якісної та повноцінної роботи система автоматичного лінгвістичного
аналізу повинна мати можливість проаналізувати текст відповіді на запитання з
позицій сучасної української морфології, синтаксису, семантики та прагматики,
згенерувати текст відповіді в логічне внутрішнє представлення та синтезувати
відповідь природною мовою. Структурну схему процесу переведення варіанта
відповіді з природної мови у внутрішньосистемне подання наведено на рис. 2.
У процесі роботи морфологічного блоку здійснюється нормалізація слово
форм, для кожної лексеми визначається відповідна змістова інформація: лекси
ко-граматичні класи, граматичні, синтаксичні та семантичні характеристики.
Слова та абревіатури з помилками замінюються правильними словами, одержа
ними з бази даних «Словник». Ця послідовність потрапляє далі на вхід блоку
синтаксичного аналізу, метою якого є отримання синтаксичної структури фра
зи, яка записується у вигляді дерева складників або дерева залежностей. У разі
використання дерева залежностей для кожного елемента-вершини аналізовано
го ланцюжка вказується елемент, що ним керує, і тип зв’язку між ними (крім
джерела-вершини графа).
Природною мовою однакову за змістом думку можна подати різними лек
сичними конструкціями. Через це структура текстового подання відповіді може
істотно відрізнятися від зразка. Отже, для порівняння за змістом текстової від-
ISSN 0027-2833. Мовознавство, 2015, № 1 87
О. I. Комарницъка.
Рис. 2. Схема обробки даних
повіді зі зразком потрібно визначити зміст. Це завдання розв’язується за допо
могою семантичного аналізу— виділення з тексту змістової структури (знання),
а далі — порівняння семантичного наповнення тексту відповіді та зразка.
Одним з надійних методів порівняння за змістом текстів є метод латентного
семантичного аналізу (ЛСА), який дозволяє на підставі оцінки кореляції між
словами і текстами зробити висновок про ступінь близькості змісту цих слів чи
групи слів. Однак для методу ЛСА існують певні обмеження: у ньому не врахо
вується порядок слів і, як наслідок, нівелюються синтаксичні відношення, ло
гіка та морфологія.
З огляду на сказане розроблено метод нечіткого семантичного порівняння за
змістом розгорнутих відповідей студентів, поданих в електронному вигляді, з
варіантами правильних відповідей. Розроблений алгоритм (див. рис. 3) передба
чає автоматизоване виділення лексичних одиниць тексту з подальшим здійснен
ням морфологічного, синтаксичного, семантичного та прагматичного аналізу.
Для порівняння нечітких лексичних одиниць використано так звану метрику
Левенштейна, що дозволяє встановлювати ступінь відповідності еталонного
тексту з бази даних предметної галузі тексту відповіді.
Застосування розробленого алгоритму дозволяє усунути можливі помилки у
вихідному тексті (неправильні закінчення, нестандартні скорочення тощо), виз
начити належність вихідного тексту до певної предметної галузі, сформувати
загальну оцінку відповіді на питання тестових завдань на основі комплексного
показника.
У розробленій системі оцінювання знань удосконалено алгоритми аналізу
рядків. Кожний текстовий рядок - це вектор в N-вимірному просторі, де N —
кількість символів у рядку. Для нечіткого порівняння текстової інформації у від
повідях студентів під час тестування було удосконалено алгоритм, у якому зразок
і відповідь розбиваються на окремі слова. Після цього проводиться нечіткий по
шук збігу слів у зразку і відповіді, для чого застосовується метрика Левенштейна.
Удосконалення алгоритму методу ЛСА полягає в тому, що на етапі форму
вання частотної матриці індексованих слів (терм) застосовано алгоритм нечітко
го семантичного порівняння текстової інформації. У результаті його роботи ін
дексовані слова (терми) замінюються лексичними одиницями з баз даних.
Процедуру стемінгу було замінено на лематизацію текстових одиниць, тобто
88 ISSN 0027-2833. Мовознавство, 2015, № 1
Моделі та методи лінгвістичного аналізу тексту...
Рис. 3. Алгоритм методу нечіткого семантичного порівняння
за змістом розгорнутих відповідей
процедуру зведення формальних варіантів слова в тексті до його певного уста
леного інваріанта — леми, або канонічної (вихідної, словникової) форми слова.
Вихідним для дії автоматичного лематизатора є текст, усім словам якого при
своєно коди граматичних класів та граматичних підкласів.
Цей підхід дозволив виявляти латентні асоціативно-семантичні залежності у
множині документів; частково усувати омонімію, полісемію та синонімію; ви
правляти слова, що написані студентом з орфографічними та технічними по
милками; ураховувати синтаксичні відношення, логіку побудови терм у контек
сті предметної сфери тощо. Це значно розширює наукове та прикладне значення
вдосконаленого методу латентно-семантичного аналізу.
Для порівняння текстової інформації за змістом на етапах семантичного та
прагматичного аналізу розроблено моделі штучного інтелекту. За результатами
семантичного аналізу будується семантична мережа - структура для подання
знань у вигляді вузлів, пов’язаних дугами (зв’язками). Під час прагматичного
аналізу визначається належність відповіді до визначеної предметної галузі. Се
мантичний і прагматичний аналіз запропоновано проводити на основі викорис
тання нейромережі. На відміну від відомих методів семантичного й прагматич
ного аналізу, розроблені алгоритми на основі моделей штучного інтелекту
дають можливість з більшою достовірністю автоматизовано проводити перевір
ку відповідей, поданих у довільній текстовій формі природною мовою. Неза
лежно від побудови речень, додаткових суджень, несуттєвих якісних характе
ристик, які можуть бути у відповіді та зразку, з них виділяється основний
«зміст» у формі семантичної мережі. Порівняння двох семантичних мереж
(тексту відповіді та зразка) дозволяє достовірно оцінити ступінь їх тотожності,
що підвищує об’єктивність оцінки.
Розроблені моделі й алгоритми істотно підвищують ефективність і достовір
ність роботи системи тестування, яка може використовуватися для поточного,
модульного, рейтингового та підсумкового контролю. На відміну від систем
ISSN 0027-2833. Мовознавство, 2015, № 1 89
оцінювання з використанням тестів, така система дозволяє оцінювати природ-
номовні відповіді студентів, подані в довільній формі.
На основі описаних моделей і алгоритмів розроблено відповідні комп’ютерні
інструментальні засоби, які забезпечують автоматизовану оцінку знань студентів
у реальному часі.
Результати практичного застосування розроблених моделей, методів та засо
бів лінгвістичного аналізу тексту в Інституті інтелектуальної власності Націона
льного університету «Одеська юридична академія», Хмельницькому коопера
тивному, торговельно-економічному інституті, Національній академії
Державної прикордонної служби України ім. Богдана Хмельницького проде
монстрували достатню ефективність при перевірці розгорнутих відповідей на
питання відкритого типу.
О. І. Комарницька______________________________________________________________
О. I. KOMARNYTSKA
MODELS AND METHODS OF TEXT LINGUISTIC ANALYSIS IN KNOWLEDGE
EVALUATION SYSTEMS
A functional structure of an intellectual system of linguistic analysis o f a deployed text response
utilizing models o f artificial intelligence has been developed in this article. An algorithm of fuzzy
semantic comparison of textual information - answers to questions submitted by a student in natural
language, with options o f correct answers, which formalizes description of linguistic structure of the
study content and answers has been elaborated. In order to form a frequency matrix of the indexed
words there has been improved the algorithm of fuzzy latent-semantic comparison of textual
information.
K e y w o r d s : algorithm, lexical unit, method, model, semantics, text, frame, Artificial
Intelligence.
90 ISSN 0027-2833. Мовознавство, 2015, № 1
|