Про один підхід до аналізу та розуміння природномовних об’єктів

Рассмотрена информационная модель лингвистического анализа в ЯОИС. Предложен комбинированный подход к распознанию синтактико-семантических отношений, тройной анализ неоднозначностей и алгоритм соотношения анафорических связей в естественноязыковом тексте. Розглянуто інформаційну модель лінгвістичног...

Full description

Saved in:
Bibliographic Details
Date:2008
Main Authors: Палагін, О.В., Світла, С.Ю., Петренко, М.Г., Величко, В.Ю.
Format: Article
Language:Ukrainian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2008
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/6503
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Про один підхід до аналізу та розуміння природномовних об’єктів / О.В. Палагін, С.Ю. Світла, М.Г. Петренко, В.Ю. Величко // Комп’ютерні засоби, мережі та системи. — 2008. — № 7. — С. 128-137. — Бібліогр.: 8 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859646847906217984
author Палагін, О.В.
Світла, С.Ю.
Петренко, М.Г.
Величко, В.Ю.
author_facet Палагін, О.В.
Світла, С.Ю.
Петренко, М.Г.
Величко, В.Ю.
citation_txt Про один підхід до аналізу та розуміння природномовних об’єктів / О.В. Палагін, С.Ю. Світла, М.Г. Петренко, В.Ю. Величко // Комп’ютерні засоби, мережі та системи. — 2008. — № 7. — С. 128-137. — Бібліогр.: 8 назв. — укр.
collection DSpace DC
description Рассмотрена информационная модель лингвистического анализа в ЯОИС. Предложен комбинированный подход к распознанию синтактико-семантических отношений, тройной анализ неоднозначностей и алгоритм соотношения анафорических связей в естественноязыковом тексте. Розглянуто інформаційну модель лінгвістичного аналізу в МОІС. Запропоновано комбінований підхід до розпізнавання синтактико-семантичних відношень, потрійний аналіз неоднозначностей та алгоритм співвіднесення анафоричних зв’язків у природномовному тексті. Information model of linguistic analysis in LOIS is considered, combined approach to recognition of the syntactic and semantic relations, threefold ambiguity analysis and algorithm of the anafora connections correlation in natural language text are offered.
first_indexed 2025-12-07T13:28:27Z
format Article
fulltext Комп’ютерні засоби, мережі та системи. 2008, № 7 128 A.V. Palagin, S.Ju. Svitla, M.G. Petrenko, V.Ju. Velychko ABOUT ONE APPROACH TO ANALYSIS AND UNDERSTANDING OF THE NATURAL LANGUAGE OBJECTS Information model of linguistic analysis in LOIS is considered, com- bined approach to recognition of the syntactic and semantic relations, threefold ambiguity analysis and algorithm of the anafora connections correlation in natural language text are offered. Рассмотрена информационная модель лингвистического анализа в ЯОИС. Предложен комбиниро- ванный подход к распознанию синтактико-семантических от- ношений, тройной анализ неодно- значностей и алгоритм соотно- шения анафорических связей в естественноязыковом тексте. Розглянуто інформаційну модель лінгвістичного аналізу в МОІС. Запропоновано комбінований під- хід до розпізнавання синтактико- семантичних відношень, потрій- ний аналіз неоднозначностей та алгоритм співвіднесення анафо- ричних зв’язків у природномовно- му тексті.  О.В. Палагін, С.Ю. Світла, М.Г. Петренко, В.Ю. Величко, 2008 УДК 004.318 О.В. ПАЛАГІН, С.Ю. СВІТЛА, М.Г. ПЕТРЕНКО, В.Ю. ВЕЛИЧКО ПРО ОДИН ПІДХІД ДО АНАЛІЗУ ТА РОЗУМІННЯ ПРИРОДНОМОВНИХ ОБ’ЄКТІВ Вступ. Ураховуючи випереджаючі (в порів- нянні з іншими джерелами) темпи приросту обсягів інформації, що міститься в природ- номовних об’єктах (ПМО), включаючи ме- режу Інтернет, актуальність наукових дослі- джень в області добування знань з ПМО зро- стає. Зокрема, це стосується сфери знання- орієнтованих інформаційних систем обробки текстової інформації. Одним з підкласів та- ких систем є онтолого-керовані інформаційні системи (ОКІС) обробки знань, що містяться в ПМО. ОКІС дозволяють як “уявний образ деякої частини реального світу” (сукупність знань про деяку предметну область (ПдО)) використовувати лінгвістичний корпус нау- ково-технічних текстів (ЛКТ), отриманих як із мережі Інтернет, так і з монографій, науко- во-технічних документів тощо. У загальному випадку ОКІС обробки знань з ПМО складається з двох інтегрованих ІС: мовно-онтологічної інформаційної системи (МОІС) для “внутрішньомовної” обробки текстової інформації та ОКІС ПдО для “ма- шинної” обробки предметних знань. МОІС обробки текстової інформації на основі мов- них знань описана в [1]. Перехід між зазна- ченими “внутрішньомовною” та “машин- ною” сферами обробки виконується при реа- лізації відповідного алгоритму, що викорис- товує базу мовних знань (в основі якої ле- жить мовно-онтологічна картина світу (МОКС)) і базу знань заданої ПдО. Ланцю- жок інформаційних технологій “Комп’ю- терна обробка природномовних текс- ПРО ОДИН ПІДХІД ДО АНАЛІЗУ ТА РОЗУМІННЯ ПРИРОДНО-МОВНИХ ОБ’ЄКТІВ Комп’ютерні засоби, мережі та системи. 2008, № 7 129 тів → Представлення знань → Комп’ютерна обробка знань” є реаліза- ція базових процедур аналізу, синтезу та розуміння природної мови комп’ютером, які в більш загальному розумінні можна виразити продукційним ланцюжком вхідне_повідомлення  система_знань  реакція. Суть цього ланцюжка визначається міждисциплінарною системною інтегра- цією лінгвістичних та предметних знань, що взагалі, представляє нову інформа- ційну технологію, яка знаходиться в стадії становлення та інтенсивного розвит- ку досліджень. У даній роботі розглядається (в основному) задача побудови природномовних лінгвістичних моделей та створення на їх основі ефективних лінгвістичних процесорів (ЛП). Її вирішення лежить не стільки в області побу- дови повних описів природної мови, скільки в області концептуального осмис- лення підходу до побудови лінгвістичної моделі як невід’ємної частини системи всіх учасників обробки текстів. Одним з таких підходів може бути чітке базу- вання моделі на прагматиці системи, що об’єднує усіх її учасників навколо ці- льової обробки ПМО. Під учасниками обробки ПМО мається на увазі всі ресур- си та суб’єкти, які залучаються, включаючи ПМО, що обробляється, користува- ча, нелінгвістичні блоки ІС, проблемну область, контекст і т.п. Постановка задачі. Процес розпізнавання та добування знань з ПМО базу- ється на моделюванні інтелектуальних функцій людини, а саме: на комп’ютерному моделюванні процесу розуміння людиною ПМО. При цьому термін розуміння визначається через такі критерії: вміння переказати “своїми” словами, тобто іншими (лексичними, синтаксичними) засобами передати зміст вхідного тексту, вміння відповісти на запитання щодо певного тексту. Процеду- ра розпізнавання базується на засобах формалізації (тобто розробки онтологіч- них моделей) знань про певну мову та знань про певну ПдО. Оскільки процеду- ри розпізнавання та розуміння є базовими при лінгвістичній обробці ПМО, розг- лянемо їх більш детально з методологічної точки зору. В існуючих ІС виокремлюють п’ять основних рівнів розуміння ПМО [2]. Перший рівень характеризується схемою, яка показує, що будь-які відповіді на запитання система формує тільки на основі прямого змісту, виведеного із те- ксту. В лінгвістичному процесорі виконується морфологічний, синтаксичний та семантичний аналіз тексту і запитань, що належать йому. На виході ЛП отриму- ємо внутрішнє представлення тексту та запитань, з якими може працювати блок виведення. Використовуючи спеціальні процедури, цей блок формує відповіді. Іншими словами, вже розуміння на першому рівні потребує від ІС певних засо- бів представлення даних і виведення на цих даних. Другий рівень. На цьому рівні додаються засоби логічного виведення, засно- вані на інформації, що міститься в тексті. Це різноманітні логіки тексту (часова, просторова, каузальна та ін.), які здатні породжувати інформацію, явно відсутню в тексті. Архітектура ІС, за допомогою якої може бути реалізований другий рі- вень розуміння повинна мати додаткову базу знань, в якій зберігаються законо- мірності, що відносяться до часової структури подій, можливої їх просторової організації, каузальної залежності й т. п. Логічний блок  всі необхідні засоби для роботи з некласичними логіками. О.В. ПАЛАГІН, С.Ю. СВІТЛА, М.Г. ПЕТРЕНКО, В.Ю. ВЕЛИЧКО Комп’ютерні засоби, мережі та системи. 2008, № 7 130 Третій рівень. До засобів другого рівня додаються правила поповнення тек- сту знаннями системи про середовище. Ці знання в ІС, як правило, носять логіч- ний характер і фіксуються у вигляді сценаріїв або процедур іншого типу. Архі- тектура ІС, в якій реалізується розуміння третього рівня, зовнішньо не відрізня- ється від архітектури ІС другого рівня. Однак у логічному блоці мають бути враховані засоби не тільки для чисто дедуктивного виведення, а й для виведення за сценаріями. Три перераховані рівні розуміння повністю чи частково реалізовані практи- чно у всіх діючих ІС. Четвертий рівень. На цьому рівні відбувається зміна вмісту бази знань. Во- на доповнюється фактами, відомими системі, що вміщуються у тих текстах, які введені в систему. Різні ІС відрізняються одна від одної характером правил по- родження фактів із знань. Наприклад, в ІС, призначених для експертизи в облас- ті фармакології, ці правила спираються на методи індуктивного виведення та розпізнавання образів. Правила можуть бути засновані на принципах ймовірнос- тей, розмитих виведень і т.п. Але у всіх випадках база знань виявляється апріор- но неповною і в таких ІС виникають труднощі з пошуком відповідей на запити. Зокрема, в базах знань стає необхідним немонотонне виведення. П’ятий рівень. На цьому рівні відбувається породження метафоричного знання. Правило породження знань метафоричного рівня, що використовуються для цих цілей, представляють собою спеціальні процедури, що спираються на виведення за аналогією та асоціацією. Відомі в теперішній час схеми виведення за аналогією використовують, як правило, діаграму Лейбниця, яка відображає тільки частковий випадок суджень за аналогією. Іще менш розроблені схеми асоціативних суджень 2. Існують й інші інтерпретації феномену розуміння. Можливо, наприклад, оцінювати рівень розуміння за здатністю системи до пояснення отриманого ре- зультату. Тут можливий не тільки рівень пояснення, коли система пояснює, що вона зробила, наприклад, на основі введеного до неї тексту, але і рівень обґрун- тування (аргументації), коли система обґрунтовує свій результат, показуючи, що він не суперечить тій системі знань і даних, якими вона володіє. На відміну від пояснення обґрунтування завжди пов’язане із сумою фактів і знань, які ви- значаються теперішнім моментом існування системи. І введений для розуміння текст в одних станах може бути сприйнятий системою як істинний, а в інших – як хибний. Існуючі ІС типу експертних систем, як правило, здатні давати пояс- нення і лише частково обґрунтування 2. Особливості аналізу ПМО визначаються спрямованістю на формування по- няттєвої структури, тобто на автоматичне добування знань з текстів та їх праг- матичну інтерпретацію у термінах прикладної задачі. При цьому текст розгляда- ється як об’єкт різних рівнів аналізу: як знакова система, як граматична система і як система знань про світ (предметну область). Кожний рівень має свої особли- вості, свої засоби вираження і, отже, припускає наявність специфічних методів обробки. ПРО ОДИН ПІДХІД ДО АНАЛІЗУ ТА РОЗУМІННЯ ПРИРОДНО-МОВНИХ ОБ’ЄКТІВ Комп’ютерні засоби, мережі та системи. 2008, № 7 131 На основі виконаного аналізу моделей та загальних принципів комп’ютерної обробки ПМО на рис. 1 синтезовано структурно-логічну схему етапів лінгвісти- чного аналізу та прийнято наступні скорочення: - МОКС – мовно-онтологічна картина світу; - ПМ – природна мова; - ПМО – природномовний об’єкт. Морфологічні таблиці складників речень Акторно-семантичні таблиці складників ПМО Формально- логічне представлення вхідного ПМО База знань морфології ПМ База знань синтаксису та поверхневої семантики ПМ Словникові таблиці лексем частин мови Рівень вихідних даних Рівень обробки Рівень результатів Графемно-морфологіний аналіз Синтактико-семантичний аналіз Онтолого-семантичний аналіз МОКС База знань ПдО Морфологічний аналіз Синтактико- семантичний аналіз Онтолого- семантичний аналіз ПМО Семантико- онтологічне відображення вхідного ПМО Таблиці морфем ПМ РИС. 1. Структурно-логічна схема етапів лінгвістичного аналізу На схемі база знань ПМ складається з МОКС та баз знань етапів графемно- го, морфологічного та синтаксичного аналізу. База знань частини реального сві- ту, до якого належить лінгвістичний корпус ПМО, відображена в блоці “База знань ПдО”. Метою лінгвістичного аналізу є побудова семантико-онтологічної структури та форм логічного представлення ПМО. Суть комбінованого підходу. При аналізі ПМО одна з основних операцій  розпізнавання синтаксичних та семантичних відношень, що зв’язують слова в тексті. Розпізнавання відношень реалізується на основі їх описів (моделей) [3, 4]. Такого роду моделі обов’язково присутні у всіх методах аналізу, хоча і не завжди явно. Перший критерій для розділення методів аналізу на класи виділя- ється з урахуванням того, наскільки великі фрагменти реального світу відобра- жені в моделі, що використовується. В якості другого критерію класифікації ви- бирається мова моделі, що використовується для розпізнавання відношень. О.В. ПАЛАГІН, С.Ю. СВІТЛА, М.Г. ПЕТРЕНКО, В.Ю. ВЕЛИЧКО Комп’ютерні засоби, мережі та системи. 2008, № 7 132 У більшості методів аналізу процесу розпізнавання відношень передує переклад вихідного природномовного представлення розпізнаних об’єктів (відношень) у мову категорій традиційної граматики (число, рід, відмінок, час тощо). При цьо- му правила розпізнавання синтаксичних та семантичних відношень оперують граматичними описами слів. Тим часом, перехід до граматичних описів не явля- ється обов’язковою умовою для виконання аналізу ПМО. Інформація, необхідна для розпізнавання синтаксичних та семантичних відношень, міститься безпосе- редньо в тексті. Тому правомірний інший підхід, заснований на використанні відповідностей між відношеннями та засобами їх вираження в ПМО. В роботі [3] ці два підходи названо відповідно граматичним підходом та підходом безпо- середнього розпізнавання. Цілком зрозуміло, що граматичний підхід і підхід безпосереднього розпі- знавання мають свої недоліки та переваги. Зокрема, при першому підході – гро- міздкість процесів обробки та великий обсяг інформації; при другому підході – трудомісткість розробки словників морфів (переважно лінгвістів) та значний обсяг нерозпізнаних неоднозначностей (при визначенні морфологічних характе- ристик). Недоліки першого підходу останнім часом нівелюються значними дося- гненнями в області мікроелектроніки при створенні засобів комп’ютерної техні- ки (значно збільшено обсяг оперативної та дискової пам’яті) та принциповою можливістю реалізувати трудомісткі процедури аналізу ПМО за допомогою апа- ратних засобів їх підтримки (що на один-два порядки збільшить потужність об- числень). Недоліки другого підходу усунути принципово неможливо. Тому в роботі вибрано комбінований підхід до аналізу ПМО, який зменшує обсяг не- розпізнаних неоднозначностей до мінімального. Морфологічний аналіз. Вхідними даними процедури розпізнавання є гра- фемна структура тексту, отримана на попередньому етапі, база знань морфології ПМ та лексикографічна база даних (ЛБД). Остання включає словники лексем, словозмінну і словотвірну моделі вхідної мови, окремі таблиці для всіх частин мови. До кожної лексеми в таблиці приєднується, окрім традиційних морфологі- чних характеристик, набори синтаксичних і семантичних ознак 5, 6. Сутність процедури морфологічного аналізу полягає у приписуванні кожній мовній лексемі вхідного ПМО відповідної змістової інформації та їх структури- зацію у морфологічній таблиці (МТ). Для тих словоформ, яким в тексті прита- манні різного роду неоднозначності, в МТ вказуються всі словоформи омографи з відповідними граматичними характеристиками. Така інформація включає: лек- сико-граматичні класи та відповідні цим класам граматичні характеристики (на- приклад, для іменників – це рід, число, відмінок) та вищезгадані деякі синтакси- чні і семантичні ознаки. Вона передається до етапу синтаксичного аналізу. Синтактико-семантичний аналіз. Кінцевим завданням блоку синтаксич- ного аналізу є представлення кожного речення заданого природномовного текс- ту у вигляді синтаксичного дерева (лексеми речення з синтактико-семантичними відношеннями між ними). ПРО ОДИН ПІДХІД ДО АНАЛІЗУ ТА РОЗУМІННЯ ПРИРОДНО-МОВНИХ ОБ’ЄКТІВ Комп’ютерні засоби, мережі та системи. 2008, № 7 133 Зв’язування слів у реченні відбувається поступово, від словосполучення до групи зв’язаних слів і, зрештою, до об’єднання всіх груп у реченні в одну струк- туру. Для встановлення зв’язку між окремими словами використовуються при- родномовні засоби вираження семантичних та синтаксичних відношень. У флек- тивних мовах такими засобами є змінні частини повнозначних слів та службові слова. Такі сегменти словосполучення, які кодують відношення між повнознач- ними словами, називаються синтаксичними визначниками [4]. Оскільки одному синтаксичному визначнику може відповідати декілька синтаксичних відношень, для однозначності визначення зв’язків між словами вводиться поняття кореля- торів [4], які додатково враховують семантичні ознаки слів у словосполученні. Вихідними даними для блоку синтаксичного аналізу є: - результат попередніх етапів аналізу ПМО (графемного і морфологічного); - словник основ (містить основи слів та їх семантичні ознаки); - список всіх можливих флексій слів; - база даних з визначниками (містить синтаксичні визначники та списки ко- реляторів для кожного з них); - база даних з кореляторами (кожен корелятор складається з назви відно- шення та списку пар семантичних ознак, між якими це відношення може існува- ти). Далі описані основні етапи роботи блоку синтаксичного аналізу природно- мовного тексту. Перший етап. Використовуючи словник основ та список флексій, у кожно- му слові речення виділяється його незмінна складова (основа) та флективна. Проводиться класифікація слів за семантичними ознаками відповідних основ у словнику. При цьому виникає проблема можливої неоднозначності виділення основи слова та визначення його семантичної ознаки. Одним з шляхів її вирі- шення є врахування характеристик слів, що стоять поруч у реченні, та розши- рення словника основ додатковими характеристиками. Наприклад, дієслово "ма- ти" омонімічне іменнику "мати", але якщо на етапі морфологічного аналізу ви- значено що попереду в реченні знаходиться прислівник, тоді "мати" є дієсловом, а якщо попереду знаходиться прикметник, "мати" – іменник. Незмінна та флективна частини слова та його семантична ознака можуть бу- ти отримані й на попередніх етапах аналізу (етап морфологічного аналізу). Другий етап. Зв’язування слів у реченні доцільно починати зі словосполу- чення, що визначає головне відношення (відношення між підметом і присудком) у цьому реченні. Підмет та присудок подалі будемо називати ядром речення. У випадку, коли ядро визначити неможливо, речення аналізується зліва направо, починаючи з перших повнозначних слів. Для вибраного словосполучення формується синтаксичний визначник, який складається зі службових слів та флективних частин повнозначних слів словос- получення. Наприклад, для виразу «права та свободи» таким визначником буде конструкція типу «-а та -и». Якщо сформований визначник існує у базі даних визначників, йому буде відповідати список кореляторів. Тоді, враховуючи сема- нтичні ознаки слів у словосполученні, в базі даних з кореляторами знаходиться О.В. ПАЛАГІН, С.Ю. СВІТЛА, М.Г. ПЕТРЕНКО, В.Ю. ВЕЛИЧКО Комп’ютерні засоби, мережі та системи. 2008, № 7 134 потрібний корелятор, що встановить зв’язок між словами. Однозначність ви- значення такого зв’язку забезпечується тим, що для окремого визначника мно- жини пар семантичних ознак для кореляторів з його списку не перетинаються. Далі до словосполучення поступово приєднуються прилеглі повнозначні слова речення, шляхом встановлення зв’язку між новим словом та одним із слів опрацьованої частини речення. Так створюється група зв’язаних слів. Важливим є вибір слова з групи зв’язаних слів, яке буде пов’язуватись з наступними сло- вами. Це має бути слово з головним відношенням, або останнє слово групи. У випадку, коли неможливо встановити зв’язок між новим словом та словами гру- пи, створюється нова група зв’язаних слів. На завершальному етапі аналізу не- обхідно спробувати поєднати всі створені групи в одну, яка відображатиме структуру зв’язків між всіма словами речення. Неможливість встановлення зв’язку між окремими групами в реченні та їх об’єднання свідчить або про складне речення, частини якого не пов’язані (або пов’язані неявно) між собою, або про некоректні зв’язки між словами у групах. Для уникнення проблеми некоректного зв’язування слів необхідно проводити додатковий аналіз можливих зв’язків кожного наступного слова із словами гру- пи та вибирати найбільш вірогідний, або розглядати всі можливі варіанти зв’язків (що недоцільно, враховуючи зростання кількості таких варіантів для кожного наступного слова). Алгоритм співвіднесення анафоричних зв’язків. Однією з перших необ- хідно вирішити задачу анафоричних зв’язків, або заміни займенників у тексті на відповідні поняття (іменники). Заміщенню підлягають деякі особові, відносні, вказівні, присвійні та зворотні займенники. Алгоритм заміщення будується на основі аналізу закономірностей (відображених у базі знань синтаксису ПМ) вживання займенників у природній мові й відрізняється в залежності від типу та граматичних характеристик займенника. Із практики відомо, що найчастіше по- няттям, якому відповідає займенник є узгоджене з ним за граматичними харак- теристиками найближче повнозначне слово, яке стоїть попереду, або слово, що входить до ядра даного чи попередніх речень. Тому вихідними даними для про- ведення заміни займенників є граматичні характеристики слів (отримані в ре- зультаті морфологічного аналізу) та синтаксично-семантичні зв’язки між ними (результат роботи синтаксичного блоку). Блок-схема алгоритму заміни більшос- ті займенників показана на рис. 2. Орієнтація розроблюваної системи на ПМО з правильно побудованими ре- ченнями гарантує те, що завжди можна знайти іменник у реченні, що відповідає займеннику. Заміщення займенників дозволяє отримати додаткові зв’язки між відповід- ними поняттями у реченні та загалом у тексті, тому після цього доцільно прове- сти повторний синтаксичний аналіз речень з займенниками. Структурна схема та загальні принципи функціонування блоку онтолого- семантичного аналізу детально описані в [1, 6, 7]. ПРО ОДИН ПІДХІД ДО АНАЛІЗУ ТА РОЗУМІННЯ ПРИРОДНО-МОВНИХ ОБ’ЄКТІВ Комп’ютерні засоби, мережі та системи. 2008, № 7 135 РИС. 2. Блок-схема алгоритму заміни займенників Інформаційна модель лінгвістичного аналізу. Блок-схема узагальненого алгоритму лінгвістичного аналізу та формалізації деякого ПМО (рис. 3) являє собою послідовність етапів графемно-морфологічного, синтаксичного, об’єк- тово-семантичного, акторно-семантичного, онтологічного, онтолого-семантич- ного та формально-логічного аналізу. Деякі аспекти безпосереднього лінгвісти- чного аналізу вищерозглянуто та описано в [58]. РИС. 3. Блок-схема лінгвістичного аналізу <W>ПМО <C> S o < > < >S a <O> <Ф>•1 2 3 4 8 5 7 6 Так Так Ні Займенник є підметом? Ні Ні Підмет попереду займенника? Ні Так Ні Узгодити займенник за числом і родом з підметом попереднього речення Узгодити займенник за числом і родом з підметом речення Ні Заміна займенника неможлива ТакУзгодити займенник за числом та родом з іменниками, найближ- чими з кінця попе- реднього речення Так Заміна займенника на узгоджений з ним іменник Узгодити займенник за числом, родом та відмінком з найближ- чим іменником попереду Так Початок Кінець О.В. ПАЛАГІН, С.Ю. СВІТЛА, М.Г. ПЕТРЕНКО, В.Ю. ВЕЛИЧКО Комп’ютерні засоби, мережі та системи. 2008, № 7 136 На рис. 3 прийнято наступні скорочення: - ПМО – природномовний об’єкт; - W – послідовність словоформ, що описують ПМО; - C – послідовність синтаксичних структур речень, що входять в ПМО; - SO – послідовність об’єктово-семантичних структур речень; - Sa – послідовність акторно-семантичних структур речень; - O – послідовність онтографів; - Ф – формально-логічне представлення ПМО; - 1 – графемно-морфологічний аналіз; - 2 – синтаксичний аналіз; - 3 – об’єктово-семантичний аналіз; - 4 – акторно-семантичний аналіз; - 5 – онтологічний аналіз; - 6 – аналіз неоднозначностей; - 7 – онтолого-семантичний аналіз; - 8 – формально-логічний аналіз. Далі акцентуємо увагу на аналізі неоднозначностей, притаманних будь- якому ПМО. Зазначений аналіз виконується ітеративно завдяки зворотному зв’язку від блоку побудови онтографів О. Однією із суттєвих складових пропонованого підходу є потрійний аналіз не- однозначностей, два з яких вищеописано, а третій, найбільш складний, опишемо далі. На перших двох етапах виконуються спрощення для неоднозначностей мор- фологічного та синтактико-семантичного типу. При цьому відповідні записи у морфологічній таблиці ПМО видаляються. Перехід до третього етапу аналізу неоднозначностей (що мають контекстно-семантичні витоки) виконується тоді, коли для будь-якої словоформи морфологічній таблиці ПМО залишилось два (чи більше) записи. Спочатку виконується спроба побудувати акторно-семантичне відображення деякого речення ПМО для перших записів словоформ (із морфологічної табли- ці), що входять у речення. При цьому інтерпретатор аналізує відповідний онтог- раф речення згідно правил бази знань природної мови. Якщо результат інтерп- ретації  “істина”, то формується акторно-семантична структура речення, а якщо  “хибність”, то активується зворотній зв'язок від онтологічного блоку до блоку морфологічного аналізу (на рис. 3 позначено цифрою 6). Однією із умов при фо- рмуванні значення істинності може бути умова зв’язності онтографа. Наступний крок  формування складників речення з послідуючих записів морфологічної таблиці, побудова синтаксичної та об’єктово-семантичної струк- тури речення та спроба побудувати акторно-семантичну структуру. Ітераційний процес продовжується доти, доки не буде побудовано повністю акторно- семантичну структуру речення та відповідні онтографи. На завершення викону- ється формування формально-логічного представлення ПМО. ПРО ОДИН ПІДХІД ДО АНАЛІЗУ ТА РОЗУМІННЯ ПРИРОДНО-МОВНИХ ОБ’ЄКТІВ Комп’ютерні засоби, мережі та системи. 2008, № 7 137 Висновки. Розглянуто комбіноване розпізнавання синтаксичних та семан- тичних відношень, що зв’язують слова в тексті, яке являє собою підхід безпосе- реднього розпізнавання з елементами граматичного аналізу. Запропонований підхід дозволяє на етапі синтактико-семантичного аналізу зменшити обсяг не- розпізнаних неоднозначностей до мінімального. Використання наведеного алго- ритму заміщення займенників дає можливість отримати додаткові зв’язки між відповідними поняттями у реченні та у всьому тексті. Потрійний аналіз неодно- значностей з використанням зворотного зв'язку від онтологічного блоку до бло- ку морфологічного аналізу дозволяє побудувати більш адекватну акторно- семантичну структуру речення. У подальших дослідженнях у цьому напрямку необхідно конкретизувати побудову онтологічного представлення ПМО в ціло- му, розробити та обґрунтувати механізм формального переходу від мовного до машинного представлення текстової інформації. 1. Палагин А.В., Петренко Н.Г. К проектированию онтологоуправляемой информационной системы с обработкой естественно-языковых объектов // Математичні машини і систе- ми.  2008.  № 2.  С. 1423. 2. Рыков В.В. Управление знаниями.  http://ryk-kypc2.narod.ru/part2.doc. 3. Гладун В.П. Процессы формирования новых знаний.  София: Педагог, 1994.  190 с. 4. Гладун В.П., Величко В.Ю. Конспектирование естественно-языковых текстов // Proceedings of the XI International Conf. “Knowledge-Dialogue-Solution”(KDS’2005).  Varna, Bulgaria.  2005.  Vol. 2.  Р. 344347. 5. Палагін О.В., Петренко М.Г. Модель категоріального рівня мовно-онтологічної картини світу // Математичні машини і системи.  2006.  № 3.  С. 91104. 6. Палагін О.В., Петренко М.Г. Архітектурно-онтологічні принципи розбудови інтелектуа- льних інформаційних систем // Математичні машини і системи. – 2006.  № 4.  С. 1520. 7. Palagin A.., Gladun V., Petrenko N., Velychko V., Sevruk A., Mikhailyuk A. Informational model of natural language processing // International J. "Information Technologies and Knowledge" .  2008. – Vol. 2 – Р. 56. 8. Палагин А.В., Петренко Н.Г. К вопросу системно-онтологической интеграции знаний предметной области // Математичні машини і системи.  2007.  № 34.  С. 6375. Отримано 23.10.2008 http://ryk-kypc2.narod.ru/part2.doc
id nasplib_isofts_kiev_ua-123456789-6503
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1817-9908
language Ukrainian
last_indexed 2025-12-07T13:28:27Z
publishDate 2008
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
record_format dspace
spelling Палагін, О.В.
Світла, С.Ю.
Петренко, М.Г.
Величко, В.Ю.
2010-03-04T16:09:47Z
2010-03-04T16:09:47Z
2008
Про один підхід до аналізу та розуміння природномовних об’єктів / О.В. Палагін, С.Ю. Світла, М.Г. Петренко, В.Ю. Величко // Комп’ютерні засоби, мережі та системи. — 2008. — № 7. — С. 128-137. — Бібліогр.: 8 назв. — укр.
1817-9908
https://nasplib.isofts.kiev.ua/handle/123456789/6503
004.318
Рассмотрена информационная модель лингвистического анализа в ЯОИС. Предложен комбинированный подход к распознанию синтактико-семантических отношений, тройной анализ неоднозначностей и алгоритм соотношения анафорических связей в естественноязыковом тексте.
Розглянуто інформаційну модель лінгвістичного аналізу в МОІС. Запропоновано комбінований підхід до розпізнавання синтактико-семантичних відношень, потрійний аналіз неоднозначностей та алгоритм співвіднесення анафоричних зв’язків у природномовному тексті.
Information model of linguistic analysis in LOIS is considered, combined approach to recognition of the syntactic and semantic relations, threefold ambiguity analysis and algorithm of the anafora connections correlation in natural language text are offered.
uk
Інститут кібернетики ім. В.М. Глушкова НАН України
Про один підхід до аналізу та розуміння природномовних об’єктів
About one approach to analysis and understanding of the natural language objects
Article
published earlier
spellingShingle Про один підхід до аналізу та розуміння природномовних об’єктів
Палагін, О.В.
Світла, С.Ю.
Петренко, М.Г.
Величко, В.Ю.
title Про один підхід до аналізу та розуміння природномовних об’єктів
title_alt About one approach to analysis and understanding of the natural language objects
title_full Про один підхід до аналізу та розуміння природномовних об’єктів
title_fullStr Про один підхід до аналізу та розуміння природномовних об’єктів
title_full_unstemmed Про один підхід до аналізу та розуміння природномовних об’єктів
title_short Про один підхід до аналізу та розуміння природномовних об’єктів
title_sort про один підхід до аналізу та розуміння природномовних об’єктів
url https://nasplib.isofts.kiev.ua/handle/123456789/6503
work_keys_str_mv AT palagínov proodinpídhíddoanalízutarozumínnâprirodnomovnihobêktív
AT svítlasû proodinpídhíddoanalízutarozumínnâprirodnomovnihobêktív
AT petrenkomg proodinpídhíddoanalízutarozumínnâprirodnomovnihobêktív
AT veličkovû proodinpídhíddoanalízutarozumínnâprirodnomovnihobêktív
AT palagínov aboutoneapproachtoanalysisandunderstandingofthenaturallanguageobjects
AT svítlasû aboutoneapproachtoanalysisandunderstandingofthenaturallanguageobjects
AT petrenkomg aboutoneapproachtoanalysisandunderstandingofthenaturallanguageobjects
AT veličkovû aboutoneapproachtoanalysisandunderstandingofthenaturallanguageobjects