Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях

Запропоновано формальну постановку задачі добування знань з природномовних об'єктів. Для маніпуляції, аналізу та трансформації текстів введено поняття алгебраїчної системи спискових структур. Для представлення та зберігання семантичних мереж запропоновано використовувати реалізацію багатовимі...

Full description

Saved in:
Bibliographic Details
Date:2010
Main Authors: Палагін, О.В., Кривий, С.Л., Бібіков, Д.C., Величко, В.Ю., Марков, К., Іванова, К., Мітов, І.
Format: Article
Language:Ukrainian
Published: Інститут програмних систем НАН України 2010
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/14697
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях / О.В. Палагін, С.Л. Кривий, Д.C. Бібіков, В.Ю. Величко, К. Марков, К. Іванова, І. Мітов// Пробл. програмув. — 2010. — № 2-3. — С. 382-389. — Бібліогр.: 8 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859826968977997824
author Палагін, О.В.
Кривий, С.Л.
Бібіков, Д.C.
Величко, В.Ю.
Марков, К.
Іванова, К.
Мітов, І.
author_facet Палагін, О.В.
Кривий, С.Л.
Бібіков, Д.C.
Величко, В.Ю.
Марков, К.
Іванова, К.
Мітов, І.
citation_txt Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях / О.В. Палагін, С.Л. Кривий, Д.C. Бібіков, В.Ю. Величко, К. Марков, К. Іванова, І. Мітов// Пробл. програмув. — 2010. — № 2-3. — С. 382-389. — Бібліогр.: 8 назв. — укр.
collection DSpace DC
description Запропоновано формальну постановку задачі добування знань з природномовних об'єктів. Для маніпуляції, аналізу та трансформації текстів введено поняття алгебраїчної системи спискових структур. Для представлення та зберігання семантичних мереж запропоновано використовувати реалізацію багатовимірного методу доступу в інструментальному комплексі ArM32. We proposed a formal statement of the problem of knowledge extraction from natural language objects. For manipulation, analysis and transformation of texts the notion of an algebraic system of list structures is introduced. For presentation and storage of semantic networks it is offered to use realization of multidimensional access method in an instrumental system ArM32.
first_indexed 2025-12-07T15:29:32Z
format Article
fulltext Моделі та засоби систем баз даних і знань © О.В. Палагін, С.Л. Кривий, Д.C. Бібіков, В.Ю. Величко, К. Марков, К. Іванова, І. Мітов, 2010 382 ISSN 1727-4907. Проблеми програмування. 2010. № 2–3. Спеціальний випуск УДК 51.681.3 ФОРМАЛЬНО-ЛОГІЧНИЙ ПІДХІД ДО ПОБУДОВИ СИСТЕМ АНАЛІЗУ ЗНАНЬ В РІЗНИХ ПРЕДМЕТНИХ ОБЛАСТЯХ О.В. Палагін, С.Л. Кривий, Д.C. Бібіков, В.Ю. Величко, К. Марков, К. Іванова, І. Мітов Інститут кібернетики імені В.М. Глушкова НАН України, Київ-187, МСП, 03680, проспект Академіка Глушкова, 40, e-mail: palagin_a@ukr.net, факс: +38044 5263348 Київський національний університет імені Тараса Шевченка, Київ-01, МСП, 01601, вул. Володимирська, 64, e-mail: krivoi@i.com.ua, факс: +38044 2590439 Інститут математики і інформатики Болгарської академії наук; Болгарія, Софія-1113, вул. Академіка Г. Бонтчева, 8, e-mail: info@foibg.com Запропоновано формальну постановку задачі добування знань з природномовних об'єктів. Для маніпуляції, аналізу та трансформації текстів введено поняття алгебраїчної системи спискових структур. Для представлення та зберігання семантичних мереж запропоновано використовувати реалізацію багатовимірного методу доступу в інструментальному комплексі ArM32. We proposed a formal statement of the problem of knowledge extraction from natural language objects. For manipulation, analysis and transformation of texts the notion of an algebraic system of list structures is introduced. For presentation and storage of semantic networks it is offered to use realization of multidimensional access method in an instrumental system ArM32. Вступ Комп'ютерна технологія розробки сенсорних систем за допомогою віртуальної лабораторії автоматизованого проектування [1] дозволяє фахівцям різних предметних областей таких як хімія, біологія, біохімія, фізика самостійно перевірити можливість створення вимірювального пристрою й здійснити проектування нового приладу включно до етапу розробки конструкторської документації на виготовлення дослідного зразка. Віртуальна лабораторія розробки сенсорних систем (ВЛРСС) створюється на базі формалізованого подання теоретичних знань, принципів організації, методів і засобів автоматизованого проектування й тестування інформаційно-вимірювальних систем і приладів з використанням методології системної інтеграції. ВЛРСС є складною системою, що складається із взаємодіючих програмних та апаратних модулів. Для формалізованого опису ВЛРСС, структурування й подання знань у машинній формі зручно використовувати онтологічне подання. Базова онтологія розподіленої віртуальної лабораторії проектування сенсорних систем [2] містить основні поняття, що описують предметну область ВЛРСС і віртуальних методів проектування, а також відносини, семантично значимі для цієї предметної області. З точки зору розробника електронного пристрою, основною метою функціонування онтології ВЛРСС є активна допомога користувачеві при створенні сенсорної системи з спілкуванням на обмеженій природній мові. Відповідь системи повинна включати описи процедур, методів і компонентів віртуальної лабораторії, що дозволяють вирішити завдання, які поставлені в запиті користувача. Для організації такого діалогу необхідно вирішувати завдання аналізу й синтезу природно-мовних текстів (ПМТ). Іншою важливою задачею, яка повинна вирішуватись при використанні ВЛРСС, є поповнення онтології віртуальної лабораторії у сфері професійних інтересів користувача на основі автоматизованого аналізу ПМТ. Формальна постановка задачі аналізу ПМТ Нехай 1 2... nT t t t – ПМТ в алфавіті X, тобто ( )T L X , де L(X) – мова в алфавіті X, а it T – речення цього тексту, i = 1,2,…, n. Кожне речення it T , в свою чергу, має структуру 1 2...i i i imt t t t , де ijt змістовно означають граматичні одиниці, з яких побудоване речення it T . Якщо ij it t , то 1 1 ( ) j jL i i iC t t t   і 1 1 ( ) j mR i i i C t t t   будемо називати лівим і правим контекстом слова ji t відповідно у реченні i t . З текстом T зв’яжемо такі об’єкти: S – словник мови ( )L X , де знаходяться слова ji t зі своїми означеннями; T S   – відношення, яке визначає можливі значення і типи слів у словнику S ; ( , )A D П – предметна модель, на якій інтерпретується текст T ; T A   – відношення інтерпретації тексту T на моделі ( , )A D П . mailto:palagin_a@ukr.net mailto:krivoi@i.com.ua Моделі та засоби систем баз даних і знань 383 Сигнатура предикатів 1{ , , }rk k П    включає атомарні предикати, з яких можна будувати складні формули. Зараз неможливо зафіксувати цю сигнатуру, так як вона залежить від предметної моделі. Оскільки модель не фіксується, то і її сигнатуру уточнити неможливо. Зауважимо тільки те, що кожний атомарний предикат має тип (тобто, це буде деяка типізована сигнатура). Визначимо правила обчислення відношень  і  . Відношення  має досить простий спосіб обчислення: 1 1 2 2ji s st a a a    ( ) {( , ),( , ), ,( , )} , де i a можливі значення слова ji t , i  – його можливі типи. Може трапитися, що ( ) jit  . У цьому випадку значення цього слова вважається невизначеним (і ця ситуація вимагає поповнення словника S ). Відношення  визначається дещо складніше. Якщо модель ( , )A D П визначена, то 1( ) ( ) ( )nT t t    , де 1 1 2 2 2 ( ) { ( ( ) ( ( ))), ( ( ( )) ( ) ( ( ))), , ( ( ( )) ( ))} n ni i R i R i i R i L i it t C t C t t C t C t t            , при цьому ( ( )) ( ( )) j ji it t     ; j jL i L i C t C t   ( ( ( ))) ( ( ( ))) ; 1 1 2 k k r k r p p p p        ( ( ( , , ))) ( ( ))( ( ( ), , ( ))) , де ( ( ))k r    – ім’я предиката, тип якого узгоджений з аргументами 1 k p p ( ), , ( ) . Задачі, що випливають з формальної постановки З вищенаведеної формалізованої постановки проблеми аналізу ПМТ випливає, що основні задачі її розв’язання зводяться до таких: – побудувати предметну модель ;A ця задача є основною і найбільш складною в зв’язку з тим, що предметна модель по суті є базою знань (побудова такої бази полягає в тому, щоб визначитися з об’єктами, які добуваються з тексту, з формальною логічною мовою, правилами виведення, аксіоматикою тощо); – показати обчислюваність відношень  і  на предметній моделі A і побудувати алгоритми обчислення відношень  і  ; – при обчисленні відношень  і  контролювати відповідність типів аргументів і предикатів; – визначити взаємодію алгоритмів обчислення  і  з системами синтаксичного і семантичного аналізу тексту. Другорядними, але теж важливими, є задачі пов’язані з – визначенням структури даних для словників; – визначенням інформації, яка повинна знаходитися в словниках; – визначенням режиму взаємодії з користувачем (автоматичний, автоматизований, діалоговий); – визначенням мови інтерфейсу користувача й алгоритмів логічного виведення. Обмеження на вхідний текст Розглянемо коротко структурні обмеження, які накладаються на вхідний текст. Нормалізація ПМТ. Більшість систем як інформаційного пошуку, так і обробки текстової інформації включають як основну компоненту систему аналізу, яка служить для виявлення “змісту” або “значення” заданої одиниці інформації. В звичайних системах такого типу аналіз може виконувати людина. При цьому аналіз використовує завчасно розроблені таблиці або шаблони для визначення того, який ідентифікатор змісту за сенсом більше підходить для заданої одиниці інформації. Відомі системи так званого автоматичного індексування, в яких ідентифікатори змісту приписуються автоматично, виходячи із структури тексту документа і запиту. У зв’язку з тим, що природна мова включає різного роду нерегулярні явища (зокрема, неоднозначності), які зустрічаються як в синтаксисі, так і в семантиці, то система смислового аналізу повинна приводити вхідні тексти до деякого нормалізованого вигляду, перетворюючи різні, можливо неоднозначні, структури на вході у фіксовані, стандартні ідентифікатори змісту. Такого типу процедури нормалізації мови часто використовують словники і списки слів, які включають допустимі ідентифікатори змісту, причому для кожного ідентифікатора наводиться відповідне означення з тим, щоб регулювати і контролювати його використання. Слід зауважити, що до появи поняття “онтологія” (та розробки “онтологізованих” систем обробки ПМТ) процедури аналізу ПМТ рідко виходили за рамки аналізу одного речення. Це пояснюється тим, що проблема аналізу ПМТ досить складна і приходиться сильно обмежувати “свої запити” при спробі автоматизації такого роду аналізу, виконуючи деякий спрощений аналіз тексту (або накладати обмеження на стилі оброблюваних текстів). Обмеження задачі аналізу. Конкретизація задачі аналізу спрощується до такої. Словник S , про який говорилося вище, є тлумачним словником мови ( )L X (це може бути словник російської, української, англійської або будь-якої іншої природної мови). Моделі та засоби систем баз даних і знань 384 Текст T складається з речень мови ( )L X і являє собою текст, який не включає ніяких символів, крім символів алфавіту X (тобто, T не включає формул, графіків, рисунків і т. п.). Відношення  складається із суперпозиції двох відношень 1 2  , які виконуються послідовно. Відношення 1 означає розпізнавання належності слова до даної мови і перевірку правильності написання слова ji it t , де it T у відповідності з написанням його в тлумачному словнику, тобто 1 1, якщо ; ( ) 0, якщо . j j j i i i t S t t S      Якщо слово ji it t розпізнано в словнику S, то воно заноситься в словник T’ правильних слів, а якщо це не так, то передбачається сигналізація про те, що дане слово відсутнє у словнику S і приймається рішення про додавання даного слова у словник або його виправлення (слово може бути неправильним, наприклад, внаслідок сканування тексту Т). Словники S і T’ є вхідними даними для відношення 2 . Змістовний сенс відношення 2 зводиться до того, що коли 1( ) 1 jit  , то 2 ( ) jit визначає його граматичну одиницю мови (іменник – ім’я власне, іменник – загальний, займенник тощо), а також можливі флексії слова ji it t . Областю інтерпретації тексту T є модель ( , )A D П , де T – вихідний текст, можливо розширений деякою додатковою інформацією, а сигнатура П визначається виходячи з тексту T внаслідок використання інформації про різні входження слова jit в речення it T . При цьому обчислення відношення  обмежується окремо взятим реченням it T , яке визначається кожним входженням слова jit в текст T . У випадку трудності визначення предиката i Π  , передбачається діалоговий режим обчислення ( )i  і ( ( ))i   . Розглянемо питання про засоби маніпуляції з текстовою інформацією. Представимо формальну алгебро- логічну мову, орієнтовану на обробку такого типу інформації. Алгебраїчна система спискових структур Побудова та опис такої мови виконується в два етапи. На першому описується алгебра спискових структур, а на другому – доповнення цієї алгебри до алгебраїчної системи спискових структур (АССС). Алгебра спискових структур. Нехай F(X) – вільна напівгрупа з одиницею над деяким скінченним алфавітом X = {х1, х2,..., хn}. Роль одиниці відіграє пусте слово e. Нагадаємо, що словом в алфавіті X називається довільна скінченна послідовність символів цього алфавіту. Довільне слово р = у1у2 … уm із F(X) будемо називати списком елементів у1у2 … ут, а самі елементи уі  X, і = 1, 2,..., т, – складовими цього списку. При цьому елемент у1 називається початком, а елемент ут – кінцем списку. Якщо р  F(X), то число складових списку р називається його довжиною і позначається l(р). Якщо p, q – два списки, то список (слово) q називається початком (кінцем) списку (слова) р, коли існує таке слово р', що р = qp' (р = p'q). Два списки р = s1s2...sk і q = = t1t2...tl рівні між собою, якщо l = k і si = ti, і = 1, 2,..., k. З теорії відомо, що F(X) є алгеброю з однією бінарною операцією конкатенації (сопc) і однією нульарною операцією (пусте слово e). Введемо в розгляд ще декілька функцій і операцій над списками, тобто над елементами множини F(X) [3]. Нехай N – множина натуральних чисел і р = у1у2 … ут – довільне слово із F(X), тоді head(p) = y1 (head: F(X)  F(X)). Іншими словами, функція head(p) дає перший символ слова р. Безпосередньо з визначення цієї функції випливають такі її властивості: head(e) = e, head(y) = y, якщо y = X, head(head(p)) = head(p). tail(p) = y2…ym (tail: F(X)  F(X)). Очевидно, що tail (e) = e, tail (y) = e, якщо y = X. Зміст наведених нижче функцій випливає з їх визначення. add(p, i, x) = y1…yi xyi+1…ym, 0  i  l(p). sub(p, i) = y1…yi–1yi+1…ym, 1  i  l(p). dist(p, i) = (р1, р2), дe р1 = у1…уі, р2 = уі+1 …ут, 0  і  l(р). hl(p, i) = y1…yi, 0  i  l(p). tr(p, i) = yi+1 … ym, 0  i  l(p). push(p, x) = px = add(p, l(p), x). pop(p) = y1…ym−1 = sub(p, l(p)). Моделі та засоби систем баз даних і знань 385 Універсальна алгебра G = (F(X),  = {conc, head, tail, e}) розширена операторами рекурсії та суперпозиції називається алгеброю спискових структур. Розширену алгебру спискових структур предикатом рівності та умовним оператором будемо називати алгебраїчною системою спискових структур. Алгоритм морфологічного аналізу, записаний в АССС. Розглянемо приклад використання АССС для представлення алгоритму морфологічного аналізу слів природної мови. Нехай Х означає алфавіт деякої природної мови, а F(Х) – множину слів скінченної довжини в алфавіті Х. Вхідними даними алгоритму морфологічного аналізу є такі дані: D – словник мови в алфавіті Х, F – словник закінчень, Ŝ – словник суфіксів. Морфологічний аналіз виконується для слова w  F(X) і при цьому вважається, що належність слова w до певного лексико-граматичного розряду (іменників, прикметників, дієслів тощо) вже відома, як тільки встановлено, що це слово або його корінь належать до словника D, в якому цей клас явно вказаний. МОРФОЛОГІЯ (w,D, F, Ŝ) begin D: словник мови в алфавіті Х; F: словник закінчень; Ŝ: словник суфіксів; w : слово, що аналізується. if subword(D,w) = 1 then print(w,e,e) else if l(w) > 1 then okonch(w,1,e,e) else print(<<w>>). end okonch (p,i,q,r) begin if subword(F,head(conv(p)))=1 then if subword(D, hl(p,l(p)-i)) = 1 then print(hl(p,l(p)-i),q,head(conv(p))r) else if l(hl(p,l(p)-i))=1 then print(<<p>>) else if continue(hl(p),l(p)-i))=1 then /* закінчення має продовження */ okonch (hl(p,l(p)-i-1),i+1,q,head(conv(hl(p,l(p)-i))r) else sufiks(hl(p,l(p)-i),i,q,r) else if subword(F,hl(r,l(p)-i))=1 then sufiks(hl(p,l(p)-i),i-1,q,hl(r,l(r)-i)) else sufiks(p,1,e,e) end sufiks(p,i,s,f) begin if subword(Ŝ,head(conv(p)))=0 then print(<<p>>) else if subword(D, hl(p,l(p)-i)) = 1 then print(hl(p,l(p)-i),s,f) else if l(hl(p,l(p)-i))<=1 then print(<<p>>) else if continue(hl(p),l(p)-i))=1 then /* суфікс має продовження */ sufiks(hl(p,l(p)-i-1),i+1,q,head(conv(hl(p,l(p)-i))s,f) else print(<<p>>) end. Словники та ідентифікація слів при обробці текстової інформації. Розглянемо вільну напівгрупу F (X ) над деяким скінченним алфавітом X = {x1, x2, ..., xm}. Нехай p, q  F(X) – довільні слова, де l (p) < l (q). Необхідно знайти одне (перше) входження слова р в слово q або всі входження слова р в слово q. Задачі такого типу носять назву задач ідентифікації (у даному випадку задачі ідентифікації слів). Задачі ідентифікації – складова частина проблем, пов’язаних із редагуванням текстів, пошуком даних у базах даних і символьними обчисленнями. Розглянемо проблему пошуку слова р в слові q, одну з основних при розв’язуванні перелічених задач. Оскільки слово р задане, а слово q може бути довільним, то задача ідентифікації слова р в слові q зводиться до побудови скінченного автомата А, який представляє регулярну мову, що має вигляд L = {X } · p = {x1... xm}p. Очевидно, що дана мова регулярна, і тоді за теоремою синтезу існує автомат А, який представляє цю мову деякою множиною станів F. Зауважимо, що р  L, оскільки е  {Х }. Більше того, слово р – найкоротше слово із L, яке необхідно знайти в слові q. Побудова автомата А за словом р виконується за допомогою функції “відмов” g шляхом використання спрощеного алгоритму синтезу скінченного автомата [3]. Детально такий алгоритм описаний в [4]. Користуючись даним методом розв’язання задачі ідентифікації слів, можна виконувати пошук і заміну відразу кількох слів, тобто побудувати автомат, який акцептує мову {X }·(p1  p2  ...  pk). Деякі системи підготовки та редакції текстів використовують так звані spell-checking підсистеми. Опишемо коротко принцип побудови та роботу такої підсистеми. Якщо довільна скінченна множина слів Š вхідної напівгрупи F(X ) представляється скінченним автоматом, то цей факт можна застосувати для перевірки правопису слів. Дійсно, нехай множина Š відповідає множині слів словника (наприклад, англійської мови). Тоді, якщо є сумнів відносно правильності написання деякого слова р із Š, то достатньо слово р подати на вхід автомата А, який представляє множину слів Š деякою множиною станів F. Якщо автомат А під дією слова р досягає одного із станів множини F, то слово р написане правильно, а якщо ні, то в слові є помилка. Зауважимо, що така перевірка слова р вимагає часу, пропорційного довжині l ( p) слова р. Розглянемо на прикладі роботу такого автомата. Моделі та засоби систем баз даних і знань 386 Нехай Š = {abase, abash, abat, abbey} – підмножина слів англійської мови (словник). Відповідний автомат, який представляє слова із Š, показаний на рис. 1. В цьому автоматі 0 – початковий стан, а 6, 7, 10 – заключні стани. 3 4 5 8 6 7 9 10 2 1 0 a b a s h 11 b t e y e X Рис. 1. Автомат А, який представляє слова із Š Для того, щоб застосувати автомат А для перевірки правопису слів із множини Š та ідентифікації помилок у словах, введемо ще один стан – стан 11 і переходи (показані пунктирами) в цей стан з кожного іншого стану, за винятком станів із F, під дією букв англійського алфавіту, для яких немає переходів в А. Тепер для перевірки правильності написання конкретного слова, наприклад abbei, подаємо його на вхід автомата А. Під дією цього слова попадаємо в стан 11, який не належить множині заключних станів F, отже, слово abbei написане неправильно. Перехід у стан 11 був виконаний зі стану 9 під дією вхідного символу і, тому цей символ ідентифікується як помилковий. Зауважимо, що подання словника у вигляді скінченного автомата дає значну економію пам’яті обчислювальної системи, що позитивно позначається на всьому процесі роботи з таким словником. Представлення та обробка природномовних текстів Знання, які одержані внаслідок аналізу природномовного тексту, подаються у вигляді – відношень, занесених до бази знань (БЗ); – онтологій, які відображають залежності між поняттями (концептами) та самими відношеннями в базі знань. Подання знань у вигляді відношень БЗ та засоби пошуку наслідків із деяких фактів, притаманні БЗ, дають можливість формальними методами виконувати перевірки несуперечності чи виконуваності множини формул. У системах гільбертовського типу використання формальних методів (тобто, систем, в яких доведення будуються формальним способом з аксіом шляхом застосування правил виведення) не має якого-небудь задовільного розв’язання. Справа в тому, що системи гільбертовського типу не є структурованими, а це означає, що для збору необхідної інформації по одному єдиному об’єкту необхідно переглянути всю множину логічних формул, яка знаходиться у системі (як правило такою системою є база даних). На жаль, цим недоліком страждають всі формальні логічні системи гільбертовського типу. З метою ліквідації цього недоліку було запропоновано графічне представлення формул та їх аргументів, яке служить глобалізації й структурованості інформації. Основою графічного представлення є концептуальні графи (КГ) і більш складні структури – семантичні мережі (СМ). Таке представлення дає можливість візуалізувати модель природномовної картини світу, до якої належить проблема, що розглядається. Крім того, ця візуалізація дозволяє отримувати, в разі необхідності, весь процес доведення. Концептуальні графи і семантичні мережі. Неформальні означення і приклади. Введемо нефор- мальні означення вищенаведених понять КГ і СМ, а також наведемо приклади для ілюстрації цих понять [5, 6]. Концептуальним графом називається позначений дводольний орієнтований граф  1 2G ,V V E  , де 1 2V V  , вершини із 1V позначені іменами предикатів, а вершини із 2V – іменами аргументів. Дуги графа з’єднують вершини, позначені іменами предикатів, з вершинами, які позначені іменами аргументів. Вершини із множини 1V називаються вузлами-предикатами, вершини із 2V – вузлами-концептами, а самі предикати – концептуальними предикатами. З наведеного означення випливає, що КГ повинен задовольняти таким умовам: – число дуг, які зв’язують вузли-предикати з вузлами-концептами, дорівнює арності предиката (тобто, дорівнює числу його аргументів); – всі вузли-предикати, які позначені символом одного і того ж концептуального предиката, мають однакову арність; – всі дуги, які з’єднують вузли-предикати і вузли-концепти в КГ, упорядковані від 1 до n, де n – арність предиката. Моделі та засоби систем баз даних і знань 387 Якщо логічна мова, що використовується, є типізованою, то його об’єктам приписані певні типи і з кожним концептуальним предикатним символом пов’язується кортеж типів <a,b,…,c>, який називається сигнатурою цього предиката. КГ не випадково вибрані як структури даних для представлення предикатів та їх аргументів. Ці структури пройшли тривалу апробацію у системах баз даних та знань і зарекомендували себе з найкращого боку. Це проявляється перш за все в ефективності виконання операцій на таких структурах даних. Операції на множині КГ виконуються з метою ефективної побудови більш складних структур – семантичних мереж. Семантичною мережею (СМ) називається об’єднання заданої множини концептуальних графів разом з описом їх взаємозв’язків та зануренням в контекст області суджень. Для підкріплення цих, не зовсім формальних означень розглянемо приклади, які ілюструють поняття концептуального графа та семантичної мережі. Приклад. Розглянемо речення “КГ описує семантику деякого висловлювання”. Концептуальний граф  1 1 2G ,V V E  , що відповідає цьому реченню, показаний на рис. 2. Описувати КГ Семантика Висловлювання  Рис. 2. Графічне зображення концептуального графа G 1 У цьому графі вершини “КГ” і “Висловлювання” належать до множини 1V , а вершина “Описувати” належить до 2V . Вершина “Семантика” є допоміжною, а елементами множини ребер даного КГ є (“Описувати”, “КГ”), (“Описувати”, “Висловлювання”). Подання цього речення у вигляді формули логіки предикатів має вигляд: P(a,b), де Р – символ предиката з іменем “Описувати”, a, b – аргументи предиката Р з іменами “КГ” і “Висловлювання” відповідно. Зауважимо, що подання КГ може мати різні реалізації, які можуть включати певні уточнення, характеристики контексту чи уточнення семантики (як у попередньому прикладі вершина “Семантика”). В той час як КГ представляють одну логічну формулу, СМ представляє сукупність КГ, занурених у взаємозв’язки та спільний контекст області суджень. СМ будуються із КГ за правилами кон’юнкції та спрощення. Правило кон’юнкції (ПК): Якщо вузол-концепт 1c в 1G ідентичний вузлу-концепту 2c в 2G , то G отримується шляхом вилучення 2c і з’єднанням з 1c всіх вузлів, що зв’язували 2c в 2G . Правило спрощення (ПС): Якщо КГ G після з’єднання включає два ідентичних (з’єднаних з одними і тими ж вузлами-концептами) вузли, то можна вилучити один з них разом з дугами, що зв’язують його з цими вузлами. Приклад. Візьмемо перший КГ  1G , наведений у попередньому приклад, а другий КГ  2G нехай відповідає реченню “КГ описує семантику речення з однією граматичною основою”. Графічне зображення цього КГ представлене на рис. 3. Описувати КГ Семантика Речення Граматична_основа: @1 Рис. 3. Графічне зображення концептуального графа G 2 Приклад. Розглянемо СМ, яка побудована з КГ G 1 і G 2 за правилами ПК і ПС. Внаслідок застосування ПК отримуємо СМ 1,2 для даних графів, яка показана на рис. 4. Інколи таку СМ називають об’єднаним КГ. Моделі та засоби систем баз даних і знань 388 Описувати КГ Семантика Речення Граматична_основа: @1 Висловлювання:  Рис. 4. Графічне зображення семантичної мережі СМ 1,2 Подання семантичної моделі ПМО в залежності від типів задач, що потребують розв’язання (і відповідних КГ) може мати різний ступінь деталізації. При цьому розрізняють дві задачі формально- логічного подання ПМО: перша належить до внутрішньомовної обробки, за якої результат семантичного аналізу представляється найбільш повними логічними виразами у відповідному логічному базисі. Їх формування виконується паралельно з процедурою зняття лексичної неоднозначності, яка потребує деталізації КГ і експліцитного представлення відповідних контекстних залежностей. друга належить до позамовної обробки, до етапу побудови бази знань предметної області (БЗ ПдО), а точніше – до побудови бази правил логічного виведення. Така база знань повинна мати короткі правила, які дають можливість реалізувати ефективне виведення (з точки зору швидкодії та пам’яті). Для цієї задачі слід використовувати максимально спрощені КГ і відповідні їм СМ. Для представлення та зберігання семантичних мереж доцільно використовувати багатовимірний метод доступу [7], який реалізовано в інструментальному комплексі ArM32. Цей метод доступу базується на основі Багатодоменної Інформаційної Моделі (БІМ) [8]. Елементи ArM32 організовані в ієрархії нумерованих інформаційних просторів зі змінними рангами. Немає ніяких обмежень на ранг простору. До кожного елемента можна отримати доступ за допомогою відповідної багатовимірної просторової адреси, яка представлена масивом координат. Багатодоменна інформаційна модель є кроком у процесі розвитку інструментів для організації баз даних. Її головна ідея полягає у можливості фактично необмеженого доступу до багатовимірних інформаційних структур. В БІМ існують дві головні компоненти - нумеровані інформаційні простори й базові інформаційні елементи. Базовий інформаційний елемент представляє собою довільну довгу послідовність (рядок) машинних кодів (байти). В ArМ32 довжина рядка може змінюватися від нуля до 1GB. Немає ніякої межі для кількості рядків в архіві, але їх повна довжина плюс внутрішні індекси не може перевищувати межу для довжини єдиного файлу операційної системи. Основні інформаційні елементи об'єднані в нумеровані набори, які називаються нумерованими інформаційними просторами рангу 1. Нумерований інформаційний простір рангу n – множина, елементами якої є впорядковані інформаційні простори рангу n-1. ArМ32 дозволяє використовувати інформаційні простори різних рангів в одному архіві (файлі). Головними операціями ArМ32 є читання, запис, додавання, вставка, переміщення, заміна й видалення основного інформаційного елемента, або будь-якої його частини. Нумеровані інформаційні простори в ArМ32 впорядковані і головні операції з просторами враховують їх впорядкованість. ArМ32 підтримує багатопотоковий паралельний доступ до інформаційної бази в режимі реального часу. Дуже важлива особливість ArМ32 – можливість не займати дисковий простір для порожніх структур (елементи або простори). Дійсно, тільки непорожні структури необхідно зберігати у зовнішній пам'яті. Можливості ArМ32 є прийнятними для побудови інформаційної основи ВЛРСС. ArМ32 реалізований у вигляді DLL з використанням середовища розробки программ DELPHI 2003. Наведемо короткий перелік основних класів ArМ32: TZeroBlock – указує на блоки вільного дискового простору в архіві; TSpaceBlock містить прямі й непрямі покажчики на інші простори; TIndexBlock містить 169 трьохбайтових покажчиків на блоки з архіву; TDomainBlock включає інформацію про список даних і чотири області непрямих покажчиків TIndexBlock, які ведуть до блоків покажчиків з елементами; TelementBlock містить 126 чотирьохбайтових покажчиків на елементи (номер блоку + логічний зсув); TDataBlock містить 503 байти даних елементів областей. Кожен елемент складається з довжини (від 1 до 4 байтів) і значення елемента (від 1B до 1GB) заданої довжини. Багатовимірні інформаційні простори уможливлюють ефективне створення складних інформаційних структур, використовуючи маленьку кількість ресурсів, що є дуже важливим для ВЛРСС. Побудова онтологій предметних областей і метаонтологій на основі автоматизованого аналізу ПМТ служить основою у роботі користувачів віртуальних лабораторій зі знаннями у різних предметних областях. Висновки В роботі наведена формальна постановка задачі добування знань з природномовних об'єктів. Для маніпуляції, аналізу та трансформації текстів введено поняття алгебраїчної системи спискових структур, за Моделі та засоби систем баз даних і знань 389 допомогою якої виконується оброблення текстів на рівні фізичного представлення. Для представлення та зберігання семантичних мереж запропоновано використовувати реалізацію багатовимірного методу доступу в інструментальному комплексі ArM32. Знання, описані експертом та одержані внаслідок аналізу ПМТ, подаються у вигляді бази знань та онтології предметної області. Це дозволяє запровадити віртуальну організацію роботи користувача зі знаннями з різних предметних областей. Подяка Робота виконана за фінансової підтримки Міністерства освіти і науки України в рамках спільного Українсько- Болгарського проекту № 145 / 23.02.2009 “Розробка розподілених віртуальних лабораторій на основі прогресивних методів доступу для підтримки проектування сенсорних систем” і Болгарського національного наукового фонду в рамках спільного Болгарсько-Українського проекту D 002-331 / 19.12.2008 з тією ж назвою. 1. Oleksandr Palagin, Volodymyr Romanov, Krassimir Markov, Vitalii Velychko, Peter Stanchev, Igor Galelyuka, Krassimira Ivanova, Ilia Mitov. Developing of Distributed Virtual Laboratories for Smart Sensor System Design Based on Multi-dimensional Access Method. // International Book Series “INFORMATION SCIENCE & COMPUTING”. Number 8 FOI ITHEA, Sofia, Bulgaria. – 2009. – Р. 155–161. 2. Палагин А., Романов В., Марков К., Величко В., Галелюка И., Иванова К., Станчев П., Митов И., Станева М. Базовая онтология распределенной виртуальной лаборатории проектирования сенсорных систем // Knowledge – Dialogue – Solution: International book series “INFORMATION SCIENCE & COMPUTING”. Number 15 FOI ITHEA, Sofia, Bulgaria. – 2009. – P. 19–23. 3. Кривий С.Л. Дискретна математика: вибрані питання. – Київ: Видавничий дім «Києво-Могилянська академія», 2007. – 570 с. 4. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. – М.: Мир, 1979. – 535 с. 5. Логический подход к искусственному интеллекту. От классической логики к логическому программированию / А. Тейз, П. Грибомон, Ж. Луи и др. – М.: Мир, 1990. – 429 с. 6. Логический подход к искусственному интеллекту. От модальной логики к логике баз данных / А. Тейз, П. Грибомон, Г. Юлен и др. – М.: Мир, 1998. – 494 с. 7. Кr. Markov. А Multi-domain Access Method. // Proceedings of the International Conference on Computer Based Scientific Research. Plovdiv, 1984. – Р. 558–563. 8. Markov K. Multi-Domain Information Model. // J. Information Theories and Applications. – 2004. – 11, N 4. – Р. 303–308.
id nasplib_isofts_kiev_ua-123456789-14697
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1727-4907
language Ukrainian
last_indexed 2025-12-07T15:29:32Z
publishDate 2010
publisher Інститут програмних систем НАН України
record_format dspace
spelling Палагін, О.В.
Кривий, С.Л.
Бібіков, Д.C.
Величко, В.Ю.
Марков, К.
Іванова, К.
Мітов, І.
2010-12-27T17:11:35Z
2010-12-27T17:11:35Z
2010
Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях / О.В. Палагін, С.Л. Кривий, Д.C. Бібіков, В.Ю. Величко, К. Марков, К. Іванова, І. Мітов// Пробл. програмув. — 2010. — № 2-3. — С. 382-389. — Бібліогр.: 8 назв. — укр.
1727-4907
https://nasplib.isofts.kiev.ua/handle/123456789/14697
51.681.3
Запропоновано формальну постановку задачі добування знань з природномовних об'єктів. Для маніпуляції, аналізу та трансформації текстів введено поняття алгебраїчної системи спискових структур. Для представлення та зберігання семантичних мереж запропоновано використовувати реалізацію багатовимірного методу доступу в інструментальному комплексі ArM32.
We proposed a formal statement of the problem of knowledge extraction from natural language objects. For manipulation, analysis and transformation of texts the notion of an algebraic system of list structures is introduced. For presentation and storage of semantic networks it is offered to use realization of multidimensional access method in an instrumental system ArM32.
uk
Інститут програмних систем НАН України
Моделі та засоби систем баз даних і знань
Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях
Formal-logical approach to building analysis systems of knowledge in different domains
Article
published earlier
spellingShingle Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях
Палагін, О.В.
Кривий, С.Л.
Бібіков, Д.C.
Величко, В.Ю.
Марков, К.
Іванова, К.
Мітов, І.
Моделі та засоби систем баз даних і знань
title Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях
title_alt Formal-logical approach to building analysis systems of knowledge in different domains
title_full Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях
title_fullStr Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях
title_full_unstemmed Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях
title_short Формально-логічний підхід до побудови систем аналізу знань в різних предметних областях
title_sort формально-логічний підхід до побудови систем аналізу знань в різних предметних областях
topic Моделі та засоби систем баз даних і знань
topic_facet Моделі та засоби систем баз даних і знань
url https://nasplib.isofts.kiev.ua/handle/123456789/14697
work_keys_str_mv AT palagínov formalʹnologíčniipídhíddopobudovisistemanalízuznanʹvríznihpredmetnihoblastâh
AT kriviisl formalʹnologíčniipídhíddopobudovisistemanalízuznanʹvríznihpredmetnihoblastâh
AT bíbíkovdc formalʹnologíčniipídhíddopobudovisistemanalízuznanʹvríznihpredmetnihoblastâh
AT veličkovû formalʹnologíčniipídhíddopobudovisistemanalízuznanʹvríznihpredmetnihoblastâh
AT markovk formalʹnologíčniipídhíddopobudovisistemanalízuznanʹvríznihpredmetnihoblastâh
AT ívanovak formalʹnologíčniipídhíddopobudovisistemanalízuznanʹvríznihpredmetnihoblastâh
AT mítoví formalʹnologíčniipídhíddopobudovisistemanalízuznanʹvríznihpredmetnihoblastâh
AT palagínov formallogicalapproachtobuildinganalysissystemsofknowledgeindifferentdomains
AT kriviisl formallogicalapproachtobuildinganalysissystemsofknowledgeindifferentdomains
AT bíbíkovdc formallogicalapproachtobuildinganalysissystemsofknowledgeindifferentdomains
AT veličkovû formallogicalapproachtobuildinganalysissystemsofknowledgeindifferentdomains
AT markovk formallogicalapproachtobuildinganalysissystemsofknowledgeindifferentdomains
AT ívanovak formallogicalapproachtobuildinganalysissystemsofknowledgeindifferentdomains
AT mítoví formallogicalapproachtobuildinganalysissystemsofknowledgeindifferentdomains