Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом
Проаналізовано основні методи інтелектуальної обробки текстової інформації. Застосовано метод резолюцій для пошуку логічних збігів у реченнях природної мови, представлених у вигляді логіко-лінгвістичних моделей. Досліджено основні етапи алгоритму методу шинглів для порівняння текстових документів за...
Gespeichert in:
Datum: | 2012 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | Ukrainian |
Veröffentlicht: |
Інститут проблем математичних машин і систем НАН України
2012
|
Schriftenreihe: | Математичні машини і системи |
Schlagworte: | |
Online Zugang: | http://dspace.nbuv.gov.ua/handle/123456789/59995 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Zitieren: | Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом / А.І. Вавіленкова // Мат. машини і системи. — 2012. — № 1. — С. 166-173. — Бібліогр.:8 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-59995 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-599952014-04-12T03:01:41Z Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом Вавіленкова, А.І. Моделювання і управління Проаналізовано основні методи інтелектуальної обробки текстової інформації. Застосовано метод резолюцій для пошуку логічних збігів у реченнях природної мови, представлених у вигляді логіко-лінгвістичних моделей. Досліджено основні етапи алгоритму методу шинглів для порівняння текстових документів за змістом. Запропоновано метод порівняння логіколінгвістичних моделей текстової інформації за змістом. Произведен анализ методов интеллектуальной обработки текстовой информации. Применен метод резолюций для поиска логических совпадений в предложениях естественного языка. Исследованы основные этапы алгоритма метода шинглов для сравнения текстовых документов по смыслу. Предложен метод сравнения логико-лингвистических моделей текстовой информации по смыслу. The main methods of intelligent processing of text information were analyzed. The method of resolutions for searching logical coincidences in the sentences of natural language, represented in logical-linguistic models, was applied. The basic steps of the shingles method algorithm for comparing text documents according to the content were researched. A comparing method for the logical-linguistic models of textual information according to the content was proposed. 2012 Article Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом / А.І. Вавіленкова // Мат. машини і системи. — 2012. — № 1. — С. 166-173. — Бібліогр.:8 назв. — укр. 1028-9763 http://dspace.nbuv.gov.ua/handle/123456789/59995 004.82 (045) uk Математичні машини і системи Інститут проблем математичних машин і систем НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Ukrainian |
topic |
Моделювання і управління Моделювання і управління |
spellingShingle |
Моделювання і управління Моделювання і управління Вавіленкова, А.І. Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом Математичні машини і системи |
description |
Проаналізовано основні методи інтелектуальної обробки текстової інформації. Застосовано метод резолюцій для пошуку логічних збігів у реченнях природної мови, представлених у вигляді логіко-лінгвістичних моделей. Досліджено основні етапи алгоритму методу шинглів для порівняння текстових документів за змістом. Запропоновано метод порівняння логіколінгвістичних моделей текстової інформації за змістом. |
format |
Article |
author |
Вавіленкова, А.І. |
author_facet |
Вавіленкова, А.І. |
author_sort |
Вавіленкова, А.І. |
title |
Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом |
title_short |
Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом |
title_full |
Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом |
title_fullStr |
Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом |
title_full_unstemmed |
Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом |
title_sort |
логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом |
publisher |
Інститут проблем математичних машин і систем НАН України |
publishDate |
2012 |
topic_facet |
Моделювання і управління |
url |
http://dspace.nbuv.gov.ua/handle/123456789/59995 |
citation_txt |
Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом / А.І. Вавіленкова // Мат. машини і системи. — 2012. — № 1. — С. 166-173. — Бібліогр.:8 назв. — укр. |
series |
Математичні машини і системи |
work_keys_str_mv |
AT vavílenkovaaí logíkolíngvístičnímodelírečenʹâkzasíbporívnânnâtekstovihdokumentívzazmístom |
first_indexed |
2025-07-05T11:07:39Z |
last_indexed |
2025-07-05T11:07:39Z |
_version_ |
1836804902295175168 |
fulltext |
166 © Вавіленкова А.І., 2012
ISSN 1028-9763. Математичні машини і системи, 2012, № 1
УДК 004.82 (045)
А.І. ВАВІЛЕНКОВА
ЛОГІКО-ЛІНГВІСТИЧНІ МОДЕЛІ РЕЧЕНЬ ЯК ЗАСІБ ПОРІВНЯННЯ
ТЕКСТОВИХ ДОКУМЕНТІВ ЗА ЗМІСТОМ
Анотація. Проаналізовано основні методи інтелектуальної обробки текстової інформації. За-
стосовано метод резолюцій для пошуку логічних збігів у реченнях природної мови, представлених у
вигляді логіко-лінгвістичних моделей. Досліджено основні етапи алгоритму методу шинглів для
порівняння текстових документів за змістом. Запропоновано метод порівняння логіко-
лінгвістичних моделей текстової інформації за змістом.
Ключові слова: інтелектуальна обробка, логіко-лінгвістична модель, метод резолюцій, метод ши-
нглів, метод порівняння логіко-лінгвістичних моделей, текстова інформація.
Аннотация. Произведен анализ методов интеллектуальной обработки текстовой информации.
Применен метод резолюций для поиска логических совпадений в предложениях естественного
языка. Исследованы основные этапы алгоритма метода шинглов для сравнения текстовых доку-
ментов по смыслу. Предложен метод сравнения логико-лингвистических моделей текстовой ин-
формации по смыслу.
Ключевые слова: интеллектуальная обработка, логико-лингвистическая модель, метод резолю-
ций, метод шинглов, метод сравнения логико-лингвистических моделей, текстовая информация.
Abstract. The main methods of intelligent processing of text information were analyzed. The method of
resolutions for searching logical coincidences in the sentences of natural language, represented in logi-
cal-linguistic models, was applied. The basic steps of the shingles method algorithm for comparing text
documents according to the content were researched. A comparing method for the logical-linguistic mod-
els of textual information according to the content was proposed.
Keywords: intelligent processing, logical-linguistic model, resolution method, shingles method, method of
comparison of logical-linguistic models, the text information.
1. Вступ
Нові можливості, які несе з собою інформаційна революція, створюють виклик традицій-
ним системам генерування, розповсюдження та передачі знань, тобто системам науки й
освіти. Потужні бази даних і знань відіграють роль гігантських «сховищ» для нескінчен-
них фактів і базових даних у всіх сферах людської діяльності, а глобальні комп’ютерні ме-
режі стають потужними інструментами для високошвидкісного доступу до цієї інформації
з будь-якого куточку світу.
У зв’язку з цим істотно зростає роль методологічних, системних, міждисциплінар-
них знань людини, необхідних для раціонального й осмисленого оперування різноманіт-
ними знаннями і даними з метою вирішення нових, нестандартних проблем. У цій новій
парадигмі найголовніше місце відводиться аналітичним здібностям ученого чи педагога,
тобто його спроможності шукати і знаходити необхідну інформацію, точно формулювати
проблеми і гіпотези, вбачати в сукупностях даних певні закономірності, знаходити
розв’язок складних міждисциплінарних задач [1].
Застосування інформаційних технологій, зокрема, систем автоматизованого вилу-
чення знань, систем порівняння електронних документів за змістом та повнотекстових по-
шукових серверів, дасть змогу полегшити роботу людини, підвищуючи відсоток релевант-
ності отриманої інформації.
2. Постановка задачі
Сьогодні з величезної кількості інформації, яка надається людині, дуже важко виокремити
головне, знайти необхідні дані для прийняття рішень. Це створює головну проблему су-
ISSN 1028-9763. Математичні машини і системи, 2012, № 1 167
часних комунікацій – вилучення дійсно цінних даних з інформаційних потоків, тобто
отримання знань з інформації.
Розроблені на основі статистичного та лінгвістичного аналізу, а також методах
штучного інтелекту, технології Text Mining призначені для проведення змістового аналізу,
забезпечення навігації та пошуку в неструктурованих текстах. Можливості сучасних сис-
тем Text Mining можуть застосовуватися при управлінні знаннями для виявлення шаблонів
у тексті, автоматичного анотування інформації або її розподілу за певними профілями.
Дослідники пропонують декілька підходів, на які спирається технологія Text
Mining, вони розпадаються на дві категорії. В основі підходів, що не спираються на знан-
ня, лежить відмова від додавання нових правил для кожної нової прикладної області знань
або мови. Ще один підхід, який спирається на знання, передбачає, що якщо вдається зро-
зуміти значення тексту, то скоротити його стає набагато простіше, відповідно, отримана в
результаті анотація буде більш якісною. Такий підхід передбачає використання бази знань
значного об’єму, що складається з правил, які включаються, підтримуються і потім адап-
туються до нових додатків та мов. Ці два підходи не виключають один одного, тому можна
використовувати гібридні підходи.
До основних елементів Text Mining відносяться [2]:
1) класифікація – використовує статистичні кореляції для побудови правил розмі-
щення документів у наперед заданій категорії; задача класифікації – це задача розпізна-
вання, коли система відносить новий об’єкт до тієї чи іншої категорії;
2) кластеризація – це розбиття множини документів на кластери (групи документів
зі спільними ознаками), які представляють собою підмножини, смислові параметри яких
заздалегідь невідомі; числові методи кластеризації базуються на визначенні кластера як
множини документів:
а) значення семантичної близькості між будь-якими двома елементами якого не ме-
нше визначеного «порогу»;
б) значення близькості між будь-яким документом множини і центроїдом (векто-
ром, який обчислюється як середнє арифметичне векторів усіх документів кластера) цієї
множини не менше визначеного «порогу»;
3) автоматичне реферування представляє собою створення коротких викладів мате-
ріалів, анотацій, дайджестів, тобто вилучення найбільш важливих відомостей з одного або
декількох документів і генерація на їх основі лаконічних та інформаційно-ємних звітів; на
сьогодні існує два основних напрямки автореферування: квазіреферування (засноване на
екстрагуванні фрагментів документів, тобто виділенні найбільш інформативних фраз і фо-
рмування з них квазірефератів) і коротке викладення змісту первинних документів (дай-
джести).
Процес реферування розпадається на три етапи: аналіз початкового тексту, визна-
чення його характерних фрагментів та формування відповідного висновку. Більшість су-
часних робіт концентруються навколо розробленої технології реферування одного доку-
мента.
У методі створення дайджестів робиться акцент на виділенні характерних фрагмен-
тів, речень. Для цього методом співставлення фразових шаблонів виділяються блоки най-
більшої лексичної та статистичної релевантності. Створення нового документа у даному
випадку – це з’єднання вибраних фрагментів.
У більшості методів застосовується модель лінійних вагових коефіцієнтів. Основу
аналітичного етапу в цій моделі складає процедура призначення вагових коефіцієнтів для
кожного блоку тесту у відповідності до таких характеристик, як розташування цього блоку
в оригіналі, частота появи у тексті, частота використання у ключових реченнях, а також
показники статистичної значущості. Сума індивідуальних ваг визначається після додатко-
вої модифікації у відповідності з спеціальними параметрами налаштування, пов’язаними з
168 ISSN 1028-9763. Математичні машини і системи, 2012, № 1
кожною вагою, дає загальну вагу всього блоку тесту. Крім того, для призначення вагових
коефіцієнтів у цій моделі враховується показник статистичної важливості, який обчислю-
ється на основі даних, отриманих у результаті аналізу автоматичної індексації, при якій
дослідники виявляють та оцінюють цілий ряд метрик, що визначають вагові коефіцієнти
терміна. Ці метрики дозволяють виділити документ із числа інших у певному наборі доку-
ментів [2].
Як видно, жоден із цих методів не здатен вилучати із текстової інформації знання і
базується в основному на статистичних методах досліджень та завчасно створених шабло-
нах. Таким чином, якщо предметною областю досліджень буде вся природна мова, а не
текст певної тематики, задовільне рішення задачі – вилучення знань з електронних доку-
ментів – не буде знайдено. Неможливим буде і порівняння текстових документів за зміс-
том, спроби чого проводяться шляхом застосування різних методів, основні з яких – метод
резолюцій та метод шинглів.
3. Метод резолюцій як метод пошуку логічних збігів
У методі резолюцій множина речень розглядається як складений предикат, що містить де-
кілька предикатів, з’єднаних логічними функціями і кванторами існування та узагальнен-
ня. Оскільки однакові за змістом предикати можуть мати різний вигляд, то речення перет-
ворюються в клаузальну форму – різновид кон’юнктивної нормальної форми, з якої вида-
лені квантори існування, узагальнення, символи імплікації, рівнозначності і т.д.
У роботах таких радянських та зарубіжних вчених, як Е.В. Попов, Д.А. Поспєлов,
В.М. Вагін, Д. Джарратано, С. Осуга та Х. Уено метод резолюцій розглядають, інтерпре-
туючи висловлювання S як сукупність речень
nCCC ,...,, 21
[3–5]. Вважається, що в S є
такі речення, що якщо в одне з них входить деякий літерал, то в інше входить його запере-
чення (контрарна пара) (1):
).,(
),,,(
432
4211
LLC
LLLC
¬=
=
(1)
Їх викреслення формує новий диз’юнкт із складових частин диз’юнктів (2). Новий
сформований диз’юнкт 3C називається резольвентою диз’юнктів 1C і 2C :
),,(),(),,( 32143421213 LLLLLLLLCCC →¬⋅=⋅= . (2)
Тобто, резольвента 3C , отримана з двох диз’юнктів 1C і 2C , є логічним наслідком
цих двох диз’юнктів. Тоді, якщо інтерпретувати метод резолюцій на два довільних речення
природної мови, можна стверджувати, що резольвентою двох протилежних за змістом ре-
чень буде пуста множина і навпаки.
Отже, метод резолюцій дає можливість знайти певний елемент із заданих вислов-
лювань, в яких вказані певні початкові умови.
Якщо для логіки висловлювань знаходження контрарних пар не викликає трудно-
щів, то для логіки предикатів це не так. Принцип резолюцій має важливу властивість – по-
вноту, яка встановлюється такою теоремою: множина диз’юнктів S не виконується тоді і
тільки тоді, коли існує вивід із S пустого диз’юнкта.
У силу нерозв’язності логіки предикатів першого порядку для істинної множини
диз’юнктів S процедура, що базується на принципі резолюцій, буде працювати нескінчен-
но довго.
Спроба демонстрації методу резолюцій для логіки предикатів першого порядку не
на прикладі продукційної моделі представлення знань, що відображає певну ситуацію, дає
такі результати.
Нехай є два простих речення, кожному з них відповідає логіко-лінгвістична модель.
ISSN 1028-9763. Математичні машини і системи, 2012, № 1 169
Перше речення: «Літак пролітає над нашим будинком», логіко-лінгвістична модель
для нього представлена у вигляді (3)
( )
}){,(
}{, 1221
нашимбудинкомлітакПролітає
cxxP
. (3)
Друге речення: «Літак пролітає над великим містом», логіко-лінгвістична модель
для такого речення буде мати вигляд (4)
( )
}){,(
}{, '
12
'
21
великиммістомлітакПролітає
cxxP
. (4)
Множина атомів A буде містити літерали з однаковими предикатами [6]:
( ) ( )}{,,}{, '
12
'
211221 cxxPcxxPA = .
Згідно з алгоритмом уніфікації, шукаємо підстановку { }'
1212
'
22 /,/ ccxxQ = . Тоді ре-
зольвента для цих двох речень буде мати вигляд
( ) ( )}{,,}{, 12211221 cxxPcxxP .
Те, що резольвентою є не пуста множина, доводить, що речення не протилежні за
змістом, а однакові. Проте насправді речення не однакові за змістом, у них лише однакові
предикат та предикатна змінна – суб’єкт, а предикатна змінна – об’єкт та предикатна конс-
танта, яка його характеризує, різні, що безпосередньо впливає на зміст речення.
Демонстрація конкретного випадку порівняння двох речень (власне, призначення
методу), а також дослідження особливостей здійснення алгоритму, дозволяють виявити
ряд недоліків методу резолюцій:
1. Вибір літералів для множини атомів A відбувається тільки з літералів з однако-
вими предикатами, проте при цьому не враховуються синоніми, рівнозначність активної та
пасивної форм дієслів, що за певних умов також дають однозначність предикатів за зміс-
том.
2. Підстановка Q не бере до уваги зміст предикатних змінних та констант, що при-
водить до невірних результатів при порівнянні.
3. Велика кількість ітерацій для отримання кінцевого значення підстановки Q для
складних та поширених речень.
4. Якщо предикати різні, до них не можна застосувати метод резолюцій, хоча в цей
же час предикати можуть бути синонімами.
4. Метод шинглів як найпоширеніший метод порівняння текстів
Ще один із найбільш відомих способів порівняння текстових документів – метод шинглів.
Він полягає в тому, що для кожного рядка тексту, який аналізується (шингла), обчислю-
ється контрольна сума. Контрольна сума – це унікальне число, якому ставляться у відпові-
дність деякий текст та функція його обчислення. Потім із всієї множини контрольних сум
(їх кількість дорівнює кількості слів у документі мінус )1( −w , де w – число слів у шинглі)
відбираються лише ті, які діляться на певне вибране завчасно число. Оскільки значення
контрольних сум розподілено рівномірно, критерій відбору ніяк не пов’язаний з особливо-
стями тексту. Один шингл, який співпав при відборі, приблизно відповідає наперед зада-
ному числу однакових частин у повному тексті.
170 ISSN 1028-9763. Математичні машини і системи, 2012, № 1
Таблиця 1. Таблиця залежності унікальних слів
від частоти їх вживання у першому тексті
На відміну від описаного методу шинглів існує базовий метод шинглів, в якому бе-
руться до уваги всі шингли, отримані з тексту, а не лише кратні наперед заданому числу,
що забезпечує більш широку вибірку для коротких текстів.
Реалізація алгоритму порівняльного аналізу електронних текстів передбачає декіль-
ка етапів:
1. Завантажується перший текст.
2. Для завантаженого тексту будується канонічна форма (відбувається видалення
зайвих пробілів, знаків табуляції та спеціальних символів).
3. Визначається кількість слів у тексті.
4. Формується масив слів тексту.
5. Із масиву слів будується масив шинглів (виходячи з заданої довжини одного ши-
нгла.
6. Для кожного шингла обчислюється його хеш-функція. В залежності від кількості
слів у тексті визначаються шингли, кратність контрольної суми яких береться до уваги, та
створюється масив контрольних сум.
7. Аналогічно виконуються етапи для другого тексту.
8. Для кожного шингла першого тексту здійснюється пошук шингла другого тексту
з однаковою контрольною сумою. Якщо такий шингл не знайдено, то лічильник однакових
шинглів збільшується на одиницю.
9. Обчислюється процент збігів як відношення однакових шинглів до числа шинглів
першого масиву.
Для конкретного прикладу порівняння електронних документів довільної структури
та отримання певного відсотку збігів реалізація даного алгоритму буде складатися з таких
етапів:
1. Розбиття кожного тексту, що розглядається, на токени – слова.
2. Визначення множини унікальних слів в одному з текстів, що порівнюються. Не-
хай { }niaA i ,0,1 == – множина унікальних слів першого тексту, де ia – деяке унікальне
слово. Під унікальним словом розуміємо слово, що входить саме до конкретного тексту і
не повинно обов’язково входити до інших електронних текстів.
3. Формування частотної таблиці залежності унікальних слів від частоти їх вживан-
ня у тексті (табл. 1).
Кожен рядок даної таблиці від-
повідає деякому унікальному слову, а
кожен стовпчик – номеру рядка текс-
ту, в якому це слово зустрічається
( mj ,1= , де m – кількість рядків в
електронному тексті). Елементами
таблиці є нулі та одиниці в залежності
від того, чи зустрічається певне уніка-
льне слово ia ( ni ,0= ) в даному рядку.
Це дозволяє розглядати частотну таб-
лицю як матрицю суміжності для не-
орієнтованого графа.
1. Визначення множини уніка-
льних слів у другому тексті, що порівнюється. Нехай { }niaA i ,0,2 =′= – множина уніка-
льних слів другого тексту, де ia ′ – деяке унікальне слово другого тексту.
2. Формування частотної таблиці залежності унікальних слів від частоти їх вживан-
ня у тексті (табл. 2).
ISSN 1028-9763. Математичні машини і системи, 2012, № 1 171
Кожен рядок даної таблиці відповідає деякому унікальному слову, а кожен стовп-
чик – номеру рядка тексту, в якому це слово зустрічається ( mj ′=′ ,1 , де m′ – кількість ряд-
ків у другому електронному тексті). Елементами таблиці є нулі та одиниці в залежності від
того, чи зустрічається певне унікальне слово ia ′ ( ni ,0=′ ) в даному рядку. Отже, ми може-
мо розглядати частотну таблицю як матрицю суміжності для неорієнтованого графа.
1. На основі табл. 2 та табл. 3 складається узагальнена таблиця виявлення збігів уні-
кальних слів у рядках двох електронних текстів, що порівнюються. Основою таблиці є дані
по першому тексту, що порівнюється. Елементами таблиці є кількість унікальних слів, що
співпали в обох текстах, розмежовані по рядках тексту.
Таблиця 2. Таблиця залежності унікальних
слів від частоти їх вживання у другому тексті
Таблиця 3. Узагальнена таблиця збігів
2. Обчислення відсотку збігів для двох текстів:
nn
q
R
m
j
j
′+
=
∑
=1 ,
де jq – кількість знайдених збігів серед унікальних слів текстів, що порівнюються.
Якщо порівнюються не два тексти, а декілька, то формула набуде вигляду
∑
∑
=
== l
k
k
m
j
j
n
q
R
2
1 ,
де l – кількість текстів, що порівнюються.
5. Метод порівняння логіко-лінгвістичних моделей речень
Кожне просте речення природної мови можна представити у вигляді його логіко-
лінгвістичної моделі типу (5):
}]]){[[},{(
2
22
1
111 )()()(11)(1 qdxCdqSXqSJqdxCd
cxcxP
q∈∈∈∈
∧∧∧∧ , (5)
де P – предикат, що відображає зміст речення;
1x – предикатна змінна (суб’єкт) знаходиться у предикативному відношенні з P ;
11dc – предикатна константа, що вказує на ознаку суб’єкта;
1d – номер предикатної константи, що вказує на ознаку суб’єкта;
)( 11 xC – множина предикатних констант суб’єкта 1x ;
172 ISSN 1028-9763. Математичні машини і системи, 2012, № 1
qx – предикатна змінна (аргумент);
q – номер предикатної змінної (аргументу), початкове значення якого 2=q ;
)(SX – множина предикатних змінних (аргументів);
2qdc – предикатна константа, що вказує на ознаку q -ї предикатної змінної (аргументу
або об’єкта);
2d – номер предикатної константи, що вказує на ознаку предикатної змінної (аргумен-
ту);
)(2 qxC – множина предикатних констант предикатної змінної
qx ;
)(SJ – множина предикатних змінних, які виконують у реченні рівнозначну роль,
)()( SXSJ ∈ ;
1q – номер предикатної змінної із множини )(SJ , якщо речення не має ієрархічної бу-
дови або в ньому не зустрічаються аргументи, рівносильні за своєю роллю, то ∅=)(SJ
[7].
Основою принципу побудови логіко-лінгвістичної моделі (5) служить синтаксичний
розбір речення, тобто визначення зв’язків між усіма його словами та встановлення їх син-
таксичних ролей, що дає змогу зрозуміти зміст текстової інформації.
Таким чином, структура логіко-лінгвістичної моделі (5), а також синтаксична стру-
ктура речень природної мови обумовлюють правила порівняння таких моделей.
Нехай є два речення «Стаття присвячена дослідженню існуючих методів виявлення
логічних протиріч у текстових документах на основі використання формул логіки преди-
катів, зокрема, дослідженню методу резолюцій» та «Статтю присвячено дослідженню іс-
нуючих методів виявлення логічних протиріч у текстових документах на основі викорис-
тання формул логіки предикатів, зокрема, дослідженню методу резолюцій». Ці речення
мають однаковий зміст, проте одне з них в активному стані (суб’єкт виконує дію), друге –
в пасивному (суб’єкт відсутній).
Логіко-лінгвістичні моделі заданих речень будуть мати вигляд (6) и (7):
{ } [ ][ ][ ]
[ ] [ ]
резолюцій
методу
юдослідженнпредикатівлогікиформулнявикористаноснові
{логічних}протирічвиявленняіснуючихметодівюдослідженнстаття
Присвячена
,
,,
.
{ } { }[ ][ ][ ] [ ] [ ] [ ][ ][ ][ ]( )1312111098765154313211 ,,, xxxxxxxxcxxcxxxP = . (6)
{ } [ ][ ][ ]
[ ] [ ]
.
,
,,
резолюцій
методу
юдослідженнпредикатівлогікиформулнявикористаноснові
{логічних}протирічвиявленняіснуючихметодівюдослідженн
Присвячено
{ } { }[ ][ ][ ] [ ] [ ] [ ][ ][ ][ ]( )131211109876515431322 ,,,, xxxxxxxxcxxcxxP = . (7)
Порівняння речень різного стану відбувається за такими принципами:
1. Відбувається порівняння предикатів речень
1P та 2P : якщо 1P та 2P – дієслова, їх
час співпадає, 2P – дієслово в пасивній формі, а
1P – дієслово в активній формі, а також
співпадають корені та суфікси предикатів, або 1P та 2P є синонімами, то предикати 1P і 2P
можна вважати тотожними за змістом.
2. Якщо в одному із речень, що порівнюються, відсутній суб’єкт, а 1x та 2x іменни-
ки у називному та знахідному відмінках відповідно, а кількість предикатних змінних в од-
ISSN 1028-9763. Математичні машини і системи, 2012, № 1 173
ному з речень на одну більше, ніж у іншому, 1x та
2x – спільнокореневі слова або є сино-
німами, то суб’єкти речень (віртуальний у випадку пасивного стану) можна вважати тото-
жними за змістом.
3. Якщо справджуються умови 1 та 2, то речення можна вважати однаковими за змі-
стом.
6. Висновки
На даному прикладі продемонстровано можливість здійснення порівняльного аналізу
окремих речень природної мови різної структури за змістом за допомогою використання
логіко-лінгвістичних моделей цих речень [8]. Як видно з прикладу, це дуже важка і громіз-
дка процедура, в якій необхідно врахувати абсолютно всі (як синтаксичні, так і семантич-
ні) особливості речень та зв’язки між словами та словосполученнями.
Принципи порівняння речень природної мови з використанням логіко-
лінгвістичних моделей продемонстровано для конкретних типів речень. Для того, щоб
уніфікувати принципи здійснення порівняльного аналізу речень довільної структури за
змістом, необхідно створити базу знань у вигляді продукційної моделі представлення
знань, що міститиме правила порівняння.
СПИСОК ЛІТЕРАТУРИ
1. Дракин В.И. Общение конечных пользователей с системами обработки данных / Дракин В.И.,
Попов Э.В., Преображенский А.Б. – М.: Радио и связь, 1988. – 288 с.
2. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа / Ландэ Д.В. – М.: ООО «Виль-
ямс», 2005. – 272 с.
3. Кузин Л.Т. Основы кибернетики: в 2 т. / Кузин Л.Т. – М.: Энергия, 1979. – Т. 2: Основы киберне-
тических моделей. – 584 с.
4. Хант Э. Искусственный интеллект / Хант Э.; пер. с англ. – М.: Мир, 1978. – 558 с.
5. Вагин В.Н. Дедукция и обобщение в системе принятия решений / Вагин В.Н. – М.: Наука, 1988.
– 384 с.
6. Вавіленкова А.І. Логіко-лінгвістична модель як засіб відображення синтаксичних особливостей
текстової інформації / А.І. Вавіленкова // Математичні машини і системи. – 2010. – № 2. – С. 134 –
137.
7. Джарратано Д. Экспертные системы: принципы разработки и программирование /
Д. Джарратано, Г. Райли; пер. с англ. К.А. Птицына. – [4-е изд.]. – М.: ООО «Вильямс», 2007. –
1152 с.
8. Вавіленкова А.І. Обробка текстової інформації через призму аналізу та інтерпретації елементів
формальної системи /А.І. Вавіленкова // Системи підтримки прийняття рішень. Теорія і практика:
зб. доп. наук.-практ. конф. з міжнар. участю. – Київ: ІПММС НАНУ, 2009. – С. 198 – 201.
Стаття надійшла до редакції 09.06.2011
|