Порівняльний аналіз речень природної мови за змістом

У статті запропоновано метод порівняльного аналізу речень природної мови довільної складності за змістом, що базується на побудові їх логіко-лінгвістичних моделей. У представленому алгоритмі зосереджено увагу на етапі побудови інваріантних логіко-лінгвістичних моделей та їх безпосередньому впливі н...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Математичні машини і системи
Datum:2015
1. Verfasser: Вавіленкова, А.І.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Інститут проблем математичних машин і систем НАН України 2015
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/113666
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Порівняльний аналіз речень природної мови за змістом / А.І. Вавіленкова // Математичні машини і системи. — 2015. — № 2. — С. 97-103. — Бібліогр.: 12 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-113666
record_format dspace
spelling Вавіленкова, А.І.
2017-02-11T17:32:17Z
2017-02-11T17:32:17Z
2015
Порівняльний аналіз речень природної мови за змістом / А.І. Вавіленкова // Математичні машини і системи. — 2015. — № 2. — С. 97-103. — Бібліогр.: 12 назв. — укр.
1028-9763
https://nasplib.isofts.kiev.ua/handle/123456789/113666
004.519.7 (045)
У статті запропоновано метод порівняльного аналізу речень природної мови довільної складності за змістом, що базується на побудові їх логіко-лінгвістичних моделей. У представленому алгоритмі зосереджено увагу на етапі побудови інваріантних логіко-лінгвістичних моделей та їх безпосередньому впливі на розрахунок відсотку збігів.
В статье предложен метод сравнительного анализа предложений естественного языка произвольной сложности по содержанию, который основывается на построении их логико-лингвистических моделей. В представленном алгоритме внимание сосредоточено на этапе построения инвариантных логико-лингвистических моделей и их непосредственном влиянии на расчет процента совпадений.
The article proposes a method of comparative analysis of natural language sentences of arbitrary complexity, which is based on the construction of logic and linguistic models. In the presented algorithm the attention is focused on the stage of construction of invariant logic and linguistic models and their direct impact on the calculation of the percentage of coincidences.
uk
Інститут проблем математичних машин і систем НАН України
Математичні машини і системи
Інформаційні і телекомунікаційні технології
Порівняльний аналіз речень природної мови за змістом
Сравнительный анализ предложений естественного языка по содержанию
Comparative analysis of natural language sentences according to its content
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Порівняльний аналіз речень природної мови за змістом
spellingShingle Порівняльний аналіз речень природної мови за змістом
Вавіленкова, А.І.
Інформаційні і телекомунікаційні технології
title_short Порівняльний аналіз речень природної мови за змістом
title_full Порівняльний аналіз речень природної мови за змістом
title_fullStr Порівняльний аналіз речень природної мови за змістом
title_full_unstemmed Порівняльний аналіз речень природної мови за змістом
title_sort порівняльний аналіз речень природної мови за змістом
author Вавіленкова, А.І.
author_facet Вавіленкова, А.І.
topic Інформаційні і телекомунікаційні технології
topic_facet Інформаційні і телекомунікаційні технології
publishDate 2015
language Ukrainian
container_title Математичні машини і системи
publisher Інститут проблем математичних машин і систем НАН України
format Article
title_alt Сравнительный анализ предложений естественного языка по содержанию
Comparative analysis of natural language sentences according to its content
description У статті запропоновано метод порівняльного аналізу речень природної мови довільної складності за змістом, що базується на побудові їх логіко-лінгвістичних моделей. У представленому алгоритмі зосереджено увагу на етапі побудови інваріантних логіко-лінгвістичних моделей та їх безпосередньому впливі на розрахунок відсотку збігів. В статье предложен метод сравнительного анализа предложений естественного языка произвольной сложности по содержанию, который основывается на построении их логико-лингвистических моделей. В представленном алгоритме внимание сосредоточено на этапе построения инвариантных логико-лингвистических моделей и их непосредственном влиянии на расчет процента совпадений. The article proposes a method of comparative analysis of natural language sentences of arbitrary complexity, which is based on the construction of logic and linguistic models. In the presented algorithm the attention is focused on the stage of construction of invariant logic and linguistic models and their direct impact on the calculation of the percentage of coincidences.
issn 1028-9763
url https://nasplib.isofts.kiev.ua/handle/123456789/113666
citation_txt Порівняльний аналіз речень природної мови за змістом / А.І. Вавіленкова // Математичні машини і системи. — 2015. — № 2. — С. 97-103. — Бібліогр.: 12 назв. — укр.
work_keys_str_mv AT vavílenkovaaí porívnâlʹniianalízrečenʹprirodnoímovizazmístom
AT vavílenkovaaí sravnitelʹnyianalizpredloženiiestestvennogoâzykaposoderžaniû
AT vavílenkovaaí comparativeanalysisofnaturallanguagesentencesaccordingtoitscontent
first_indexed 2025-11-25T21:43:16Z
last_indexed 2025-11-25T21:43:16Z
_version_ 1850560214206513152
fulltext © Вавіленкова А.І., 2015 97 ISSN 1028-9763. Математичні машини і системи, 2015, № 2 УДК 004.519.7 (045) А.І. ВАВІЛЕНКОВА* ПОРІВНЯЛЬНИЙ АНАЛІЗ РЕЧЕНЬ ПРИРОДНОЇ МОВИ ЗА ЗМІСТОМ * Національний авіаційний університет, Київ, Україна Анотація. У статті запропоновано метод порівняльного аналізу речень природної мови довільної складності за змістом, що базується на побудові їх логіко-лінгвістичних моделей. У представле- ному алгоритмі зосереджено увагу на етапі побудови інваріантних логіко-лінгвістичних моделей та їх безпосередньому впливі на розрахунок відсотку збігів. Ключові слова: логіко-лінгвістична модель, порівняльний аналіз, природна мова, текстові збіги, інваріантні моделі. Аннотация. В статье предложен метод сравнительного анализа предложений естественного языка произвольной сложности по содержанию, который основывается на построении их логико- лингвистических моделей. В представленном алгоритме внимание сосредоточено на этапе по- строения инвариантных логико-лингвистических моделей и их непосредственном влиянии на рас- чет процента совпадений. Ключевые слова: логико-лингвистическая модель, сравнительный анализ, естественный язык, текстовые совпадения, инвариантные модели. Abstract. The article proposes a method of comparative analysis of natural language sentences of arbi- trary complexity, which is based on the construction of logic and linguistic models. In the presented algo- rithm the attention is focused on the stage of construction of invariant logic and linguistic models and their direct impact on the calculation of the percentage of coincidences. Keywords: logic and linguistic model, comparative analysis, natural language, text coincidences, inva- riant models. 1. Вступ Постійне зростання кількості електронних документів спричиняє дублювання матеріалів в інформаційних мережах. У зв’язку з цим, у всіх сферах соціального середовища виникає проблема появи ідентичних за змістом копій документів. Так, в освіті – це плагіат курсо- вих та дипломних робіт, у політичній сфері – створення суперечливих законопроектів, в інформаційних технологіях – відсутність можливості здійснення коректної пошукової оп- тимізації, в економіці – створення однотипних проектів та ін. Все це загрожує дезінформа- цією, виникненням логічних протиріч і неточністю прийняття рішень. Найбільш наближеним підходом до пошуку логічних зв’язків у текстовій інформа- ції на сьогодні є створення семантичних мереж у вигляді графів зв’язності, де ключову роль відіграє відстань між словами, а схожість текстів оцінюється як середнє арифметичне цих відстаней [1]. Але зміст природномовних текстів неможливо виявити лише за допомо- гою статистичних закономірностей. Дана проблема вимагає об’єднання зусиль спеціалістів із області лінгвістики, інформаційних технологій, математики та філософії. 2. Постановка задачі Для відслідковування істинності тих чи інших пропозицій у сучасних системах аналізу текстових даних використовується стандартний або дещо модифікований алгоритм: – кешування логічного виводу; – надання засобів формування конструктивних припущень та аналізу їх корисності; – аналіз та усунення можливих протиріч у моделях [2]. Такий підхід був запропонований Дойлом та Мак-Аллестером для побудови систе- ми відслідковування істинності пропозицій для знаходження єдиного вирішення проблеми, 98 ISSN 1028-9763. Математичні машини і системи, 2015, № 2 що задовольняє певним обмеженням. Проте такий алгоритм не дозволяє виконати порів- няння альтернативних варіантів вирішення проблеми. Саме формалізація альтернативних варіантів запису текстової інформації у вигляді інваріантних форм логіко-лінгвістичних моделей лежить в основі матеріалів дослідження. Адже, ані такі методи пошуку текстових збігів, як метод шинглів [3] та методи пошуку підрядків у рядочках [4], що лежать в основі систем аналітичної обробки текстової інфор- мації, ані створення семантичних мереж з веденням бази синонімів [5], досі не забезпечили якісної обробки електронних документів за змістом. Над аналізом структури текстів та дослідженням закономірностей організації у них змістовних зв’язків працюють такі лінгвісти та філологи, як Філіппов К.А. [6] , Головкіна С.Х. [7], Мельчук І.А. [8] та ін., проте вони не використовують у своїй роботі формальний апарат. Тому актуальним залишається питання розробки єдиної теоретичної бази, що до- зволила б аналізувати текстову інформацію на різних рівнях (прості, складні речення, аб- заци, складні синтаксичні конструкції) за єдиним принципом. 3. Метод порівняльного аналізу речень природної мови довільної складності за зміс- том Для розуміння змісту складних текстових конструкцій важливо зрозуміти, як згруповані між собою прості речення, що входять до їх складу [9]. Тому в основі методу пошуку текс- тових збігів у реченнях природної мови довільної складності лежать аналіз логіко- лінгвістичних моделей, правила побудови складних синтаксичних конструкцій та способи організації граматичного зв’язку між предикативними частинами. Нехай два складних речення 1S та 2S описуються логіко-лінгвістичними моделями: 1 1 1 ( ) 1 11 ( ) ( ) S L S L S ν µµ = = ∧ , (1) 2 2 2 ( ) 2 21 ( ) ( ) S L S L S ν µµ = = ∧ , (2) де 1 1( )L Sµ – простий предикат, що описує частину речення 1S , яка відображає закінчений зміст; 2 2( )L Sµ – простий предикат, що описує частину речення 2S , яка відображає закінчений зміст; 1 11, ( )Sµ = ν , 1( )Sν – кількість частин речення 1S , які мають закінчений зміст; 2 21, ( )Sµ = ν , 2( )Sν – кількість частин речення 2S , які мають закінчений зміст. Алгоритм методу порівняльного аналізу речень природної мови довільної складно- сті складається з таких етапів. 1. Побудова вектора характеристик речення. На цьому етапі для кожного складного речення природної мови 1S та 2S ідентифікуються параметри заданих моделей (1) та (2). Для кожної логіко-лінгвістичної моделі встановлюються значення кількості атомарних предикатів 1( )Sν та 2( )Sν , фіксуються логічні операції, використані у моделях (1) та (2). Внаслідок цього формується вектор характеристик ( )U S складного речення: ( ) { ( ), ( ), ( )}U S v S O S W S= , де ( )Sν – кількість атомарних предикатів, що описують частини речення S та відобража- ють закінчений зміст; ISSN 1028-9763. Математичні машини і системи, 2015, № 2 99 ( )O S – кортеж логічних операцій речення S : ( ) [ ( ) 1, ]eO S o S e h= = , де h – загальна кількість логічних операцій, наявних у реченні S ; ( )W S – вид окремої форми уніфікованої логіко-лінгвістичної моделі. Таким чином, після виконання першого кроку алгоритму порівняльного аналізу ре- чень природної мови довільної складності логіко-лінгвістичні моделі (1) та (2) будуть мати такі вектори характеристик: 1 1 1 1( ) { ( ), ( ), ( )}U S v S O S W S= та 2 2 2 2( ) { ( ), ( ), ( )}U S v S O S W S= . 2. Ідентифікація елементів логіко-лінгвістичних моделей. Для кожного атомарного предиката 1 1( )L Sµ та 2 2( )L Sµ фіксуються предикатні змінні та константи, внаслідок чого кожній компоненті логіко-лінгвістичної моделі ставиться у відповідність конкретне зна- чення концепту з моделі (1) та (2) відповідно [10]. Результатом виконання даного етапу є дві таблиці відношень (табл. 1, табл. 2). Таблиця 1. Таблиця відношень складного речення 1S µ / № p x ( )c x y ( )c y z ( )c z ( )c p 1 1p 1x 1 1( )c x 1y 1 1( )c y 1z 1 1( )c z 1 1( )c p … … … … … … … … … 1µ 1 pµ 1 xµ 1 11 ( )c xµ µ 1 yµ 1 1 ( )c yµ µ 1 zµ 1 1 ( )c zµ µ 1 1 ( )c pµ µ … … … … … … … … … 1( )v S 1( )v Sp 1( )v Sx 1 1( ) ( )( )v S v Sc x 1( )v Sy 1 1( ) ( )( )v S v Sc y 1( )v Sz 1 1( ) ( )( )v S v Sc z 1 1( ) ( )( )v S v Sc p Таблиця 2. Таблиця відношень складного речення 2S µ / № p x ( )c x y ( )c y z ( )c z ( )c p 1 1p 1x 1 1( )c x 1y 1 1( )c y 1z 1 1( )c z 1 1( )c p … … … … … … … … … 2µ 2 pµ 2 xµ 2 21 ( )c xµ µ 2 yµ 2 2 ( )c yµ µ 2 zµ 2 2 ( )c zµ µ 2 2 ( )c pµ µ … … … … … … … … … 2( )v S 2( )v Sp 2( )v Sx 2 2( ) ( )( )v S v Sc x 2( )v Sy 2 2( ) ( )( )v S v Sc y 2( )v Sz 2 2( ) ( )( )v S v Sc z 2 2( ) ( )( )v S v Sc p 3. Формування інваріантних логіко-лінгвістичних моделей. Кожному реченню при- таманний предикат (присудок), його визначення – логічний суб’єкт, що задає граматико- змістовну перспективу речення. Інваріантні форми логіко-лінгвістичних моделей опису- ють речення природної мови, що мають одне й те саме значення, але мають різну глибинну структуру. Залежно від типу логіко-лінгвістичної моделі, до якого належать задані формули (1) та (2), формуються інваріантні форми, що відповідають тотожним за змістом реченням природної мови: 1 1 1 1( ( ) ( )) & ( ( ) ( ))L S Q S Q S L S→ → та 2 2 2 2( ( ) ( )) & ( ( ) ( ))L S Q S Q S L S→ → , 100 ISSN 1028-9763. Математичні машини і системи, 2015, № 2 де 1( ) 1Q S Q⊆ , де 1Q – множина можливих інваріантних форм логіко-лінгвістичної моделі 1( )L S ; де 2( ) 2Q S Q⊆ , де 2Q – множина можливих інваріантних форм логіко-лінгвістичної моде- лі 2( )L S . Отже, для кожного речення природної мови 1S та 2S формуються інваріантні логі- ко-лінгвістичні моделі: 1 1 1 ( ) 1 11 ( ) ( ) S Q S Q S ϑ ϕϕ = = ∧ , (3) 2 2 2 ( ) 2 21 ( ) ( ) S Q S Q S ϑ ϕϕ = = ∧ , (4) де 1 1( )Q Sϕ – простий предикат, що описує інваріантну до 1( )L S частину речення 1S , яка відображає закінчений зміст; 2 2( )Q Sϕ – простий предикат, що описує інваріантну до 2( )L S частину речення 2S , яка відображає закінчений зміст; 1 11, ( )Sϕ = ϑ , 1( )Sϑ – кількість інваріантних до 1( )L S простих предикатів, які мають за- кінчений зміст і описують речення 1S . 2 21, ( )Sϕ = ϑ , 2( )Sϑ – кількість інваріантних до 2( )L S простих предикатів, які мають за- кінчений зміст і описують речення 2S . 1( )Sϑ та 2( )Sϑ – величини, що варіюються залежно від кількості спрацьованих правил. Таким чином, після виконання етапу формування інваріантних логіко-лінгвістичних моделей для кожного речення природної мови табл. 1 та табл. 2 доповняться і будуть міс- тити всі можливі варіанти відношень, що будуть відповідати синонімічно тотожним конс- трукціям. Таблиця 3. Таблиця відношень складного речення 1S з урахуванням інваріантних моделей µ / № p x ( )c x y ( )c y z ( )c z ( )c p 1 1p 1x 1 1( )c x 1y 1 1( )c y 1z 1 1( )c z 1 1( )c p … … … … … … … … … 1µ 1 pµ 1 xµ 1 11 ( )c xµ µ 1 yµ 1 1 ( )c yµ µ 1 zµ 1 1 ( )c zµ µ 1 1 ( )c pµ µ … … … … … … … … … 1( )v S 1( )v Sp 1( )v Sx 1 1( ) ( )( )v S v Sc x 1( )v Sy 1 1( ) ( )( )v S v Sc y 1( )v Sz 1 1( ) ( )( )v S v Sc z 1 1( ) ( )( )v S v Sc p … … … … … … … … … 1ϕ 1 pϕ 1 xϕ 1 11 ( )c xϕ ϕ 1 yϕ 1 1 ( )c yϕ ϕ 1 zϕ 1 1 ( )c zϕ ϕ 1 1 ( )c pϕ ϕ … … … … … … … … … 1( )Sϑ 1( )Spϑ 1( )Sxϑ 1 1( ) ( )( )S Sc xϑ ϑ 1( )Syϑ 1 1( ) ( )( )S Sc yϑ ϑ 1( )Szϑ 1 1( ) ( )( )S Sc zϑ ϑ 1 1( ) ( )( )S Sc pϑ ϑ Таблиця 4. Таблиця відношень складного речення 2S з урахуванням інваріантних моделей µ / № p x ( )c x y ( )c y z ( )c z ( )c p 1 1p 1x 1 1( )c x 1y 1 1( )c y 1z 1 1( )c z 1 1( )c p … … … … … … … … … 2µ 2 pµ 2 xµ 2 21 ( )c xµ µ 2 yµ 2 2 ( )c yµ µ 2 zµ 2 2 ( )c zµ µ 2 2 ( )c pµ µ ISSN 1028-9763. Математичні машини і системи, 2015, № 2 101 Продовж. табл. 4 … … … … … … … … … 2( )v S 2( )v Sp 2( )v Sx 2 2( ) ( )( )v S v Sc x 2( )v Sy 2 2( ) ( )( )v S v Sc y 2( )v Sz 2 2( ) ( )( )v S v Sc z 2 2( ) ( )( )v S v Sc p µ / № p x ( )c x y ( )c y z ( )c z ( )c p … … … … … … … … … 2ϕ 2 pϕ 2 xϕ 2 21 ( )c xϕ ϕ 2 yϕ 2 2 ( )c yϕ ϕ 2 zϕ 2 2 ( )c zϕ ϕ 2 2 ( )c pϕ ϕ … … … … … … … … … 2( )Sϑ 2( )Spϑ 2( )Sxϑ 2 2( ) ( )( )S Sc xϑ ϑ 2( )Syϑ 2 2( ) ( )( )S Sc yϑ ϑ 2( )Szϑ 2 2( ) ( )( )S Sc zϑ ϑ 2 2( ) ( )( )S Sc pϑ ϑ 4. Порівняння векторів характеристик. На даному етапі відбувається порівняння векторів характеристик двох заданих речень 1S та 2S : 1 1 1 1( ) { ( ), ( ), ( )}U S v S O S W S= , 2 2 2 2( ) { ( ), ( ), ( )}U S v S O S W S= . 1) Зафіксувати значення 1( )W S та 2( )W S видів окремої форми уніфікованої логіко- лінгвістичної моделі. 2) Якщо кількість атомарних предикатів, що описують частини речення, які відо- бражають закінчений зміст, для обох речень однакова 1 2( ) ( )S Sν = ν , то перейти до п. 3), інакше перейти до п. 5. 3) Порівняти кортежі логічних операцій, використані в реченнях 1S та 2S : 11 1 1 1( ) [ ( ) 1, ]eO S o S e h= = , 22 2 2 2( ) [ ( ) 1, ]eO S o S e h= = , – якщо елементи кортежу логічних операцій 1 11 1 1 1( ),..., ( ),..., ( )e ho S o S o S повністю збі- гаються з елементами кортежу логічних операцій 2 21 2 2 2( ),..., ( ),..., ( )e ho S o S o S , тобто 1 2( ) ( )O S O S= , і кількість елементів першого і другого кортежів співпадає, 1 2h h= (причо- му обов’язковим є врахування порядку елементів у кортежі), то виконати п. 5 і присвоїти 0h∆ = ; – якщо кількість елементів у кортежі логічних операцій одного з речень відрізняєть- ся від кількості елементів у кортежі логічних операцій другого, і при цьому елементи кор- тежу першого речення включають у себе елементи кортежу другого речення 2( )O S , тобто 2 1( ) ( )O S O S⊆ при 1 2h h> , або навпаки, елементи кортежу логічних операцій першого ре- чення входять до множини логічних операцій речення 2S , тобто 1 2( ) ( )O S O S⊆ при 1 2h h< , то перейти до п. 5 і присвоїти: а) 1 2h h h∆ = − при 1 2h h> ; б) 2 1h h h∆ = − при 1 2h h< ; – якщо кількість елементів у кортежах логічних операцій однакова 1 2h h= і елемен- ти кортежів 1( )O S та 2( )O S не повністю співпадають, проте 2 1 2 1( ( ) ( )) & ( ( ) ( ))O S O S O S O S⊆ ⊆ , то перейти до п. 5 і присвоїти h∆ = ∅ ; 102 ISSN 1028-9763. Математичні машини і системи, 2015, № 2 – інакше, коли елементи кортежів логічних операцій речень 1S та 2S не співпада- ють, 1 2( ) ( )O S O S≠ , виконати п. 5 і присвоїти h∆ = ⊗ . 5. Порівняння логіко-лінгвістичних моделей. Даний етап передбачає перевірку ряду умов, зокрема, умов протиріччя та синонімії двох речень природної мови, можливість по- будови імплікативних та пресуппозиційних зв’язків між атомарними предикатами, а також умови організації граматичного зв’язку між предикатними частинами речень. Внаслідок чого встановлюється істинність або хибність факту виявлення тотожних за змістом речень природної мови довільної складності. 1) Здійснити порівняння кожного простого предиката 1 1( )L Sµ логіко-лінгвістичної моделі (1) та кожної інваріантної форми 1 1( )Q Sϕ логіко-лінгвістичної моделі (3) з кожним простим предикатом 2 2( )L Sµ логіко-лінгвістичної моделі (2) та інваріантними формами 2 2( )Q Sϕ логіко-лінгвістичної моделі (4) почергово методом порівняння простих речень за змістом [11]. 2) Нехай змінна ( )Sθ – загальна кількість збігів простих предикатів речення приро- дної мови 1S з простими предикатами речення природної мови 2S . 3) Нехай змінна ( )Sτ – загальна кількість збігів простих інваріантних предикатів речень природної мови 1S та 2S . 4) Перевірити істинність умов та зафіксувати загальну кількість збігів: – якщо істинною є умова 1 21 2( ( ) ( ))L S L Sµ µ≡ , то ( )Sθ збільшується на одиницю, тобто ( ) ( ) 1S Sθ = θ + ; – якщо істинною є умова 1 2 1 2 1 21 2 1 2 1 2( ( ) ( )) ( ( ) ( )) ( ( ) ( )),Q S L S L S Q S Q S Q Sϕ µ µ ϕ ϕ ϕ≡ ∨ ≡ ∨ ≡ то ( )Sτ збільшується на одиницю, тобто ( ) ( ) 1S Sτ = τ + . 1) Загальна кількість порівнянь ( )Sω обчислюється як 1 1 2 2( ) ( ( ) ( ))( ( ) ( ))S S S S Sω = ν + ϑ ν + ϑ , тобто дорівнює добутку суми кількості простих та простих інваріантних предикатів речення 1S і суми кількості простих та простих інваріан- тних предикатів речення 2S . 2) Обчислити відсоток збігів ( )Sη у реченнях природної мови 1S та 2S : – якщо 1 2( ) ( )W S W S= і 0h∆ = , то 1 2 ( ) ( ) ( ) ( ) ( ) 100% 100% ( ) ( ) S S S S S S S θ + τ θ + τη = ⋅ = ⋅ ν ν ; – якщо 1 2( ) ( )W S W S= і ( 1 2h h h∆ = − або h∆ = ∅ ), то 2 ( ) ( ) ( ) 100% ( ) S S S S θ + τη = ⋅ ν ; – якщо 1 2( ) ( )W S W S= і ( 2 1h h h∆ = − або h∆ = ∅ ), то 1 ( ) ( ) ( ) 100% ( ) S S S S θ + τη = ⋅ ν ; – якщо 1 2( ) ( )W S W S≠ або h∆ = ⊗ , то ISSN 1028-9763. Математичні машини і системи, 2015, № 2 103 1 ( ) ( ) 100% ( ) S S S τη = ⋅ ν , при 1 2h h< , 2 ( ) ( ) 100% ( ) S S S τη = ⋅ ν , при 2 1h h< . Отже, метод порівняльного аналізу речень природної мови довільної складності дає можливість визначити ступінь схожості речень за змістом. Це стає можливим завдяки фо- рмуванню інваріантних логіко-лінгвістичних моделей, що базуються на правилах та моде- лях побудови складних синонімічних конструкцій природної мови. 4. Висновки Для розуміння змісту складних конструкцій важливо зрозуміти, як згруповані між собою прості речення, що входять до їх складу [12]. Тому, на відміну від методу шинглів, що ле- жить в основі більшості сучасних систем порівняльного аналізу текстових документів, за- пропонований у статті метод базується на правилах побудови складних речень природної мови, виявленні механізмів утворення тотожних синтаксичних конструкцій і залежностях відсотку збігів від істинності логіко-лінгвістичних моделей та їх інваріантних форм. Метод порівняльного аналізу речень природної мови довільної складності є посередньою ланкою між порівнянням простих речень природної мови та порівнянням цілих текстових докуме- нтів за змістом. Тому запропонований метод одночасно використовує для своєї роботи ме- тод порівняння простих речень природної мови та являється основою для методу порівня- льного аналізу текстових моделей. СПИСОК ЛІТЕРАТУРИ 1. Тарануха В.Ю. Інтелектуальна обробка текстів / Тарануха В.Ю. – Київ, 2014. – 80 с. 2. Джексон П. Введение в экспертные системы / Джексон П. – Санкт-Петербург: Вильямс, 2001. – 624 с. 3. Вавіленкова А.І. Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом /А.І. Вавіленкова // Математичні машини та системи. – 2012. – № 1. – С. 166 – 173. 4. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа / Ландэ Д.В. – М.: ООО «Виль- ямс», 2005. – 272 с. 5. Jurafsky D. Natural Language Processing [Електронний ресурс] / D. Jurafsky, C. Manning. – Stanford University, 2012. – Режим доступу: https://www.coursera.org/course/nlp. 6. Филиппов К.А. Лингвистика текста. Курс лекций / Филиппов К.А. – Спб.: Издательство С.- Петербургского университета, 2008. – 336 с. 7. Головкина С.Х. Лингвистический анализ текста / С.Х. Головкина, С.Н. Смольников. – Вологда: Издательский центр ВИРО, 2006. – 124 с. 8. Мельчук И.А. Опыт теории лингвистических моделей «СМЫСЛ-ТЕСТ» / Мельчук И.А. – М.: Школа «Языки русской культуры», 1999. – 346 с. 9. Vavilenkova A. A self-system to identify conceptual relationships in text / A. Vavilenkova // Proceedings of the National Aviation University. – 2015. – № 1 (62). – P. 63 – 69. 10. Вавіленкова А.І. Методологічні основи автоматичного аналізу логіко-лінгвістичних моделей текстових документів /А.І. Вавіленкова // Математичні машини та системи. – 2015. – № 1. – С. 65 – 71. 11. Вавіленкова А.І. Аналіз методів пошуку синонімів в електронних документах / А.І. Вавіленкова // Вісник Чернігівського державного технологічного університету: зб. наук. праць. – (Серія «Технічні науки»). – 2014. – № 2 (73). – С. 119 – 128. 12. Марчук Ю.Н. Компьютерная лингвистика / Марчук Ю.Н. – М.: АСТ: Восток – Запад, 2007. – 317 с. Стаття надійшла до редакції 21.04.2015