Development of a semantic and syntactic model of natural language by means of non-negative matrix and tensor factorization

A method of developing a structural model of natural language syntax and semantics is proposed. Syntactic and semantic relations between parts of a sentence are presented in a form of a recursive structure called a control space. Numerical characteristics of these data are stored in multidimensional...

Full description

Saved in:

Bibliographic Details
Date:	2025
Main Author:	Marchenko, O.O.
Format:	Article
Language:	Ukrainian
Published:	PROBLEMS IN PROGRAMMING 2025
Subjects:	UDC 681.3
Online Access:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/719
Tags:	Add Tag No Tags, Be the first to tag this record!
Journal Title:	Problems in programming
Download file:

Institution

Problems in programming

id	pp_isofts_kiev_ua-article-719
record_format	ojs
resource_txt_mv	ppisoftskievua/76/2290620e22bb6de06499f85b6dc95376.pdf
spelling	pp_isofts_kiev_ua-article-7192025-04-09T22:22:32Z Development of a semantic and syntactic model of natural language by means of non-negative matrix and tensor factorization Розробка семантико-синтаксичної моделі природної мови за допомогою методів невід’ємної тензорної і матричної факторизації Marchenko, O.O. UDC 681.3 УДК 681.3 A method of developing a structural model of natural language syntax and semantics is proposed. Syntactic and semantic relations between parts of a sentence are presented in a form of a recursive structure called a control space. Numerical characteristics of these data are stored in multidimensional arrays. After factorization, the arrays serve as the basis for the development of procedures for natural language semantic and syntactic analyses. Prombles in programming 2014; 2-3: 263-272 Стаття описує методику розробки структурної моделі опису синтаксису і семантики природної мови. Дані про семантико-синтаксичні відношення мови, представлені у вигляді керуючих просторів синтаксичних структур речень, записуються у багатовимірних масивах. Після факторизації масиви даних служать основою для створення процедур семантичного та синтаксичного аналізу текстів.Prombles in programming 2014; 2-3: 263-272 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-04-09 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/719 PROBLEMS IN PROGRAMMING; No 2-3 (2014); 263-272 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2014); 263-272 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2014); 263-272 1727-4907 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/719/771 Copyright (c) 2025 PROBLEMS IN PROGRAMMING
institution	Problems in programming
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date	2025-04-09T22:22:32Z
collection	OJS
language	Ukrainian
topic	UDC 681.3
spellingShingle	UDC 681.3 Marchenko, O.O. Development of a semantic and syntactic model of natural language by means of non-negative matrix and tensor factorization
topic_facet	UDC 681.3 УДК 681.3
format	Article
author	Marchenko, O.O.
author_facet	Marchenko, O.O.
author_sort	Marchenko, O.O.
title	Development of a semantic and syntactic model of natural language by means of non-negative matrix and tensor factorization
title_short	Development of a semantic and syntactic model of natural language by means of non-negative matrix and tensor factorization
title_full	Development of a semantic and syntactic model of natural language by means of non-negative matrix and tensor factorization
title_fullStr	Development of a semantic and syntactic model of natural language by means of non-negative matrix and tensor factorization
title_full_unstemmed	Development of a semantic and syntactic model of natural language by means of non-negative matrix and tensor factorization
title_sort	development of a semantic and syntactic model of natural language by means of non-negative matrix and tensor factorization
title_alt	Розробка семантико-синтаксичної моделі природної мови за допомогою методів невід’ємної тензорної і матричної факторизації
description	A method of developing a structural model of natural language syntax and semantics is proposed. Syntactic and semantic relations between parts of a sentence are presented in a form of a recursive structure called a control space. Numerical characteristics of these data are stored in multidimensional arrays. After factorization, the arrays serve as the basis for the development of procedures for natural language semantic and syntactic analyses. Prombles in programming 2014; 2-3: 263-272
publisher	PROBLEMS IN PROGRAMMING
publishDate	2025
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/719
work_keys_str_mv	AT marchenkooo developmentofasemanticandsyntacticmodelofnaturallanguagebymeansofnonnegativematrixandtensorfactorization AT marchenkooo rozrobkasemantikosintaksičnoímodelíprirodnoímovizadopomogoûmetodívnevídêmnoítenzornoíímatričnoífaktorizacíí
first_indexed	2025-07-17T10:03:12Z
last_indexed	2025-07-17T10:03:12Z
_version_	1850410859361206272
fulltext	Прикладне програмне забезпечення © О.О. Марченко, 2014 ISSN 1727-4907. Проблеми програмування. 2014. № 2–3. Спеціальний випуск 263 УДК 681.3. РОЗРОБКА СЕМАНТИКО-СИНТАКСИЧНОЇ МОДЕЛІ ПРИРО- ДНОЇ МОВИ ЗА ДОПОМОГОЮ МЕТОДІВ НЕВІД'ЄМНОЇ ТЕН- ЗОРНОЇ І МАТРИЧНОЇ ФАКТОРИЗАЦІЇ О.О. Марченко Київський національний університет імені Тараса Шевченка, факультет кібернетики, 03680, Київ, проспект Академіка Глушкова, 2, корпус 6 Тел.: (044) 259 04 27; Факс: (044) 259 04 39; E-mail: rozenkrans@yandex.ua Стаття описує методику розробки структурної моделі опису синтаксису і семантики природної мови. Дані про семантико - синтаксичні відношення мови, представлені у вигляді керуючих просторів синтаксичних структур речень, записуються у багатови- мірних масивах. Після факторизації масиви даних служать основою для створення процедур семантичного та синтаксичного аналі- зу текстів. A method of developing a structural model of natural language syntax and semantics is proposed. Syntactic and semantic relations between parts of a sentence are presented in a form of a recursive structure called a control space. Numerical characteristics of these data are stored in multidimensional arrays. After factorization, the arrays serve as the basis for the development of procedures for natural language semantic and syntactic analyses. Вступ Невід’ємна тензорна факторизація (NTF) останнім часом – це дуже популярна технологія в таких галузях як інформаційний пошук, обробка зображень, машинне навчання, обробка природної мови, та в інших суміж- них напрямах. Даний підхід є одним з найбільш перспективних для виявлення й аналізу зв’язків і відношень у масивах даних, де описуються взаємопов’язані об’єкти N різних типів. У комп’ютерній лінгвістиці N -мірний тензор реалізується як багатовимірний масив даних, отриманих при частотному аналізі великих корпусів текс- тів. Факторизація N -мірного тензора при ранзі розкладання k формує N матриць, що складаються з k стовп- ців, які представляють відображення кожного окремого виміру тензора на k фактор-вимірів латентного семан- тичного простору. Це служить унікальним засобом для моделювання та виявлення взаємозв’язків лінгвістичних змінних у масиві N -мірних даних. Метод невід’ємної факторизації тензорів можна назвати n-мірним узагальненням латентного семантич- ного аналізу [1], який використовується для обробки двомірних масивів даних. Структуру, отриману в резуль- таті факторизації тензора, можна порівняти з багатошаровою нейронною мережею, що складається з N шарів, які представляють множини об’єктів N типів, та з прихованого комутаційного шару, що складається з множи- ни комутаційних вузлів з різними ваговими коефіцієнтами. Даний шар моделює взаємозв’язок між об’єктами N типів і пов’язує N шарів в єдину нейронну мережу. На даний час невід’ємна тензорна факторизація є перспективним методом у вирішенні задач комп’ютерної лінгвістики, про що свідчать численні роботи в цьому напрямку [2–5]. Особливий інтерес представляють роботи [2, 3], в яких описуються моделі тензорного представлення да- них про частоту різних типів синтаксичних сполучень слів у реченнях, наприклад 3-вимірних сполучень типу subject – verb – object, або 4-вимірних сполучень типу subject – verb – direct_object – indirect_object або інших синтаксичних сполучень довжини, що не перевищує розмірність тензора N . У тензорі кожний вимір представляє вісь деякого фіксованого члена речення – підмета, присудка, додат- ка, означення, обставини і т. д. N -мірні тензори містять оцінки частоти вживання сполучень певних наборів слів у реченнях в корпусах текстів. При цьому враховуються синтаксичні позиції слів. Після обробки великих текстових корпусів та накопичення значного обсягу даних у тензорі, формується N -вимірний масив опису комутаційних властивостей лексичних одиниць в реченнях даної мови, тобто для множини слів, представлених у тензорі, дано опис, в які синтаксичні відношення вони мають властивість вступати, з якими словами встанов- люються дані відношення і з якою частотою. Причому відношення ці є багатовимірні ( N – максимальна розмірність для запису в тензор). Після цього йде етап невід’ємної факторизації отриманого тензора. Факторизація призводить до значного перетворення моделі представлення даних. Спочатку багатовимірний тензор є розрідженим і величезним за обсягом. Кожна з N -вісей синтаксичного простору містить десятки тисяч або сотні тисяч точок-слів. Після факторизації тензора його дані представляються у вигляді N матриць, що складаються з k стовпців (де значення k набагато менше, ніж число точок-слів у будь-якому з N вимірів тензора). Параметр k – ступінь факторизації, розмірність ла- тентного семантичного простору, число ознакових вимірів у ньому. Крім значно більш компактного представ- лення масиву даних, надається можливість швидкого обчислення оцінки ймовірності будь-якого можливого сполучення слів у різних синтаксичних конструкціях речень. Це можна виконати шляхом обчислення суми Прикладне програмне забезпечення 264 добутків компонент N k -вимірних векторів, що відповідають цим словам, вибраних з матриць, які відповіда- ють їх синтаксичним позиціям. Наприклад, щоб перевірити, наскільки ймовірним є використання словосполучення «Повар смажить кач- ку», потрібно знайти в матриці SUBJECT k -вимірний вектор s, який відповідає іменнику «повар», потім знайти в матриці VERB k -вимірний вектор v, який відповідає дієслову «смажить». Після цього – знайти в матриці DIRECT_OBJECT k -вимірний вектор do, який відповідає іменнику «качка»; далі обчислюється сума добутків відповідних компонент цих трьох векторів: 1 k svdo i i i i x s v do   (для 3-вимірного тензора N=3), де is – i-ий елемент вектора s , iv – i-ий елемент вектора v , ido – i-ий елемент вектора do. Якщо результат суми svdox перевищує деякий пороговий рівень, то робиться висновок про можливість використання в мові такої послідовності слів у реченні. Обчислення даної оцінки для сполучення «Качка сма- жить повара» приводить до висновку про малу ймовірність такого словосполучення. Дана модель дозволяє досить успішно автоматично виділяти з корпусів текстів такі лінгвістичні структу- ри, як селекційні преференції (selectional preferences) [2] та субкатегоріальні фрейми дієслів (Verb SubCategorization Frame) [3], які поєднують у собі дані про синтаксичні та семантичні властивості взаємозв’язків між дієсловами та їх аргументами-іменниками у реченнях. Очевидною проблемою цієї перспективної і потужної моделі є певна негнучкість та обмеженість пред- ставлення синтаксису речень природної мови. Розмірність тензору обмежує максимальну довжину речень- словосполучень, що описуються даною моделлю. Кожній осі відповідає конкретна синтаксична позиція. У ро- боті [2] описується 3-вимірний тензор для моделювання одного синтаксичного сполучення – підмет-присудок- додаток. У роботі [3] автор описує тензори розмірністю 9 та 12 для моделювання двох десятків різних типів синтаксичних відношень-сполучень. Просте збільшення розмірності тензору для обробки більшої кількості типів синтаксичних відношень розширеної арності не виглядає дуже переконливим засобом вдосконалення моделі. Актуальним і затребуваним напрямком досліджень у цьому контексті є пошук універсальних засобів представлення синтаксичних структур речень природної мови. Доцільно використати таку формальну модель представлення синтаксису, яка за допомогою рекурсії могла би виразити синтаксичні відношення речень довільної довжини і будь-якого ступеня складності структури. Така модель дозволила би записати багатовимір- ний структурний зв’язок між словами в реченнях будь-якої довжини у масивах фіксованої розмірності. У якості моделі представлення синтаксису мови пропонується використати керуючий простір синтаксичних структур природної мови [6]. Існує ряд класичних перевірених часом формальних моделей представлення синтаксису мови. Вибір саме керуючих просторів обумовлений тим, що в цій моделі за допомогою рекурсії описуються довільні складні конструкції через суперпозиції двох базових синтаксичних відношень – предикативних та синтагматичних. Запропонована лексико-синтаксична тензорна модель складається з одного 3-вимірного тензо- ра для предикативних відношень та однієї матриці для синтагматичних відношень. Застосування керуючих просторів виявилося ефективним засобом редукції довільних n -арних синтаксичних відношень до суперпозиції бінарних та 3-арних відношень. Тензорні моделі містять дані про семантико-синтаксичні комунікаційні властивості лише тих слів, які мі- стяться в оброблених текстових корпусах та лише в рамках тих речень і словосполучень, в яких дані слова зу- стрічалися. Іншими словами тензорна модель відтворює лише ті речення та словосполучення, які містяться в оброблених текстових корпусах. У роботі запропоновано використовувати ієрархічні лексико-семантичні бази типу WordNet [7] для узагальнення описів комунікаційних властивостей слів із застосуванням неявних механіз- мів наслідування по гілкам дерева таксономії. Припустимо, що якщо певна властивість є у слова A , то з вели- кою імовірністю ця властивість може бути у всіх слів синсету, в якому міститься A . Також з великою імовірні- стю ця властивість є присутньою у слів синівського синсету, а також у слів батьківського синсету. Саме ці при- пущення стали основою для реалізації механізму узагальнення опису комунікаційних семантико-синтаксичних властивостей слів по принципу таксономічного наслідування. Загальновідомо, що для володіння природною мовою потрібні знання безпосередньо про мову (лекси- ка, морфологія, синтаксис) та знання про оточуючий світ (мовні реалії, семантика). Тензорні моделі містять дані, в яких інтегровані семантичні та синтаксичні комунікаційні властивості слів. Застосування лексико- семантичних баз типу WordNet посилює семантичну складову моделі. В роботі як навчальні тексти разом з корпусом The Wall Street Journal також були використані тексти статей English Wikipedia та Simple English Wikipedia, як такі, що містять визначення понять та основну інформацію про них, для поглиблення семанти- ки в моделі. 1. Керуючий простір синтаксичних структур природної мови Основні синтаксичні конструкції описуються в класичних схемах граматики мови, які належать до пері- оду античності і мало змінилися до теперішнього часу. Прикладне програмне забезпечення 265 Досить тонкі відношення керування між словами виражаються у лінгвістичних моделях дерев підпоряд- кування і систем складових. Очевидною перевагою перерахованих моделей є їх коректність − адекватне відо- браження специфічних характеристик синтаксичної структури речення. Дані моделі не позбавлені недоліків. Модель дерев підпорядкування орієнтована на керуючі зв’язки між словами, а модель систем складових врахо- вує ієрархічне відношення вкладеності словосполучень в лінійній структурі тексту. Ці моделі лише наближено описують дійсні комунікативні властивості синтаксичних структур. Спроби побудови більш зручних для машинної обробки моделей, узагальнюючих властивості дерев під- порядкування і систем складових призвели до створення моделі системи компонент А.С. Наріньяні [8] та син- таксичних груп А.В. Гладкого [9]. В цих моделях відбувається переміщення кута зору на синтаксичні структури з лінійного порядку, нав’язаного послідовністю запису тексту, до складного простору, утвореного синтаксично зв’язаними групами об’єктів. У роботі [6] запропоновано перейти до простору представлення, не залежного від порядку запису тексту, а значить і від національної мови. Простір виражає всі предикативні та синтагматичні відношення, що містяться в синтаксичних структурах. Цей простір назвали керуючим. Розглянемо запропоновану алгоритмічну модель речення природної мови. На відміну від суто лінгвісти- чного підходу, речення розглядається як деякий динамічний обчислювальний рекурсивний процес, який розви- вається в керуючому просторі, що пов’язує синтаксично згруповані частини речення інформаційними каналами. Структура керуючого простору відображає семантику синтагматичних і предикативних конструкцій мови. Крім властивості давати імена об’єктам навколишнього світу, мова володіє фундаментальною властивіс- тю виражати динамічні відношення, в які вступають об’єкти. Так, дієслово пов’язує у відношення об’єкти, що беруть участь у схемі дії цього дієслова, прикметник задає відношення об’єкта з самим собою. Синтаксична модель має містити опис, які частини речення пов’язані між собою через відношення, і якого типу ці відношен- ня. Існують два види синтаксичних відношень – предикативні і синтагматичні. Предикативне відношення ви- ражає залежність між синтаксичними об’єктами через поняття, що означає дію і зазвичай виражається за допо- могою присудка – дієслова. Синтагма − це поєднання двох синтаксичних об’єктів, з яких один є визначенням іншого, тому в моделі мають повністю виражатися саме ці види відношень. Крім того, в широкому розумінні синтагми мають утворювати синтаксичні групи. Адекватна модель синтаксичної структури має також відображати основну властивість рекурсивності мови – здатність розгортати власні визначення, тобто давати уточнення, характеристики, коментарі до своїх частин, а також будувати визначення визначень. Навмисно порушується традиційний лінгвістичний підхід, при якому присудок вважається головним членом речення, від якого ідуть керуючі зв’язки. Це успадкувалося від звички вважати ім’я функції головні- шим, аніж її аргументи. Для побудови даної моделі зручніше задавати синтаксичні відношення зв’язками генерації і передачі відношень. При цьому досягається більш точна характеристика керуючих зв’язків. Якщо два об’єкти A і B вступають у відношення C , то ми виділяємо об’єкт (припустимо A ), що ви- кликає (ініціює, породжує) це відношення C і об’єкт, на який передається це відношення − B . Таким чином, виділяємо два види спрямованих зв’язків: від об’єкта-генератора відношення до відношення і від відношення до підпорядкованого об’єкту. Перший вид зв’язку називаємо -зв’язком (зв’язок генерування), другий − -зв’язком (зв’язок розповсюдження). Об’єкти A , B і відношення С розміщуються в точках керуючого про- стору, і тому графічне представлення відношення C , що зв’язує A і B , має вигляд, зображений на рис. 1. Рис. 1. Об’єкт A генерує відношення C , яке передається на об’єкт B Дієслова визначають відношення між об’єктами. Тому в стандартній схемі простого речення: «іменник – дієслово – іменник» -зв’язок спрямований від першого іменника до дієслова, а -зв’язок спрямований від дієслова до іменника-визначення. Розглянемо приклад: Дівчинка спекла торт. Об’єкт дівчинка генерує від- ношення спекла і направляє його на об’єкт торт. Тому --структура цього речення має вигляд як показано на рис. 2.   Рис. 2. Структура речення Дівчинка спекла торт Дівчинка спекла торт А С В Прикладне програмне забезпечення 266 Розглянемо фразу: Талановитий студент. Тут об’єкт студент генерує унарне відношення талановитий і передає це відношення собі, як показано на рис. 3. Виникає кільцевий зв’язок, що характеризує визначення.   Рис. 3. Структура словосполучення Талановитий студент Аналогічно міркуючи, для фрази Талановитий студент швидко розв’язує рівняння отримуємо структуру, яка показана на рис. 4.   Рис. 4. Структура речення Талановитий студент швидко розв’язує рівняння Речення мають два типи --зв’язків: строго лінійна залежність і замкнута кільцева залежність. Першу називають лінійної конструкцією, другу − визначенням. Перша відповідає предикативним конструкціям мови, друга синтагматичним. Формальна модель, орієнтована на завдання складних структур необхідного виду у формі керуючих про- сторів, будується наступним чином. Дано клас базових об’єктів U. З кожним об’єктом асоціюється певний тип. Всього різних типів скінчене число. Типи можна виразити числами з інтервалу ],0[ N . Припускаємо неоднозначність при зіставленні об’єктів типам, тобто функція приписування типів , взагалі кажучи, відображає U у множину всіх підмножин, утворених числами з інтервалу ],0[ N . Конструкціями є або об’єкти з U, або конструкції, що отримані з інших конструкцій за допомогою підстановки останніх у точки лінійної або визначальної залежності. Правила обчис- лення типів конструкцій мають наступний вигляд: 1. Якщо в лінійній залежності об’єкт типу i з’єднується -зв’язком з об’єктом типу j, а останній - зв’язком з об’єктом типу k, то тип такої конструкції дорівнює f (i, j, k), де f – задана частково-визначена функція. 2. Нехай d (i, j) – задана частково-визначена функція, тотожно рівна 1 в точках свого визначення. Функ- ція d називається функцією узгодження. Якщо об’єкт типу i у визначальній конструкції уточнюється за допомо- гою об’єкта типу j, то всій конструкції приписується тип i, якщо тільки значення функції узгодження дорівнює 1. В іншому випадку значення типу не визначено. Так як множина базових типів є скінченою, то функції f і d можуть бути задані таблицями. Правило 2 до- зволяє легко обчислювати тип будь-якої складної конструкції. Легко довести, що тип будь-якої конструкції збігається з типом однієї з базових конструкцій, що задаються функціями f або d. Якщо неможливо обчислити тип конструкції, то вона вважається некоректною. Всі коректні конструкції утворюють керуючі простори класу U. Стосовно синтаксичних структур дане визначення уточнюється наступним чином. Студент талановитий   Талановитий Мальчик Студент   Розв’язує Швидко Рівняння Прикладне програмне забезпечення 267 Базові об’єкти – це слова і прості словосполучення, що представляють собою частини мови (іменники, прикметники, дієслова, частки і т. д.) з відповідними морфологічними ознаками, а також складносурядні від- ношення і корелятори, призначені для з’єднання підпорядкованих речень з головними. Тип слова – це повна його граматична характеристика. Наприклад, тип слова книга дорівнює (іменник, неживе, однина, називний відмінок). Можливе розширення поняття типу додаванням деяких семантичних атрибутів. Неоднозначність завдання типу проявляється в неоднозначності розуміння значення деяких слів у відриві від контексту. Напри- клад, слово мати може бути іменником або дієсловом. Функція f задає типи простих речень, а також тип скла- дного речення залежно від його конструкції верхнього рівня. До базових об’єктів відносимо корелятори, що представляють собою або скріпу, або пару службових слів – (скріпа, співвідносне слово). Скріпа – службове слово в підпорядкованому реченні, що служить для прив’язування цього речення до головного. Співвідносне слово знаходиться в головному реченні (якщо воно є) і служить для зв’язку з відповідною скріпою. Функція d задає умови узгодження типів об’єкта, що визначається, та об’єкта, який визначає. Наприклад, визначеннями до іменника можуть бути прикметники, прийменникові групи або підпорядковані речення, до дієслова – прислів- ник, дієприслівник або підпорядковане речення; дієслово не може бути визначенням для іменника і т. д. Таким чином, функції f і d виконують роль фільтру, що виділяє допустимі конструкції. Побудова таблиць значень функцій f і d представляється трудомісткім, але цілком реальним завданням. Все необхідне для цього є в класичній граматиці мови. Так як у визначальній конструкції роль підпорядкованої частини зводиться до коментарю або до уточнення головної частини, то значення типу всієї синтагматичної конструкції вибрано рівним значенню головного об’єкта − генератора властивості. В роботі [6] показано, як елементарними перетвореннями можна конвертувати керуючий простір довіль- ного речення як у дерево підпорядкування, так і у дерево виведення. В цьому сенсі структура керуючого прос- тору одночасно узагальнює як дерева підпорядкування, так і дерева виведення. Керуючі простори можуть вира- зити синтаксичну структуру довільної складності та арності у вигляді набору бінарних та 3-арних відношень, що дозволяє точно записати всі дані про семантико-синтаксичні зв’язки всередині речення за допомогою однієї матриці D та одного тривимірного тензору F. 2. Побудова лексико-синтаксичної моделі природної мови Для побудови семантико-синтаксичної моделі природної мови розроблена система автоматичного запов- нення тривимірного тензору F та матриці D в процесі синтаксичного аналізу та пост-обробки синтаксичних структур речень великого текстового корпусу. Система має виконувати наступну послідовність дій:  cистема послідовно приймає на вхід речення з великого текстового корпусу та виконує їх синтаксич- ний аналіз за допомогою модуля граматичного розбору Stanford Parser, який генерує синтаксичні структури речень у вигляді дерев підпорядкування та дерев виведення [10, 11];  система аналізує дерево підпорядкування та дерево виведення поточного речення, збираючи керую- чий простір його синтаксичної структури, перебираючи зв’язки між словами для виявлення предикативних сполучень довжиною 3 (підмет-присудок-додаток), а також синтагматичних сполучень довжиною 2 (іменник- прикметник, дієслово-прислівник і т. п.);  після генерації керуючого простору синтаксичної структури поточного речення для кожної трійки точок (i, j, k), зв’язаних лінійною предикативною послідовністю --зв’язків, в тензорі F у комірці F[I, J, K] значення збільшується на одиницю: F[I,J,K]= F[I,J,K]+1. Координати комірки тензору I, J, K відповідають парам ),(),,( jjii AwAw та ),( kk Aw , де w – це слова, що є лексичними значеннями відповідних точок (i, j, k), а A – закодований опис характеристик цих лексем (частина мови, рід, число даної лексичної одиниці і т. д.);  аналогічно у керуючому просторі синтаксичної структури поточного речення для кожної пари то- чок (i, j), зв’язаних між собою кільцевим синтагматичним --зв’язком, у матриці D в комірці D[I, J] зна- чення збільшується на одиницю: D[I,J]= D[I,J]+1. Координати I, J відповідають парам ),( ii Aw та ),( jj Aw , де w – це слова, що є лексичними значеннями відповідних точок (i, j), а A – закодований опис характерис- тик цих лексем. Після обробки великого обсягу текстів у матриці D та у тривимірному тензорі F накопичується доста- тньо інформації про семантико-синтаксичні комунікативні властивості набору лексем для ефективної реалізації лексико-синтаксичної моделі природної мови. Надвелика розмірність та розрідженість утвореної матриці D та побудованого тензору F вимагають трансформації структур даних з метою більш економного та зручного представлення для збереження і обробки. Для оптимізації отриманих величезних масивів даних найкраще під- ходять методи невід’ємної матричної та тензорної факторизації. 3. Факторизація матриці D Для розкладання матриці великої розмірності )( MND  у вигляді добутку двох матриць )()( MkHkNW  , де ( MNk , ), доцільно використати алгоритм невід’ємної матричної факторизації NMF, що був запропонований Лі та Суном [12]. У цільовій функції використовується норма Фробеніуса, як описуєть- ся формулою. Прикладне програмне забезпечення 268 2 F, min WНD HW  , (1) причому елементи матриць W та H повинні бути невід’ємними. Для такої цільової функції, та для двох початкових матриць 0W і 0H , NMF алгоритм складається з іте- раційного виконання двох кроків: jikk T k ji T k jikjik HWW DW HH ,111 ,1 ,1, )( )( )()(     , (2) ji T kkk ji T k jikjik HHW DH WW ,111 ,1 ,1, )( )( )()(     . (3) На практиці, кроки алгоритму повторюються, доки не буде досягнута нерухома точка або не буде вико- нана максимальна кількість ітерацій. Лі та Сун довели дві основні властивості цього алгоритму: по-перше, ці- льова функція є монотонно спадною під час застосування правил; по-друге, матриці W і H стають постійними тільки у випадку досягнення стаціонарної точки цільової функції. 4. Факторизація тензору F Для розкладання тензору використовується невід’ємна тензорна факторизація [13]. Він подібний до па- ралельного факторного аналізу з обмеженням, що всі дані мають бути невід’ємними. Паралельний факторний аналіз – це мультилінійний аналог сингулярного розкладання матриць, що використовується в латентному се- мантичному аналізі. Головна ідея методу − мінімізація суми квадратів різниць між оригінальним тензором і факторизованою моделлю тензору. Для 3-вимірного тензору 321 DDD RT   визначається цільова функція: 2 1,, \| \|\| \|min 321 Fii k i i RzRyRx zyxT D i D i D i    , (4) де k − розмірність факторизованої моделі, а ◦ − зовнішній добуток (outer product). Для невід’ємної факторизації додаються обмеження щодо невід’ємності значень елементів: 2 1,...,, \| \|...\| \|min 0 2 0 1 0 Fii k i i RzRyRx zyxT ND i D i D i     . (5) Результат роботи алгоритму − представлення тензору у вигляді трьох матриць, які описують відобра- ження кожної з розмірностей тензору на k фактор-вимірів латентного семантичного простору. NTF модель підганяється методом найменших квадратів. На кожній ітерації дві з розмірностей фіксуються, а третя розмір- ність підганяється методом найменших квадратів. Процес триває до моменту збіжності. 5. Властивості лексико-синтаксичної моделі природної мови Факторизацією матриці D та тензору F система формує потужну базу, яка містить у собі дані про будову синтаксичних структур речень природної мови, в які інтегрований опис лексико-семантичних відно- шень між словами. Окрім загального синтаксису, що задає структуру речень в загальному абстрактному ви- гляді, база містить лексико-семантичні обмеження, які визначають, які слова можуть утворювати зв'язок певного синтаксичного типу. Для того, щоб визначити, чи можуть два слова a та b утворити кільцевий син- тагматичний зв’язок, треба взяти з матриці W вектор-строку Wa, що відповідає слову a, з матриці H – век- тор-стовпчик Hb, що відповідає слову b, та обчислити скалярний добуток векторів (Wa, H Т b ). Якщо значення добутку перевищує певний пороговий рівень, то даний зв’язок є визначеним. Для того, щоб визначити, чи можуть три слова a, b та c утворювати предикативний зв’язок (a  b  c), потрібно з першої матриці Х роз- кладеного тензору F взяти вектор aX , що відповідає слову a, з другої матриці Y розкладеного тензору F взяти вектор bY , що відповідає слову b, з третьої матриці Z розкладеного тензору F взяти вектор cZ , що відповідає слову с, та обчислити значення ][][][ 1 iZiYiXS c k i baabc   . Прикладне програмне забезпечення 269 Якщо значення abcS перевищує певний пороговий рівень, то даний зв’язок є визначеним. Всі зв’язки, які не є визначеними, вважаються невизначеними. Отримані матриці в неявному вигляді задають множину визначених речень мови, що задається текстами вхідного корпусу. Вектори слів з отриманих матриць є неявним описом їх «структурної поведінки» − вони ви- значають, в які синтаксичні відношення ці слова мають властивість вступати, та з якими словами вони вступа- ють в ці відношення. За допомогою отриманих матриць можливо виконувати синтаксичний аналіз речень з побудовою керуючого простору їх синтаксичних структур, використовуючи висхідні алгоритми аналізу типу Кока–Янгера–Касамі [14–16]. 6. Програмна реалізація Як навчальний текстовий корпус використані статті English Wikipedia та Simple English Wikipedia, а також тексти корпусу The Wall Street Jоurnal. Тексти послідовно обробляються парсером та блоком побу- дови керуючих просторів їх синтаксичних структур. Спочатку речення аналізуються Стенфордським парсе- ром. Його вихід – дерево виведення речення (parse tree) та дерево підпорядкування (dependency tree). Для побудови керуючих просторів речень був розроблений алгоритм конвертації дерева підпорядкування та де- рева виведення речення у керуючий простір синтаксичної структури речення [17]. Алгоритм представляє собою рекурсивний обхід дерева виведення речення зліва – направо з породженням точок керуючого просто- ру в кожному вузлі дерева виведення та з конвертацією відповідних цим вузлам зв’язків з дерева підпорядку- вання у α-β-зв’язки керуючого простору – предикативні або синтагматичні. За кожною точкою простору за- кріплюється певне лексико-семантичне значення (слово чи словосполучення) та його характеристики (части- на мови, рід, число і т. д.). На початку роботи алгоритму кожне слово представляє собою незв’язану точку керуючого простору. Коли точки A та B з’єднуються і утворюють нову точку простору C , яка представляє α-β-зв’язок між A та B , ця нова точка отримує своє власне лексико-семантичне значення. Це значення може бути наслідуване від головного елемента пари ( A , B ). Наприклад, у випадку словосполучення зелений пар- кан у парі (зелений, паркан) головним є іменник, тому нова утворена точка унаслідує значення паркан. Або в результаті об’єднання двох точок їх лексичні значення утворюють стале словосполучення, про що можна зробити висновок із наявності даного словосполучення у спеціальній базі – базі назв статей Вікіпедії. Напри- клад, якщо об’єднуються точка A із значенням теорема та точка B із значенням Вейєрштрасса – тоді утво- рюється стале словосполучення теорема Вейєрштрасса, яке стає лексико-семантичним значенням нової утвореної точки C . Після побудови керуючого простору синтаксичної структури речення для всіх кільцевих синтагматичних α-β-зв’язків у матриці кільцевих зв’язків D нарощується значення ],[ JId ( I – індекс першого слова, J – індекс другого слова ) 1],[],[  JIdJId . Для всіх трійок лінійних предикативних зв’язків А-α-В-β-С у триви- мірному тензорі лінійно-предикативних зв’язків F нарощується значення ],,[ KJIf ( I – індекс слова JA, – індекс слова KB, – індекс слова C ). 1],,[],,[  KJIfKJIf . Оброблено 800 тисяч статей англомовної English Wikipedia та Simple English Wikipedia. Також було об- роблено корпус статей The Wall Street Jоurnal. За рахунок того, що даний корпус є розміченим вручну і містить коректні синтаксичні структури наявних у корпусі речень, які напряму переконвертовано в керуючі простори, для навчальної вибірки отримано велику кількість керуючих просторів синтаксичних структур високої якості (коректних майже на 100%). Таким чином, згенеровано велику розріджену матрицю кільцевих зв’язків D (розмір приблизно 2,3 млн. слів × 2,3 млн. слів, біля 57 млн. ненульових елементів) та великий тривимірний тензор лінійно-предикативних зв’язків F (розмір приблизно 2,3 млн. слів × 152 тис. слів × 2.3 млн. слів, близько 78 млн. ненульових елемен- тів). Дані масиви факторизовані за допомогою алгоритму невід’ємної матричної факторизації Лі та Суна та алгоритму паралельної факторизації тривимірного тензору PARAFAC [13]. Алгоритми факторизації реалізовані із застосуванням паралельних обчислень на графічних картах, як у роботах [18, 19]. Факторизовані масиви даних дозволяють елементарно обчислювати значення ймовірності утворення кі- льцевих синтагматичних зв’язків між двома будь-якими словами за допомогою простого скалярного добутку двох відповідних їм векторів. Також аналогічно просто можна обчислювати значення ймовірності утворення лінійних предикативних зв’язків між трьома будь-якими словами. На основі отриманих масивів лексико-синтаксичної сполучності реалізований синтаксичний аналізатор, який по реченню англійською мовою напрямку будує керуючий простір його синтаксичної структури. Як базо- вий метод застосовано алгоритм Кока–Янгера–Касамі. Запропонована модель містить опис лише тих зв’язків між словами, які фактично мали місце у відповід- них реченнях навчального корпусу. Якщо для пари слів A та B кільцевий синтагматичний зв’язок прописаний, так як у навчальних текстах він є присутнім, то для пари 1A та 1B (де 1A – синонім A , 1B – синонім B ) такого зв’язку може і не бути. Для трійки слів A , B , та C , які пов’язані лінійно-предикативним зв’язком, це твер- дження також має місце. З використанням словників синонімів ця проблема досить легко розв’язується. В роз- робленій системі у якості такого словника використовується WordNet та його синсети. Система робить припу- щення, що якщо зв’язок між A та B існує, то він може існувати також між довільною парою iA та iB , де iA – Прикладне програмне забезпечення 270 довільне слово з синсету, який містить A , iB – довільне слово з синсету, який містить B . Але тут постає про- блема омонімії, коли одному слову в WordNet відповідає декілька синсетів, – яким чином визначити пару чи трійку коректних синсетів в кожному конкретному випадку під час синтаксичного аналізу речення. Існує декілька підходів для розв’язання цієї класичної проблеми неоднозначності слів WSD. Найбільш придатними у даному випадку можуть виявитися методи, що розроблялися спеціально для інтеграції сторінок Wikipedia в якості нових вузлів у WordNet [20–23]. З іншого боку, отримані в результаті невід’ємної факторизації матриці D дві матриці W та H – є по- тужним інструментарієм для визначення міри семантичної близькості між словами згідно методики латентного семантичного аналізу. Для розв’язання проблеми неоднозначності слів розроблений наступний алгоритм. Для визначення наявності кільцевого синтагматичного α-β-зв’язку між a та b: (А): для того щоб визначити, чи можуть два слова a та b утворити кільцевий синтагматичний зв’язок, треба взяти з матриці W вектор-строку Wa, що відповідає слову a, з матриці H – вектор-стовпчик Hb, що відповідає слову b, та обчислити скалярний добуток векторів (Wa, H Т b ). Якщо значення (Wa, H Т b )> T (де T – пороговий рівень, оптимальне значення якого було визначено експериментальним шляхом), то даний α-β-зв'язок є визна- ченим. Інакше: (В): за словами a та b переходимо до їх синсетів у лексико-семантичній базі WordNet. Отримаємо набір синсе- тів-вузлів { iA }, на які посилається слово a, та набір синсетів-вузлів { iB }, на які посилається слово b. Переві- ряємо попарно { iA } та { iB }, чи існує якісь значення k та j , що у синсетах kA та jB містяться відповідно слова ka та jb , для яких скалярний добуток векторів ( kaW  , T b j H  )>T . Якщо такі k та j знайдено, то даний зв’язок між a та b є визначеним. Інакше: (С): множина { iA } розширяється синсетами, що сполучаються з вузлами{ iA } зв’язками гіпонімії та гіпернимії, так само розширяється множина { iB }; після цього відбувається перевірка, чи існує для розширених extiA }{ та extiB }{ якісь значення k та j , що у kA та jB містяться відповідно слова ka та jb , для яких скалярний добу- ток векторів ( kaW  , T b j H  )>T . Перевірка виконується лише для тих пар синсетів, що до того не перевірялися. Якщо такі k та j знайдено, то даний зв’язок між a та b є визначеним. Інакше робимо ще раз розширення множин { iA } та { iB } та пошук таких kA та jB , для яких ( kaW  , T b j H  )>T . Якщо за 2-3 ітерації попереднього кроку не знайдено таких синсетів, то такого зв’язку не існує. При розширенні { iA } та { iB } треба уникати додавання синсетів із списку концептів найбільш загальних значень з верхньої частини ієрархії WordNet. При залученні подібних понять швидко втрачається смислова близькість між синсетами в наслідуванні властивостей та відношень по зв’язках гіпонімії/гіпернімії. Для лінійного предикативного α-β-зв’язку даний алгоритм працює аналогічним чином. Таксономічна ієрархія лексико-семантичної бази WordNet разом із механізмом наслідування дають мож- ливість узагальнення описаної моделі представлення синтаксичних зв’язків та лексико-семантичних відношень мови. Це робить побудовану систему універсальним засобом аналізу синтаксису та семантики природної мови. 7. Експерименти Ключовим елементом для формування бази синтакичних та лексико-семантичних відношень мови є наявність великого корпусу коректно розмічених текстів. Використання корпусу The Wall Street Jоurnal від- чутно вплинуло на якість отриманої моделі. Для отримання розмічених текстів з English Wikipedia та Simple English Wikipedia використовується Стенфордський парсер, який породжує дерева виведення та дерева під- порядкування речень текстів. Оцінка точності побудови дерев виведення – біля 87%. Оцінка точності побу- дови дерев підпорядкування приблизно дорівнює 84%. Частина некоректно сформованих дерев виведення та дерев підпорядкування, звісно, призводить до формування певної відповідної долі некоректних описів керу- ючих просторів синтаксичних структур речень. Алгоритм конвертації дерев виведення та дерев підпорядку- вання у керуючий простір синтаксичних структур речень на коректних входах не виявив власних помилок при побудові відповідних керуючих просторів. При формуванні та факторизації матриці кільцевих зв’язків D та тривимірного тензору лінійно-предикативних зв’язків F не було виявлено ніяких втрат та спотворення первісної інформації. Після розробки системи синтаксичного аналізу та генерації керуючих просторів для речень природної мови на основі створених лексико-синтаксичних баз проведені експерименти вимірювання коректності побу- Прикладне програмне забезпечення 271 дови керуючих просторів синтаксичних структур. Сформовані тестові виборки – 1500 речень зі статей Simple Wikipedia, 1500 речень зі статей англомовної Wikipedia (з текстів інших, аніж 800 тисяч статей, оброблених для побудови матриці D та тензору F ). Тестові текстові набори з Wikipedia та Simple Wikipedia оброблені Стенфордським парсером, їх синтаксичні дерева автоматично трансформовані у керуючі простори розробле- ним алгоритмом конвертації. Після того отримані керуючи простори вручну перевірені та виправлені за до- помогою команди експертів-лінгвістів. Таким чином сформовано анотований тестовий текстовий корпус для перевірки якості роботи системи синтаксичного аналізу та генерації керуючих просторів синтаксичних стру- ктур на текстах Simple Wikipedia та English Wikipedia. Система синтаксичного аналізу та генерації керуючих просторів побудувала керуючі простори синтакси- чних структур для речень з анатованого корпусу. Ці побудовані керуючі простори речень співставлені з ета- лонними керуючими просторами з анотованого тестового корпусу. Перевірка відбувалася автоматично по кож- ному знайденому кільцевому синтагматичному α-β-зв’язку та по кожному знайденому лінійному предикатив- ному α-β-зв’язку. Також проведено тестування на текстах корпусу Wall Street Journal методом крос-валідації (коли в процесі перевірки якості роботи системи на окремих частинах корпусу із масивів бази тимчасово вилучалися дані, отримані безпосередньо при обробці цих частин). Перевірка якості роботи системи на корпусі Wall Street Journal відбувалася в автоматичному режимі. Перевірка здійснювалася із врахуванням алгоритмічного випадку, в якому знайдено той чи інший син- таксичний зв’язок (випадок А – пряме знаходження імовірності наявності зв’язку між словами через скаляр- ний добуток векторів слів, випадок В – підключення синонімів даних слів для перевірки імовірності наявнос- ті зв’язку, випадок С – підключення гіпонимів та гіперонимів даних слів для перевірки імовірності наявності зв’язку). Перевірка здійснювалася лише для речень, які успішно оброблені системою з повною побудовою керуючого простору їх синтаксичної структури (успішно опрацьовано 82,9 % з 3000 речень тестового набору текстів, та 96,2% на текстах Wall Street Journal). Результати тестування представлені у табл. 1 та 2. Таблиця 1. Оцінки точності визначення кільцевих синтагматичних α-β-відношень на корпусах текстів статей Simple Wikipedia, Wikipedia та Wall Street Journal Simple Wikipedia Wikipedia WSJ corpus Випадок А 96,88 % 94,48 % 95,23 % Випадок В 94,62 % 91,89 % 92,80 % Випадок С 92,21 % 85,71 % 86,58 % Таблиця 2. Оцінки точності визначення лінійних предикативних α-β-відношень на корпусах текстів статей Simple Wikipedia, Wikipedia та Wall Street Journal Simple Wikipedia Wikipedia WSJ corpus Випадок А 97,38 % 95,41 % 96,12 % Випадок В 95,21 % 92,29 % 93,72 % Випадок С 94,11 % 88,71 % 91,59 % Треба зазначити, що оцінки точності визначення лінійних предикативних α-β-відношень є вищими за оцінки точності визначення кільцевих синтагматичних α-β-відношень. Це виглядає природним з точки зору відносної позиційної стійкості відношень типу підмет-присудок-додаток у структурі речень. Певний незнач- ний відсоток помилок, що присутній навіть у найпростішому випадку A , свідчить про наявність помилок у навчальному масиві керуючих просторів речень, на основі якого складалися матриця кільцевих зв’язків D та тривимірний тензор лінійно-предикативних зв’язків F . Додатковою перевіркою та виправленням даних навча- льного масиву можна вдосконалити побудовану модель. Найкращі показники відповідають оцінкам роботи системи на реченнях Simple Wikipedia, що є цілком зрозумілим через просту та чітку синтаксичну структуру речень у Simple Wikipedia. Речення English Wikipedia по структурі є набагато складнішими і через те виникає значно більше можливостей для різноманітних інтерпретацій граматичних структур. Обробка речень із корпусу The Wall Street Journal за оцінками точності переважає результати роботи системи на реченнях English Wikipe- dia, що свідчить про те, що якісні навчальні дані з розміченого корпусу The Wall Street Journal призвели до від- чутного покращення моделі. Прикладне програмне забезпечення 272 Висновки Рекурсивність керуючих просторів синтаксичних структур природної мови дозволяє точно виразити структуру речень довільної складності та довжини. Це дає можливість при розробці семантико-синтаксичної тензорної моделі природної мови замість нарощування мірності лінгвістичних масивів сполучності лексичних одиниць обмежитись лише побудовою одного тривимірного тензору та однієї матриці. Розроблена на основі факторизованих масивів система аналізу та побудови керуючих просторів синтаксичних структур речень під час тестування продемонструвала високу якість та точність роботи, що доводить коректність та ефективність запропонованої моделі. Із цього випливає її актуальність як в теоретичному плані, так і в аспекті застосування на практиці в прикладних лінгвістичних системах. 1. Deerwester S., Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by Latent Semantic Analysis. // In Journal of the American Society for Information Science. – 1990. – P. 391–407. 2. Tim Van de Cruys. A Non-negative Tensor Factorization Model for Selectional Preference Induction // In Journal of Natural Language Engi- neering. – 2010. 16(4):417–437. 3. Tim Van de Cruys, Laura Rimell, Thierry Poibeau, and Anna Korhonen Multi-way Tensor Factorization for Unsupervised Lexical Acquisition // In Proceedings of COLING – 2012. – P. 2703–2720. 4. Cohen S.B., Michael Collins. Tensor Decomposition for Fast Parsing with Latent-Variable PCFGs // In NIPS. – 2012. – P. 2528–2536. 5. Peng Wei, Li Tao. On the equivalence between nonnegative tensor factorization and tensorial probabilistic latent semantic analysis // Applied Intelligence, Springer Journals. – 2011. October, Vol. 35, Issue 2, P. 285–295 6. Anisimov A.V. Control space of syntactic structures of natural language // Cybernetics. – 1990. – N 3, P. 11–17. 7. Miller G.A., Beckwith R., Fellbaum C.D., Gross D., Miller K. WordNet: An online lexical database // Int. J. Lexicograph. – 1990. – 3, 4. – P. 235–244. 8. Нариньяни А.С. Формальная модель: общая схема и выбор адекватных средств. Препр. № 400/ВЦ СО АН СССР. – Новосибирск, 1978. – 19 с. 9. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. – М.: Наука, 1985. – 144 с. 10. Klein D. and Manning C.D. Accurate Unlexicalized Parsing // In Proceedings of ACL. – 2003. – P. 423–430. 11. Marie-Catherine de Marneffe, Bill MacCartney and Christopher D. Manning. Generating Typed Dependency Parses from Phrase Structure Parses // In Proceedings of LREC. – 2006. 12. Lee D.D. and Seung H.S. Algorithms for Non-Negative Matrix Factorization // In Proceedings of NIPS. – 2000.– P. 556–562 13. Cichocki A., Zdunek R., Phan A.-H., Amari S.-I. Nonnegative Matrix and Tensor Factorizations: Applications to Exploratory Multi-way Data Analysis and Blind Source Separation // J. Wiley & Sons, Chichester. – 2009. 14. Kasami T. An efficient recognition and syntax-analysis algorithm for context-free languages // Scientific report AFCRL-65-758, Air Force Cambridge Research Lab, Bedford, MA. –1965. 15. Cocke J. and Jacob T. Schwartz Programming languages and their compilers: Preliminary notes // Technical report, Courant Institute of Mathe- matical Sciences, New York University, 1970 16. Younger D.H. Recognition and parsing of context-free languages in time n3 // In Information and Control – 1967. 10(2). – P. 189–208. 17. Марченко О.О. Алгоритм конвертації дерева залежностей у керуючий простір синтаксичної структури речення // Вісник Київського національного університету імені Тараса Шевченка. Серія: фізико-математичні науки. – 2013. – № 5. 18. Antikainen J., Havel J., Josth R., Herout A., Zemcík P., Hauta-Kasari M., Zemcík P. Nonnegative Tensor Factorization Accelerated Using GPGPU // In TPDS. – 2011. – P. 1135–1141. 19. Kysenko V., Rupp K., Marchenko O., Selberherr S., Anisimov A. GPU-Accelerated Non-negative Matrix Factorization for Text Mining // In Lecture Notes in Computer Science. – 2012. – Vol. 7337. – P. 158–163. 20. Ponzetto S.P., Navigli R. Knowledge-rich Word Sense Disambiguation rivaling supervised systems // In Proceedings of ACL. – 2010. – P. 1522–1531. 21. Ponzetto S.P., Navigli R. Large-Scale Taxonomy Mapping for Restructuring and Integrating Wikipedia // In Proceedings of IJCAI. – 2009. – P. 2083–2088. 22. Ponzetto S.P., Navigli R. BabelNet: Building a Very Large Multilingual Semantic Network // In Proceedings of ACL. – 2010. – P. 216–225. 23. Ruiz-Casado M. Enrique Alfonseca and Pablo Castells // Automatic assignment of Wikipedia encyclopedic entries to WordNet synsets. In Proceedings of AWIC. – 2005.

Development of a semantic and syntactic model of natural language by means of non-negative matrix and tensor factorization

Institution

Similar Items