Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach

We design a new technique for the distributional semantic modeling with a neural network-based approach to learn distributed term representations (or term embeddings) – term vector space models as a result, inspired by the recent ontology-related approach (using different types of contextual knowled...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2020
Автори: Palagin, O.V., Velychko, V.Yu., Malakhov, K.S., Shchurov, O.S.
Формат: Стаття
Мова:English
Опубліковано: Інститут програмних систем НАН України 2020
Назва видання:Проблеми програмування
Теми:
Онлайн доступ:http://dspace.nbuv.gov.ua/handle/123456789/180480
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach / O.V. Palagin, V.Yu Velychko., K.S. Malakhov, O.S. Shchurov // Проблеми програмування. — 2020. — № 2-3. — С. 341-351. — Бібліогр.: 50 назв. — англ.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-180480
record_format dspace
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language English
topic Методи машинного навчання
Методи машинного навчання
spellingShingle Методи машинного навчання
Методи машинного навчання
Palagin, O.V.
Velychko, V.Yu.
Malakhov, K.S.
Shchurov, O.S.
Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
Проблеми програмування
description We design a new technique for the distributional semantic modeling with a neural network-based approach to learn distributed term representations (or term embeddings) – term vector space models as a result, inspired by the recent ontology-related approach (using different types of contextual knowledge such as syntactic knowledge, terminological knowledge, semantic knowledge, etc.) to the identification of terms (term extraction) and relations between them (relation extraction) called semantic pre-processing technology – SPT. Our method relies on automatic term extraction from the natural language texts and subsequent formation of the problem-oriented or application-oriented (also deeply annotated) text corpora where the fundamental entity is the term (includes non-compositional and compositional terms). This gives us an opportunity to changeover from distributed word representations (or word embeddings) to distributed term representations (or term embeddings). The main practical result of our work is the development kit (set of toolkits represented as web service APIs and web application), which provides all necessary routines for the basic linguistic pre-processing and the semantic pre-processing of the natural language texts in Ukrainian for future training of term vector space models.
format Article
author Palagin, O.V.
Velychko, V.Yu.
Malakhov, K.S.
Shchurov, O.S.
author_facet Palagin, O.V.
Velychko, V.Yu.
Malakhov, K.S.
Shchurov, O.S.
author_sort Palagin, O.V.
title Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
title_short Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
title_full Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
title_fullStr Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
title_full_unstemmed Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
title_sort distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
publisher Інститут програмних систем НАН України
publishDate 2020
topic_facet Методи машинного навчання
url http://dspace.nbuv.gov.ua/handle/123456789/180480
citation_txt Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach / O.V. Palagin, V.Yu Velychko., K.S. Malakhov, O.S. Shchurov // Проблеми програмування. — 2020. — № 2-3. — С. 341-351. — Бібліогр.: 50 назв. — англ.
series Проблеми програмування
work_keys_str_mv AT palaginov distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach
AT velychkovyu distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach
AT malakhovks distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach
AT shchurovos distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach
first_indexed 2023-10-18T22:50:06Z
last_indexed 2023-10-18T22:50:06Z
_version_ 1796156558066843648
spelling irk-123456789-1804802021-09-30T01:26:59Z Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach Palagin, O.V. Velychko, V.Yu. Malakhov, K.S. Shchurov, O.S. Методи машинного навчання We design a new technique for the distributional semantic modeling with a neural network-based approach to learn distributed term representations (or term embeddings) – term vector space models as a result, inspired by the recent ontology-related approach (using different types of contextual knowledge such as syntactic knowledge, terminological knowledge, semantic knowledge, etc.) to the identification of terms (term extraction) and relations between them (relation extraction) called semantic pre-processing technology – SPT. Our method relies on automatic term extraction from the natural language texts and subsequent formation of the problem-oriented or application-oriented (also deeply annotated) text corpora where the fundamental entity is the term (includes non-compositional and compositional terms). This gives us an opportunity to changeover from distributed word representations (or word embeddings) to distributed term representations (or term embeddings). The main practical result of our work is the development kit (set of toolkits represented as web service APIs and web application), which provides all necessary routines for the basic linguistic pre-processing and the semantic pre-processing of the natural language texts in Ukrainian for future training of term vector space models. В работе предложен новый метод дистрибутивно-семантического моделирования с элементами онтологического инжиниринга (а именно, автоматическое извлечение терминов) для обучения предсказательных моделей дистрибутивной семантики с использованием векторного представления терминов – term embeddings. В основе предложенного метода лежит новая технология вычислительной/математической лингвистики для обработки естественно-языковых текстов, получившая название – технология семантического пре-процессинга текстов. Технология семантического пре-процессинга текстов основана на автоматическом синтактико-семантическом анализе естественно-языковых текстов, в частности, автоматическом извлечении терминов (их идентификация, валидация и разметка) с последующим формированием проблемно-ориентированных, глубоко аннотированных текстовых корпусов, в которых фундаментальной сущностью является термин (включая композиционные термины). Это даёт возможность перейти от распределенного/векторного представления слов к распределенному/векторному представлению терминов. Практическим результатом работы является разработанный набор инструментальных/программных средств (в виде веб-сервисов и веб-приложения), который обеспечивает выполнение всех необходимых процедур и функций для реализации технологий базовой лингвистической предобработки и семантического пре-процессинга естественно-языковых текстов на украинском языке с последующим обучением дистрибутивно-семантических моделей векторного представления терминов. В роботі запропоновано новий метод дистрибутивно-семантичного моделювання з елементами онтологічного інжинірингу (а саме, автоматичне добування термінів) для навчання передбачуваних моделей дистрибутивної семантики з використанням векторного представлення термінів – term embeddings. В основі запропонованого методу лежить нова технологія обчислювальної/математичної лінгвістики для обробки природномовних текстів, що отримала назву – технологія семантичного пре-процесингу текстів. Технологія семантичного пре-процесингу текстів базується на автоматичному синтактико-семантичному аналізі природномовних текстів, зокрема, автоматичному добуванні/виокремленні (їх ідентифікація, валідація та розмітка) термінів з подальшим формуванням проблемно-орієнтованих, глибоко анотованих текстових корпусів, в яких фундаментальною сутністю є термін (включаючи композиційні терміни). Це дає можливість перейти від розподіленого/векторного представлення слів до розподіленого/векторного представлення термінів. Практичним результатом роботи є розроблений набір інструментальних/програмних засобів (у вигляді веб-сервісів і веб-застосунку), який забезпечує виконання всіх необхідних процедур і функцій для реалізації технологій базової лінгвістичної попередньої обробки та семантичного пре-процесингу природномовних текстів українською мовою з подальшим навчанням дистрибутивно-семантичних моделей векторного представлення термінів. 2020 Article Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach / O.V. Palagin, V.Yu Velychko., K.S. Malakhov, O.S. Shchurov // Проблеми програмування. — 2020. — № 2-3. — С. 341-351. — Бібліогр.: 50 назв. — англ. 1727-4907 DOI: https://doi.org/10.15407/pp2020.02-03.341 http://dspace.nbuv.gov.ua/handle/123456789/180480 004.91: 004.912 en Проблеми програмування Інститут програмних систем НАН України