Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
We design a new technique for the distributional semantic modeling with a neural network-based approach to learn distributed term representations (or term embeddings) – term vector space models as a result, inspired by the recent ontology-related approach (using different types of contextual knowled...
Збережено в:
Дата: | 2020 |
---|---|
Автори: | , , , |
Формат: | Стаття |
Мова: | English |
Опубліковано: |
Інститут програмних систем НАН України
2020
|
Назва видання: | Проблеми програмування |
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/180480 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach / O.V. Palagin, V.Yu Velychko., K.S. Malakhov, O.S. Shchurov // Проблеми програмування. — 2020. — № 2-3. — С. 341-351. — Бібліогр.: 50 назв. — англ. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-180480 |
---|---|
record_format |
dspace |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
English |
topic |
Методи машинного навчання Методи машинного навчання |
spellingShingle |
Методи машинного навчання Методи машинного навчання Palagin, O.V. Velychko, V.Yu. Malakhov, K.S. Shchurov, O.S. Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach Проблеми програмування |
description |
We design a new technique for the distributional semantic modeling with a neural network-based approach to learn distributed term representations (or term embeddings) – term vector space models as a result, inspired by the recent ontology-related approach (using different types of contextual knowledge such as syntactic knowledge, terminological knowledge, semantic knowledge, etc.) to the identification of terms (term extraction) and relations between them (relation extraction) called semantic pre-processing technology – SPT. Our method relies on automatic term extraction from the natural language texts and subsequent formation of the problem-oriented or application-oriented (also deeply annotated) text corpora where the fundamental entity is the term (includes non-compositional and compositional terms). This gives us an opportunity to changeover from distributed word representations (or word embeddings) to distributed term representations (or term embeddings). The main practical result of our work is the development kit (set of toolkits represented as web service APIs and web application), which provides all necessary routines for the basic linguistic pre-processing and the semantic pre-processing of the natural language texts in Ukrainian for future training of term vector space models. |
format |
Article |
author |
Palagin, O.V. Velychko, V.Yu. Malakhov, K.S. Shchurov, O.S. |
author_facet |
Palagin, O.V. Velychko, V.Yu. Malakhov, K.S. Shchurov, O.S. |
author_sort |
Palagin, O.V. |
title |
Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach |
title_short |
Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach |
title_full |
Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach |
title_fullStr |
Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach |
title_full_unstemmed |
Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach |
title_sort |
distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach |
publisher |
Інститут програмних систем НАН України |
publishDate |
2020 |
topic_facet |
Методи машинного навчання |
url |
http://dspace.nbuv.gov.ua/handle/123456789/180480 |
citation_txt |
Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach / O.V. Palagin, V.Yu Velychko., K.S. Malakhov, O.S. Shchurov // Проблеми програмування. — 2020. — № 2-3. — С. 341-351. — Бібліогр.: 50 назв. — англ. |
series |
Проблеми програмування |
work_keys_str_mv |
AT palaginov distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach AT velychkovyu distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach AT malakhovks distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach AT shchurovos distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach |
first_indexed |
2023-10-18T22:50:06Z |
last_indexed |
2023-10-18T22:50:06Z |
_version_ |
1796156558066843648 |
spelling |
irk-123456789-1804802021-09-30T01:26:59Z Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach Palagin, O.V. Velychko, V.Yu. Malakhov, K.S. Shchurov, O.S. Методи машинного навчання We design a new technique for the distributional semantic modeling with a neural network-based approach to learn distributed term representations (or term embeddings) – term vector space models as a result, inspired by the recent ontology-related approach (using different types of contextual knowledge such as syntactic knowledge, terminological knowledge, semantic knowledge, etc.) to the identification of terms (term extraction) and relations between them (relation extraction) called semantic pre-processing technology – SPT. Our method relies on automatic term extraction from the natural language texts and subsequent formation of the problem-oriented or application-oriented (also deeply annotated) text corpora where the fundamental entity is the term (includes non-compositional and compositional terms). This gives us an opportunity to changeover from distributed word representations (or word embeddings) to distributed term representations (or term embeddings). The main practical result of our work is the development kit (set of toolkits represented as web service APIs and web application), which provides all necessary routines for the basic linguistic pre-processing and the semantic pre-processing of the natural language texts in Ukrainian for future training of term vector space models. В работе предложен новый метод дистрибутивно-семантического моделирования с элементами онтологического инжиниринга (а именно, автоматическое извлечение терминов) для обучения предсказательных моделей дистрибутивной семантики с использованием векторного представления терминов – term embeddings. В основе предложенного метода лежит новая технология вычислительной/математической лингвистики для обработки естественно-языковых текстов, получившая название – технология семантического пре-процессинга текстов. Технология семантического пре-процессинга текстов основана на автоматическом синтактико-семантическом анализе естественно-языковых текстов, в частности, автоматическом извлечении терминов (их идентификация, валидация и разметка) с последующим формированием проблемно-ориентированных, глубоко аннотированных текстовых корпусов, в которых фундаментальной сущностью является термин (включая композиционные термины). Это даёт возможность перейти от распределенного/векторного представления слов к распределенному/векторному представлению терминов. Практическим результатом работы является разработанный набор инструментальных/программных средств (в виде веб-сервисов и веб-приложения), который обеспечивает выполнение всех необходимых процедур и функций для реализации технологий базовой лингвистической предобработки и семантического пре-процессинга естественно-языковых текстов на украинском языке с последующим обучением дистрибутивно-семантических моделей векторного представления терминов. В роботі запропоновано новий метод дистрибутивно-семантичного моделювання з елементами онтологічного інжинірингу (а саме, автоматичне добування термінів) для навчання передбачуваних моделей дистрибутивної семантики з використанням векторного представлення термінів – term embeddings. В основі запропонованого методу лежить нова технологія обчислювальної/математичної лінгвістики для обробки природномовних текстів, що отримала назву – технологія семантичного пре-процесингу текстів. Технологія семантичного пре-процесингу текстів базується на автоматичному синтактико-семантичному аналізі природномовних текстів, зокрема, автоматичному добуванні/виокремленні (їх ідентифікація, валідація та розмітка) термінів з подальшим формуванням проблемно-орієнтованих, глибоко анотованих текстових корпусів, в яких фундаментальною сутністю є термін (включаючи композиційні терміни). Це дає можливість перейти від розподіленого/векторного представлення слів до розподіленого/векторного представлення термінів. Практичним результатом роботи є розроблений набір інструментальних/програмних засобів (у вигляді веб-сервісів і веб-застосунку), який забезпечує виконання всіх необхідних процедур і функцій для реалізації технологій базової лінгвістичної попередньої обробки та семантичного пре-процесингу природномовних текстів українською мовою з подальшим навчанням дистрибутивно-семантичних моделей векторного представлення термінів. 2020 Article Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach / O.V. Palagin, V.Yu Velychko., K.S. Malakhov, O.S. Shchurov // Проблеми програмування. — 2020. — № 2-3. — С. 341-351. — Бібліогр.: 50 назв. — англ. 1727-4907 DOI: https://doi.org/10.15407/pp2020.02-03.341 http://dspace.nbuv.gov.ua/handle/123456789/180480 004.91: 004.912 en Проблеми програмування Інститут програмних систем НАН України |