Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach

We design a new technique for the distributional semantic modeling with a neural network-based approach to learn distributed term representations (or term embeddings) – term vector space models as a result, inspired by the recent ontology-related approach (using different types of contextual knowled...

Full description

Saved in:
Bibliographic Details
Published in:Проблеми програмування
Date:2020
Main Authors: Palagin, O.V., Velychko, V.Yu., Malakhov, K.S., Shchurov, O.S.
Format: Article
Language:English
Published: Інститут програмних систем НАН України 2020
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/180480
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach / O.V. Palagin, V.Yu Velychko., K.S. Malakhov, O.S. Shchurov // Проблеми програмування. — 2020. — № 2-3. — С. 341-351. — Бібліогр.: 50 назв. — англ.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1862646452981858304
author Palagin, O.V.
Velychko, V.Yu.
Malakhov, K.S.
Shchurov, O.S.
author_facet Palagin, O.V.
Velychko, V.Yu.
Malakhov, K.S.
Shchurov, O.S.
citation_txt Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach / O.V. Palagin, V.Yu Velychko., K.S. Malakhov, O.S. Shchurov // Проблеми програмування. — 2020. — № 2-3. — С. 341-351. — Бібліогр.: 50 назв. — англ.
collection DSpace DC
container_title Проблеми програмування
description We design a new technique for the distributional semantic modeling with a neural network-based approach to learn distributed term representations (or term embeddings) – term vector space models as a result, inspired by the recent ontology-related approach (using different types of contextual knowledge such as syntactic knowledge, terminological knowledge, semantic knowledge, etc.) to the identification of terms (term extraction) and relations between them (relation extraction) called semantic pre-processing technology – SPT. Our method relies on automatic term extraction from the natural language texts and subsequent formation of the problem-oriented or application-oriented (also deeply annotated) text corpora where the fundamental entity is the term (includes non-compositional and compositional terms). This gives us an opportunity to changeover from distributed word representations (or word embeddings) to distributed term representations (or term embeddings). The main practical result of our work is the development kit (set of toolkits represented as web service APIs and web application), which provides all necessary routines for the basic linguistic pre-processing and the semantic pre-processing of the natural language texts in Ukrainian for future training of term vector space models. В работе предложен новый метод дистрибутивно-семантического моделирования с элементами онтологического инжиниринга (а именно, автоматическое извлечение терминов) для обучения предсказательных моделей дистрибутивной семантики с использованием векторного представления терминов – term embeddings. В основе предложенного метода лежит новая технология вычислительной/математической лингвистики для обработки естественно-языковых текстов, получившая название – технология семантического пре-процессинга текстов. Технология семантического пре-процессинга текстов основана на автоматическом синтактико-семантическом анализе естественно-языковых текстов, в частности, автоматическом извлечении терминов (их идентификация, валидация и разметка) с последующим формированием проблемно-ориентированных, глубоко аннотированных текстовых корпусов, в которых фундаментальной сущностью является термин (включая композиционные термины). Это даёт возможность перейти от распределенного/векторного представления слов к распределенному/векторному представлению терминов. Практическим результатом работы является разработанный набор инструментальных/программных средств (в виде веб-сервисов и веб-приложения), который обеспечивает выполнение всех необходимых процедур и функций для реализации технологий базовой лингвистической предобработки и семантического пре-процессинга естественно-языковых текстов на украинском языке с последующим обучением дистрибутивно-семантических моделей векторного представления терминов. В роботі запропоновано новий метод дистрибутивно-семантичного моделювання з елементами онтологічного інжинірингу (а саме, автоматичне добування термінів) для навчання передбачуваних моделей дистрибутивної семантики з використанням векторного представлення термінів – term embeddings. В основі запропонованого методу лежить нова технологія обчислювальної/математичної лінгвістики для обробки природномовних текстів, що отримала назву – технологія семантичного пре-процесингу текстів. Технологія семантичного пре-процесингу текстів базується на автоматичному синтактико-семантичному аналізі природномовних текстів, зокрема, автоматичному добуванні/виокремленні (їх ідентифікація, валідація та розмітка) термінів з подальшим формуванням проблемно-орієнтованих, глибоко анотованих текстових корпусів, в яких фундаментальною сутністю є термін (включаючи композиційні терміни). Це дає можливість перейти від розподіленого/векторного представлення слів до розподіленого/векторного представлення термінів. Практичним результатом роботи є розроблений набір інструментальних/програмних засобів (у вигляді веб-сервісів і веб-застосунку), який забезпечує виконання всіх необхідних процедур і функцій для реалізації технологій базової лінгвістичної попередньої обробки та семантичного пре-процесингу природномовних текстів українською мовою з подальшим навчанням дистрибутивно-семантичних моделей векторного представлення термінів.
first_indexed 2025-12-01T11:10:49Z
format Article
fulltext
id nasplib_isofts_kiev_ua-123456789-180480
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1727-4907
language English
last_indexed 2025-12-01T11:10:49Z
publishDate 2020
publisher Інститут програмних систем НАН України
record_format dspace
spelling Palagin, O.V.
Velychko, V.Yu.
Malakhov, K.S.
Shchurov, O.S.
2021-09-29T18:47:03Z
2021-09-29T18:47:03Z
2020
Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach / O.V. Palagin, V.Yu Velychko., K.S. Malakhov, O.S. Shchurov // Проблеми програмування. — 2020. — № 2-3. — С. 341-351. — Бібліогр.: 50 назв. — англ.
1727-4907
DOI: https://doi.org/10.15407/pp2020.02-03.341
https://nasplib.isofts.kiev.ua/handle/123456789/180480
004.91: 004.912
We design a new technique for the distributional semantic modeling with a neural network-based approach to learn distributed term representations (or term embeddings) – term vector space models as a result, inspired by the recent ontology-related approach (using different types of contextual knowledge such as syntactic knowledge, terminological knowledge, semantic knowledge, etc.) to the identification of terms (term extraction) and relations between them (relation extraction) called semantic pre-processing technology – SPT. Our method relies on automatic term extraction from the natural language texts and subsequent formation of the problem-oriented or application-oriented (also deeply annotated) text corpora where the fundamental entity is the term (includes non-compositional and compositional terms). This gives us an opportunity to changeover from distributed word representations (or word embeddings) to distributed term representations (or term embeddings). The main practical result of our work is the development kit (set of toolkits represented as web service APIs and web application), which provides all necessary routines for the basic linguistic pre-processing and the semantic pre-processing of the natural language texts in Ukrainian for future training of term vector space models.
В работе предложен новый метод дистрибутивно-семантического моделирования с элементами онтологического инжиниринга (а именно, автоматическое извлечение терминов) для обучения предсказательных моделей дистрибутивной семантики с использованием векторного представления терминов – term embeddings. В основе предложенного метода лежит новая технология вычислительной/математической лингвистики для обработки естественно-языковых текстов, получившая название – технология семантического пре-процессинга текстов. Технология семантического пре-процессинга текстов основана на автоматическом синтактико-семантическом анализе естественно-языковых текстов, в частности, автоматическом извлечении терминов (их идентификация, валидация и разметка) с последующим формированием проблемно-ориентированных, глубоко аннотированных текстовых корпусов, в которых фундаментальной сущностью является термин (включая композиционные термины). Это даёт возможность перейти от распределенного/векторного представления слов к распределенному/векторному представлению терминов. Практическим результатом работы является разработанный набор инструментальных/программных средств (в виде веб-сервисов и веб-приложения), который обеспечивает выполнение всех необходимых процедур и функций для реализации технологий базовой лингвистической предобработки и семантического пре-процессинга естественно-языковых текстов на украинском языке с последующим обучением дистрибутивно-семантических моделей векторного представления терминов.
В роботі запропоновано новий метод дистрибутивно-семантичного моделювання з елементами онтологічного інжинірингу (а саме, автоматичне добування термінів) для навчання передбачуваних моделей дистрибутивної семантики з використанням векторного представлення термінів – term embeddings. В основі запропонованого методу лежить нова технологія обчислювальної/математичної лінгвістики для обробки природномовних текстів, що отримала назву – технологія семантичного пре-процесингу текстів. Технологія семантичного пре-процесингу текстів базується на автоматичному синтактико-семантичному аналізі природномовних текстів, зокрема, автоматичному добуванні/виокремленні (їх ідентифікація, валідація та розмітка) термінів з подальшим формуванням проблемно-орієнтованих, глибоко анотованих текстових корпусів, в яких фундаментальною сутністю є термін (включаючи композиційні терміни). Це дає можливість перейти від розподіленого/векторного представлення слів до розподіленого/векторного представлення термінів. Практичним результатом роботи є розроблений набір інструментальних/програмних засобів (у вигляді веб-сервісів і веб-застосунку), який забезпечує виконання всіх необхідних процедур і функцій для реалізації технологій базової лінгвістичної попередньої обробки та семантичного пре-процесингу природномовних текстів українською мовою з подальшим навчанням дистрибутивно-семантичних моделей векторного представлення термінів.
en
Інститут програмних систем НАН України
Проблеми програмування
Методи машинного навчання
Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
Распределенное семантическое моделирование: пересмотренный метод обучения моделей векторного пространства терминов / слов с применением подхода, связанного с онтологией
Розподілене семантичне моделювання: переглянута техніка для навчання моделей простору термінів / слів із застосуванням онтологічного підходу
Article
published earlier
spellingShingle Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
Palagin, O.V.
Velychko, V.Yu.
Malakhov, K.S.
Shchurov, O.S.
Методи машинного навчання
title Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
title_alt Распределенное семантическое моделирование: пересмотренный метод обучения моделей векторного пространства терминов / слов с применением подхода, связанного с онтологией
Розподілене семантичне моделювання: переглянута техніка для навчання моделей простору термінів / слів із застосуванням онтологічного підходу
title_full Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
title_fullStr Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
title_full_unstemmed Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
title_short Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
title_sort distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach
topic Методи машинного навчання
topic_facet Методи машинного навчання
url https://nasplib.isofts.kiev.ua/handle/123456789/180480
work_keys_str_mv AT palaginov distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach
AT velychkovyu distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach
AT malakhovks distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach
AT shchurovos distributionalsemanticmodelingarevisedtechniquetotraintermwordvectorspacemodelsapplyingtheontologyrelatedapproach
AT palaginov raspredelennoesemantičeskoemodelirovanieperesmotrennyimetodobučeniâmodeleivektornogoprostranstvaterminovslovsprimeneniempodhodasvâzannogosontologiei
AT velychkovyu raspredelennoesemantičeskoemodelirovanieperesmotrennyimetodobučeniâmodeleivektornogoprostranstvaterminovslovsprimeneniempodhodasvâzannogosontologiei
AT malakhovks raspredelennoesemantičeskoemodelirovanieperesmotrennyimetodobučeniâmodeleivektornogoprostranstvaterminovslovsprimeneniempodhodasvâzannogosontologiei
AT shchurovos raspredelennoesemantičeskoemodelirovanieperesmotrennyimetodobučeniâmodeleivektornogoprostranstvaterminovslovsprimeneniempodhodasvâzannogosontologiei
AT palaginov rozpodílenesemantičnemodelûvannâpereglânutatehníkadlânavčannâmodeleiprostorutermínívslívízzastosuvannâmontologíčnogopídhodu
AT velychkovyu rozpodílenesemantičnemodelûvannâpereglânutatehníkadlânavčannâmodeleiprostorutermínívslívízzastosuvannâmontologíčnogopídhodu
AT malakhovks rozpodílenesemantičnemodelûvannâpereglânutatehníkadlânavčannâmodeleiprostorutermínívslívízzastosuvannâmontologíčnogopídhodu
AT shchurovos rozpodílenesemantičnemodelûvannâpereglânutatehníkadlânavčannâmodeleiprostorutermínívslívízzastosuvannâmontologíčnogopídhodu