Методи оцінювання семантичної близькості-зв’язності слів природної мови

У статті досліджуються проблеми побудови найкоротших шляхів в онтологічній семантичній мережі бази знань. Довжини найкоротших шляхів між концептами в онтології трактуються як значення їх семантичної зв’язності-близькості. В роботі були запропоновані дві алгоритмічні моделі обчислення семантичної зв’...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Штучний інтелект
Дата:2012
Автор: Марченко, О.О.
Формат: Стаття
Мова:Українська
Опубліковано: Інститут проблем штучного інтелекту МОН України та НАН України 2012
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/57727
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Методи оцінювання семантичної близькості-зв’язності слів природної мови / О.О. Марченко // Штучний інтелект. — 2012. — № 4. — С. 213-219. — Бібліогр.: 13 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859594056577843200
author Марченко, О.О.
author_facet Марченко, О.О.
citation_txt Методи оцінювання семантичної близькості-зв’язності слів природної мови / О.О. Марченко // Штучний інтелект. — 2012. — № 4. — С. 213-219. — Бібліогр.: 13 назв. — укр.
collection DSpace DC
container_title Штучний інтелект
description У статті досліджуються проблеми побудови найкоротших шляхів в онтологічній семантичній мережі бази знань. Довжини найкоротших шляхів між концептами в онтології трактуються як значення їх семантичної зв’язності-близькості. В роботі були запропоновані дві алгоритмічні моделі обчислення семантичної зв’язності-близькості пар слів природної мови через побудову найкоротших шляхів між відповідними вершинами в онтологічному графі семантичної мережі. В статье исследуются проблемы построения кратчайших путей в онтологической семантической сети базы знаний. Длины кратчайших путей между концептами в онтологии трактуются как значения их семантической связности-близости. В работе были предложены две алгоритмические модели вычисления семантической связности-близости пар слов естественного языка через построение кратчайших путей между соответствующими вершинами в онтологическом графе семантической сети. In this article the problem of searching a shortest path in ontological semantic network of knowledge base is considered. The lengths of shortest paths between concepts in the ontology are interpreted as a value of their semantic closeness-relatedness. In the paper two algorithmic models for computation of semantic closeness-relatedness of natural language words through the searching of the shortest paths between the vertices of the ontological graph in the semantic network have been proposed.
first_indexed 2025-11-27T18:07:45Z
format Article
fulltext «Штучний інтелект» 4’2012 213 3М УДК 681.3 О.О. Марченко Київський національний університет імені Тараса Шевченка, Україна Україна, 03680, м. Київ, просп. Глушкова, 4-д Методи оцінювання семантичної близькості- зв’язності слів природної мови O.O. Marchenko Taras Shevchenko National University of Kyiv, Faculty of Cybernetics, Ukraine Ukraine, 03680, Kyiv, Glushkova Ave., 4-d Methods for Estimation of Semantic Closeness-Relatedness of Natural Language Words А.А. Марченко Киевский национальный университет имени Тараса Шевченко, Украина Украина, 03680, г. Киев, просп. Глушкова, 4-д Методы оценивания семантической близости-связности слов естественного языка У статті досліджуються проблеми побудови найкоротших шляхів в онтологічній семантичній мережі бази знань. Довжини найкоротших шляхів між концептами в онтології трактуються як значення їх семантичної зв’язності-близькості. В роботі були запропоновані дві алгоритмічні моделі обчислення семантичної зв’язності-близькості пар слів природної мови через побудову найкоротших шляхів між відповідними вершинами в онтологічному графі семантичної мережі. Ключові слова: обробка текстів природною мовою, оцінка близькості-зв’язності слів природної мови, семантичний аналіз. In this article the problem of searching a shortest path in ontological semantic network of knowledge base is considered. The lengths of shortest paths between concepts in the ontology are interpreted as a value of their semantic closeness-relatedness. In the paper two algorithmic models for computation of semantic closeness- relatedness of natural language words through the searching of the shortest paths between the vertices of the ontological graph in the semantic network have been proposed. Keywords: natural language text processing, estimation of closeness-relatedness of natural language words, semantic analysis. В статье исследуются проблемы построения кратчайших путей в онтологической семантической сети базы знаний. Длины кратчайших путей между концептами в онтологии трактуются как значения их семантической связности-близости. В работе были предложены две алгоритмические модели вычисления семантической связности-близости пар слов естественного языка через построение кратчайших путей между соответствующими вершинами в онтологическом графе семантической сети. Ключевые слова: обработка текстов на естественном языке, оценка близости-связности слов естественного языка, семантический анализ. Вступ Значна кількість методів вимірювання семантичної зв’язності та близькості між поняттями, які використовують лексичні ресурси в тій чи іншій формі як мережі або як орієнтовані графи, ґрунтуються на побудові шляхів-ланцюжків між вузлами концептів в цих лексичних семантичних мережах та на аналізі їх властивостей. Марченко О.О. «Искусственный интеллект» 4’2012214 3М Більшість сучасних алгоритмів використовують лексико-семантичну онтологічну базу знань WordNet [1]. Іменники, дієслова, прикметники і прислівники, зібрані в мережі у синонімічні множини (synsets), кожен з яких є лексичним концептом, і які зв’язані один з іншим різними відношеннями. Багатозначні слова з’являються у всіх синсетах для кожного зі своїх смислів. Мережа іменників WordNet була першою добре проробленою та розвиненою, і тому більшість дослідників на початку обмежувалася цією мережею. Основа мережі іменників – ієрархічна структура гіпонімії-гіпернімії (hyponymy/ hypernymy), на частку якої припадає близько 70% від всіх відношень. На вершині ієрархії знаходяться 11 абстрактних понять, що називають унікаль- ними первісними сутностями («щось, що має конкретне існування, жива або нежива іс- тота»), або психологічні властивості («властивість психічного життя живого організму»). Максимальна глибина ієрархії іменників складає 16 вузлів. Дев’ять типів відно- шень задано на мережі іменників: hyponymy (IS-A) відношення, і обернене відношення hypernymy, шість меронимічних meronymic (PART-OF) відношень – COMPONENT- OF, MEMBER-OF та SUBSTANCE-OF і зворотні їм відношення та антонімія. Приймемо такі визначення та позначення: – довжина length найкоротшого шляху в WordNet між синсетом ci та синсетом cj (вимірюється кількістю вузлів або ребер в ланцюжку) і позначається len(ci,cj). Ми вводимо штучним чином загальний батьківський кореневий вузол root над всіма 11 первісними вузлами-поняттями, щоб гарантувати існування шляху між двома вузлами; – глибина depth вузла – це довжина шляху до нього від вузлу root, тобто depth(ci)=len(root,ci); – позначимо lso(c1,c2) найближчого спільного предка (lowest super-ordinate) концептів с1 та с2; – позначимо rel(c1, c2) – семантичне відношення зв’язності між двома концептами c1 та c2, відношення зв’язності rel(w1, w2) між двома словами w1 та w2 може бути обчислено як rel(w1, w2)=  ),(max 21 )(),( 2211 ccrel wscwsc  , (1) де s(wi) – множина концептів онтології, які є смислами слова wi. Таким чином, відношення зв’язності між двома словами дорівнює відношенню між найбільш зв’язною парою їх значень. Сучасні методи обчислення семантичної близькості- зв’язності понять Перш за все, варто розглянути раніше розроблені методи обчислення семан- тичної відстані між поняттями. Розробки в цьому напрямі ведуться з початку 80-х років минулого сторіччя. З тих пір було розроблено кілька евристичних методів. Слід зазначити, що дуже важливим є вибір джерела даних – основи для обчис- лення семантичної близькості. У дослідженнях найчастіше використовуються різні лінгвістичні бази знань: WordNet, ConceptNet. Також використовуються: Wikipedia, пошук Google. Найбільш значні результати були досягнуті при використанні WordNet і Wikipedia [2-4]. Перший клас методів базується на обчисленні відстані ),( 21 cc між двома концептами (вузлами) 21,cc в деякій таксономії (WordNet, дерево категорій Методи оцінювання семантичної близькості-зв’яності слів... «Штучний інтелект» 4’2012 215 3М Wikipedia). Так, наприклад, може бути використаний найкоротший шлях між двома відповідними вершинами в даній таксономії. Одна з перших таких метрик була запропонована Резніком [5]: pN cc 1 ),( 21  , (2) де pN – кількість вершин в найкоротшому шляху, що зв’язує вузли 21,cc . Резнік зазначив, що ця метрика суттєво страждає від нерівномірності глибини деяких кон- цептів в таксономії. Лікок та Ходоров [6] запропонували нормалізовану версію даного методу, яка враховує глибину таксономії, що використовується : D N cc p   2 log),( 21 , (3) де D – максимальна глибина дерева таксономії. Ще один метод був описаний в роботі Ву і Палмера [7]. В їх алгоритмі вра- ховується ),( 21 ccLSO – глибина найменшого спільного предка (Lowest Super Ordinate) двох вузлів графу таксономії, які відповідають концептам 21,cc : )depth(c+)depth(c ))c,cdepth(LSO( cc 21 21 21 log),(  , (4) де depth(x) позначає відстань від кореня таксономії до вузла x. Струб та Понцетто [8] першими використали Wikipedia для обчислення семан- тичної відстані. Їх метод – WikiRelate! – використовує вищеописані метрики на дереві категорій Wikipedia. Інший клас алгоритмів був заснований Леском [9]. Він побудував алгоритм, заснований на ідеї, що близькі поняття будуть визначатися за допомогою схожого набору слів. У своєму алгоритмі як семантичну відстань між поняттями він використав відношення кількості однакових слів у визначеннях понять до загальної кількості слів у двох визначеннях. Протягом останніх п’яти років розроблено кілька методів, заснованих на вико- ристанні Wikipedia, які демонструють недосяжну раніше точність. Мілн і Віттен [10] винайшли метод обчислення семантичної близькості під назвою Wikipedia Link-based Measure (WLM). В ньому як основа використовуються посилання між сторінками. Головною ідеєю тут є припущення про те, що поняття (в даному випадку представлене статтею Wikipedia) досить точно задається за допомогою вхідних та вихідних посилань. Кожне посилання має свою вагу, засновану на частоті його використання серед усіх сторінок енциклопедії. Таким чином, кожній статті відповідає вектор посилань. Вага посилання обчислюється за допомогою широко відомої формули TD-IDF [11]. Відстань між статтями визначається як косинусна відстань між векторами ваг посилань. Один з кращих методів – Explicit Semantic Analysis (ESA) – був описаний у ро- ботах Габриловича і Марковича [4]. На противагу раніше відомому алгоритму – Latent Semantic Analysis (LSA), в якому знаходяться неявні зв’язки між текстами статей, тут поняття представляється в наочному вигляді, за допомогою зваженої суми термінів, отриманих з Wikipedia. Задане поняття проектується в простір векторів-статей Wikipedia. Таким чином, семантична близькість визначається як косинусна відстань між векторами, спроектованими в простір статей Wikipedia. Ех, Рамадж, Маннінг та інші [12] представили метод WikiWalk, який використовує техніку випадкових блукань у графі. В їх роботі розглядається два типи графів: побу- довані за допомогою WordNet та граф зв’язків Wikipedia. Цей метод використовує алгоритм Personalized PageRank: якась частинка випадково блукає по вершинах графа (у Марченко О.О. «Искусственный интеллект» 4’2012216 3М випадку з Wikipedia, по статтям), і переходить на нову сторінку із якоюсь ймовірністю. Таким чином, кожна вершина графа визначається вектором ймовірностей переходів на інші сторінки (вектором телепортацій). Такий вектор виявляється унікальною харак- теристикою сторінки Wikipedia (а з нею і описаного поняття). Семантична близькість визначається як відстань між векторами телепортацій відповідних сторінок. Алгоритми обчислення найкоротших шляхів в онтологічній мережі WordNet Як було показано вище, важко переоцінити важливість процесу пошуку найкорот- шого шляху між вузлами концептів онтології. Даний шлях має задовольняти ряд вимог, головною з яких є вимога інтерпретації знайденого шляху. Тобто такий побудований ланцюжок переходів по ребрам онтологічного графу має відповідати певним правилам, які трактують дану послідовність семантичних відношень як встановлення безпосеред- нього семантичного відношення певного типу між вузлами-концептами, що зв’язані побудованим ланцюгом. Також необхідно відмітити, що довжина найкоротшого шляху між вершинами концептів є величиною обернено пропорційною до значення оцінки зв’язності-близькості. Розглянемо декілька алгоритмічних підходів до проблеми пошуку найкоротшого шляху між вузлами-концептами в онтології. Перш за все, знайдений шлях повинен мати довжину, що є адекватною до фактичної близькості-зв’язності відповідних понять у реальному світі в судженнях людей. Для цього необхідно мати набір оцінених екс- пертами пар понять, який потрібно застосувати в процесі навчання алгоритму для каліб- рування ваги окремих ребер-відношень між концептами в залежності від семантичного, реляційного, позиційного, або якогось іншого контексту даних відношень в онтології. Для навчання та тестування подібних алгоритмів обчислення семантичної близькості- зв’язності часто використовується набір зважених пар слів Finkelstein WordSimila- rity-353 [15]. Він містить 353 пари слів, які були оцінені експертами-людьми. Кожна пара була оцінена дійсним числом від 0 до 10. Цей корпус слугуватиме як навчальна вибірка і як тестова вибірка після завершення процесу навчання. Для цього поділимо набір на дві рівні частини. Перша частина буде навчальною вибіркою, друга – тестовою. Модель А. На початку вважаємо, що дозволені шляхи довільного типу з будь- якими послідовностями ребер-відношень без жодних обмежень. Для побудови найкоротшого шляху між концептами в онтології у даному випадку краще за все застосувати алгоритм зустрічного пошуку в ширину. Якщо простий пошук в ширину має часову складність О(nk) (де n – середня кількість інцидентних ребер для вершини-концепту онтології, а k – довжина найкоротшого існуючого шляху між концептами), то зустрічний пошук в ширину має часову складність О( 2 k n ) відповідно. Побудуємо найкоротші шляхи між парами слів з навчальної вибірки. Далі задача може бути сформульована наступним чином. Підібрати вагу ребер таким чином, щоб довжини знайдених в онтології найко- ротших шляхів між еталонними парами мали найбільшу кореляцію з еталонними оцін- ками зв’язності, тобто з оцінками людей-експертів. Початкові значення ваг ребер-відно- шень різного типу присвоюються експертами. Далі алгоритм підбирає значення ваг для ребер у знайдених ланцюжках найкоротших шляхів між парами концептів з ціллю максимізації коефіцієнта рангової кореляції Спірмена: r = 1 - )1( 6 2 2   nn d , (5) де 2d – сума квадратів різниць оцінок зв’язності , n – кількість пар оцінок. Методи оцінювання семантичної близькості-зв’яності слів... «Штучний інтелект» 4’2012 217 3М Треба зазначити, що не всі типи ребер-відношень мають однорідну вагу. Наприклад, відношення гіпонімії-гіпернімії мають значення ваги, яке збільшується із наближенням до кореня онтології root, та зменшується за ходом наближення до термінальних листків онтологічної мережі. Тому відповідні вагові коефіцієнти доцільно модифікувати: a[i]:=a[i]* l  k, де Δ – глибина даної підмережі, l – рівень відповідного ребра, k – коефіцієнт згладжування, який також підбирається під час навчання як окремий параметр. Подібні модифікації вагових коефіцієнтів дозволяють більш ефективно будувати модель пошуку найкоротших шляхів для оцінки семантичної зв’язності концептів в онтологічних мережах. Після ітерації навчання йде повторний пошук найкоротших шляхів для пар з навчальної вибірки із врахуванням знайдених вагових коефіцієнтів. Якщо були знайдені ті ж самі найкоротші шляхи-ланцюжки, що і до ітерації навчання, то алгоритм закінчує свою роботу (це умова закінчення роботи алгоритму навчання Х), інакше він повторює навчальну ітерацію підбору значень ваги ребер-відношень у нових знайдених ланцюжках, аж доки не буде виконана умова закін- чення роботи алгоритму навчання (Х). Після навчального підбору вагових коефіцієнтів для ребер-відношень онтології проведене експериментальне обчислення оцінок зв’язності-близькості пар слів з тестової вибірки. Для оцінки якості та точності роботи отриманої моделі визначення семантичної зв’язності пар слів також використано коефіцієнт рангової кореляції Спірмена. Експери- менти показали кореляцію отриманих оцінок зі значеннями тестової вибірки біля 91,7%, що є дуже перспективним результатом у плані застосування запропонованого методу. Модель В. Припускається, що неявно існуюче відношення між концептами С1 та С2 в онтології можна вивести із ланцюжка певної послідовності відношень, який веде від синсету С1 до синсету С2. Тобто якщо знати склад та конфігурацію такого лан- цюжка, то можна при знаходженні аналогічних шляхів, що ведуть в мережі онтології від концепту А до концепту В будувати пряме явне відношення відповідного типу. Постає проблема побудови методів визначення таких ланцюжків. Очевидно, що деякі послідовності відношень при аналізі ланцюжків у мережі мають сенс, якщо їх можна проінтерпретувати, інші позбавлені обґрунтування, тому їх виклю- чають із розгляду. Тобто мають бути сформовані множина Р дозволених послідовностей відношень у ланцюжку між С1 та С2 та множина F заборонених послідовностей відно- шень у ланцюжку. Тоді процес знаходження нових відношень певної ваги між концеп- тами в онтологічній мережі можна уявити як пошук шляхів-ланцюжків дозволеної конфігурації між вершинами цих концептів. Якщо ланцюжок дозволеної послідовності між С1 та С2 побудовано, то відповідне нове відношення між ними встановлюється. Алгоритмічно можна представити процес пошуку та побудови послідовності ланцюжка як роботу автомата, в якому функцію переходів визначають множини P та F. Назвемо дані множини евристиками або інструкціями виведення нових семантичних зв’язків між концептами у семантичній мережі. Процес формування множин P та F має бути автоматизованим з мінімальною уча- стю експерта. Участь експерта особливо потрібна для формування множини заборонених конфігурацій F. Для формування автомату побудови найкоротших шляхів певної кон- фігурації в онтологічному графі ми скористаємося навчальною та тестовою вибірками з попередньої моделі пошуку найкоротших шляхів в онтологічній мережі. Генерація множини Р може бути представлена наступним чином: 1. Для кожної пари слів з навчальної вибірки побудувати набір найкоротших шляхів. Мається на увазі, що потрібно розглянути не лише найкоротші шляхи між кожною парою у незваженому графі мережі, але множину шляхів на 1 (на 2, на 3), ребра довші за найкоротший ланцюжок між вузлами онтології. Марченко О.О. «Искусственный интеллект» 4’2012218 3М 2. Для кожної пари слів з навчальної вибірки експерти аналізують їх набори побудованих найкоротших шляхів, обираючи найбільш адекватні з точки зору логіч- ного обґрунтування сполучності послідовностей ребер-відношень у знайдених ланцюж- ках найкоротших шляхів. У процесі розгляду поповнюється набір заборонених сполуч- ностей відношень F. Обрані експертами найбільш коректні послідовності ребер- відношень формують граф переходів автомата пошуку найкоротших шляхів між концептами в онтологічній мережі. 3. Далі виконується підбір ваги для кожного переходу автоматного графу, отри- маного на попередньому кроці. При цьому початкові значення та інтервали варіації параметрів вказуються експертами. Побудуємо за допомогою даного поточного автомата найкоротші шляхи для пар слів з навчальної вибірки. Довжини найкоротших шляхів між концептами в онтології вважаються прямими показниками їх семантичної зв’язності- близькості. Чим ближче в мережі знаходяться два концепти, тим сильніше вони зв’я- зані. Використаємо, як і в попередньому випадку, коефіцієнт рангової кореляції Спірмена для визначення кореляції отриманих значень зв’язності-близькості до еталонних оці- нок, присвоєних експертами парам навчальної вибірки. Алгоритм підбирає ваги пере- ходів з ціллю максимізації коефіцієнта рангової кореляції Спірмена. Після етапу оптимізації були проведені експерименти оцінки точності роботи побудованого автомата пошуку найкоротших шляхів в онтологічній мережі. Був об- роблений тестовий набір пар слів. Отримані оцінки зв’язності-близькості між парами слів з тестового набору порівняли з еталонними оцінками експертів. Коефіцієнт ранго- вої кореляції Спірмена показав оцінку кореляції близько 93,4%, що є переконливим показником якості побудованої моделі обчислення оцінок семантичної зв’язності- близькості слів природної мови. Висновки Робота досліджує проблеми побудови найкоротших шляхів в онтологічній семан- тичній мережі бази знань. Довжини найкоротших шляхів між концептами в онтології трактуються як значення їх семантичної зв’язності-близькості. Автором були запропоно- вані дві алгоритмічні моделі обчислення семантичної зв’язності-близькості пар слів природної мови через побудову найкоротших шляхів між відповідними вершинами в онтологічному графі семантичної мережі. Експерименти з тестовими наборами пар слів, оцінених експертами стосовно значень їх зв’язності-близькості, підтвердили ефективність запропонованих моделей та високу точність обчислення оцінок семантичної близькості та зв’язності слів природної мови. Література 1. Miller G.A. WordNet: An online lexical database / R. Beckwith, C.D. Fellbaum [et al.] // Int. J. Lexicograph. – 1990. – № 3, 4. – P. 235-244. 2. Wubben S. Using free link structure to calculate semantic relatedness / S. Wubben // ILK Research Group Technical Report Series. – 2008. – № 08-01. 3. Ponzetto S.P. 2007. Knowledge deriver from Wikipedia for computing semantic relatedness / S.P. Ponzetto, M. Strube // EML Research gGmbH, Natural language processing group. 4. Gabrilovich E. Computing semantic relatedness using Wikipedia-based explicit semantic analysis / E. Gab- rilovich, S. Markovitch // Department of Computer Science Techion: Israel Institute of Technology, 2006. 5. Resnik P. 1995. Using information content to evaluate semantic similarity in a taxonomy / P. Resnik // In International Joint Conference for Artificial Intelligence (IJCAI-95)/. – P. 448-453. 6. Leacock C. Using corpus statistics and wordnet relations for sense identification / C. Leacock, M. Chodorow, G.A. Miller // Computational Linguistics. – 1998. – № 24(1). – P. 147-165. 7. Wu Z. Verb semantics and lexical selection / Z. Wu, M. Palmer // In 32nd. Annual Meeting of the Association for Computational Linguistics. – New Mexico State University, Las Cruces, New Mexico. – 1994. – P. 133-138. Методи оцінювання семантичної близькості-зв’яності слів... «Штучний інтелект» 4’2012 219 3М 8. Strube M. WikiRelate! Computing Semantic Relatedness Using Wikipedia / M. Strube, S.P. Ponzetto // In Proceedings of the 21st National Conference on Artificial Intelligence (AAAI-06). – P. 1419-1424. 9. Lesk M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone / M. Lesk // In SIGDOC '86 : Proceedings of the 5th annual international conference on Systems documentation. – New York, NY, USA. ACM. – 1986. – P. 24-26. 10. Milne D. An effective, low-cost measure of semantic relatedness obtained from wikipedia links / D. Milne, I.H. Witten // Association for the Advancment of Artifical Intelligence. – 2008. 11. Salton G. Introduction to modern information retrieval / G. Salton, M.J. McGill. – 1983. – McGraw-Hill. 12. Yeh E. WikiWalk : Random walks on Wikipedia for Semantic Relatedness / E. Yeh, D. Ramage, C.D. Manning [et al.] // ACL-IJCNLP TextGraphs-4 Workshop. – 2009. 13. Finkelstein L. Placing Search in Context: The Concept Revisited / L. Finkelstein, E. Gabrilovich, Y. Matias [et al.] // ACM Transactions on Information Systems. – January 2002. – № 20(1). – Р. 116-131. Literatura 1. Miller G.A. WordNet: An online lexical database / R. Beckwith, C.D. Fellbaum [et al.] // Int. J. Lexicograph. – 1990. – № 3, 4. – P. 235-244. 2. Wubben S. Using free link structure to calculate semantic relatedness / S. Wubben // ILK Research Group Technical Report Series. – 2008. – № 08-01. 3. Ponzetto S.P. 2007. Knowledge deriver from Wikipedia for computing semantic relatedness / S.P. Ponzetto, M. Strube // EML Research gGmbH, Natural language processing group. 4. Gabrilovich E. Computing semantic relatedness using Wikipedia-based explicit semantic analysis / E. Gab- rilovich, S. Markovitch // Department of Computer Science Techion: Israel Institute of Technology, 2006. 5. Resnik P. 1995. Using information content to evaluate semantic similarity in a taxonomy / P. Resnik // In International Joint Conference for Artificial Intelligence (IJCAI-95)/. – P. 448-453. 6. Leacock C. Using corpus statistics and wordnet relations for sense identification / C. Leacock, M. Chodorow, G.A. Miller // Computational Linguistics. – 1998. – № 24(1). – P. 147-165. 7. Wu Z. Verb semantics and lexical selection / Z. Wu, M. Palmer // In 32nd. Annual Meeting of the Association for Computational Linguistics. – New Mexico State University, Las Cruces, New Mexico. – 1994. – P. 133-138. 8. Strube M. WikiRelate! Computing Semantic Relatedness Using Wikipedia / M. Strube, S.P. Ponzetto // In Proceedings of the 21st National Conference on Artificial Intelligence (AAAI-06). – P. 1419-1424. 9. Lesk M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone / M. Lesk // In SIGDOC '86 : Proceedings of the 5th annual international conference on Systems documentation. – New York, NY, USA. ACM. – 1986. – P. 24-26. 10. Milne D. An effective, low-cost measure of semantic relatedness obtained from wikipedia links / D. Milne, I.H. Witten // Association for the Advancment of Artifical Intelligence. – 2008. 11. Salton G. Introduction to modern information retrieval / G. Salton, M.J. McGill. – 1983. – McGraw-Hill. 12. Yeh E. WikiWalk : Random walks on Wikipedia for Semantic Relatedness / E. Yeh, D. Ramage, C.D. Manning [et al.] // ACL-IJCNLP TextGraphs-4 Workshop. – 2009. 13. Finkelstein L. Placing Search in Context: The Concept Revisited / L. Finkelstein, E. Gabrilovich, Y. Matias [et al.] // ACM Transactions on Information Systems. – January 2002. – № 20(1). – Р. 116-131. RESUME O.O. Marchenko Methods for Estimation of Semantic Closeness-Relatedness of Natural Language Words In this article the problem of searching a shortest path in ontological semantic network of knowledge base is considered. The lengths of shortest paths between concepts in the ontology are interpreted as a value of their semantic closeness-relatedness. In the paper two algorithmic models for computation of semantic closeness-relatedness of natural language words through the searching of the shortest paths between the vertices of the ontological graph in the semantic network have been proposed. Experiments with the test sets of word pairs estimated by human experts on their clo- seness-relatedness have confirmed the effectiveness of the proposed models and the high precision of calculating estimates of semantic closeness-relatedness of natural language words. Статья поступила в редакцию 16.07.2012.
id nasplib_isofts_kiev_ua-123456789-57727
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Ukrainian
last_indexed 2025-11-27T18:07:45Z
publishDate 2012
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Марченко, О.О.
2014-03-14T08:20:19Z
2014-03-14T08:20:19Z
2012
Методи оцінювання семантичної близькості-зв’язності слів природної мови / О.О. Марченко // Штучний інтелект. — 2012. — № 4. — С. 213-219. — Бібліогр.: 13 назв. — укр.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/57727
681.3
У статті досліджуються проблеми побудови найкоротших шляхів в онтологічній семантичній мережі бази знань. Довжини найкоротших шляхів між концептами в онтології трактуються як значення їх семантичної зв’язності-близькості. В роботі були запропоновані дві алгоритмічні моделі обчислення семантичної зв’язності-близькості пар слів природної мови через побудову найкоротших шляхів між відповідними вершинами в онтологічному графі семантичної мережі.
В статье исследуются проблемы построения кратчайших путей в онтологической семантической сети базы знаний. Длины кратчайших путей между концептами в онтологии трактуются как значения их семантической связности-близости. В работе были предложены две алгоритмические модели вычисления семантической связности-близости пар слов естественного языка через построение кратчайших путей между соответствующими вершинами в онтологическом графе семантической сети.
In this article the problem of searching a shortest path in ontological semantic network of knowledge base is considered. The lengths of shortest paths between concepts in the ontology are interpreted as a value of their semantic closeness-relatedness. In the paper two algorithmic models for computation of semantic closeness-relatedness of natural language words through the searching of the shortest paths between the vertices of the ontological graph in the semantic network have been proposed.
uk
Інститут проблем штучного інтелекту МОН України та НАН України
Штучний інтелект
Анализ и синтез коммуникационной информации
Методи оцінювання семантичної близькості-зв’язності слів природної мови
Методы оценивания семантической близости-связности слов естественного языка
Methods for Estimation of Semantic Closeness-Relatedness of Natural Language Words
Article
published earlier
spellingShingle Методи оцінювання семантичної близькості-зв’язності слів природної мови
Марченко, О.О.
Анализ и синтез коммуникационной информации
title Методи оцінювання семантичної близькості-зв’язності слів природної мови
title_alt Методы оценивания семантической близости-связности слов естественного языка
Methods for Estimation of Semantic Closeness-Relatedness of Natural Language Words
title_full Методи оцінювання семантичної близькості-зв’язності слів природної мови
title_fullStr Методи оцінювання семантичної близькості-зв’язності слів природної мови
title_full_unstemmed Методи оцінювання семантичної близькості-зв’язності слів природної мови
title_short Методи оцінювання семантичної близькості-зв’язності слів природної мови
title_sort методи оцінювання семантичної близькості-зв’язності слів природної мови
topic Анализ и синтез коммуникационной информации
topic_facet Анализ и синтез коммуникационной информации
url https://nasplib.isofts.kiev.ua/handle/123456789/57727
work_keys_str_mv AT marčenkooo metodiocínûvannâsemantičnoíblizʹkostízvâznostíslívprirodnoímovi
AT marčenkooo metodyocenivaniâsemantičeskoiblizostisvâznostislovestestvennogoâzyka
AT marčenkooo methodsforestimationofsemanticclosenessrelatednessofnaturallanguagewords