Mixed topic-entity ontology for enhanced topic vector-spaced model

The paper considers to modelling ontologies in enhanced topic-based vector-space model of information retrieval. Proposed approach is oriented on ontology extraction automation. Methods of modelling topical structure of collections of documents with probabilistic topical models and named entity reco...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2025
Автор: Shabinskiy, A.S.
Формат: Стаття
Мова:Ukrainian
Опубліковано: PROBLEMS IN PROGRAMMING 2025
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/710
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-710
record_format ojs
resource_txt_mv ppisoftskievua/a7/b0c63dd8d0f85cacd452a4b4be4a75a7.pdf
spelling pp_isofts_kiev_ua-article-7102025-04-09T22:22:32Z Mixed topic-entity ontology for enhanced topic vector-spaced model Змішана тематично-сутнісна онтологія у покращеній тематичній векторній моделі Shabinskiy, A.S. UDC 004.82 УДК 004.82 The paper considers to modelling ontologies in enhanced topic-based vector-space model of information retrieval. Proposed approach is oriented on ontology extraction automation. Methods of modelling topical structure of collections of documents with probabilistic topical models and named entity recognition, as well as possible interpretation are reviewed.Prombles in programming 2014; 2-3: 182-187 Розглядається моделювання онтологій у покращеній тематично векторній моделі інформаційного пошуку. Запропонований підхід орієнтований на автоматизацію видобування онтологій. Проаналізовано методи моделювання тематичної структури колекцій документів ймовірнісними тематичними моделями та основні підходи у видобуванні та розв’язанні іменованих сутностей.Prombles in programming 2014; 2-3: 182-187 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-04-09 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/710 PROBLEMS IN PROGRAMMING; No 2-3 (2014); 182-187 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2014); 182-187 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2014); 182-187 1727-4907 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/710/762 Copyright (c) 2025 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2025-04-09T22:22:32Z
collection OJS
language Ukrainian
topic
UDC 004.82
spellingShingle
UDC 004.82
Shabinskiy, A.S.
Mixed topic-entity ontology for enhanced topic vector-spaced model
topic_facet
UDC 004.82

УДК 004.82
format Article
author Shabinskiy, A.S.
author_facet Shabinskiy, A.S.
author_sort Shabinskiy, A.S.
title Mixed topic-entity ontology for enhanced topic vector-spaced model
title_short Mixed topic-entity ontology for enhanced topic vector-spaced model
title_full Mixed topic-entity ontology for enhanced topic vector-spaced model
title_fullStr Mixed topic-entity ontology for enhanced topic vector-spaced model
title_full_unstemmed Mixed topic-entity ontology for enhanced topic vector-spaced model
title_sort mixed topic-entity ontology for enhanced topic vector-spaced model
title_alt Змішана тематично-сутнісна онтологія у покращеній тематичній векторній моделі
description The paper considers to modelling ontologies in enhanced topic-based vector-space model of information retrieval. Proposed approach is oriented on ontology extraction automation. Methods of modelling topical structure of collections of documents with probabilistic topical models and named entity recognition, as well as possible interpretation are reviewed.Prombles in programming 2014; 2-3: 182-187
publisher PROBLEMS IN PROGRAMMING
publishDate 2025
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/710
work_keys_str_mv AT shabinskiyas mixedtopicentityontologyforenhancedtopicvectorspacedmodel
AT shabinskiyas zmíšanatematičnosutnísnaontologíâupokraŝeníjtematičníjvektorníjmodelí
first_indexed 2025-07-17T10:03:09Z
last_indexed 2025-07-17T10:03:09Z
_version_ 1850410804768145408
fulltext Моделі і засоби систем баз даних і знань © А.С. Шабінський, 2014 182 ISSN 1727-4907. Проблеми програмування. 2014. № 2–3. Спеціальний випуск УДК 004.82 ЗМІШАНА ТЕМАТИЧНО-СУТНІСНА ОНТОЛОГІЯ У ПОКРАЩЕНІЙ ТЕМАТИЧНІЙ ВЕКТОРНІЙ МОДЕЛІ А.С. Шабінський Національний університет «Києво-Могилянська академія», Україна, 04655, Київ, вул. Сковороди 2. E-mail: anton.shabinskiy@gmail.com Розглядається моделювання онтологій у покращеній тематично векторній моделі інформаційного пошуку. Запропонований підхід орієнтований на автоматизацію видобування онтологій. Проаналізовано методи моделювання тематичної структури колекцій документів ймовірнісними тематичними моделями та основні підходи у видобуванні та розв’язанні іменованих сутностей. Ключові слова: інформаційний пошук, онтологія, тематична векторна модель, тематична карта. The paper considers to modelling ontologies in enhanced topic-based vector-space model of information retrieval. Proposed approach is oriented on ontology extraction automation. Methods of modelling topical structure of collections of documents with probabilistic topical models and named entity recognition, as well as possible interpretation are reviewed. Key words: information retrieval, ontology, topic vector-space model, topic map Вступ Онтології є однією із форм подання знань у інформаційних системах (ІС). Саме поняття «онтологія» є дещо абстрактним і не визначено строго. Натомість, воно лише окреслює загальну концепцію формалізації предметних областей для застосування у ІС, для використання як людьми, так і комп’ютерними системами у складі ІС. За роллю у кінцевій ІС онтології можна поділити на два великі класи: онтології, що є самостійними базами знань (наприклад, у якості центральних компонентів експертних систем, або як цілком автономні бази знань (БЗ) для обслуговування зовнішніх запитів); та онтології у онтолого-керованих системах (ОКІС, див. напр. [1–3]), де кінцева функціональність системи не пов’язана безпосередньо із онтологією і представленими у ній знаннями, а лише скеровується онтологією. Прикладом ІС другого класу може бути онтолого-керовано інформацій-но-пошукова система (ОКІПС), у якій кінцевого користувача не цікавить внутрішній механізм поведінки системи, а лише вирішення задачі пошуку релевантної інформації. Проте система здійснює пошук саме на основі БЗ, що представлена внутрішньою онтологією. Покращена тематична векторна модель Покращена тематична векторна модель (enhanced topic-based vector space model – eTVSM) [4] еволюціо- нувала із тематичної векторної моделі (TVSM), а та у свою чергу – із класичної векторної моделі (VSM). У мо- делі TVSM зроблено спробу подолати обмеження VSM, при цьому зберігається формальний підхід, модель по- дано у загальному вигляді. Модель TVSM було запропоновано у [5] як послідовницю VSM, покращену за раху- нок чутливості до відношень між словами. Найперше поліпшення моделі було досягнуто шляхом усунення припущення про ортогональність термінів. Натомість було введено поняття фундаментальних тем, які є векто- рами у ортогональному базисі векторного простору. Модель TVSM еволюціонувала у покращену TVSM, де детально пророблена концепція визначення від- ношень між поняттями завдяки усуненню незалежності між темами і використання онтологій як джерела знань про семантичні зв’язки між поняттями предметних областей. У eTVSM спосіб визначення схожості документів побудований не на принципі схожості термінів, а на основі концепції інтерпретацій термінів. Модель оперує поняттями слова, основи слова, терміна, інтерпретації та теми. У моделі eTVSM інтерпретації використовують- ся як проміжні ланки між темами та термінами, несуть семантичне навантаження. Моделі TVSM та eTVSM ми розглядали у [6], де зокрема наведено формальний метод обрахунків схожості документів. Модель eTVSM є гнучкою в реалізації завдяки ряду місць, де розробники ОКІПС можуть застосувати власні рішення і досягнути відповідних результатів, цілком незалежно від основних концепцій моделі. Наведе- мо тут короткий опис таких можливостей. Моделювання онтологій. Підхід до моделювання онтологій ніяк не регламентується у eTVSM. Розроб- ники отримують повну свободу і можуть на власний розсуд застосувати такий спосіб представлення онтології, який більш відповідає потребам, задачам, вимогам тощо. Ваги інтерпретацій. У роботі [6] наведено формалізм розрахунку векторів документів як зваженої су- ми векторів інтерпретацій. Проте, не вводиться жодних обмежень на механізм визначення самих ваг, окрім вимоги їх належності інтервалу [0; 1]. Це ще одна можливість для розробників самостійно визначити поведі- нку системи. Моделі і засоби систем баз даних і знань 183 Зв'язування інтерпретацій із поняттями. Кожному поняттю у документів має відповідати строго одна інтерпретація, відповідно до значення, у якому вжито поняття. Оскільки при моделюванні онтології поняттям може бути зіставлено декілька інтерпретацій, необхідно визначити принцип, за яким із кількох обиратиметься найбільш доречна інтерпретація. Одним із варіантів, запропонованим у [4], є супутні поняття, які зазвичай зу- стрічаються у мові поряд із певним поняттям. Такі супутні поняття можуть використовуватись як індикатори контексту, у якому вжито певне поняття. Знову, розробники вільні у імплементації бажаного механізму вибору інтерпретацій. Визначення понять та попередня обробка. Від розробників системи ІП залежатиме, наскільки вдало групи слів будуть розпізнані як складені поняття. Зокрема, важливу роль відіграє черговість попередньої обро- бки тексту та визначення понять. Проведення попередньої обробки тексту перед визначенням понять може при- звести до хибної трактовки багатьох складених термінів, адже будуть втрачені стоп-слова, форми слів тощо. Онтологія у eTVSM Модель eTVSM виглядає привабливою для побудови високоефективних пошукових систем, здебіль- шого за рахунок онтологій і тих можливостей, що вони дають, а саме чутливість до семантичних зв’язків між поняттями у документах. Очевидно, це дає суттєву перевагу у порівнянні із класичними пошуковими систе- мами, де весь процес пошуку ґрунтується, так чи інакше, на ключових словах та їх словоформах. Але голо в- ною проблемою ОКІПС, і зокрема заснованої на eTVSM, є розбудова онтологій. Від якості онтологій зале- жить ефективність пошукових систем. Зокрема у [4] запропоновано підхід до автоматичної побудови онтоло- гії eTVSM на основі WordNet. Для оцінки цього та інших підходів у [7] проведено ряд порівнянь, у результаті чого зроблено висновок, що eTVSM із онтологією на основі WordNet має гіршу ефективність аніж eTVSM із онтологією синонімів і навіть VSM. Причиною цього є те, що WordNet – онтологія загального призначення і не може відобразити більшості усталених складних понять і особливості їх значення та контексту. Також, подібний підхід до реалізації семантичних можливостей ІП запропоновано у [8]. Щоправда, у праці замість інтерпретацій eTVSM використовуються анотації цілих документів, які зіставляють поняття у документі із певними предметними областями. У роботі [9] аналізували роль та місце онтологій у ОКІПС, розглядали різні ступені деталізації онтології у контексті інженерії та автоматизації. Пропонований нами підхід передбачав використання тематичних карт у загальному вигляді як збалансованого варіанту між відтворенням семантики документів та придатності до ав- томатизованої розбудови. Тепер, конкретизуючи використання онтології у моделі eTVSM, ми пропонуємо ви- користати особливу за структурою онтологію, яку будуватимемо із двох частин. Перша – іменовані сутності, представлені у документах, отримані автоматичними методами розпізнавання (англ. named entity recognition). Друга частина онтології – тематична анотація колекції у формі тематичної карти, отриманої за допомогою ймо- вірнісної тематичної моделі. Таким чином маємо змішану тематично-сутнісну онтологію. Наведемо формалізм для змішаної онтології та супутніх понять. Онтологія є структурою виду:  AAAE CH ,,,, , (1) де TE  – іменовані сутності, T – всі терміни,  t ,...,, 21 – теми, AAA CH ,, – зв’язки у онтології. Відношення HA – це ієрархічні асоціації між темами, коли одні теми є підтемами інших. Відношення за- дано так:  i HA \ 2:   , (2) при цьому   iiHA  \ є множиною усіх батьківських тем деякої теми i . Далі у окремому пункті ми розг- лянемо можливу інтерпретації ієрархічних зв’язків у векторне подання тем і числові характеристики спорідне- ності тем. Відношення CA – це зважені асоціації між іменованими сутностями та темами. Відношення задано на- ступним чином: REAC : , (3) де    1;0, jiC eA  – ваги. Тобто відношення CA кожній парі сутність-тема співставляє дійсну вагу із проміжку [0;1]. Це є відображенням того факту, що кожна іменована сутність може належати різним темам одночасно, але мати у цих темах різне значення. Наприклад, сутність «Білл Гейтс» належить одночасно темам «Майкро- софт», «Програмне забезпечення» та «Благодійність», але у темі «Майкрософт» вага сутності найбільша, у темі «Програмне забезпечення» – менша, і у темі «Благодійність» – найменша. Нарешті, відношення A моделює прості семантичні зв’язки між темами. Відношення визначається так: RA  : , (4) де    1;0,  jiA  – ваги, при цьому  – множина тем, така, що Моделі і засоби систем баз даних і знань 184     ,:, **   HiiHii AA (5) де  * HA – усі батьківські теми для  . Іншими словами, для теми i множина i є множиною усіх тем, які не входять до ієрархії i , тобто ні є ані батьками, ані нащадками теми i . Таким чином, відношення A дозволяє задавати довільні семантичні зв’язки між тими темами, які ніяк не зв’язані ієрархічно. Відношення A надає додаткову свободу розробникам кінцевих систем, оскільки дає змогу впливати на вагу окремих тем у докумен- тах незалежно від тематичних ієрархій, за потреби підсилюючи чи послаблюючи вплив тих чи інших тем на інтерпретацію документа. Нагадаємо, основна ідея моделі eTVSM полягає у використанні інтерпретацій як проміжних об’єктів між темами та документами. Модель документа у eTVSM будується із інтерпретацій, а не з безпосередньо тем. У нашому випадку інтерпретації повинні базуватися на семантиці, яка задана онтологією запропонованої струк- тури, тобто враховувати вищезгадані зв’язки і ваги. Важливим аспектом є те, що на цьому етапі ми залишаємо достатньо гнучкості і свободи у моделі. При розробці системи можна моделювати лінгвістичні та семантичні особливості, обираючи власні вагові схеми та по-різному інтерпретуючи зв’язки у онтології. Ми визначаємо загальний підхід у поданні моделі документа, але не обмежуємо способи її обрахунку. У термінології eTVSM та згідно із нашим підходом інтерпретації задані f , та задано множину   E f  2 , яку побудуємо у три кроки наступним чином: 1.    iHjjHiji AA  **:,  2.     0,0,:  jCiC eAeAEe  3.     0,0,:   jkikk AA  Тобто  f – множина довільних об’єктів онтології, які  або є темами, що пов’язані ієрархічно (крок 1);  або є сутностями, безпосередньо пов’язаними із цими темами (крок 2);  або є темами, що безпосередньо пов’язані семантичними зв’язками із темами з кроку 1. Таким чином ми отримали зв’язок тем та сутностей із інтерпретаціями, як це вимагається у моделі eTVSM. Зазначимо, що ми маємо право об’єднувати теми  та сутності E завдяки тому, що у векторному поданні ці об’єкти є сумісними, оскільки всі вектори мають розмірність t . Сутності подаються у вигляді векторів:  ),(),...,,(),,( 21 tiCiCiCi eAeAeAe   . (6) Теми аналогічно представлені векторами:  ),(),...,,(),,( 21 tiiii ggg    , (7) тут ),( jig  – деяка узагальнююча функція зважування, яка інкапсулює у собі і  iHA  , і  jiA  , . Зреш- тою, ми можемо перейти до обчислення векторів інтерпретацій. Позначимо вектори i  і ie  загальним вектором i  , тоді вектор інтерпретації має вигляд:            ik ik k k i i g          . (8) Подальша побудова та обрахунок моделі документа є повністю уніфікованою із звичним підходом у моделі eTVSM, де документ є вектором, обрахованим як зважена сума векторів інтерпретацій. Цей формалізм ми уже розглядали у [6]. Розпізнавання іменованих сутностей Проблема розпізнавання іменованих сутностей вперше була сформульована на 6-й конференції Message Understanding Conference у 1995 р. Усі підходи до видобування іменованих сутностей можна поділити на три класи: засновані на довідни- ках, засновані на правилах та статистичні. Є також змішані підходи, які поєднують декілька різних. Зауважимо, Моделі і засоби систем баз даних і знань 185 що майже одразу після появи задач із розпізнавання сутностей довідникові підходи були визнані неефективни- ми (і подеколи незастосовними). Зокрема, у статті «Розпізнавання сутностей без довідників» [10] наведено ре- зультати для чистого довідникового розпізнавання 90–94 % точності та 75–78 % повноти для географічних місць і 75–85 % та менше 50 % для особистих імен та організацій. Окрім того, довідники неможливо підтриму- вати для особистих імен та назв організацій. Проте, там же зазначено, що без довідників вкрай складно розпі- знавати географічні місця, які зазвичай з'являються у тексті без достатнього контексту, аби бути розпізнаними статистичними методами або правилами. Зокрема, запропонований у [10] підхід поєднує контекстні правила, статистичні методи, та довідники. Машинне навчання та статистичні методи у обробці природних мов часто залежать від вчителя у сенсі наявності розміченої навчальної вибірки. У розпізнаванні іменованих сутностей проблема наглядового навчан- ня теж має місце, і є методи, які базуються на попередній розмітці навчальної вибірки. Проте, безнаглядові ме- тоди актуальніші, оскільки є більш універсальними та легше підтримуваними. У [11] розглянуто можливий пе- рехід від алгоритмів із вчителем до алгоритмів без вчителя і мінімізація обов’язкової розмітки навчальної вибі- рки. Зокрема, для тестової навчальної вибірки у 90 000 зразків метод досягає 91% точності, а явно заданих пра- вил вимагається всього 7. Також є кілька запатентованих алгоритмів розпізнавання сутностей з урахуванням їх семантики, зокрема, у компанії Xerox – із пошуком зв'язків між сутностями [12] та із розпізнаванням метонімії [13]; у компанії IBM – із розпізнаванням сутностей з певної предметної області за допомогою N-грамних моделей [14] та із розв’язанням сутностей (entity resolution – розпізнавання різних за формою згадувань однієї сутності) [15]. Тематичні карти Тематичні карти [16, 17] є однією з форм представлення онтологій. Концепти онтології у тематичній кар- ті (ТК) подаються темами та зв’язками (асоціаціями) між ними. Тематичні карти багато в чому подібні до стан- дарту W3C RDF [18, 19], хоча останні орієнтовані на ресурси, а не на теми як такі. Онтологія в ОКІПС може мати будь-яку форму і походження. Ми обираємо тематичні карти з двох причин. Вони дозволяють інтуїтивно моделювати зміст документів як розкриття їх тематики у різних пропорціях; по-друге – придатні до автомати- зованої побудови з мінімальною участю людини-експерта. Тематичні карти як онтології у ОКІПС вже розгля- далися нами у [9]. Тема у ТК є машинно-читабельним представленням деякого концепту. Не існує жодних обмежень на природу концептів, що можуть позначатися темами, проте є чотири основні форми ідентифікації тем у межах ТК: 1. Ідентифікатор теми як ресурсу у серіалізованій ТК: таким ідентифікатором виступає URI (Uniform Resource Identifier за стандартом RFC 3986) і є унікальним в межах ТК. 2. Ідентифікатор теми у вигляді людино-читабельного ярлику: тема може мати довільну кількість назв, доступних людині для розуміння. 3. Ідентифікація за посиланням: для ресурсів, що мають власний URI ідентифікатор пов’язної теми є похідним від ідентифікатора ресурсу, що дає змогу означувати кожну тему за відповідним їй ресур- сом. 4. Ідентифікатор за описом: деякі теми можуть позначати концепти, що не є ідентифіковними за URI (наприклад, люди), але асоціюються із певними описовими сутностями (реєстраційні картки, фотог- рафії, анкети тощо), а відтак ідентифікуються цими сукупностями описової інформації. Важливо зауважити, що хоча тема може мати довільну кількість ідентифікаторів, кожний окремий іден- тифікатор повинен однозначно вказувати на конкретну тему. Відношення між темами у ТК є трьох типів: • тип – екземпляр («is-a»), • супертип – підтип («kind-of»), • (рольові) асоціації. Рольові асоціації є n-арними відношеннями, що можуть включати довільну кількість тем як учасників. Участь кожної теми у асоціації визначається її роллю. За допомогою асоціацій можна моделювати зв’язки з будь-якою семантикою. Наприклад, у предметній області «об’єктно-орієнтоване програмування», визначив- ши теми «ситуативний поліморфізм» та «перевантаження функцій» між ними можна встановити асоціацію з ролями «concept» та «technique» відповідно. Семантично така асоціація моделює явище, коли перевантажен- ня функцій як механізм у мові програмування є технікою реалізації ситуативного поліморфізму як загальної концепції. Також, відношення «супертип – підтип» насправді теж є асоціацією, але спеціального типу, визначеного заздалегідь. У цій асоціації вже визначено дві ролі («супертип» та «підтип») і кількість учасників обмежено двома. На користь тематичних карт слід зауважити, що тематичні карти забезпечені стандартизованим XML синтаксисом [20] та специфікацією прикладного програмного інтерфейсу (API) з різноманітними імплементаці- ями [21]. Також тематичні карти стандартизовані за ідентифікатором ISO/IEC 13250. Моделі і засоби систем баз даних і знань 186 Інтерпретація тематичних карт для eTVSM У роботі [22] запропоновано один алгоритм перетворення тематичних карт найпростішої структури – де- рева лише із відношенням наслідування – у числові характеристики спорідненості тем. Нехай на множині тем визначено ієрархію, задану відношенням  iHA  . Тоді множина усіх батьківських тем теми i не вище, ніж p рівнів вгору має вигляд:        i p Hk A kHi p H AA   1  , (9) а множина усіх батьківських тем теми i , має вигляд:     1 1 *    l k i k HiH AA  , (10) де l – глибина вузла для теми i у загальному дереві тем. Кожній темі i відповідає вектор   t tiiii R ,2,1, ,...,,   . При цьому компоненти вектора для листкової теми визначаються так:         .0 ,,1 * , diA iHd di   (11) Для внутрішніх вузлів дерева вектори тем обраховуються як нормовані суми векторів всіх прямих наща- дків:   . int: int    SHS A S    (12) Звідси спорідненість двох тем a та b може бути обрахована як скалярний добуток їх векторів, який, завдяки нормуванню векторів, є косинусом кута між векторами ba, :   .coscos, ,, babababasim    (13) Тематичні карти із зв’язками наслідування найбільш придатні для автоматизованої розбудови. Зокре- ма, одним із підходів, що уможливлює таку автоматизацію, є ймовірнісні тематичні моделі. Ймовірнісні те- матичні моделі (ТМ) – це алгоритми для виявлення тематичного наповнення документів у великих неструк- турованих колекціях. [23] Найпростішою тематичною моделлю є приховане розміщення Діріхле (latent Dirichlet allocation).[24] Як одна з перших ймовірнісних моделей для текстів LDA базується на ряді прип у- щень, що практично унеможливлюють її використання у розроблюваних ОКІПС. Модель спирається на по- данні текстів як «торби слів» («bag of words»), тобто ігнорує порядок та зв’язок слів у документах. Окрім то- го, породжувальний процес моделі передбачає лише однорівневе моделювання тем без врахування ієрархіч- них зв’язків між темами, що є недоречним у практичних застосуваннях. Натомість у контексті побудови іє- рархічних тематичних карт для ОКІПС цікавими є корельована тематична модель [25] та модель розміщення патінко (pachinko) [26]. Моделі описують значно складніший породжувальний процес, що покликаний відт- ворити більш природній стан речей у тематичній ієрархії, тобто врахувати, що деякі теми можуть бути під- темами інших. Як наслідок, зазначені моделі можна використати для навчання на еталонних колекціях док у- ментів, а навчені моделі застосувати для виведення (inference – процес, коли навчена модель опрацьовує до- вільні колекції ресурсів) тематичних структур (ієрархій) на кінцевих репозиторіях ресурсів. Висновки У статті розглянуто представлення онтології у покращеній тематичній векторній моделі інформаційного пошуку. Простір можливих реалізацій моделі є досить широким, оскільки модель не задає жодних обмежень на будову онтології та методи її інтерпретації. Ймовірнісні тематичні моделі та алгоритми розпізнавання іменованих сутностей є перспективними методами автоматизації розбудови та інтерпретації онтологій у eTVSM. Вони дозволяють видобувати вагому частину значущого змісту документів, а отримані онтологічні структури придатні для подальшої інтерпретації. У статті запропоновано спеціальну змішану онтологію для eTVSM, яка побудована із тем, іменованих сутностей, та зв’язків між ними. Наведено формальну модель онтології та підхід до побудови інтерпретацій, залишивши гнучкість та свободу у конкретних методах обчислення моделі документа. Моделі і засоби систем баз даних і знань 187 Подальші дослідження варто зосередити на підвищенні виразності онтології eTVSM, зокрема на методах видобування та інтерпретації рольових асоціацій у тематичних картах. Цікавим бачиться детальніше дослідження механізмів зваженої інтерпретації іменованих сутностей. 1. Palagin A.V., Petrenko N.G. Towards designing ontology-driven information system with natural language processing // Mathematical machines and systems. – 2008. – № 2 – P. 14–23. 2. Palagin A. V., Petrenko N. G. Architecture-ontological principles of developing intelligent information systems // Mathematical machines and systems. – 2006. – № 4 – P. 15–20. 3. Qiu R. G. Towards ontology-driven knowledge synthesis for heterogeneous information systems // Journal of Intelligent Manufacturing. – 2006. – N 1, Vol. 17. – P. 99–109. 4. Kuropka D. Modelle zur Repräsentation natürlichsprachlicher Dokumente. – Berlin: Logos Verlag, 2003. 5. Becker J., Kuropka D.. Topic-based Vector Space Model // Proceedings of BIS. – Colorado Springs, USA: Business Information Systems, 2003. 6. Glibovets A.N., Glibovets N.N., Shabinskiy A.S. Application of Ontologies and Text Mining Methods to the Development of Intelligent Information Retrieval Systems. // Journal of Automation and Information Sciences. – 2011. – N 6. – P. 95–102. 7. Polyvyanyy A. Evaluation of a Novel Information Retrieval Model: eTVSM. – Potsdam: HPI, 2007. 8. Vallet D., Fernández M., Castells P. An Ontology-Based Information Retrieval Model. – Madrid : Proc. Second European Semantic Web Conf., 2005. 9. Shabinskiy A. Ontologies, probabilistic topical models, and topic maps // Scientific Notes of NaUKMA. – 2013. – Vol. 151. – P. 60–65. 10. Grishman R., Sundheim B. Message Understanding Conference – 6: A Brief History // Proceedings of the 16th International Conference on Computational Linguistics. – Kopenhagen: [s.n.], 1996. – Vol. I. 11. Mikheev A., Moens M., Grover C. Named Entity Recognition without Gazetteers // Proceedings of the ninth conference on European chapter of the Association for Computational Linguistics. – 1999. 12. Collins M., Yoram S. Unsupervised models for named entity classification // Proceedings of the joint SIGDAT conference on empirical methods in natural language processing and very large corpora. – 1999. 13. Brun C., Hagege C. Semantically-driven extraction of relations between named entities [Patent]: 8,370,128. – USA, 5 February 2013. 14. Brun C., Ehrmann M., Jacquet G. Hybrid system for named entity resolution [Patent]: 8,374,844. – USA, February 12, 2013. 15. Kanungo T., Rhodes J. System and method for extracting entities of interest from text using n-gram models [Patent]: 7,493,293. – USA, February 17, 2009. 16. Caceres B. M. Entity resolution based on relationships to a common entity [Patent]: 13/217,027 (application). – USA, 28 February 2013. 17. Ahmed K., Moore G. An Introduction to Topic Maps // The Architecture Journal. – [s.l.]: Microsoft Corporation. – 2005. – N 5. – P. 3–9. 18. ISO/IEC JTC1/SC34/WG3, "Topic Maps — Part 1: Overview and Basic Concepts" [Online]: http://www.itscj.ipsj.or.jp/sc34/open/1045.htm. 19. Berners-Lee T. Notation3 (N3): A readable RDF syntax // World Wide Web Consortium. – http://www.w3.org/DesignIssues/Notation3. 20. Beckett D., McBride B. RDF/XML Syntax Specification // W3C. – Лютий 10, 2004. – http://www.w3.org/TR/REC-rdf-syntax/. 21. ISO/IEC JTC1/SC34/WG3, "Topic Maps — XML Syntax" [Online]: 22. http://www.isotopicmaps.org/sam/sam-xtm/. 23. "Common Topic Map Application Programming Interface" [Online]. Available: http://www.tmapi.org. 24. Kuropka D. A proposal for transformation of topic-maps into similarities of topics. – 2005. 25. Blei D. M. Probabilistic Topic Models // Communications of the ACM. – New York: ACM, 2012. – 4, Т. 55. 26. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet Allocation // Journal of Machine Learning Research. – Cambridge, MA : MIT Press, 2003. – Vol. 3. – P. 993–1022. 27. Blei D., Lafferty J. A correlated topic model of SCIENCE // The Annals of Applied Statistics. – 2007. – N 1, Vol. 1. – P. 17–35. 28. Li W., McCallum A. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations // Proceedings of the 23rd International Conference on Machine Learning. – Pittsburg: [s.n.], 2006.International Conference on Machine Learning, Pittsburg, 2006.