Использование онтологий для анализа семантики естественно-языковых текстов
Предлагается использовать онтологии для автоматизированной семантической разметки естественноязыковых текстов с учетом как морфологических и синтаксических свойств естественного языка (в частности, украинского), так и структуры ПрО, а также знаний пользователя об этой ПрО. Разработан алгоритм, кот...
Saved in:
| Date: | 2009 |
|---|---|
| Main Authors: | , |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут програмних систем НАН України
2009
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/4598 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Использование онтологий для анализа семантики естественно-языковых текстов / О.Н. Лесько, Ю.В. Рогушина // Пробл. програмув. — 2009. — № 3. — С. 59-65. — Бібліогр.: 10 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859902070769844224 |
|---|---|
| author | Лесько, О.Н. Рогушина, Ю.В. |
| author_facet | Лесько, О.Н. Рогушина, Ю.В. |
| citation_txt | Использование онтологий для анализа семантики естественно-языковых текстов / О.Н. Лесько, Ю.В. Рогушина // Пробл. програмув. — 2009. — № 3. — С. 59-65. — Бібліогр.: 10 назв. — рос. |
| collection | DSpace DC |
| description | Предлагается использовать онтологии для автоматизированной семантической разметки естественноязыковых текстов с учетом как морфологических и синтаксических свойств естественного языка (в частности, украинского), так и структуры ПрО, а также знаний пользователя об этой ПрО. Разработан алгоритм, который осуществляет выделение слов и поименованных сущностей ЕЯ-текста, связанных с определенными понятиями выбранной пользователем ПрО (например, с терминами онтологии). Чтобы полученная семантическая разметка была пригодна для обработки различными распределенными системами, представляется целесообразным использовать технологии и стандарты, разработанные в рамках проекта Semantic Web.
Пропонується використовувати онтології для автоматизованої семантичної розмітки природномовних текстів з обліком як морфологічних і синтаксичних властивостей природної мови (зокрема, української), так і структури ПрО, а також знань користувача про цій Про. Розроблено алгоритм, що забезпечить виділення слів і пойменованих сутностей ПМ-текста, пов'язаних з певними поняттями обраної користувачем ПрО (наприклад, з терміна-ми онтології). Щоб отримана семантична розмітка була придатна для обробки різними розподіленими системами, доцільно використовувати технології і стандарти, розроблені в рамках проекту Semantic Web.
Usage of ontologies for the automated semantic markup of natural language texts according to morphological and syntactic properties of natural language (in particular, of Ukrainian language), domain structures and user knowledge of that domain is proposed. An algorithm that performs recognition of words and named entities related to certain concepts of user domainat in NL texts (for example, with ontological terms) is developed. For obtaining semantic markup suitable for processing by the various distributed systems, it is expedient to use Semantic Web technologies.
|
| first_indexed | 2025-12-07T15:58:11Z |
| format | Article |
| fulltext |
Експертні та інтелектуальні інформаційні системи
59
УДК 004.415
Лесько О.М., Рогушина Ю.В.
ИСПОЛЬЗОВАНИЕ ОНТОЛОГИЙ ДЛЯ АНАЛИЗА СЕМАН-
ТИКИ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ
Предлагается использовать онтологии для автоматизированной семантической разметки естественноя-
зыковых текстов с учетом как морфологических и синтаксических свойств естественного языка (в ча-
стности, украинского), так и структуры ПрО, а также знаний пользователя об этой ПрО. Разработан ал-
горитм, который осуществляет выделение слов и поименованных сущностей ЕЯ-текста, связанных с
определенными понятиями выбранной пользователем ПрО (например, с терминами онтологии). Чтобы
полученная семантическая разметка была пригодна для обработки различными распределенными сис-
темами, представляется целесообразным использовать технологии и стандарты, разработанные в рам-
ках проекта Semantic Web.
Введение
Сегодня пользователи Интернет по-
лучают доступ к огромному количеству
информационных ресурсов, значительная
часть которых представлена на естествен-
ном языке (ЕЯ). Возрастание их объема
приводит ко многим проблемам – проана-
лизировать эту информацию вручную за
удовлетворительное время человек не спо-
собен, а полностью формализовать содер-
жание ЕЯ-текстов невозможно даже теоре-
тически. Решение проблемы связано с пе-
реходом от хранения и обработки данных к
накоплению и обработке знаний, в частно-
сти, с переходом от традиционного Web к
Semantic Web [1], базирующемуся на ис-
пользовании метаданных для описания
семантики информационных ресурсов (ИР)
и средств обработки этих метаописаний.
Для такого перехода необходимо использо-
вать знания о предметной области (ПрО),
т. е. нужно связывать фрагменты текста с
какими-то понятиями ПрО. Одним из спо-
собов такого связывания является семан-
тическая разметка текста, или семантиче-
ская аннотация. Примером системы, в ко-
торой используется семантическая размет-
ка, является Semantic Wiki [2].
Аннотация – это метаданные, кото-
рые описывают документ или его часть.
Она может быть вставлена в тот же доку-
мент или сохранена отдельно. Семантиче-
ская аннотация – аннотация, которая напи-
сана на формальном языке с хорошо опре-
деленной семантикой, и базирующаяся на
онтологии.
При формировании семантической
разметки нужно использовать не только
знания ПрО (или хотя бы ее терминологи-
ческую базу), но и правила того конкрет-
ного естественного языка, на котором на-
писан текст. К сожалению, создание такой
разметки является нетривиальной и до-
вольно трудоемкой задачей. Семантиче-
ская разметка зависит и от того, какие
именно средства используются для описа-
ния ПрО.
Постановка задачи
Для семантической разметки ЕЯ-
текстов необходимо разработать алгоритм,
который обеспечит выделение фрагментов
(слов) ЕЯ-текста, связанных с определен-
ными понятиями выбранной пользовате-
лем ПрО (например, с терминами онтоло-
гии). Для этого предлагается анализиро-
вать ЕЯ-тексты определенной ПрО с уче-
том как морфологических и синтаксиче-
ских свойств естественного языка (в част-
ности, украинского), так и структуры ПрО
и знаний пользователя об этой ПрО. Для
полученной разметки нужно разработать
средства и методы, позволяющие с ее по-
мощью осуществлять поиск информации,
релевантной персональным информацион-
ным потребностям конкретного поль-
зователя.
© О.М. Лесько, Ю.В. Рогушина, 2009
ISSN 1727-4907. Проблеми програмування. 2009. № 3
Експертні та інтелектуальні інформаційні системи
60
Чтобы семантическая разметка была
пригодна для обработки различными рас-
пределенными системами, целесообразно
использовать технологии и стандарты, раз-
работанные в рамках проекта Semantic
Web.
Лингвистический анализ
Различные типы систем извлечения
знаний из текстов основываются на мета-
данных; на лингвистическом анализе тек-
ста; на анализе структуры документа; на
анализе формальных свойств документа.
Лингвистические методологии при-
меняются для ЕЯ-текстов произвольной,
четко не выделенной структуры. Они в
значительной мере зависят от языка, на
котором написан текст, требуют больших
вычислительных мощностей и также не
всегда позволяют однозначно идентифици-
ровать семантику текста.
Лингвистически методы позволяют
выделить в тексте слова, связанные с поня-
тиями (классами) ПрО (например, «стол»
связан с понятием «мебель»), и слова, яв-
лющиеся именами, т. е. связанные с экзем-
плярами понятий (классов) онтологии (на-
пример, «Лада» является экземпляром
класса «собака»). Рассмотрим детальнее
методы лингвистического анализа и те
сведения, которые можно получить из тек-
ста этими методами
Традиционно лингвистический ана-
лиз включает этапы морфологического,
синтаксического и семантического ана-
лиза [3].
Для выделения лексем в ЕЯ-тексте
применяют морфологический анализ. Сло-
во (лексема) с грамматической точки зре-
ния определяется как система словоформ,
основы которых тождественны по значе-
нию, а одноименные морфы основ, также
тождественные по значению, фонематиче-
ски близки или тождественны друг другу.
В одну лексему объединяются разные
словоформы одного слова (например,
«словарь, словарём, словарю» и т. п.).
На этапе морфологического анализа
возникают две задачи: определение того,
какой частью речи является слово в пред-
ложении; определение морфологических
характеристик слова (числа, рода, падежа,
времени и т. п.). При решении первой зада-
чи особую трудность представляют омо-
формы и омографы. Омоформы – слова,
совпадающие в одной, реже – в нескольких
грамматических формах, например, три –
тереть (глагол) и три (числительное). Омо-
нимия может также возникать на уровне
форм слова одной и той же части речи. Для
снятия омонимии используется контекст, в
котором встретилось слово.
Синтаксический анализ заключает
в распознавании синтаксической структу-
ры предложений на основе морфологиче-
ской информации и синтаксических правил
объединений слов и словосочетаний дан-
ного языка. Синтаксическая структура –
это связь между словами предложения. Для
единообразного описания синтаксических
правил языка используются формальные
грамматики.
Семантический анализ направлен
на распознавание смысла текста. Способы
описания семантики текста и предложения,
также алгоритмы построения такого опи-
сания определяются целями анализа. На-
значение семантического анализа – извлечь
из ЕЯ-текста содержащиеся в нем знания,
заложенные в него автором, и предоста-
вить в форме, пригодной для автоматиза-
ции их обработки.
Рассмотрим различные этапы лин-
гвистического анализа ЕЯ-текстов на при-
мере задачи распознавания поименован-
ных сущностей (ПС). В тексте ПС обозна-
чаются собственными именами, которые
пишутся с большой буквы. Поименован-
ными сущностями (Named entities, NE)
считаются люди, организации, города,
страны, реки, имеющие свое уникальное
имя. ПС в онтологии соответствуют экзем-
пляры классов. Более широкая интерпре-
тация позволяет считать поименованными
сущностями также некоторые скалярные
величины (дату, время, валюту, цену и т. п.)
и адреса.
Алгоритмы классификации в анализе
ЕЯ-текстов применяются в первую очередь
для классификации поименованных сущ-
ностей.
На этапе морфологического анализа
в ЕЯ-тексте выделяются слова и словосо-
четания, начинающиеся с большой буквы и
Експертні та інтелектуальні інформаційні системи
61
не стоящие в начале предложения, опреде-
ляется (если удается) их род и число.
На этапе синтаксического анализа
для ПС уточняются их род и число, место в
предложении и связь с другими членами
предложения.
В пределах более широкой интер-
претации ПС могут считаться также неко-
торые скалярные величины (числа, суммы
денег, даты) и адреса.
На этапе семантического анализа
делаются попытки связать ПС с каким-
либо классом из соответствующей онтоло-
гии ПрО (например, «Сидоров» – человек,
потому что он «трудолюбивый», «читает»
и «работает», «Киев» – город, потому что
он «находится» и «является столицей»,
«очень большой»).
В результате лингвистического ана-
лиза текста получаем два множества –
слов текста с соответствующей морфоло-
гической информацией (часть речи и т. д.)
и синтаксических связей между словами и
словосочетаниями в предложениях текста
(члены предложения)
На основании этих сведений можно
получить информацию о связях между
словами и словосочетаниями. Но этого
недостаточно, чтобы понять смысл текста.
Понимание смысла (семантики) требует
использования знаний о значениях слов
для установления семантических связей
между словами и понятиями предметной
области.
Онтологии как источник знаний о
ПрО
В инженерии знаний под онтологи-
ей понимается детальное описание некото-
рой ПрО, которое используется для фор-
мального и декларативного определения ее
концептуализации. Онтология – это явная
спецификация концептуализации на уров-
не знаний [4, 5]. Онтология обязательно
включает словарь понятий ПрО и указания
о связях между ними, что задает структуру
ПрО область и ограничивает возможные
интерпретации терминов. Формальная
модель онтологии – тройка O = < P, R, F>,
где P – множество понятий ПрО, R – мно-
жество связей между понятиями ПрО, F –
множество аксиом и правил вывода ПрО
Для использования онтологий в за-
дачах понимания смысла ЕЯ-текстов необ-
ходимы алгоритмы отображения синтакси-
ческих отношений, присутствующих в ЕЯ-
текстах, на отношения, имеющиеся в онто-
логиях. При этом возможен как перевод
исходного текста на язык формальной
грамматики в категориях род, число, па-
деж, так и непосредственное получение
семантических отношений из морфологи-
ческой формы слов [3, 6]. Примеры ис-
пользования онтологий для извлечения
фактов из ЕЯ-текстов определенной ПрО
приведены в [7, 8].
Следующий алгоритм предлагается
для поиска и классификации ПС в ЕЯ-
текстах .
Алгоритм семантической размет-
ки текстов
Семантическая разметка ЕЯ-текстов
для определенной ПрО создается в два
этапа. На первом этапе производится обу-
чение. На первом этапе используется алго-
ритм накопления лингвистических сведе-
ний о ПрО (АНЛС).
На этапе обучения необходимо
сформировать следующие множества:
• wP – словоформы, связанные с
понятиями онтологии ПрО. Эта информа-
ция может быль извлечена из различных
слоарей синонимов, лингвистических баз
данных, а также явным образом вручную
из корпуса текстов;
• wR – словоформы, связанные с от-
ношениями онтологии ПрО (аналогично);
• I – отношения именования (ОИ),
связывающие а. ПС и классы , б. классы и
подклассы;
• wI – словоформы, связанные с
ОИ;
• шаблоны, связывающие ПС и име-
на их классов (в общем случае слабо зави-
сящее или вообще не зависящие от пред-
метной области). Эта операция может быть
выполнена один раз, но в дальнейшем
множество шаблонов может расширяться
для учета специфики ПрО. Каждый шаб-
Експертні та інтелектуальні інформаційні системи
62
лон представляет собой строку символов,
состоящую из имени предиката и модели
управления, например «называется кто
как».
Это осуществляется следующим
образом. В процессе обучения в корпусе
текстов находятся слова, написанные с
большой буквы и не входящие в общий
словарь; состоящие из больших букв; сло-
ва, взятые в кавычки. Для таких слов вы-
деляются синтаксические шаблоны, опре-
деляющие указание на принадлежность
ПС к определенному классу. Затем в пред-
ложении с такими ПС обнаруживаются
имена классов , к которым принадлежат
эти ПС. Если такое имя класса присутству-
ет, то осуществляется попытка выделить
слова, связывающие синтксически ПС и
имя ее класса. Если это удается, то для
этих слов – ОИ – строится шаблон.
На вход АНЛС подаются: онтология
О, характеризующая знания пользователя
об интересующей его ПрО; словарь лексем
естественного языка; обучающая выборка
ЕЯ-текстов, по которой при участи пользо-
вателя формируется набор словоформ, свя-
занных с терминами онтологии О (корпус
текстов).
После того, как формируется набор
множеств слов ЕЯ-текстов, каждый из ко-
торых соответствует определенному тер-
мину онтологии
},...,{,,1,
1 miiii ssSntTt =∃=∈∀ , эти множе-
ства могут быть преобразованы для более
эффективной обработки текста. Часть эле-
ментов множества },...,{
1 miii ssS = могут
быть опознаны пользователем как одна
словоформа и заменены элементом , яв-
ляющимся общей частью этих элементов,
iii Ssppksll
kk
∈≥=⊆∃ ,,2,,1,, .
В результате обучения системы ка-
ждому термину онтологии О приписывает-
ся 0, 1 или несколько словоформ, соответ-
ствующих в ЕЯ данному понятию. Слово-
формы извлекаются из обучающего мно-
жества ЕЯ-текстов, отнесенных пользова-
телем к определенной ПрО, описанной в О
с точки зрения информационных интере-
сов пользователя. Полученная информация
заносится в таблицу С.
Алгоритм построения шаблонов
Работа алгоритма начинается с про-
цесса обучения распознаванию ПС. Пред-
полагаем, что указание на класс ПС нахо-
дится в том предложении, где имя ПС
встречается впервые, либо в следующем
предложении. Он состоит из следующих
шагов:
1) сформировать множество предло-
жений, содержащих ПС, –Q . Для этого
нужно найти в текстах предложения, в ко-
торых встречаются слова, которые могут
являться именами ПС – слова, не найден-
ные ни в словаре пользователя, ни в общем
словаре, и взятые в кавычки либо состоя-
щие из больших букв или начинающиеся с
большой буквы;
2) сформировать множество предло-
жений, содержащих указание на класс ПС,
– ClassQ . Для этого нужно вручную проана-
лизировать предложения, содержащиеся в
множестве Q , и исключить из него те, в
которых нет указания на класс ПС (при
первом появлении имени ПС в тексте
предложение может не содержать указания
на класс ПС, и тогда нужно анализировать
следующие предложения с данной ПС,
например, «Я купил мебель в АВС. (АВС –
это магазин)»;
3) по множеству ClassQ сформировать
множество шаблонов T. Каждый шаблон
включает слово из wI и морфологическую
информацию для связанных с ним слов в
соответствии с моделью управления [9].
Например, «называется (кто/что, nm
(кто/что, кем/чем)» - > «называется (класс,
имя)».
На этом процесс обучения закан-
чивается.
Алгоритм автоматической семан-
тической разметки
На вход алгоритма автоматической
семантической разметки (ААСР) подается:
- wP – словоформы, связанные с
понятиями онтологии ПрО;
Експертні та інтелектуальні інформаційні системи
63
- wR – словоформы, связанные с от-
ношениями онтологии ПрО;
- wI – словоформы, связанные с ОИ
шаблоны, связывающие ПС и имена их
классов;
- ЕЯ – тексты, для которых надо соз-
дать семантическую разметку.
На этапе анализа нового ЕЯ-текста
нужно выделить в тексте:
- словоформы, связанные с поня-
тиями онтологии ПрО;
- словоформы, связанные с отноше-
ниями онтологии ПрО;
- слова, которые могут быть имена-
ми ПС;
- ОИ.
Работа алгоритма включает нахож-
дение в ЕЯ-текстах словоформ из wP и wI ,
приписывании в их начале и конце тэгов,
которые соответствуют понятиям множе-
ства Р онтологии ПрО.
Размеченный таким образом текст в
дальнейшем анализируется для определе-
ния класса ПС следующим образом.
Вначале в ЕЯ-текстах обнаружива-
ются слова и словосочетания, которые мо-
гут являться именами ПС.
Затем к тексту нужно применить
шаблоны, описывающие правила, связы-
вающие имена ПС с именами их классов.
Например, «называется (кто/что, nm
(кто/что, кем/чем))» -> «называется (класс,
имя)». Эти шаблоны позволяют опреде-
лить класс найденных в тексте ПС.
Для этого надо выполнить следую-
щие действия:
1) проверить, есть ли в предложе-
нии ПС;
2) проверить, есть ли в предложе-
нии шаблоны отношений (имена классов
из онтологии или их лингвистические сло-
воформы);
3) если 1 и 2 – да, то разобрать син-
таксическую структуру предложения.
Если ПС, имя понятия и имя отно-
шения именования ОИ занимают место в
предложении, соответстующие шаблону
места (подлежащее, сказуемое, дополне-
ние, обстоятельство….), то считать ПС
относящейся к соответствующему классу.
Например, в шаблоне «называется
(кто/что, nm (кто/что, кем/чем)» кто/что
заменяется на «Эта улица», а nm (кто/что,
кем/чем) – на Зеленая.
В процессе работы алгоритма фор-
мируется словарь, в котором каждому име-
ни ПС ставится в соответствие ее класс.
Процесс анализа, в котором исполь-
зуются результаты такого обучения, состо-
ит из таких шагов:
- найти предложение, в котором
впервые встречается имя некоторой ПС;
- осуществить его синтаксический
анализ;
- вычислить номер шаблона по но-
мерам составляющих предложения;
- по полученному шаблону опреде-
лить название класса и имя ПС;
- добавить в текст тэги языка XML
[10].
Результат работы этого алгоритма –
множество семантически размеченных по
правилам языка XML ЕЯ-текстов, пригод-
ных для автоматического анализа, напри-
мер, для поиска интересующих пользова-
теля сведений, связанных с определенны-
ми понятиями ПрО, описанной в онто-
логии О.
Перспективы использования
семантической разметки
Рассмотрим работу алгоритма на
примере задачи подбора эксперта для ре-
цензирования научной статьи.
Если тематика статьи соответствует
направлению работы журнала в целом, то
необходимо из множества специалистов-
экспертов, известных редакции журнала,
выбрать одного (или нескольких), чья спе-
циализация ближе всего к направлению
работы. При этом человек, который осуще-
ствляет такой выбор, не является экспер-
том в данной ПрО. Если автор статьи отнес
свою работу к четко определенному под-
разделу, а один или несколько специали-
стов явно классифицированы как эксперты
именно в этой области – это сделать до-
вольно просто.
Но часто на практике каждый из
специалистов декларирует себя как экспер-
та в нескольких ПрО, хотя его компетент-
ность распространяется только на некото-
Експертні та інтелектуальні інформаційні системи
64
рые подобласти этих ПрО и по состоянию
несколько лет назад. Так, если специалист
10 лет назад занимался проблемами логи-
ческого вывода или представлением зна-
ний, это не значит, что сегодня он может
объективно оценить исследования в облас-
ти Semantic Web. Кроме того, одну и ту же
научную работу можно отнести сразу к
нескольким разделам.
В результате статья часто попадает
на рецензию к специалисту, не способному
объективно оценить ее научную ценность
и новизну.
Использование семантической раз-
метки ЕЯ-текстов позволяет в той или
иной мере решить эту проблему (или по
крайней мере добавить новый инструмент
для ее решения). Будем считать, что объек-
тивным отражением знаний специалиста
(научного сотрудника) являются его пуб-
ликации, которые в основном представля-
ют собой ЕЯ-текст.
ПрО, в которой специализируется
научный журнал (и его подразделы), может
быть формализована при помощи онтоло-
гии. Затем, воспользовавшись вышепред-
ложенным алгоритмом семантической раз-
метки, необходимо разметить публикации
потенциальных экспертов понятиями этой
онтологии. Такая разметка позволит оха-
рактеризовать специализацию каждого из
них (причем с учетом динамики). Так,
можно определить, что в подразделе «экс-
пертные системы» Иванов был специали-
стом на 70 %, а 5 лет назад – на 55 %.
Затем производится семантическая
разметка вновь поступившей статьи и
осуществляется поиск эксперта, который в
своих публикациях использует те же поня-
тия (и те же связи). При равных показате-
лях предпочтение отдается тому эксперту,
чьи знания более актуальны.
Решаемая задача близка к поиску
текста, похожего на образец (подобную
функцию предлагают сегодня многие
ИПС, но результаты такого поиска крайне
непредсказуемы). В данном случае цель –
найти множество текстов, использующих
не просто похожие слова или словосочета-
ния, а одинаковые понятия и близкие на-
боры понятий. Если оказывается, что ни
один из экспертов своей компетентностью
не покрывает полностью тематику статьи,
то можно предложить отрецензировать
статью нескольким экспертам независимо,
предложив обратить внимание на опреде-
ленные аспекты работы.
При наличии семантической раз-
метки статьи и публикаций различных экс-
пертов можно сравнивать их предметные
области с точки зрения онтологии кон-
кретного издания и подбирать набор экс-
пертов, чьи компетенции охватывают все
значимые (с точки зрения этой онтологии)
аспекты статьи. Кроме того, выделение ПС
позволяет определить индекс цитируемо-
сти различных экспертов и таким образом
оценить их относительную квалификацию
в той или иной ПрО.
Выводы
Предложенный в работе подход
ориентирован на явное выделение семан-
тики ЕЯ-текстов с помощью понятий оп-
ределенной ПрО. Способная к обучению
система позволяет накапливать лингвисти-
ческую информацию (синонимы, слово-
формы, правила определения понятий и
классов, способы выделения поименован-
ных сущностей и т.д.), связанные с опреде-
ленным комплексом понятий и связей ме-
жду ними, формально представленным в
виде онтологии. В дальнейшем эти сведе-
ния позволят относительно легко обнару-
живать в новых ЕЯ-текстах фрагменты,
интересные пользователю и связанные с
определенными понятиями интересующей
его ПрО. Кроме того, такая семантическая
разметка может стать основой для автома-
тического создания метаописаний ИР с
точки зрения фиксированной ПрО, которые
будут интероперабельны и могут исполь-
зоваться приложениями Semantic Web.
1. Semantic Web. - http://www.w3.org/2001/sw/.
2. Semantic wiki – http: // en. wikipedia.
org/wiki/Semantic_wiki.
3. Палагін О. В., .Світла С. Ю, . Петренко М.
Г, .Величко В.Ю. Про один підхід до
аналізу та розуміння природномовних
об’єктів // Комп’ютерні засоби, мережі та
системи. – 2008, № 7. – С. 128 – 137.
Експертні та інтелектуальні інформаційні системи
65
4. Gruber T.R. A Translation Approach to Portable
Ontology Specifications // Knowledge Acquisition.
– 1993. – N 5, P. 199 – 220.
5. Гладун А.Я,. Рогушина Ю.В Онтологии в
корпоративных системах. Часть II //
Корпоративные системы. – 2006. – № 1 http:
// www. management. com. ua/ims/ims 116. html
6. Gladun V., Velichko V., Svyatogor L.
Hierarchical Three-level Ontology for Text
Processing. International Book Series
"INFORMATION SCIENCE &
COMPUTING", N. 7 – FOI ITHEA Sofia,
Bulgaria. – 2008. – P. 11 – 17.
7. Добров Б.В., Лукашевич Н.В. Онтологии
для автоматической обработки текстов:
описание понятий и лексических значений.
//http://www.dialog21.ru/dialog2006/material
s/html/Dobrov_files/editdata.mso.
8. Невзорова О.А. Онтологическая поддержка
методов решения задач семантико-
синтаксического анализа текстов. –
//http://www.raai.org/cai-08/files/cai-
08_paper_234.doc
9. Апресян Ю. Д.. Типы коммуникативной
информации для толкового словаря. –
http://www.philology.ru/linguistics2/apresyan
-88.htm
10. Extensible Markup Language (XML). –
http://www.w3.org/XML/
Получено 24.04.2009
Об авторах:
Лесько Ольга Николаевна,
инженер-программист,
Рогушина Юлия Витальевна,
кандидат физико-математических наук,
старший научный сотрудник.
Место работы авторов:
Институт программных систем
НАН Украины,
03187, Киев 187,
Проспект Академика Глушкова, 40.
|
| id | nasplib_isofts_kiev_ua-123456789-4598 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1727-4907 |
| language | Russian |
| last_indexed | 2025-12-07T15:58:11Z |
| publishDate | 2009 |
| publisher | Інститут програмних систем НАН України |
| record_format | dspace |
| spelling | Лесько, О.Н. Рогушина, Ю.В. 2009-12-08T12:00:01Z 2009-12-08T12:00:01Z 2009 Использование онтологий для анализа семантики естественно-языковых текстов / О.Н. Лесько, Ю.В. Рогушина // Пробл. програмув. — 2009. — № 3. — С. 59-65. — Бібліогр.: 10 назв. — рос. 1727-4907 https://nasplib.isofts.kiev.ua/handle/123456789/4598 004.415 Предлагается использовать онтологии для автоматизированной семантической разметки естественноязыковых текстов с учетом как морфологических и синтаксических свойств естественного языка (в частности, украинского), так и структуры ПрО, а также знаний пользователя об этой ПрО. Разработан алгоритм, который осуществляет выделение слов и поименованных сущностей ЕЯ-текста, связанных с определенными понятиями выбранной пользователем ПрО (например, с терминами онтологии). Чтобы полученная семантическая разметка была пригодна для обработки различными распределенными системами, представляется целесообразным использовать технологии и стандарты, разработанные в рамках проекта Semantic Web. Пропонується використовувати онтології для автоматизованої семантичної розмітки природномовних текстів з обліком як морфологічних і синтаксичних властивостей природної мови (зокрема, української), так і структури ПрО, а також знань користувача про цій Про. Розроблено алгоритм, що забезпечить виділення слів і пойменованих сутностей ПМ-текста, пов'язаних з певними поняттями обраної користувачем ПрО (наприклад, з терміна-ми онтології). Щоб отримана семантична розмітка була придатна для обробки різними розподіленими системами, доцільно використовувати технології і стандарти, розроблені в рамках проекту Semantic Web. Usage of ontologies for the automated semantic markup of natural language texts according to morphological and syntactic properties of natural language (in particular, of Ukrainian language), domain structures and user knowledge of that domain is proposed. An algorithm that performs recognition of words and named entities related to certain concepts of user domainat in NL texts (for example, with ontological terms) is developed. For obtaining semantic markup suitable for processing by the various distributed systems, it is expedient to use Semantic Web technologies. ru Інститут програмних систем НАН України Експертні та інтелектуальні інформаційні системи Использование онтологий для анализа семантики естественно-языковых текстов Використання онтологій для аналізу семантики природномовних текстів The usage of ontologies for semantics analysis of texts on natural language Article published earlier |
| spellingShingle | Использование онтологий для анализа семантики естественно-языковых текстов Лесько, О.Н. Рогушина, Ю.В. Експертні та інтелектуальні інформаційні системи |
| title | Использование онтологий для анализа семантики естественно-языковых текстов |
| title_alt | Використання онтологій для аналізу семантики природномовних текстів The usage of ontologies for semantics analysis of texts on natural language |
| title_full | Использование онтологий для анализа семантики естественно-языковых текстов |
| title_fullStr | Использование онтологий для анализа семантики естественно-языковых текстов |
| title_full_unstemmed | Использование онтологий для анализа семантики естественно-языковых текстов |
| title_short | Использование онтологий для анализа семантики естественно-языковых текстов |
| title_sort | использование онтологий для анализа семантики естественно-языковых текстов |
| topic | Експертні та інтелектуальні інформаційні системи |
| topic_facet | Експертні та інтелектуальні інформаційні системи |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/4598 |
| work_keys_str_mv | AT lesʹkoon ispolʹzovanieontologiidlâanalizasemantikiestestvennoâzykovyhtekstov AT rogušinaûv ispolʹzovanieontologiidlâanalizasemantikiestestvennoâzykovyhtekstov AT lesʹkoon vikoristannâontologíidlâanalízusemantikiprirodnomovnihtekstív AT rogušinaûv vikoristannâontologíidlâanalízusemantikiprirodnomovnihtekstív AT lesʹkoon theusageofontologiesforsemanticsanalysisoftextsonnaturallanguage AT rogušinaûv theusageofontologiesforsemanticsanalysisoftextsonnaturallanguage |