Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга
Приведены подходы к решению проблемы выявления фактографической информации из неструктурированных текстовых потоков. Описаны технологические решения, позволяющие извлекать из полнотекстовых документов такие понятия как фирмы, фамилии, географические названия и т.п., а также выявлять силу их взаимосв...
Saved in:
| Published in: | Реєстрація, зберігання і обробка даних |
|---|---|
| Date: | 2006 |
| Main Authors: | , |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут проблем реєстрації інформації НАН України
2006
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/50862 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга / А.Г. Додонов, Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 4. — С. 45-52. — Бібліогр.: 7 назв. — pос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859479073573568512 |
|---|---|
| author | Додонов, А.Г. Ландэ, Д.В. |
| author_facet | Додонов, А.Г. Ландэ, Д.В. |
| citation_txt | Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга / А.Г. Додонов, Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 4. — С. 45-52. — Бібліогр.: 7 назв. — pос. |
| collection | DSpace DC |
| container_title | Реєстрація, зберігання і обробка даних |
| description | Приведены подходы к решению проблемы выявления фактографической информации из неструктурированных текстовых потоков. Описаны технологические решения, позволяющие извлекать из полнотекстовых документов такие понятия как фирмы, фамилии, географические названия и т.п., а также выявлять силу их взаимосвязей на основе применения двух алгоритмов. Первый из этих алгоритмов основывается на учете совместного вхождения понятий в одни и те же документы, а второй на учете общего для рассматриваемых понятий контекста.
Наведено підходи до вирішення проблеми виявлення фактографічної інформації з неструктурованих текстових потоків. Описано технологічні рішення, що дозволяють добути з повнотекстових документів такі поняття як фірми, прізвища, географічні назви тощо, а також виявляти силу їхніх взаємозв’язків на базі застосування двох алгоритмів. Перший з цих алгоритмів базується на врахуванні спільного входження понять до одних і тих самих документів, а другий — на врахуванні загального для понять, що розглядаються, контексту.
Approaches to the solution of a problem of revealing factual information from unstructured text flows are given. The technological solutions, allowing to take from text-through documents such concepts as a firm, a surname, place names, etc., and also to reveal force of their interrelations on the basis of application of two algorithms are described. The first of these algorithms is based on the account of joint concepts occurrence in the same documents, and the second one on the account of the context common for considered concepts.
|
| first_indexed | 2025-11-24T11:50:40Z |
| format | Article |
| fulltext |
Інформаційно-аналітичні системи
обробки даних
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 4 45
УДК 004.5
А. Г. Додонов1, Д. В. Ландэ2
1Институт проблем регистрации информации НАН Украины
ул. Н. Шпака, 2, 03113 Киев, Украина
2Информационный центр «ЭЛВИСТИ»
ул. М. Кривоноса, 2а, 03037 Киев, Украина
Выявление понятий и их взаимосвязей в рамках
технологии контент-мониторинга
Приведены подходы к решению проблемы выявления фактографиче-
ской информации из неструктурированных текстовых потоков. Опи-
саны технологические решения, позволяющие извлекать из полнотек-
стовых документов такие понятия как фирмы, фамилии, географиче-
ские названия и т.п., а также выявлять силу их взаимосвязей на осно-
ве применения двух алгоритмов. Первый из этих алгоритмов основы-
вается на учете совместного вхождения понятий в одни и те же до-
кументы, а второй на учете общего для рассматриваемых понятий
контекста.
Ключевые слова: контент-мониторинг, информационный поток, вы-
явление понятий, глубинный анализ текстов, взаимосвязь понятий.
В настоящее время информационное пространство Интернет развилось до
уровня, требующего новых подходов к поиску и анализу информации.
При проведении информационно-аналитических исследований на основе об-
работки информационного потока, формируемого в Интернет [1], особо актуаль-
ной оказывается задача автоматического извлечения из текстов фактографической
информации [2]. При этом ввиду значительных объемов и динамики информаци-
онных потоков контент-анализ осуществляется сегодня с использованием совре-
менных информационно-аналитических систем.
Контент-мониторинг
Очевидно, следует признать, что изначальные парадигмы поисковых систем и
контент-анализа, сформированные десятилетия тому назад, уже не отвечают ре-
альной ситуации. Один из подходов к решению задачи извлечения фактов из тек-
стовых документов и выявления их взаимосвязей базируется на технологии кон-
тент-мониторинга, который можно рассматривать как непрерывный во времени
© А. Г. Додонов, Д. В. Ландэ
А. Г. Додонов, Д. В. Ландэ
46
содержательный анализ информационных потоков с целью получения необходи-
мых качественных и количественных информационных срезов.
Именно непрерывная аналитическая обработка сообщений является самой
характерной чертой этого подхода, который позволяет извлекать факты из тестов,
выявлять новые понятия, формировать разнообразные статистические отчеты. На-
званные задачи сегодня охватываются двумя основными технологиями — извле-
чением фактографической информации из текстов (Information Extraction [2]) и
глубинным анализом текстов (Text Mining [1]).
Современный уровень контент-мониторинга охватывает также задачи выяв-
ления взаимосвязей понятий, извлекаемых из документов, группировки этих по-
нятий, визуализации. В этом случае на помощь приходят методы кластерного
анализа, позволяющие на основе выявления латентных признаков формировать
компактные группы понятий, выявлять главные из них, визуализировать взаимо-
связи.
Названные задачи сегодня частично решаются ведущими контент-провайде-
рами во всем мире. Так, в 2006 году компания «Яндекс» в рамках своего новост-
ного сервиса предоставила доступ к справочной информации о людях, упоминае-
мых в СМИ путем автоматического извлечения фактов из текстов и группировки
их в пресс-портреты.
В компании «Интегрум-Техно» разработана автоматически пополняемая база
данных, содержащая информацию о людях и организациях, связанных отношени-
ем «занимать должность» [3]. Основной принцип, используемый при выделении
фактов, состоит в следующем: в предложении выделяются лексические единицы,
указывающие на то, что в данном месте может встретиться группа «должности»
или «компании», затем вокруг этих слов с помощью грамматик строятся опреде-
ленные именные группы, в которых вершинами являются найденные слова.
Система контент-мониторинга [4] обеспечивает автоматизированный сбор
информации с Web-сайтов в режиме реального времени, ее структурирование,
группировку по семантическим признакам, а также тематическое избирательное
распределение и предоставление доступа к информационным базам данных в по-
исковых режимах. Перспективным направлением развития технологии InfoStream
также является контент-мониторинг, средствами которого обеспечивается реше-
ние задач формирования цепочек основных тематических сюжетов, дайджестов,
извлечение фактов (понятий) из текстов, построение таблиц взаимосвязей и гис-
тограмм распределения понятий.
Подходы к выявлению фактографических данных из документов
Следует отметить, что подходы к извлечению различных типов понятий из
текстов существенно разняться как по контексту их представления, так и по
структурным признакам. Так, для выявления принадлежности документа к тема-
тической рубрике могут использоваться специальным образом составленные за-
просы на информационно-поисковых языках, включающих логические и контек-
стные операторы, скобки и т.д. Выявление географических названий предполагает
использования таблиц, в которых кроме шаблонов написания этих названий ис-
пользуются коды стран, названия регионов и населенных пунктов. В качестве од-
Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 4 47
ного из примеров рассмотрим алгоритм выявления названий фирм в текстах до-
кументов (рис. 1).
Рис. 1. Алгоритм выявления названий фирм из текстов документов
На вход системы поступает документ, который анализируется в процессе по-
следовательного сканирования. Текст документа сравнивается с шаблонами, со-
ответствующими названиям известных фирм, и если такие присутствуют, то они
помещаются в специальную таблицу «документ–фирма». Также система извлече-
ния фактографии предполагает выявление неизвестных изначально названий
фирм на основании, как шаблонов, так и структурных исследований текста. При
этом, в частности, используется таблица префиксов названий фирм, содержащая
такие элементы, как «ООО», «ЗАО», «АО», «Компания» и др.
Выявленные понятия могут служить основой для построения многопрофиль-
ных информационных портретов или интерактивных ситуационных карт, соот-
ветствующих запросам пользователей [5]. Непосредственно по данным, представ-
ленным на ситуационной карте, отражающей наиболее актуальные понятия (тер-
мины, тематические рубрики, географические названия, имена персон, названия
компаний) возможно выявление взаимосвязей понятий, т.е. сами ситуационные
карты могут служить исходными данными для построения таблиц взаимосвязей.
А. Г. Додонов, Д. В. Ландэ
48
Два подхода к построению таблиц взаимосвязей
Таблицы взаимосвязей понятий [6] строятся как статистические отчеты, от-
ражающие близость (совместную встречаемость в новостных сообщениях или
близость по сопутствующему контексту) отдельных понятий. Это симметричные
матрицы, элементы которых — коэффициенты взаимосвязей понятий, соответст-
вующих ее строкам и столбцам. Эти коэффициенты пропорциональны количеству
документов входного информационного потока, которые одновременно соответ-
ствуют обоим понятиям, или количеству значимых лексических единиц, употреб-
ляемых совместно с данными понятиями. Таким образом, взаимосвязь понятий
может быть оценена с помощью двух алгоритмов:
— совместного вхождения — путем расчета совместного вхождения этих по-
нятий в одни и те же документы;
— контекстной близости — путем расчета корреляций наборов ключевых
слов, входящих в документы, в которых упоминались данные понятия.
Рассмотрим формальное определение таблицы взаимосвязей понятий TVP′,
построенной с помощью первого алгоритма. Обозначим pj — понятие (j = 1,…,
M); Di — документ (i = 1,…, N); eij — признак соответствия понятия документу:
,1=ÞÎ jiij eDp иначе 0=jie .
Можно определить уровень связи понятий pj и pk:
kiji
N
i
jk eev å
=
=
¢
1
.
Введя обозначение: E = ║eij║j=1,…,M; i=1,…,N, получаем:
TVP′ = ║v’jk║j, k=1,…,M.
Для случая второго алгоритма, учитывающего контекстную близость, табли-
цу взаимосвязей понятий TVP" определим следующим образом. Обозначим pj —
понятие (j = 1,…, M); Di — документ (i = 1,…, N); {w1,…, wL} = Wi — множество
ключевых слов, входящих в Di:
=Î },...,{, 1 Lij wwDp ii DW Î .
Введем понятие информационного портрета, как множества ключевых слов,
соответствующих понятию pj во всем массиве документов:
i
Dpi
j WpIP
ij
U
}:{
)(
Î
= .
Введем также понятие словаря системы
Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 4 49
S = ║si║i=1,…,H
и числовое множество T(pj) c элементами tij, соответствующее информационному
портрету:
,1)( =ÞÎ jiji tpIPs иначе tij = 0,
T(pj) = ║tij║ i=1,…,H .
В этом случае уровень связи понятий pj и pk можно определить следующим
образом:
ikij
H
i
kjjk ttpTpTv å
=
==¢¢
1
))(),(( .
Таким образом, таблица взаимосвязей понятий будет иметь вид:
TVP" = ║v"jk║j,k=1,…,M.
Следует отметить, что таблица взаимосвязей первого вида всегда отражает
взаимосвязи понятий точнее, чем таблица взаимосвязей второго типа, однако,
таблица второго типа учитывает взаимосвязи более полно (рис. 2).
Рис. 2. Два варианта таблицы взаимосвязей понятий
Данное утверждение следует из теоремы, состоящей в том, что:
v′jk > 0 Þ v"jk > 0.
Действительно,
ÞÎÎ$Þ>
¢
ikijjk DpDpiv ,:0
А. Г. Додонов, Д. В. Ландэ
50
Þ¹ÇÌ
Î
Ø)()(
}{
kjl
Dw
pIPpIPw
il
U
(T(pj), T(pk)) = v"jk > 0.
Утверждение, обратное данной теореме, в общем случае неверно. Проведем
мысленный эксперимент, подтверждающий это замечание. Рассмотрим два поня-
тия «пингвин» и «белый медведь». Эти понятия могут иметь ненулевое контекст-
ное пересечение за счет таких ключевых слов, как «лед», «мороз», «рыба», однако
понятие «пингвин» входит в документы, описывающие фауну Антарктики, а «бе-
лый медведь» — фауну Арктики.
Для переупорядочения понятий из таблицы взаимосвязей с целью выявления
блоков — множеств наиболее взаимозависимых понятий (рис. 3) — применяются
алгоритмы кластерного анализа. Покажем, как можно выделить некоторое число
групп взаимосвязанных понятий методом k-means, который, как известно, являет-
ся одним из самых эффективных для группировки динамических данных. Рас-
смотрим векторы-строки матрицы TVP – Ei (очевидно, ввиду симметричности
матрицы TVP можно было бы рассматривать и столбцы). Простая задача опти-
мальной группировки векторов Ei в данном случае усложняется необходимостью
при перестановке номеров векторов-строк одновременно переставлять соответст-
вующие их компоненты для сохранения симметрии матрицы E.
Рис. 3. Трехмерное представление взаимосвязи понятий
Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 4 51
Суть алгоритма k-means определяется следующим образом: случайным обра-
зом выбирается k векторов-строк, которые определяются как центроиды (наибо-
лее типичные представители) кластеров. Затем k кластеров наполняются — для
каждого из оставшихся векторов-строк определяется близость к центроиду соот-
ветствующего кластера. После этого вектор-строка приписывается к тому класте-
ру, к центроиду которого он наиболее близок. Затем строки-векторы группируют-
ся и перенумеровываются.
Для каждого из новых кластеров заново вычисляется центроид — вектор-
строка, наиболее близкая ко всем векторам из данного кластера (например, тот,
сумма скалярных произведений которого с каждым из векторов кластера мини-
мальна).
После этого заново выполняется процесс наполнения кластеров, затем вы-
числение новых центроидов и т.д., пока процесс формирования кластеров не ста-
билизируется (или набор центроидов не повторится).
Ниже приведен формальный алгоритм k-means [7].
Произвольный выбор центроидов k-кластеров
while процесс формирования не стабилизировался do
for каждого вектора-строки do
найти центроид, наиболее близкий вектору-строке,
приписать вектор-строку сответствующему кластеру
end for
for каждого кластера с do
вычисление центроида кластера по входящим в него элементам
end for
for каждого вектора-строки do
переставить элементы в векторе-строке,
соответствующие выполненной перенумерации
end for
end while
Заключение
В качестве примеров современного применения технологии контент-монито-
ринга можно привести автоматическое выявление основных сюжетных цепочек,
формирование рефератов и дайджестов, извлечение фактографий из текстов, вы-
явление взаимосвязей понятий, автоматическую кластеризацию взаимосвязей для
выявления наиболее важных из них.
Благодаря уже существующим возможностям систем контент-мониторинга,
эта технология может способствовать значительному повышению качества ин-
формационно-аналитической работы. По сравнению с традиционными подходами
использование технологии контент-мониторинга обеспечивает такие преимуще-
ства как получение оперативных количественных и качественных аналитических
срезов по мере появления информации в Интернет, своевременное получение не-
обходимой профильной фактографической информации при включении рабочих
мест аналитиков в динамическое информационное пространство.
А. Г. Додонов, Д. В. Ландэ
52
Вместе с тем, своего решения ждут проблемы автоматического выявления
тональности взаимосвязей, в простейшем случае — определение принадлежно-
стей взаимосвязей к положительным (группирующим) или отрицательным (анта-
гонистическим). Также на данном этапе пока рассмотрены взаимосвязи лишь в
рамках целостных документов, предполагается расширить анализ взаимосвязей
понятий на отдельные их части.
1. Ландэ Д.В. Основы интеграции информационных потоков. — К.: Інжиніринг, 2006. — 240 с.
2. Ralph Grishman. Information extraction: Techniques and Сhallenges. In Information Extraction
(International Summer School SCIE-97) // Springer-Verlag. — 1997.
3. Гершензон Л. М., Ножов И. М., Панкратов Д. В. Система извлечения и поиска структури-
рованной информации из больших текстовых массивов СМИ. Архитектурные и лингвистические
особенности. // Труды Международного семинара «Диалог’2005» (Звенигород, 1–6 июня 2005 г.).
— М.: Наука, 2005.
4. Додонов А.Г., Ландэ Д.В. Организация сети информационных прокси-серверов //
Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 3. — С. 24–31.
5. Григорьев А.Н., Ландэ Д.В. Адаптивный интерфейс уточнения запросов к системе контент-
мониторинга InfoStream. // Труды Международного семинара «Диалог’2005» (Звенигород. — 1–6
июня 2005 г.). — М.: Наука, 2005. — С. 109–111.
6. Леліков Г.І., Сороко В.М., Григор’єв О.М., Ланде Д.В. Монiторинг дiяльностi органiв ви-
конавчої влади iз застосуванням комп’ютерної системи контент-аналiзу електронних ЗМI // Вісник
державної служби України. — 2002. — № 2. — С. 72–78.
7. Ландэ Д.В. Некоторые методы анализа новостных информационных потоков // Научные
труды Донецкого национального технического университета. Серия: Информатика, кибернетика и
вычислительная техника (ИКВТ-2005). — Вып. 93. — Донецк: ДонНТУ, 2005. — С. 277–287.
Поступила в редакцию 07.11.2006
|
| id | nasplib_isofts_kiev_ua-123456789-50862 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1560-9189 |
| language | Russian |
| last_indexed | 2025-11-24T11:50:40Z |
| publishDate | 2006 |
| publisher | Інститут проблем реєстрації інформації НАН України |
| record_format | dspace |
| spelling | Додонов, А.Г. Ландэ, Д.В. 2013-11-05T19:54:27Z 2013-11-05T19:54:27Z 2006 Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга / А.Г. Додонов, Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 4. — С. 45-52. — Бібліогр.: 7 назв. — pос. 1560-9189 https://nasplib.isofts.kiev.ua/handle/123456789/50862 004.5 Приведены подходы к решению проблемы выявления фактографической информации из неструктурированных текстовых потоков. Описаны технологические решения, позволяющие извлекать из полнотекстовых документов такие понятия как фирмы, фамилии, географические названия и т.п., а также выявлять силу их взаимосвязей на основе применения двух алгоритмов. Первый из этих алгоритмов основывается на учете совместного вхождения понятий в одни и те же документы, а второй на учете общего для рассматриваемых понятий контекста. Наведено підходи до вирішення проблеми виявлення фактографічної інформації з неструктурованих текстових потоків. Описано технологічні рішення, що дозволяють добути з повнотекстових документів такі поняття як фірми, прізвища, географічні назви тощо, а також виявляти силу їхніх взаємозв’язків на базі застосування двох алгоритмів. Перший з цих алгоритмів базується на врахуванні спільного входження понять до одних і тих самих документів, а другий — на врахуванні загального для понять, що розглядаються, контексту. Approaches to the solution of a problem of revealing factual information from unstructured text flows are given. The technological solutions, allowing to take from text-through documents such concepts as a firm, a surname, place names, etc., and also to reveal force of their interrelations on the basis of application of two algorithms are described. The first of these algorithms is based on the account of joint concepts occurrence in the same documents, and the second one on the account of the context common for considered concepts. ru Інститут проблем реєстрації інформації НАН України Реєстрація, зберігання і обробка даних Інформаційно-аналітичні системи обробки даних Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга Виявлення понять та їх взаємозв’язків у рамках технологій контент-моніторингу Detection of Concepts and their Interrelations within the Framework of Content-Monitoring Technology Article published earlier |
| spellingShingle | Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга Додонов, А.Г. Ландэ, Д.В. Інформаційно-аналітичні системи обробки даних |
| title | Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга |
| title_alt | Виявлення понять та їх взаємозв’язків у рамках технологій контент-моніторингу Detection of Concepts and their Interrelations within the Framework of Content-Monitoring Technology |
| title_full | Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга |
| title_fullStr | Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга |
| title_full_unstemmed | Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга |
| title_short | Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга |
| title_sort | выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга |
| topic | Інформаційно-аналітичні системи обробки даних |
| topic_facet | Інформаційно-аналітичні системи обробки даних |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/50862 |
| work_keys_str_mv | AT dodonovag vyâvlenieponâtiiiihvzaimosvâzeivramkahtehnologiikontentmonitoringa AT landédv vyâvlenieponâtiiiihvzaimosvâzeivramkahtehnologiikontentmonitoringa AT dodonovag viâvlennâponâtʹtaíhvzaêmozvâzkívuramkahtehnologíikontentmonítoringu AT landédv viâvlennâponâtʹtaíhvzaêmozvâzkívuramkahtehnologíikontentmonítoringu AT dodonovag detectionofconceptsandtheirinterrelationswithintheframeworkofcontentmonitoringtechnology AT landédv detectionofconceptsandtheirinterrelationswithintheframeworkofcontentmonitoringtechnology |