О создании параллельного двуязычного корпуса веб-публикаций
Saved in:
| Published in: | Збірник наукових праць Інституту проблем моделювання в енергетиці ім.Г.Є.Пухова НАН України |
|---|---|
| Date: | 2009 |
| Main Author: | |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України
2009
|
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/26536 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | О создании параллельного двуязычного корпуса веб-публикаций / В.В. Жигало // Збірник наукових праць Інституту проблем моделювання в енергетиці ім.Г.Є.Пухова НАН України. — К.: ІПМЕ ім. Г.Є.Пухова НАН України, 2009. — Вип. 53. — Бібліогр.: 8 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1860265562564722688 |
|---|---|
| author | Жигало, В.В. |
| author_facet | Жигало, В.В. |
| citation_txt | О создании параллельного двуязычного корпуса веб-публикаций / В.В. Жигало // Збірник наукових праць Інституту проблем моделювання в енергетиці ім.Г.Є.Пухова НАН України. — К.: ІПМЕ ім. Г.Є.Пухова НАН України, 2009. — Вип. 53. — Бібліогр.: 8 назв. — рос. |
| collection | DSpace DC |
| container_title | Збірник наукових праць Інституту проблем моделювання в енергетиці ім.Г.Є.Пухова НАН України |
| first_indexed | 2025-12-07T19:00:22Z |
| format | Article |
| fulltext |
УДК 681.3
В.В. Жигало
О СОЗДАНИИ ПАРАЛЛЕЛЬНОГО ДВУЯЗЫЧНОГО КОРПУСА
ВЕБ-ПУБЛИКАЦИЙ
Введение
Большое место в теории и практике информационного поиска занимают
алгоритмы выделения, так называемых, «опорных слов». Многие из таких
алгоритмов основаны на векторном представлении и используют
статистические свойства текстов. Чаще всего для решения данной задачи
используются частотные словари на одном или нескольких языках.
В данной статье описывается создание частотного словаря на основе
морфологического словаря (МС) с использование тестового массива
документов, а также построение алгоритма выявления опорных слов с
использованием частотного МС и общеизвестного подхода TF IDF [1].
На основе анализа автоматически выявляемых опорных слов и их
перевода на другой язык была реализована процедура выявления дубликатов
документов, представленных на разных языках.
Как известно, сегодня актуальна задача создания многоязычных
параллельных текстовых корпусов [2-4]. Предложенный подход позволил
создать двуязычный украино-русский параллельный корпус текстов из веб-
публикаций на русском и украинском языках.
Описание алгоритма
При реализации средств построения корпуса параллельных текстов
использовались следующие процедуры:
- построение МС;
- создание частотных словарей на базе существующих МС;
- создание словарей переводов;
- реализация алгоритма выявления опорных слов в документе;
- перевод опорных слов документа на другой язык;
- реализация алгоритма выявления дубликатов на основе анализа
опорных слов и их переводов.
Построение морфологических словарей
Для русского и украинского языков были взяты свободно доступные
электронные словари набором слов более 1,102 тыс. словоформ на
украинском языке и словарь русского языка, который насчитывает 93 392
слов в нормальной форме.
Морфологические словари были дополнены названиями известных
фирм и известными фамилиями, которых не было в исходных словарях.
Создание частотного словаря
Для выявления опорных слов из документов необходим частотный
словарь, в котором для каждого слова записано количество его появлений в
некотором большом информационном массиве, а также количество
документов, в которых нашлось это слово.
Для создания частотного словаря взят массив документов за 2007 год,
сканируемых из Интернет системой контент-мониторинга InfoStream [5, 6].
Массив состоит из текстов веб-публикаций на украинском (1 344 086
документов) и русском языке (2 399 367 документов).
При машинном обучении частотного словаря из каждого документа
выделялись словоформы, которые (с определенной вероятностью)
приводились к нормальной форме. При этом подсчитать количество, как
словоформ, так и нормальных форм в документах, а также подсчитывалось
количество документов, в которых встретилась словоформа и/или
нормальная форма.
Для эффективности поиска опорных слов в результирующие словари
входили только те слова, которые встретились в массиве документов более
двух раз. Также было решено использовать только имена существительные.
Создание словарей переводов
В рамках данных исследований использовались словари переводов с
русского языка на украинский, и с украинского на русский. Исходные данные
для построения словарей переводов были получены путем перевода имен
существительных в нормальной форме существующими программами
перевода текстов.
В случае если одному слову соответствовало несколько переводов, то
выбиралось наиболее употребляемое значение в соответствии частотным
словарем.
Алгоритм поиска опорных слов
Для поиска опорных слов использовался стандартный подход TF IDF, а
точнее его модификация Okapi BM25 [7]:
( , ) ( 1)1( , ) ( )
| |1 ( , ) 11
n f q D kiscore D Q IDF qi Di f q D k b bi avgdl
, (1)
где ( , )f q Di - частота термина iq в документе D , | |D - длина документа
D (число слов), avgdl - средняя длина документа в массиве, 1k и b -
свободные параметры, обычно выбираемые как 1k = 2.0 и b = 0.75.
( )iIDF q инверсная частота документа, которая вычисляется по формуле:
( ) 0.5
( ) log
( ) 0.5
i
i
i
N n q
IDF q
n q
, (2)
где N - общее количество документов в массиве, ( )in q - количество
документов, содержащих термин iq .
Для решения проблемы омонимии слов было принято решение брать ту
нормальную форму, которая является наиболее частотной в массиве
документов.
Затем, для каждого документа все опорные слова ранжировались, и из
них выбирались 12 первых, которые и приписывались документу. Кроме
того, опорные слова автоматически переводились и также приписывались
рассматриваемому документу.
Для улучшения работы алгоритма также использовались стоп-словари
для каждого из языков, которые отсеивали нежелательные слова.
Экспертные оценки показали, что удалось добиться 99% качества при
переводе опорных слов.
Параллельный корпус
В результате выполненных исследований в систему контент-
мониторинга InfoStream был интегрирован новый механизм поиска дублей,
который позволяет с помощью опорных слов находить дубликаты
документов в большом информационном массиве. Для реализации этого
механизма требуется вхождение всего лишь 5 опорных слов одного
документа, длина которого превышает 1000 символов, в состав 12-и опорных
слов (или их переводов) другого документа.
На основании приведенного алгоритма были созданы параллельные
украино-русские массивы документов. Исходными данными для построения
корпуса были веб-публикации за три месяца полученные с помощью системы
InfoStream (3 135 279 документов на русском и 425 293 – на украинском
языке).
Были использованы также дополнительные критерии отсеивания не
полных дубликатов на разных языках:
- общее количество слов в переведенном варианте не должно отличаться
больше чем на 10%;
- количество слов начинающихся с большой буквы (не в начале строки)
не должно отличаться больше чем на 3 слова, так как в документ может быть
вставлено название другого источника информации;
- количество чисел в документах не должно отличатся больше чем на
два;
- найденные числа в документах не должны отличаться более чем на
15 %.
Поисковый интерфейс
Отобранные параллельные массивы документов размещены в Интернет
[8]. Информация представлена в кодировке KOI8-U, в заархивированном
виде (gzip). Общий объем заархивированных массивов – 40 Мбайт.
Использование этого корпуса в научных и учебных целях – свободное.
В ИЦ ElVisti на базе системы InfoStream был разработан программный
комплекс для работы с параллельным корпусом в поисковом режиме.
Данный программный комплекс позволяет производить поиск по корпусу
документов, как на русском, так и на украинском языках, а также
поддерживает одновременный вывод параллельных текстов, релевантных
запросам пользователей. На рис. 1 показан интерфейс этого комплекса, на
котором представлены результаты поиска по «Україна» (в результате было
выбрано 107 параллельных текстов, релевантных данному запросу).
Рис. 1. Выборка параллельных документов по запросу «Україна»
Результаты исследования
В результате эксперимента был получен корпус параллельных текстов
из 29 884 документов различной длины, точность перевода которых по
экспертным оценкам составляет 98%.
Для оценки качества выявления дубликатов использовались также и
формальные методы. Так на рис. 2 изображены графики, которые
показывают коэффициенты близости и различия опорных слов параллельных
документов. Коэффициент близости вычисляется по следующей формуле:
. .
1
общ слN
k
b
(3)
где . .общ слN - количество общих ключевых слов в параллельных документах
на украинском и русском языках; b – максимальное количество одинаковых
опорных слов, равное 12.
Коэффициент различия:
. .
2
разл слN
k
c
(4)
где . .разл слN - количество различающихся опорных слов в документах; c –
максимальное количество разных опорных слов в обоих документах,
принимаемое как 24.
0
0,2
0,4
0,6
0,8
1
1,2
1
69
6
13
91
20
86
27
81
34
76
41
71
48
66
55
61
62
56
69
51
76
46
83
41
90
36
97
31
10
42
6
11
12
1
11
81
6
12
51
1
13
20
6
13
90
1
14
59
6
15
29
1
15
98
6
16
68
1
17
37
6
18
07
1
18
76
6
19
46
1
20
15
6
20
85
1
21
54
6
22
24
1
22
93
6
23
63
1
24
32
6
25
02
1
25
71
6
26
41
1
27
10
6
27
80
1
28
49
6
29
19
1
k
Ndoc
Рис. 2. Ранжированный список коэффициентов близости (сплошная линия) и
различия (пунктирная линия) документов, представленных на русском языке и их
дубликатов на украинском языке
По рис. 2 видно, что пересечение графиков происходит в 1 0.5k и
2 0.5k , что означает наличие в среднем 8,5 общих опорных слов.
Среднее значение общих ключевых слов при поиске русских
документов на украинском языке составляет 8,45. Среднее значение общих
ключевых слов при поиске украинских документов на русском языке
составляет 8,97.
Приблизительный коэффициент ошибки вычисления опорных слов,
составляет 0.52. Этот коэффициент вычисляется по формуле:
1 21 | |N R R
E
N
, (5)
где N – общее количество документов; 1R - количество общих опорных
слов при поиске дублей русских документов на украинском языке; 2R -
количество общих опорных слов при поиске дублей украинских документов
на русском языке.
В процессе поиска опорных слов для документов в результате попадали
такие опорные слова, для которых не было пары в параллельном документе
или же это слово было переведено как синоним. Для данного корпуса
коэффициент Е является достаточно хорошим показателем, так как на один
документ в среднем приходится 0,5 слова, не соответствующего
параллельному документу.
Анализируя параллельный корпус, было определено, что наиболее
переведенными документами, с русского на украинский и/или наоборот,
были документы, напечатанные одними и теми же издательствами (табл. 1).
К примеру, можно взять издательство УНИАН, которое печатает новости
сразу на нескольких языках.
Таблица 1.
10 наиболее частотных источников из параллельного корпуса
Украинские документы Русские документы №
п.п. Издательство Кол.
статей
Издательство Кол.
статей
1 УкрІнформ 2919 УкрИнформ 2973
2 Газета по-українськи 2821 Газета по-українськи 2449
3 YTPO-Україна 1933 YTPO-Украина 1917
4 УНІАН 1621 УНИАН 1340
5 NEWSru.ua 1548 Газета "Хрещатик" 1323
6 forUm 1358 NEWSru.ua 1270
7 Газета "Хрещатик" 1073 Корреспондент.net 1087
8 proUA 1027 "Украинская правда" 1071
9 РБК-Україна 1016 forUm 1064
10 INTV 1014 РБК-Украина 1057
Как показала статистика, не все параллельные документы печатаются
одним издательством. Попадаются и такие документы, которые переведены
на другой язык иным издательством, чем источник. На рис. 3 показано
распределение издательств в корпусе по соотношению напечатанных ими
документов. Более жирная линия – это издательства, которые печатали
документы на русском языке. Тонкая линия – издательства, которые
напечатали документы на украинском языке.
Рис. 3. Распределение издательств по соотношению печати документов в
параллельном корпусе в логарифмическом масштабе
Как видно из табл. 1 почти все издательства, которые писали на
украинском языке, имеют свое место в рейтинге издательств, которые писали
на русском языке.
Также было определено, что в корпус входят документы напечатанные
издательствами: 574 – издательств, которые пишут на русском языке, и 328 –
издательств которые пишут на украинском языке.
Рис. 4. Соотношение частот слов к их рангу для русских и украинских
документов, в логарифмической шкале
Исследование статистики использования термов в параллельных
массивах текстов позволило получить следующие результаты:
- количество слов в украинском массиве составило 5 595 591 из их
уникальных 181 453 слова;
- в русском массиве количество слов составило 5 641 695 в общем из
них 174 640 уникальных слов.
На рис. 4 показано отношение частот слов к их рангу в текстовых
массивах исследуемого параллельного корпуса. Как известно, это отношение
соответствует степенному закону распределения (закон Ципфа-
Мандельброта), при этом для каждого из языков параметры такого
распределения различны. Однако наше исследование показало, что для
рассматриваемых параллельных текстовых массивов распределения
практически совпадают, что можно считать феноменом в данной предметной
области.
Заключение. Представленные в статье алгоритмы и подходы в
настоящее время используются в системе контент-мониторинга InfoStream, в
частности, на этапе индексирования документа в этой системе к нему
приписывается несколько самых весомых слов, которые переводятся на
другие языки с помощью словарей переводов. Для поиска дубликатов
берутся несколько из найденных опорных слов из исходного документа и
сравниваются со всеми переведенными опорными словами других
документов.
Используя механизм подключения к системе контент-мониторинга
различных языков, можно находить подобные или дублирующиеся
документы в многоязычных базах данных, решать проблемы тематического
поиска, а также поиска перепечаток.
1. Salton G, Buckley C., Term-Weighting Approaches // Automatic Text Retrieval.
Information Processing and Management. 1988. 24, 5. - pp.513-523.
2. Cysouw M., Wälchli B. Parallel texts: Using translational equivalents in linguistic
typology. - STUF-Sprachtypologie und Universalienforschung, 2007.
3. B. Pouliquen, R. Steinberger, A. Ribeiro, C. Ignat. Automatic Identification of
Document Translations in Large Multilingual Document Collections. Publication: eprint
arXiv:cs/0609060v1
4. P. Resnik, Parallel Strands: A Preliminary Investigation into Mining the Web for
Bilingual Text. Publication: eprint arXiv:cmp-lg/9808003v1
5. D.V. Lande, V.V. Zhygalo: About the creation of a parallel bilingual corpora of
web-publications, Publication: eprint arXiv:0807.0311v1
6. http://www.infostream.ua/
7. http://www.xapian.org/docs/bm25.html
8. http://ling.infostream.ua/
|
| id | nasplib_isofts_kiev_ua-123456789-26536 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | XXXX-0067 |
| language | Russian |
| last_indexed | 2025-12-07T19:00:22Z |
| publishDate | 2009 |
| publisher | Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України |
| record_format | dspace |
| spelling | Жигало, В.В. 2011-09-04T21:20:35Z 2011-09-04T21:20:35Z 2009 О создании параллельного двуязычного корпуса веб-публикаций / В.В. Жигало // Збірник наукових праць Інституту проблем моделювання в енергетиці ім.Г.Є.Пухова НАН України. — К.: ІПМЕ ім. Г.Є.Пухова НАН України, 2009. — Вип. 53. — Бібліогр.: 8 назв. — рос. XXXX-0067 https://nasplib.isofts.kiev.ua/handle/123456789/26536 681.3 ru Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України Збірник наукових праць Інституту проблем моделювання в енергетиці ім.Г.Є.Пухова НАН України О создании параллельного двуязычного корпуса веб-публикаций Article published earlier |
| spellingShingle | О создании параллельного двуязычного корпуса веб-публикаций Жигало, В.В. |
| title | О создании параллельного двуязычного корпуса веб-публикаций |
| title_full | О создании параллельного двуязычного корпуса веб-публикаций |
| title_fullStr | О создании параллельного двуязычного корпуса веб-публикаций |
| title_full_unstemmed | О создании параллельного двуязычного корпуса веб-публикаций |
| title_short | О создании параллельного двуязычного корпуса веб-публикаций |
| title_sort | о создании параллельного двуязычного корпуса веб-публикаций |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/26536 |
| work_keys_str_mv | AT žigalovv osozdaniiparallelʹnogodvuâzyčnogokorpusavebpublikacii |