Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу
Представлена система автоматизированной обработки больших объемов динамической текстовой информации. Система выполняет функции поиска, классификации, рубрикации и кластеризации текстовых документов по запросам пользователя. Представлена система автоматизованої обробки великих об'ємів динамічної...
Збережено в:
| Опубліковано в: : | Математичні машини і системи |
|---|---|
| Дата: | 2014 |
| Автори: | , |
| Формат: | Стаття |
| Мова: | Російська |
| Опубліковано: |
Інститут проблем математичних машин і систем НАН України
2014
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/84382 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу / В.В. Литвинов, О.П. Мойсеенко // Математичні машини і системи. — 2014. — № 2. — 59-64. — Бібліогр.: 6 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859685040319889408 |
|---|---|
| author | Литвинов, В.В. Мойсеенко, О.П. |
| author_facet | Литвинов, В.В. Мойсеенко, О.П. |
| citation_txt | Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу / В.В. Литвинов, О.П. Мойсеенко // Математичні машини і системи. — 2014. — № 2. — 59-64. — Бібліогр.: 6 назв. — рос. |
| collection | DSpace DC |
| container_title | Математичні машини і системи |
| description | Представлена система автоматизированной обработки больших объемов динамической текстовой информации. Система выполняет функции поиска, классификации, рубрикации и кластеризации текстовых документов по запросам пользователя.
Представлена система автоматизованої обробки великих об'ємів динамічної текстової інформації. Система виконує функції пошуку, класифікації, рубрикації та кластеризації текстових документів за запитами користувача.
The system of automated processing of large volumes of dynamic, text information was represented. The system performs search functions, classification, categorization and clusterization of text documents at user requests
|
| first_indexed | 2025-11-30T21:46:06Z |
| format | Article |
| fulltext |
© Литвинов В.В., Мойсеенко О.П., 2014 59
ISSN 1028-9763. Математичні машини і системи, 2014, № 2
УДК 004.912: 004.632
В.В. ЛИТВИНОВ*, О.П. МОЙСЕЕНКО*
АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОБРАБОТКИ ДИНАМИЧЕСКИХ
КОЛЛЕКЦИЙ РАЗНОЯЗЫЧНЫХ ТЕКСТОВЫХ ДОКУМЕНТОВ ПО МОРСКОМУ
И РЕЧНОМУ ДЕЛУ
*
Черниговский национальный технологический университет, Чернигов, Украина
Анотація. Представлена система автоматизованої обробки великих об'ємів динамічної
текстової інформації. Система виконує функції пошуку, класифікації, рубрикації та кластеризації
текстових документів за запитами користувача.
Ключові слова: класифікація, рубрикація, кластеризація, обробка текстових документів.
Аннотация. Представлена система автоматизированной обработки больших объемов динамиче-
ской текстовой информации. Система выполняет функции поиска, классификации, рубрикации и
кластеризации текстовых документов по запросам пользователя.
Ключевые слова: классификация, рубрикация, кластеризация, обработка текстовых документов.
Abstract. The system of automated processing of large volumes of dynamic, text information was
represented. The system performs search functions, classification, categorization and clusterization of text
documents at user requests.
Keywords: classification, categorization, clusterization, processing of text documents.
1. Введение
Морское и речное дело – совокупность знаний, относящихся к судоходству: морское и
речное право, морская и речная практика, кораблевождение, портовые обычаи, историче-
ские сведения.
Документ – електронный текстовый документ на естественном языке, содержащий
структурированную информацию, относящуюся к конкретной предметной области и пред-
ставленный в одном из распространенных форматов хранения текстовых данных.
Все текстовые документы можно поделить на три документопотока [1]:
– входящий документ – документ, поступивший в учреждение;
– исходящий документ – официальный документ, отправляемый из учреждения;
– внутренний документ – официальный документ, не выходящий за пределы подго-
товившей его организации.
Каждый из документопотоков имеет свои особенности обработки в зависимости от
формы организации работы с документами (централизованный, децентрализованный,
смешанный).
Разрабатываемая автоматизированная система (АС), в первую очередь, направлена
на обработку первого вида документопотока. Классическая схема ручной обработки вхо-
дящих документов применима и при автоматизации процесса.
К входящим документам относятся те, которые поступают из других организаций:
вышестоящих, подчиненных, общественных, муниципальных, негосударственных, от
юридических и физических лиц. Например, законы, указы, постановления, решения, ука-
зания, инструкции, распоряжения, поручения, приказы, доверенности, договоры, письма
по электронной почте с прикрепленными документами (предложения, сопроводительные,
гарантийные, рекламные, информационные и др.), отчеты о хозяйственной, финансовой,
управленческой деятельности, докладные записки, акты.
Обработка входящих документов включает:
60 ISSN 1028-9763. Математичні машини і системи, 2014, № 2
– прием и первичную обработку электронных документов (до автоматизации осу-
ществляется службой делопроизводства,секретарем или специальными подразделениями –
экспедициями);
– предварительное рассмотрение и распределение документов ( отнесение докумен-
тов к категории, требующей специального рассмотрения руководством организации или
структурных подразделений для того, чтобы освободить руководителя от рассмотрения
второстепенных вопросов, ускорить движение документов);
– регистрацию (учетный порядковый номер документа и дата поступления, при не-
обходимости, часы и минуты. Внесение сведений о документе в електронный журнал);
– рассмотрение документов, принятие решения по информации, содержащейся в
документе. Возможность правки и удаления содержимого. Изменение приоритетов досту-
па;
– передачу на исполнение (документы должны исполняться в срок. Входящие до-
кументы обязательно передаются исполнителю в день его получения и регистрации или в
первый рабочий день при поступлении документов в нерабочее время);
– хранение документов (хранение архивов документов, индексов документов, адре-
сов удаленного доступа к документам).
2. Постановка задачи
Проектирование и разработка системы автоматизированной обработки динамичесих кол-
лекций, разноязычных тектовых документов по морскому и речному делу. Поиск и пре-
доставление документов происходит среди локальных, переносных и удаленных извест-
ных источников, а также в глобальной сети Интернет. Результатом работы системы явля-
ются тематические кластеры текстовых документов, построенные согласно запросам поль-
зователей (рис. 1). Документы внутри одного кластера должны быть максимально схожи
между собой. Общий набор кластеризуемых документов не может быть заранее определен,
так как на вход системы непрерывно поступают новые документы.
Рис. 1. Примерные схемы кластеризации документов по морскому и речному делу
3. Решение задачи
Значительная часть информации по морскому и речному делу подается на английском –
общепринятом языке межнационального общения. Но и на других языках мира содержит-
ся очень большая и важная часть информации. Поэтому чрезвычайную значимость и цен-
ность приобретает возможность межъязыковой коммуникации.
На сегодня в мире имеется множество инструментов, позволяющих пользователям
понимать получаемую информацию и представлять свои электронные документы на
большом числе естественных языков. Это программы проверки орфографии и грамматики,
программы автоматического перевода, системы диктовки, пакеты информационного поис-
ка.
ISSN 1028-9763. Математичні машини і системи, 2014, № 2 61
Рис. 2. Структура разрабатываемой системы
Существующие подходы в сфере автоматического перевода текстовых корпусов
еще далеки от идеального: перевод имен собственных, неправильная структypa предложе-
ния, отсутствие грамматических связей и т.д. Неоспоримым преимуществом автоматиче-
ского перевода являются быстрота и сравнительная, относительно ручного перевода, де-
шевизна обработки текста. Однако риск возникновения грубых тематических ошибок по-
вышается в случае узкоспециализированного перевода, когда требуется высококвалифи-
цированный переводчик и отменный специалист в конкретной области в одном лице.
В разрабатываемой АС обработки разноязычных тектовых документов уклон сде-
лан в сторону перевода не содержимого документов, а сформированных пользователями
запросов. То есть сформированный на понятном для пользователя языке запрос будет ин-
терпретирован с учетом тематической (семантической) составной на другие, доступные
системе языки. После чего происходит поиск необходимой информации среди документов
на других языках. Результаты поиска представляются пользователям в виде документа(ов)
на языке оригинала и при необходимости могут быть переведены сторонними программ-
ными продуктами.
Разрабатываемая систе-
ма имеет клиент-серверную ар-
хитектуру (тонкий клиент) и
состоит из независимых про-
граммных модулей (рис. 2), что
в значительной мере повышает
отказоустойчивость и надеж-
ность такой системы. Принци-
пы работы программной реали-
зации системы описаны ниже.
Подсистема поиска и за-
грузки – сетевой паук, получает
на входе адреса веб-ресурсов
(источники текстовых докумен-
тов). Загружает веб-страницу и
сканирует ее в поисках других
гиперссылок (если это разрешено). Обнаруживаемые гиперссылки фильтруются и прове-
ряется, были ли они посещены в этом сеансе поиска. Веб-страница проходит обработку
для поиска паттерна или индексирования (с целью ускорения последующего доступа к ис-
точнику). Происходит загрузка веб-ресурсов по найденным и отобранным гиперссылкам,
контролируя трафик и глубину погружения по гиперссылкам.
Среди содержимого сайта загружаются и индексируются архивы и электронные
текстовые файлы с расширениями *.zip, *.rar, *.txt, *.doc, *.pdf (список можно расширить).
Каждый из форматов хранения данных является программным контейнером и требует реа-
лизации в системе отдельных механизмов извлечения этих данных.
После чего происходит создание индексной базы и индексирование содержимого
web-источников. Завершение формирования индексной базы позволяет выполнять поиск
на сервере даже не имея фактического доступа в сеть.
Предварительная обработка электронных текстов
1. Получение текста документа и последующая его первичная обработка (иденти-
фикация формата, языка, кодировки документа, при необходимости приведение к единой
кодировке utf8, очистка текста от элементов оформления и графики, разбиение на состав-
ные части).
62 ISSN 1028-9763. Математичні машини і системи, 2014, № 2
2. Лингвистический анализ (графематический, морфологический и постморфологи-
ческий анализ, выделение словосочетаний).
3. Формирование векторного (матричного) представления текстов.
Классификация составляющих текстовых документов по темам и подтемам [2]
1. Последующая обработка текстов (отображение словаря признаков документа в
пространство признаков классификатора; оценка адекватности и возможности классифи-
кации текста с помощью данного классификатора).
2. Классификация текста и выделение значимых фрагментов в нем (выделение ко-
дов рубрик с помощью регулярных выражений; применение логических правил, построен-
ных экспертами, и статистических решающих правил; корректировка результатов класси-
фикации с учетом иерархической структуры рубрик).
Анализ результатов классификации (рубрицирование) [2]
1. Выявление "почти" дубликатов документов (документы с измененной синтакси-
ческой структурой, но с одинаковым смысловым содержанием. Возникают в случае при-
менения синонимайзеров и услуг рерайтеров).
2. Выявление основных тем документов в рубриках.
3. Упорядочивание документов по их релевантности рубрике.
4. Формирование решающих правил и оценивание качества обучения.
5. Обучение происходит в процессе обнаружения специфических для каждой из
рубрик терминов и формирования для каждого термина численной меры значимости, а
также порогового значения поискового веса.
6. Формирование обучающих и тестовых множеств для рубрик (построение разбие-
ния обучающего массива на блоки; анализ взаимосязей и пересечений отдельных рубрик;
формирование множеств отрицательных и положительных примеров).
7. Оценивание параметров базовых моделей рубрик (вычисление весов признаков;
снижение размерности; оценка параметров моделей; формирование решающих правил;
оценка качества обучения).
8. Построение комбинированных решающих правил для отдельных рубрик и клас-
сификатора в целом.
9. Формирование отчета о результатах обучения (описание решающих правил, опи-
сание терминологии рубрик, рекомендации по корректировке примеров документов, опи-
сание взаимосвязей рубрик).
Корректировка обучающего массива и настройка правил классификации [3]
1. Обучающая выборка (training sample) – выборка, по которой производится на-
стройка (оптимизация параметров) системы.
2. Корректировка обучающих примеров для рубрик путем анализа добавленных и
пропущенных документов в рубриках значимых фрагментов, взаимосвязей рубрик.
3. Настройка правил классификации для отдельных рубрик (явное задание предпоч-
тительных статистических моделей, задание необходимых, достаточных и исключающих
логических правил на специальном языке).
Индексирование [4]
1. Среди множества документов, количество и размер которых могут быть очень
большими, отбираются только те из них, которые отвечают какому-либо условию, напри-
мер, содержат ту или иную фразу.
2. Работа с индексами происходит при помощи свободной программной библиотеки
Lucene, которая может сохранять / извлекать в индексе оригинальное (неизменное) значе-
ние. Нести дополнительную информацию о найденном документе. Позволяет задейство-
ISSN 1028-9763. Математичні машини і системи, 2014, № 2 63
вать механизмы анализа содержимого данного документа на этапе создания индекса (вы-
деление слов из набора букв и пробелов между ними). Хранит дополнительную информа-
цию о позициях тех или иных слов в теле документа, что значительно ускоряет процесс
поиска найденных вхождений, чем при последовательном обходе и поиске в каждом из
документов.
3. Lucene создает своеобразный мост между индексатором (сетевым пауком) и ло-
кальним поиском среди коллекции документов. Содержит общую информацию и исполь-
зуется совместно обоими модулями.
Кластеризация текстовых коллекций
1. Вычислительное определение наличия и состава тематически (содержательно)
однородных групп в текстовой коллекции в случае, когда априорное описание групп от-
сутствует.
2. В результате кластеризации для каждой из найденных тематических групп опре-
деляются состав группы (список входящих в группу документов), ключевые слова и анно-
тация группы, дающие пользователю агрегированную информацию о тематике документов
группы.
3. Основные тематические группы по запросу пользователя могут быть дополни-
тельно объединены в более крупные группы, а внутри каждой из групп могут быть выде-
лены более мелкие тематические подгруппы (проведена вторичная кластеризация).
Доступ к информации
1. Разбор запроса к поисковой системе от пользователя и/или администратора.
2. Использование возможностей поисковой системы для предоставления ответа
пользователю (полнотекстовый поиск, ограничения найденного набора определенным до-
меном – диапазон дат, рубрик, авторов и др.).
3. Внесение изменений к весу, ранжирование того или иного элемента документа,
отдельного термина и последовательности лексем.
4. Просмотр последовательности принятия решения об отнесении документа к оп-
ределенной теме или поисковому домену.
5. Сохранение и предоставление статистических данных о работе системы.
Прямое общение пользователей (чат)
1. Обмен короткими текстовыми сообщениями (чат) при помощи функционала гра-
фического пользовательского интерфейса(GUI) между активными, то есть, находящимися
в данный момент в системе, пользователями.
2. Чат является отдельным программным модулем, скрытым за общим пользова-
тельским интерфейсом.
3. Вариации структуры чата:
“head-to-head” есть только один канал, с одной стороны которого сервер, с другой –
клиент. Multy-user-структура – один сервер и множество клиентов. Сервер при этом вы-
полняет обработку входящих сообщений, пересылает их по нужным каналам, регистриру-
ет пользователей и показывает всем, сколько пользователей общаются в текущий момент.
Консультация в реальном времени (On-line)
Консультация необходима в случаях, когда пользователь по тем или иным причи-
нам не смог найти интересующую его информацию (неправильная формулировка запроса,
нет информации в базе данных), а также в ряде других случаев.
Вариации консультации: текстовая консультация (подобие чата между экспертом и
пользователем), телефония (горячие номера call center), интернет-телефония (реализация
64 ISSN 1028-9763. Математичні машини і системи, 2014, № 2
аналога программ (Skype, Viber), входящего в состав системы, или использование ориги-
нальных продуктов).
3. Выводы
Предложенная автоматизированная система обработки больших динамичных коллекций
разноязычных електронных документов по морскому и речному делу позволит оптимизи-
ровать затраты на обработку текстовой информации. Предоставит доступ к важной ин-
формации (правовые документы, резолюции, новостные сводки и др.) на всех основных
языках мира. Станет универсальным инструментом для организаций и учреждений, рабо-
тающих в сфере морских и речных дел.
СПИСОК ЛИТЕРАТУРЫ
1. Типовая технология работы с документами [Электронный ресурс]. – Режим доступа:
http://www.delcomp.ru/002_9.html.
2. Литвинов В.В. SVM при классификации мультиязычных текстов / В.В. Литвинов, О.П. Мойсе-
енко // Вісник ЧДТУ. – 2013. – № 4.
3. Пескишева Т.А. Параллельная реализация алгоритма обучения системы текстовой классифика-
ции / Т.А. Пескишева, Е.В. Котельников // Вестник УГАТУ. – 2011. – Т. 15, № 4 (44). – С 130 – 136.
4. Открытая программная библиотека Lucene [Электронный ресурс]. – Режим доступа:
http://lucene.apache.org/core.
5. Международное морское право: справочник / Под ред. С.Г. Горшкова. – М.: Воениздат, 1985.
6. Weston J. Support Vector Machines for Multi-Class Pattern Recognition [Электронный ресурс] /
J. Weston. – Режим доступа: https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es1999-461.pdf.
Стаття надійшла до редакції 20.01.2014
|
| id | nasplib_isofts_kiev_ua-123456789-84382 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1028-9763 |
| language | Russian |
| last_indexed | 2025-11-30T21:46:06Z |
| publishDate | 2014 |
| publisher | Інститут проблем математичних машин і систем НАН України |
| record_format | dspace |
| spelling | Литвинов, В.В. Мойсеенко, О.П. 2015-07-06T19:23:25Z 2015-07-06T19:23:25Z 2014 Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу / В.В. Литвинов, О.П. Мойсеенко // Математичні машини і системи. — 2014. — № 2. — 59-64. — Бібліогр.: 6 назв. — рос. 1028-9763 https://nasplib.isofts.kiev.ua/handle/123456789/84382 004.912: 004.632 Представлена система автоматизированной обработки больших объемов динамической текстовой информации. Система выполняет функции поиска, классификации, рубрикации и кластеризации текстовых документов по запросам пользователя. Представлена система автоматизованої обробки великих об'ємів динамічної текстової інформації. Система виконує функції пошуку, класифікації, рубрикації та кластеризації текстових документів за запитами користувача. The system of automated processing of large volumes of dynamic, text information was represented. The system performs search functions, classification, categorization and clusterization of text documents at user requests ru Інститут проблем математичних машин і систем НАН України Математичні машини і системи Інформаційні і телекомунікаційні технології Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу Автоматизована система обробки динамічних колекцій різномовних текстових документів по морській та річковій справі An automated system for processing dynamic collections of multilingual text documents on marine and river business Article published earlier |
| spellingShingle | Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу Литвинов, В.В. Мойсеенко, О.П. Інформаційні і телекомунікаційні технології |
| title | Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу |
| title_alt | Автоматизована система обробки динамічних колекцій різномовних текстових документів по морській та річковій справі An automated system for processing dynamic collections of multilingual text documents on marine and river business |
| title_full | Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу |
| title_fullStr | Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу |
| title_full_unstemmed | Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу |
| title_short | Автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу |
| title_sort | автоматизованная система обработки динамических коллекций разноязычных текстовых документов по морскому и речному делу |
| topic | Інформаційні і телекомунікаційні технології |
| topic_facet | Інформаційні і телекомунікаційні технології |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/84382 |
| work_keys_str_mv | AT litvinovvv avtomatizovannaâsistemaobrabotkidinamičeskihkollekciiraznoâzyčnyhtekstovyhdokumentovpomorskomuirečnomudelu AT moiseenkoop avtomatizovannaâsistemaobrabotkidinamičeskihkollekciiraznoâzyčnyhtekstovyhdokumentovpomorskomuirečnomudelu AT litvinovvv avtomatizovanasistemaobrobkidinamíčnihkolekcíiríznomovnihtekstovihdokumentívpomorsʹkíitaríčkovíispraví AT moiseenkoop avtomatizovanasistemaobrobkidinamíčnihkolekcíiríznomovnihtekstovihdokumentívpomorsʹkíitaríčkovíispraví AT litvinovvv anautomatedsystemforprocessingdynamiccollectionsofmultilingualtextdocumentsonmarineandriverbusiness AT moiseenkoop anautomatedsystemforprocessingdynamiccollectionsofmultilingualtextdocumentsonmarineandriverbusiness |