Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf

Описана разработка программного модуля в виде веб-сервиса для автоматизированного построения тезаурусов на основе комбинированного метода выявления важных терминов и связей в тексте и алгоритма автоматизированного итеративного построения терминологий в коллекциях научных текстов на украинском языке....

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Управляющие системы и машины
Дата:2014
Автори: Глибовец, А.Н., Решетнев, И.В.
Формат: Стаття
Мова:Російська
Опубліковано: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2014
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/83501
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf / А.Н. Глибовец, И.В. Решетнев // Управляющие системы и машины. — 2014. — № 5. — С. 42-49. — Бібліогр.: 13 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859901083010203648
author Глибовец, А.Н.
Решетнев, И.В.
author_facet Глибовец, А.Н.
Решетнев, И.В.
citation_txt Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf / А.Н. Глибовец, И.В. Решетнев // Управляющие системы и машины. — 2014. — № 5. — С. 42-49. — Бібліогр.: 13 назв. — рос.
collection DSpace DC
container_title Управляющие системы и машины
description Описана разработка программного модуля в виде веб-сервиса для автоматизированного построения тезаурусов на основе комбинированного метода выявления важных терминов и связей в тексте и алгоритма автоматизированного итеративного построения терминологий в коллекциях научных текстов на украинском языке. Формат тезауруса JSON-LD избран с учетом возможности публикации полученных терминологических связей в стандартизированном виде сетевого доступа к ресурсам, и с позиций понимания тезауруса как полноценного программного модуля поисковой системы научных материалов. The development of a software module in the form of a web service for thesauruses automated construction based on the combined method of identifying important terms and links in the text and automated iterative algorithm for constructing terminologies in the collections of scientific texts in Ukrainian language is described. Thesaurus format JSON-LD was elected with the possibility to publish the terminological relationships in a standardized form of network access to the resources, and from the standpoint of understanding the thesaurus software module as a part of search engine system. Описано розробку програмного модуля у вигляді веб-сервісу для автоматизованої побудови тезаурусів на основі комбінованого методу виявлення важливих термінів і зв'язків у тексті і алгоритму автоматизованої ітеративної побудови термінологій в колекціях наукових текстів українською мовою. Формат тезауруса JSON-LD обрано з урахуванням можливості публікації отриманих термінологічних зв'язків у стандартизованому вигляді мережевого доступу до ресурсів, і з позицій розуміння тезауруса як повноцінного програмного модуля пошукової системи наукових матеріалів
first_indexed 2025-12-07T15:57:53Z
format Article
fulltext 42 УСиМ, 2014, № 5 Программная инженерия и программные средства УДК 681.3: 658.56 А.Н. Глибовец, И.В. Решетнев Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf Описана разработка программного модуля в виде веб-сервиса для автоматизированного построения тезаурусов на основе ком- бинированного метода выявления важных терминов и связей в тексте и алгоритма автоматизированного итеративного по- строения терминологий в коллекциях научных текстов на украинском языке. Формат тезауруса JSON-LD избран с учетом воз- можности публикации полученных терминологических связей в стандартизированном виде сетевого доступа к ресурсам, и с позиций понимания тезауруса как полноценного программного модуля поисковой системы научных материалов. The development of a software module in the form of a web service for thesauruses automated construction based on the combined method of identifying important terms and links in the text and automated iterative algorithm for constructing terminologies in the col- lections of scientific texts in Ukrainian language is described. Thesaurus format JSON-LD was elected with the possibility to publish the terminological relationships in a standardized form of network access to the resources, and from the standpoint of understanding the thesaurus software module as a part of search engine system. Описано розробку програмного модуля у вигляді веб-сервісу для автоматизованої побудови тезаурусів на основі комбіновано- го методу виявлення важливих термінів і зв'язків у тексті і алгоритму автоматизованої ітеративної побудови термінологій в колекціях наукових текстів українською мовою. Формат тезауруса JSON-LD обрано з урахуванням можливості публікації отриманих термінологічних зв'язків у стандартизованому вигляді мережевого доступу до ресурсів, і з позицій розуміння теза- уруса як повноцінного програмного модуля пошукової системи наукових матеріалів. Введение. Сфера научных исследований – наиболее продуктивная форма как обогащения человеческого понятийного пространства но- выми концептами и связями, так и непосред- ственно связанным с этим лексическим про- цессом словообразования для описания новых концепций. Зачастую в таких условиях темпы создания и актуализации словарей не поспе- вают за прогрессом в новейших исследовани- ях, в силу объективных причин сложности изучаемых сфер и изменчивости понятий со временем [1]. Вместе с тем сохраняется острая необходимость взаимопонимания среди иссле- дователей, что требует как унифицированной и доступной терминологической базы, так и ка- чественной поисковой системы научных доку- ментов. Одним из эффективных способов улучше- ния релевантности поисковой выдачи таких Ключевые слова: Google API, MongoDB, Apache Lucene, PDFBox, Jlemmagen, JlanguageTool, Spring REST, доку- мент, связь «общее–частное», гипонимия. систем служит использование тезауруса, т.е. справочника характера и силы связей между терминами. Автоматизированный метод по- строения тезаурусов лучше других подходит для сферы научных исследований из-за высо- ких темпов обновления информации и связан- ной высокой себестоимостью участия экспер- тов. В [2] описан разработанный авторами ме- тод автоматизированного определения важных украиноязычных терминов и терминологиче- ских связей между ними и алгоритм автома- тизированного итеративного построения тер- минологий в коллекциях научных текстов на украинском языке. Также описана разработка программной реализации предложенного под- хода как компонента поисковой системы ук- раиноязычных научных документов, созданной на факультете информатики Национального университета «Киево-Могилянская академия». Актуальность данного исследования обу- словлена появлением в открытом доступе при- кладных решений для анализа текстов на ук- раинском языке с возможностями использова- УСиМ, 2014, № 5 43 ния таких методов, как лемматизация и теги- рование по частям речи. При разработке моду- ля учтены ограниченность выпущенных доку- ментарных коллекций на украинском языке и возможность итеративного добавления доку- ментов в терминологическую базу с последу- ющим обновлением содержания тезауруса. Программная реализация Сбор данных. Этап начального сбора дан- ных необходим для построения справочной сис- темы документарных частот терминов, а также для использования при проведении тестирова- ния алгоритма на точность составления тезау- русов. Поэтому для сбора документов из от- крытых источников, в частности выпусков журнала «Научные записки НаУКМА», был разработан специальный скрипт, который пе- ребирал страницы сайтов архива [3] и сохра- нял все документы в каталогах по годам и те- мам. Разбиение по темам использовано для создания различных тематических тезаурусов на этапе тестирования. Всего из данной кол- лекции было использовано 2926 текстовых до- кументов за 1996–2013 годы издания. Справочный компонент документарной частоты. Решение на основе внешней поис- ковой системы. Построить документарную частоту по небольшой коллекции, а тем более по одному документу очень сложно. Проще использовать уже существующую документар- ную частоту термина из поисковой системы. В качестве примера была выбрана поисковая сис- тема Google, которая вместе с результатами обычного поиска всегда возвращает приблизи- тельное количество результатов поисковой вы- дачи. Данный показатель и был взят в качестве документарной частоты термина. Во время разработки вспомогательных методов для из- влечения данного показателя из поисковой вы- дачи было принято решение, что обычный парсинг веб-страниц поисковой выдачи – это громоздкое решение, так как для одного чи- словго показателя приходилось запрашивать и разбирать целую веб-страницу, содержащую много несущественных данных. Поэтому был написан клиент сервиса Google Custom Search RESTful API [4] с соответствующими настрой- ками в консоли сервиса Google. В качестве ре- зультата был реализован программный метод, возвращающий по данному термину его доку- ментарную частоту, причем количество интер- нет-трафика для таких запросов минимален. Однако возникает другая проблема для ис- пользования Google API: квоты свободного доступа, которые составляют 100 запросов в день. Конечно, чтобы обрабатывать большие документы и определять, какие термины в них важны, необходимо узнать документарную ча- стоту каждого. Поэтому было принято реше- ние, во-первых, хранить в локальном кэше все найденные документарные частоты, и в пер- вую очередь обращаться к нему, что с течени- ем времени приведет к образованию достаточ- но полной базы терминов, и, во-вторых, сохра- нить возможность обрабатывать обычные веб- страницы поиска на случай исчерпания квоты. Кэш, как и другие данные промежуточной работы алгоритма, было решено хранить в до- кументарной базе MongoDB. Решение на основе индексации эталон- ной коллекции документов. В качестве эта- лонной коллекции выбраны все выпуски жур- нала «Научные записки НаУКМА», получен- ные на этапе сбора данных статей в откры- том доступе. В процессе подготовки решения структура каталогов эталонной коллекции была выров- нена, и все документы собраны в одной дирек- тории. Для осуществления индексации коллек- ции использовано решение от Apache Lucene, так же, как и в финальном варианте рабочей системы. Доступ к программному интерфейсу библиотеки индексации осуществлялся из Java- кода, и специально для данной задачи созда- ния начального индекса документарных частот терминов была создана отдельная конфигура- ция запуска программы. Этапы работы данной программы таковы:  Считывание параметров директории, со- держащей документы коллекции, а также от- дельной временной конфигурации докумен- тарной базы данных MongoDB для хранения промежуточных результатов поиска докумен- тарных частот. 44 УСиМ, 2014, № 5  Создание нового индекса Apache Lucene.  Подокументный разбор PDF и добавление текстов в индекс.  Просмотр индекса и сохранение докумен- тарных частот всех терминов в документарной базе.  Дамп документарной базы для дальнейше- го использования в качестве начального на- полнения коллекции документарных частот при обычной работе метода. В итоге после индексации коллекции и филь- трации терминов в дампе насчитывалось около 143 тыс. терминов. Выбор готовых решений для реализации алгоритма. При разработке метода итератив- ного построения терминологии были исполь- зованы готовые решения для реализации эле- ментарных операций статистических и лекси- кографических методов, таких как разбор до- кументов формата pdf, индексирование, под- счет частот терминов, поиск документов в кол- лекции по фразе и тегирование по частям речи. Рассмотрим выбранные авторами инструменты для решения данных прикладных задач. Библиотеки и утилиты Apache Lucene [5] использованы в качестве основы для системы индексации входящих текстовых документов и разбиения на однословные термины, а также в качестве базовой системы поиска характери- стических фрагментов текста, что на основе построенного индекса позволяет найти доку- менты, в которые входит искомый термин, и таким образом значительно ускоряет поиск в сравнении с линейным прохождением по всем документам. PDFBox [6] – утилитарная библиотека для разбора файлов в формате pdf. Главное пре- имущество данного решения – совместимость с форматом документа Apache Lucene, что по- зволяет передавать разобранный документ сра- зу в подсистему индексации. Jlemmagen [7] – один из ключевых компо- нентов готовых решений для разбора украи- ноязычной терминологии, представляющий со- бой коллекцию утилит для работы в сфере об- работки естественного языка, в частности со- держащий лемматизатор, способный приводить поданные на вход слова из текста в нормаль- ную форму в соответствии с правилами языка. Данное решение достаточно ново, и его основ- ное преимущество – поддержка украинского языка, а также совместимость с языковыми анализаторами библиотек индексации Apache Lucene. JlanguageTool [8] – библиотека с набором утилитарных методов работы с текстом, содер- жащая компонент тегирования по частям речи, поддерживающая украинский язык, приводя- щая слова в нормальную форму, а также син- тезирующая словоформы по указанным тегам. Это решение использовано в первую очередь для реализации лексикографических методов сопоставления с шаблонами. Google Custom Search API [9] – сервис, ис- пользованный для одного из способов получе- ния репрезентативной документарной частоты термина из внешней поисковой системы. MongoDB [10] – документарная база дан- ных, использованная в качестве основного хра- нилища разработанной системы. В базе хра- нятся как собственно термины с посчитанны- ми документарными частотами, так и связи между терминами, составляющими информа- ционную основу тезуаруса. Выбор докумен- тарной базы обусловлен совместимостью фор- матов: принятое решение спроектировано для поддержки формата JSON, что в свою очередь служит базой для формата JSON-LD как кон- кретной спецификации RDF, выбранной для публикации тезауруса. Таким образом, с архи- тектурной точки зрения, в системе будет пред- ставлен только один формат данных как для хранения, так и для публикации данных клиен- там через веб-сервисы, что должно обеспечить масштабируемость и поддержку такой систе- мы в дальнейшем. Spring REST [11] – java-фреймворк, предна- значенный для поддержки разработки про- граммных систем в виде RESTful веб-сервисов. Использован в качестве базовой технологии при разработке программного прикладного ин- терфейса, что предоставляет доступ к скачива- нию готового тезауруса, добавлению новых УСиМ, 2014, № 5 45 документов в коллекции и навигации по тер- минам и связям различных тезаурусов. Архитектура системы обработки доку- ментов для построения терминологии. В ка- честве системы, которая должна предоставить удобный доступ к функциональности разрабо- танного метода, было решено разработать веб- сервис с возможностью построения из имею- щихся у пользователя документов тезауруса в формате RDF (рис. 1). Рис. 1. Компонентная схема системы Согласно приведенной схеме, роль доступа к функциональности ядра системы отведена на уровень REST-контроллеров системы. Функ- ции ядра состоят в обработке запросов от про- граммного интерфейса и в интеграции разра- ботанных компонентов системы и алгоритмов. В частности, ядро имеет доступ к файловой системе для сохранения полученных при за- грузке в коллекцию документов, а также через промежуточную модель данных получает дос- туп к документарной базе во время сериализа- ции тезауруса в формате RDF. К алгоритмам поиска терминов и связей, в свою очередь тес- но связанным с подсистемами индексации до- кументов и вспомогательными библиотеками тегирования по частям речи, относятся стати- стические методы поиска необходимых тер- минов на основе взвешивания, методы поиска связей по лексикографическим шаблонам и вспомогательные подходы, связанные с досту- пом к данным, поиском характеристических фрагментов текста, согласованием словосоче- таний. Более детально реализацию компонентов системы можно представить в виде диаграммы классов (рис. 2). Классы IndexController и RDFController от- ветственны за предоставление HTTP-интер- фейса веб-сервиса к функциям управления коллекциями, добавления новых документов и просмотра тезаурусов в нескольких вариантах форматирования. Группа классов Termin, TermInDoc и Term- Relation относится к модели данных и исполь- зуется как на этапе применения алгоритма по- иска, так и в качестве спецификации структу- ры соответствующих сущностей документар- ной базы MongoDB. С помощью абстракции репозитория, предоставляемой фреймворком Spring Data [13], можно применить статичес- кую типизацию интерфейсов соответствующих TerminRepository, TermInDocRepository и Term- RelationRepository для связи приведенных про- кси-классов с библиотеками работы с базой данных. Класс IndexFacade выполняет роль ядра сис- темы, сочетая компоненты системы в опреде- ленные функциональные блоки для выполне- ния основных операции, таких как добавление и индексация нового документа. Среди классов, непосредственно содержа- щих методы поиска терминов и связей, ключе- вая роль принадлежит TopTfIDfNounExtractor и RelationFinder. Первый выполняет инструкции статистического этапа разработанного метода по поиску необходимых терминов, их взвеши- ванию, сортировке и фильтрации полученного их списка. Второй непосредственно содержит статически заданную коллекцию лексикогра- фических шаблонов, и получает с их помощью связи между терминами, поочередно применяя шаблоны к коллекциям предложенных харак- теристических фрагментов текста. Кроме приведенных на диаграмме клас- сов, в коде реализации существуют и другие утилитарные компоненты системы, связан- ные с интеграцией с готовыми решениями и 46 УСиМ, 2014, № 5 решением прикладных задач по обработке текста и управлению коллекциями на уровне пользователя. Спецификация программного интерфей- са доступа к системе. Прикладной программ- ный интерфейс разработанной системы пред- ставляет собой способ доступа к программе с возможностями создания и просмотра тезауру- сов. Предусмотрены два варианта доступа к функциональности системы: RESTful API, что позволяет обращаться к системе по протоколу HTTP; консольное приложение для локальной пакетной обработки коллекций документов, используемое в частности для тестирования ал- горитма. Формат сериализации тезауруса на базе JSON-LD. К основным секциям данного фор- мата относится узел @context, в котором при- водится список ссылок к типам данных внутри тела документа, и собственно начальный узел тела документа, обозначенный как @graph. В рамках работы над форматом представления тезаурусов проведен анализ формата JSON- LD, в особенности рекомендаций относи- тельно обозначения абстрактных концептов RDF для тезаурусов в соответствии со стан- дартом ISO-25964 [12]. В результате определен минимальный набор полей и их типов, удов- летворяющих потребности сериализации тер- минов и связей. Ссылки на соответствующие типы данных указаны в узле контекста. Т а б л и ц а 1. Cпецификация точки доступа программного интерфейса работы с тезаурусом HTTP- метод URI Предназначение GET /rdf/{indexName}/ Получить тезаурус по имени GET /rdf/{index Name}/compact Доступ к тезаурусу в компактной форме. В список терминов включены только те, для которых найдены связи GET /rdf/{index Name}/human Вывод тезауруса в удобной форме для чтения и просмотра связей Рис. 2 UML-диаграмма основных классов системы построения тезаурусов УСиМ, 2014, № 5 47 Т а б л и ц а 2. Спецификация точки доступа к программному интерфейсу управления коллекциями HTTP- метод URI Предназначение GET /index/ Получить список коллекций документов в системе POST /index/{indexName}/ Создание новой коллекции с именем GET /index/{indexName}/ Просмотр статистической ин- формации по коллекции: назва- ние, количество документов, терминов и найденных связей DELETE /index/{indexName} Удаление коллекции и связан- ного тезауруса POST /index/{indexName}/ upload Загрузка файла в формате pdf к коллекции документов; метод инициирует запуск алгоритма перестроения тезауруса с уче- том данных нового документа Пример сериализованного в формате JSON- LD тезауруса приведен далее. { "@context" : { "iso25964" : "http://www.niso.org/schemas/iso25964/iso25964-1_v1.4.xsd#", "thesaurus" : "iso25964:Thesaurus", "concept" : "iso25964:ThesaurusConcept", "relation" : "iso25964:HierarchicalRelationship", "role" : "iso25964:role", "baseConcept" : "iso25964:isHierRelConcept", "depConcept" : "iso25964:hasHierRelConcept", "lexicalValue" : "iso25964:lexicalValue" }, "@graph" : { "thesaurus" : { "concept" : [ { "@id" : "C1", "lexicalValue" : "наука" }, { "@id" : "C2", "lexicalValue" : "філософія" } ], "relation" : [ { "baseConcept" : "C1", "depConcept" : "C2", "role" : "NT" } ] } Непосредственно к узлу тезауруса в теле документа, в соответствии с указанным фор- матом, размещаются коллекции концептов и связей. При этом структура концептов связы- вает их идентификаторы с лексическими зна- чениями терминов, а связи в свою очередь свя- зывают идентификаторы терминов между со- бой с указанием типа связи. Анализ результатов Приведены результаты тестирования и при- менения алгоритма и модуля для построения терминологии в виде RDF-схемы с использо- ванием реальных текстовых коллекций украи- ноязычной научной периодики. Схема тестирования и оценка результа- тов. Для тестирования работы алгоритма было решено разработать систему конфигураций для удобного и гибкого просмотра различных вариаций алгоритма на различных данных с учетом необходимости оптимизации скорости таких тестирований, а также с замером основ- ных характеристик выполнения отдельных ша- гов алгоритма. Для данного случая наиболее приемлема реализация отдельных интеграционных тес- тов, которые будут содержать независимые конфигурации окружения, такие как реали- зация документарной базы в памяти для каж- дого теста [13]. Схема тестирования – необходимый ком- понент системы как для исследования точно- сти найденных терминологических связей между терминами, так и для рассмотрения модификаций алгоритма при поиске наиболее эффективного подбора параметров, включае- мых в финальную реализацию системы как веб-сервиса. При создании схемы тестирования проведе- ны следующие работы: получен единый фор- мат тезауруса для сравнения; зафиксирована модификация разработанного метода; настрое- на тестовая среда, позволяющая запускать про- смотры алгоритмов; найдена совокупность ре- альных текстовых научных материалов для сравнения алгоритмов; разработана метрика точ- ности поиска. Для проверки результатов работы алгорит- ма было решено построить несколько тезауру- сов на основе различных тематических разде- лов украиноязычного журнала «Научные за- писки НаУКМА», сгруппировав коллекции текстов по различным темам за несколько лет, а также двух контрольных тезаурусов, не свя- занных с данным журналом. Контрольные те- заурусы были составлены документами из пе- риодических изданий на две темы, не вклю- ченные в эталонную коллекцию. Такой кон- троль необходим для минимизации влияния 48 УСиМ, 2014, № 5 начального фильтра необходимых терминов, который в данной статье построен на основе всех тем журнала «Научные записки НаУК- МА» за все годы, и поэтому заведомо лучше работающем, чем с произвольной коллекцией. В сводную таблицу по каждому тезаурусу собрана следующая статистика:  количество: документов в базовой коллек- ции текстов; — найденных терминов при на- чальной фильтрации; — добавленных терминологичес- ких словосочетаний и общее количество терминов; — найденных связей; — связей по типам RT, BT и NT;  измеренный коэффициент точности поис- ка связей. Коэффициент точности метода измерялся следующим образом. Из составленного тезау- руса избирались случайно N найденных связей и проводилась оценка релевантности связи между терминами на основе обращения к пер- воначальному тексту. Коэффициент точности имел следующее правило расчета: 2 1 0,5 2 , 2,5pr N N c N    где: N1 соответствует количеству релевантных связей из N без учета направления связи; N2 – количество правильно распознанных по направ- лению связей типа BT и NT соответственно. Введенные в формулу расчета весовые ко- эффициенты выделяют первостепенную важ- ность нахождения простых связей. Результаты тестирования метода на те- матических коллекциях документов. В сред- нем точность разработанного метода на дан- ных тестовых запусках составляет 70,5 процен- та, и такой показатель приемлем для данного метода. В результате тестирования на примерах кол- лекций замечены следующие закономерности:  большинство совпадений приходится на шаблон LP1 [2], обозначающий прямые опре- деления в тексте;  метод предоставил, как и было преду- смотрено, меньшую точность поиска на кон- трольных коллекциях, однако деградация точ- ности не стала существенной;  шаблоны типа LP2-4 [2] находили доволь- но мало связей, около 20 на 6 тыс. фраз. Отмеченные закономерности свидетельству- ют о том, что лексикографический метод до- вольно чувствителен к формальной записи от- дельных шаблонов, а также указывает на не- достаточную полноту коллекции по размеру и покрытию научной сферы. Действительно, коллекции из 50–90 документов разносторон- них статей, объединенных только широкой те- матикой научной отрасли, публикуемых в жур- нале «Научные записки НаУКМА» и в других периодических изданиях, нельзя считать дос- таточно полными, чтобы метод лексикографи- ческих шаблонов по Хеарсту дал ожидаемые результаты. На основе анализа можно внести следующие предложения относительно увеличения полноты и точности метода: использование стохастиче- ского метода для устранения неоднозначно- Т а б л и ц а 3. Результаты тестирования метода на коллекциях научных текстов Построено связей Релевантность № Название коллекции Количество документов Найдено терминов RT BT, NT N N1 N2 Оценка точности, Cpr 1 Компьютерные науки 96 785 47 195 20 18 14 0,86 2 Философия и религио- ведение 45 1026 35 234 20 16 12 0,76 3 Экономические науки 58 890 20 195 20 15 15 0,75 4 Юридические науки 66 748 51 47 20 13 10 0,62 5 Биотехнологии, кон- трольная коллекция [1] 35 464 10 142 20 12 11 0,59 6 Социология, контроль- ная коллекция [8] 27 627 28 94 20 14 9 0,65 УСиМ, 2014, № 5 49 стей в трактовке тегов частей речи слов в кон- тексте; использование большего количества грамматических правил согласования слов в терминологических словосочетаниях во время приведения фраз к нормальной форме; увели- чение количества лексикографических шабло- нов и длины синонимических рядов опреде- ляющих лексем шаблона для достижения боль- шей полноты поиска связей; применение боль- ших коллекций документов для анализа, а так- же для построения эталонной коллекции сро- ков документарных частот. Заключение. Тестирование реализации пред- ложенного метода на тематических коллекциях научных текстов продемонстрировало эффек- тивность алгоритма и достаточную его точность в рамках разработанных шаблонов. Полученный программный модуль продемонстрировал свои прикладные возможности для тестовых коллек- ций данных, и может быть использован как со- ставляющая часть поисковой системы украиноя- зычных научных материалов. 1. Искусство и ремесло лексикографии Сидни И. Лен- дау: Словари. – К.: К.И.С. – 2012. – 480 с. 2. Алгоритми обробки текстів вільної форми для отримання фактів і зв’язків між ними / А.М. Глибо- вець, О.О. Марченко, Д.В. Циганок та ін. // Наук. записки НаУКМА. Комп’ютерні науки. – Т. 138. – 2012. – С. 35–39. 3. Наукові записки НаУКМА: Архив. Веб. 12.04.2014 – <http://nz.ukma.edu.ua/index.php?option=com_content- &task=section&id=10&Itemid=47> і <http://www.ek- mair.ukma.kiev.ua/> 4. Custom Search // Google Developers. Web. 08 Apr. 2014. – <https://developers.google.com/custom-search/ json-api/v1/overview> 5. Apache Lucene Core // Apache Lucene. Web. 08 Apr. 2014. – <http://lucene.apache.org/core/> 6. Apache PDFBox – A Java PDF Library // Apache PDFBox. Web. 08 June 2014. – <http://pdfbox. apache. org/> 7. Bitbucket. Hlavki // JLemmaGen. Web. 08 Apr. 2014. – <https://bitbucket.org/hlavki/jlemmagen> 8. LanguageTool Wiki. – Java API. Web. 08 Apr. 2014. – <http://wiki.languagetool.org/java-api> 9. Custom Search // Google Developers. Web. 08 Apr. 2014. – <https://developers.google.com/custom-search/ json-api/v1/overview> 10. Agile and Scalable // MongoDB. Web. 05 Apr. 2014. – <http://www.mongodb.org/> 11. Building a RESTful. Web Service // Getting Started. Web. 08 Apr. 2014. – <https://spring.io/guides/gs/rest- service/> 12. ISO 25964 – the International Standard for Thesauri and Interoperability with Other Vocabularies // ISO 25964 Thesaurus Schemas. Web. 08 Apr. 2014. – <http://www.niso.org/schemas/iso25964/> 13. Spring MongoDB Tutorial // Spring MongoDB Tuto- rial. Web. 08 Apr. 2014. – <http://bits-and-kites.blog- spot.com/2014/01/spring-mongodb-tutorial.html> Поступила 18.07.2014 Тел. для справок: +38 067 409-4355, 095 506-6611 (Киев) E-mail: andriy@glybovets.com.ua, reshet.ukr@gmail.com© А.М. Глибовец, И.В. Решетнев, 2014  Внимание ! Оформление подписки для желающих опубликовать статьи в нашем журнале обязательно. В розничную продажу журнал не поступает. Подписной индекс 71008 << /ASCII85EncodePages false /AllowTransparency false /AutoPositionEPSFiles true /AutoRotatePages /None /Binding /Left /CalGrayProfile (Dot Gain 20%) /CalRGBProfile (sRGB IEC61966-2.1) /CalCMYKProfile (U.S. Web Coated \050SWOP\051 v2) /sRGBProfile (sRGB IEC61966-2.1) /CannotEmbedFontPolicy /Error /CompatibilityLevel 1.4 /CompressObjects /Tags /CompressPages true /ConvertImagesToIndexed true /PassThroughJPEGImages true /CreateJobTicket false /DefaultRenderingIntent /Default /DetectBlends true /DetectCurves 0.0000 /ColorConversionStrategy /CMYK /DoThumbnails false /EmbedAllFonts true /EmbedOpenType false /ParseICCProfilesInComments true /EmbedJobOptions true /DSCReportingLevel 0 /EmitDSCWarnings false /EndPage -1 /ImageMemory 1048576 /LockDistillerParams false /MaxSubsetPct 100 /Optimize true /OPM 1 /ParseDSCComments true /ParseDSCCommentsForDocInfo true /PreserveCopyPage true /PreserveDICMYKValues true /PreserveEPSInfo true /PreserveFlatness true /PreserveHalftoneInfo false /PreserveOPIComments true /PreserveOverprintSettings true /StartPage 1 /SubsetFonts true /TransferFunctionInfo /Apply /UCRandBGInfo /Preserve /UsePrologue false /ColorSettingsFile () /AlwaysEmbed [ true ] /NeverEmbed [ true ] /AntiAliasColorImages false /CropColorImages true /ColorImageMinResolution 300 /ColorImageMinResolutionPolicy /OK /DownsampleColorImages true /ColorImageDownsampleType /Bicubic /ColorImageResolution 300 /ColorImageDepth -1 /ColorImageMinDownsampleDepth 1 /ColorImageDownsampleThreshold 1.50000 /EncodeColorImages true /ColorImageFilter /DCTEncode /AutoFilterColorImages true /ColorImageAutoFilterStrategy /JPEG /ColorACSImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /ColorImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /JPEG2000ColorACSImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /JPEG2000ColorImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /AntiAliasGrayImages false /CropGrayImages true /GrayImageMinResolution 300 /GrayImageMinResolutionPolicy /OK /DownsampleGrayImages true /GrayImageDownsampleType /Bicubic /GrayImageResolution 300 /GrayImageDepth -1 /GrayImageMinDownsampleDepth 2 /GrayImageDownsampleThreshold 1.50000 /EncodeGrayImages true /GrayImageFilter /DCTEncode /AutoFilterGrayImages true /GrayImageAutoFilterStrategy /JPEG /GrayACSImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /GrayImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /JPEG2000GrayACSImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /JPEG2000GrayImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /AntiAliasMonoImages false /CropMonoImages true /MonoImageMinResolution 1200 /MonoImageMinResolutionPolicy /OK /DownsampleMonoImages true /MonoImageDownsampleType /Bicubic /MonoImageResolution 1200 /MonoImageDepth -1 /MonoImageDownsampleThreshold 1.50000 /EncodeMonoImages true /MonoImageFilter /CCITTFaxEncode /MonoImageDict << /K -1 >> /AllowPSXObjects false /CheckCompliance [ /None ] /PDFX1aCheck false /PDFX3Check false /PDFXCompliantPDFOnly false /PDFXNoTrimBoxError true /PDFXTrimBoxToMediaBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXSetBleedBoxToMediaBox true /PDFXBleedBoxToTrimBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXOutputIntentProfile () /PDFXOutputConditionIdentifier () /PDFXOutputCondition () /PDFXRegistryName () /PDFXTrapped /False /CreateJDFFile false /Description << /ARA <FEFF06270633062A062E062F0645002006470630064700200627064406250639062F0627062F0627062A002006440625064606340627062100200648062B062706260642002000410064006F00620065002000500044004600200645062A064806270641064206290020064406440637062806270639062900200641064A00200627064406450637062706280639002006300627062A0020062F0631062C0627062A002006270644062C0648062F0629002006270644063906270644064A0629061B0020064A06450643064600200641062A062D00200648062B0627062606420020005000440046002006270644064506460634062306290020062806270633062A062E062F062706450020004100630072006F0062006100740020064800410064006F006200650020005200650061006400650072002006250635062F0627063100200035002E0030002006480627064406250635062F062706310627062A0020062706440623062D062F062B002E0635062F0627063100200035002E0030002006480627064406250635062F062706310627062A0020062706440623062D062F062B002E> /BGR <FEFF04180437043f043e043b043704320430043904420435002004420435043704380020043d0430044104420440043e0439043a0438002c00200437043000200434043000200441044a0437043404300432043004420435002000410064006f00620065002000500044004600200434043e043a0443043c0435043d04420438002c0020043c0430043a04410438043c0430043b043d043e0020043f044004380433043e04340435043d04380020043704300020043204380441043e043a043e043a0430044704350441044204320435043d0020043f04350447043004420020043704300020043f044004350434043f0435044704300442043d04300020043f043e04340433043e0442043e0432043a0430002e002000200421044a04370434043004340435043d043804420435002000500044004600200434043e043a0443043c0435043d044204380020043c043e0433043004420020043404300020044104350020043e0442043204300440044f0442002004410020004100630072006f00620061007400200438002000410064006f00620065002000520065006100640065007200200035002e00300020043800200441043b0435043404320430044904380020043204350440044104380438002e> /CHS <FEFF4f7f75288fd94e9b8bbe5b9a521b5efa7684002000410064006f006200650020005000440046002065876863900275284e8e9ad88d2891cf76845370524d53705237300260a853ef4ee54f7f75280020004100630072006f0062006100740020548c002000410064006f00620065002000520065006100640065007200200035002e003000204ee553ca66f49ad87248672c676562535f00521b5efa768400200050004400460020658768633002> /CHT <FEFF4f7f752890194e9b8a2d7f6e5efa7acb7684002000410064006f006200650020005000440046002065874ef69069752865bc9ad854c18cea76845370524d5370523786557406300260a853ef4ee54f7f75280020004100630072006f0062006100740020548c002000410064006f00620065002000520065006100640065007200200035002e003000204ee553ca66f49ad87248672c4f86958b555f5df25efa7acb76840020005000440046002065874ef63002> /CZE <FEFF005400610074006f0020006e006100730074006100760065006e00ed00200070006f0075017e0069006a007400650020006b0020007600790074007600e101590065006e00ed00200064006f006b0075006d0065006e0074016f002000410064006f006200650020005000440046002c0020006b00740065007200e90020007300650020006e0065006a006c00e90070006500200068006f006400ed002000700072006f0020006b00760061006c00690074006e00ed0020007400690073006b00200061002000700072006500700072006500730073002e002000200056007900740076006f01590065006e00e900200064006f006b0075006d0065006e007400790020005000440046002000620075006400650020006d006f017e006e00e90020006f007400650076015900ed007400200076002000700072006f006700720061006d0065006300680020004100630072006f00620061007400200061002000410064006f00620065002000520065006100640065007200200035002e0030002000610020006e006f0076011b006a016100ed00630068002e> /DAN <FEFF004200720075006700200069006e0064007300740069006c006c0069006e006700650072006e0065002000740069006c0020006100740020006f007000720065007400740065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e007400650072002c0020006400650072002000620065006400730074002000650067006e006500720020007300690067002000740069006c002000700072006500700072006500730073002d007500640073006b007200690076006e0069006e00670020006100660020006800f8006a0020006b00760061006c0069007400650074002e0020004400650020006f007000720065007400740065006400650020005000440046002d0064006f006b0075006d0065006e0074006500720020006b0061006e002000e50062006e00650073002000690020004100630072006f00620061007400200065006c006c006500720020004100630072006f006200610074002000520065006100640065007200200035002e00300020006f00670020006e0079006500720065002e> /DEU <FEFF00560065007200770065006e00640065006e0020005300690065002000640069006500730065002000450069006e007300740065006c006c0075006e00670065006e0020007a0075006d002000450072007300740065006c006c0065006e00200076006f006e002000410064006f006200650020005000440046002d0044006f006b0075006d0065006e00740065006e002c00200076006f006e002000640065006e0065006e002000530069006500200068006f006300680077006500720074006900670065002000500072006500700072006500730073002d0044007200750063006b0065002000650072007a0065007500670065006e0020006d00f60063006800740065006e002e002000450072007300740065006c006c007400650020005000440046002d0044006f006b0075006d0065006e007400650020006b00f6006e006e0065006e0020006d006900740020004100630072006f00620061007400200075006e0064002000410064006f00620065002000520065006100640065007200200035002e00300020006f0064006500720020006800f600680065007200200067006500f600660066006e00650074002000770065007200640065006e002e> /ESP <FEFF005500740069006c0069006300650020006500730074006100200063006f006e0066006900670075007200610063006900f3006e0020007000610072006100200063007200650061007200200064006f00630075006d0065006e0074006f00730020005000440046002000640065002000410064006f0062006500200061006400650063007500610064006f00730020007000610072006100200069006d0070007200650073006900f3006e0020007000720065002d0065006400690074006f007200690061006c00200064006500200061006c00740061002000630061006c0069006400610064002e002000530065002000700075006500640065006e00200061006200720069007200200064006f00630075006d0065006e0074006f00730020005000440046002000630072006500610064006f007300200063006f006e0020004100630072006f006200610074002c002000410064006f00620065002000520065006100640065007200200035002e003000200079002000760065007200730069006f006e0065007300200070006f00730074006500720069006f007200650073002e> /ETI <FEFF004b00610073007500740061006700650020006e0065006900640020007300e4007400740065006900640020006b00760061006c006900740065006500740073006500200074007200fc006b006900650065006c007300650020007000720069006e00740069006d0069007300650020006a0061006f006b007300200073006f00620069006c0069006b0065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e00740069006400650020006c006f006f006d006900730065006b0073002e00200020004c006f006f0064007500640020005000440046002d0064006f006b0075006d0065006e00740065002000730061006100740065002000610076006100640061002000700072006f006700720061006d006d006900640065006700610020004100630072006f0062006100740020006e0069006e0067002000410064006f00620065002000520065006100640065007200200035002e00300020006a00610020007500750065006d006100740065002000760065007200730069006f006f006e00690064006500670061002e000d000a> /FRA <FEFF005500740069006c006900730065007a00200063006500730020006f007000740069006f006e00730020006100660069006e00200064006500200063007200e900650072002000640065007300200064006f00630075006d0065006e00740073002000410064006f00620065002000500044004600200070006f0075007200200075006e00650020007100750061006c0069007400e90020006400270069006d007000720065007300730069006f006e00200070007200e9007000720065007300730065002e0020004c0065007300200064006f00630075006d0065006e00740073002000500044004600200063007200e900e90073002000700065007500760065006e0074002000ea0074007200650020006f007500760065007200740073002000640061006e00730020004100630072006f006200610074002c002000610069006e00730069002000710075002700410064006f00620065002000520065006100640065007200200035002e0030002000650074002000760065007200730069006f006e007300200075006c007400e90072006900650075007200650073002e> /GRE <FEFF03a703c103b703c303b903bc03bf03c003bf03b903ae03c303c403b5002003b103c503c403ad03c2002003c403b903c2002003c103c503b803bc03af03c303b503b903c2002003b303b903b1002003bd03b1002003b403b703bc03b903bf03c503c103b303ae03c303b503c403b5002003ad03b303b303c103b103c603b1002000410064006f006200650020005000440046002003c003bf03c5002003b503af03bd03b103b9002003ba03b103c42019002003b503be03bf03c703ae03bd002003ba03b103c403ac03bb03bb03b703bb03b1002003b303b903b1002003c003c103bf002d03b503ba03c403c503c003c903c403b903ba03ad03c2002003b503c103b303b103c303af03b503c2002003c503c803b703bb03ae03c2002003c003bf03b903cc03c403b703c403b103c2002e0020002003a403b10020005000440046002003ad03b303b303c103b103c603b1002003c003bf03c5002003ad03c703b503c403b5002003b403b703bc03b903bf03c503c103b303ae03c303b503b9002003bc03c003bf03c103bf03cd03bd002003bd03b1002003b103bd03bf03b903c703c403bf03cd03bd002003bc03b5002003c403bf0020004100630072006f006200610074002c002003c403bf002000410064006f00620065002000520065006100640065007200200035002e0030002003ba03b103b9002003bc03b503c403b103b303b503bd03ad03c303c403b503c103b503c2002003b503ba03b403cc03c303b503b903c2002e> /HEB <FEFF05D405E905EA05DE05E905D5002005D105D405D205D305E805D505EA002005D005DC05D4002005DB05D305D9002005DC05D905E605D505E8002005DE05E105DE05DB05D9002000410064006F006200650020005000440046002005D405DE05D505EA05D005DE05D905DD002005DC05D405D305E405E105EA002005E705D305DD002D05D305E405D505E1002005D005D905DB05D505EA05D905EA002E002005DE05E105DE05DB05D90020005000440046002005E905E005D505E605E805D5002005E005D905EA05E005D905DD002005DC05E405EA05D905D705D4002005D105D005DE05E605E205D505EA0020004100630072006F006200610074002005D5002D00410064006F00620065002000520065006100640065007200200035002E0030002005D505D205E805E105D005D505EA002005DE05EA05E705D305DE05D505EA002005D905D505EA05E8002E05D005DE05D905DD002005DC002D005000440046002F0058002D0033002C002005E205D905D905E005D5002005D105DE05D305E805D905DA002005DC05DE05E905EA05DE05E9002005E905DC0020004100630072006F006200610074002E002005DE05E105DE05DB05D90020005000440046002005E905E005D505E605E805D5002005E005D905EA05E005D905DD002005DC05E405EA05D905D705D4002005D105D005DE05E605E205D505EA0020004100630072006F006200610074002005D5002D00410064006F00620065002000520065006100640065007200200035002E0030002005D505D205E805E105D005D505EA002005DE05EA05E705D305DE05D505EA002005D905D505EA05E8002E> /HRV (Za stvaranje Adobe PDF dokumenata najpogodnijih za visokokvalitetni ispis prije tiskanja koristite ove postavke. Stvoreni PDF dokumenti mogu se otvoriti Acrobat i Adobe Reader 5.0 i kasnijim verzijama.) /HUN <FEFF004b0069007600e1006c00f30020006d0069006e0151007300e9006701710020006e0079006f006d00640061006900200065006c0151006b00e90073007a00ed007401510020006e0079006f006d00740061007400e100730068006f007a0020006c006500670069006e006b00e1006200620020006d0065006700660065006c0065006c0151002000410064006f00620065002000500044004600200064006f006b0075006d0065006e00740075006d006f006b0061007400200065007a0065006b006b0065006c0020006100200062006500e1006c006c00ed007400e10073006f006b006b0061006c0020006b00e90073007a00ed0074006800650074002e0020002000410020006c00e90074007200650068006f007a006f00740074002000500044004600200064006f006b0075006d0065006e00740075006d006f006b00200061007a0020004100630072006f006200610074002000e9007300200061007a002000410064006f00620065002000520065006100640065007200200035002e0030002c0020007600610067007900200061007a002000610074007400f3006c0020006b00e9007301510062006200690020007600650072007a006900f3006b006b0061006c0020006e00790069007400680061007400f3006b0020006d00650067002e> /ITA <FEFF005500740069006c0069007a007a006100720065002000710075006500730074006500200069006d0070006f007300740061007a0069006f006e00690020007000650072002000630072006500610072006500200064006f00630075006d0065006e00740069002000410064006f00620065002000500044004600200070006900f900200061006400610074007400690020006100200075006e00610020007000720065007300740061006d0070006100200064006900200061006c007400610020007100750061006c0069007400e0002e0020004900200064006f00630075006d0065006e007400690020005000440046002000630072006500610074006900200070006f00730073006f006e006f0020006500730073006500720065002000610070006500720074006900200063006f006e0020004100630072006f00620061007400200065002000410064006f00620065002000520065006100640065007200200035002e003000200065002000760065007200730069006f006e006900200073007500630063006500730073006900760065002e> /JPN <FEFF9ad854c18cea306a30d730ea30d730ec30b951fa529b7528002000410064006f0062006500200050004400460020658766f8306e4f5c6210306b4f7f75283057307e305930023053306e8a2d5b9a30674f5c62103055308c305f0020005000440046002030d530a130a430eb306f3001004100630072006f0062006100740020304a30883073002000410064006f00620065002000520065006100640065007200200035002e003000204ee5964d3067958b304f30533068304c3067304d307e305930023053306e8a2d5b9a306b306f30d530a930f330c8306e57cb30818fbc307f304c5fc59808306730593002> /KOR <FEFFc7740020c124c815c7440020c0acc6a9d558c5ec0020ace0d488c9c80020c2dcd5d80020c778c1c4c5d00020ac00c7a50020c801d569d55c002000410064006f0062006500200050004400460020bb38c11cb97c0020c791c131d569b2c8b2e4002e0020c774b807ac8c0020c791c131b41c00200050004400460020bb38c11cb2940020004100630072006f0062006100740020bc0f002000410064006f00620065002000520065006100640065007200200035002e00300020c774c0c1c5d0c11c0020c5f40020c2180020c788c2b5b2c8b2e4002e> /LTH <FEFF004e006100750064006f006b0069007400650020016100690075006f007300200070006100720061006d006500740072007500730020006e006f0072011700640061006d00690020006b0075007200740069002000410064006f00620065002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b00750072006900650020006c0061006200690061007500730069006100690020007000720069007400610069006b007900740069002000610075006b01610074006f00730020006b006f006b007900620117007300200070006100720065006e006700740069006e00690061006d00200073007000610075007300640069006e0069006d00750069002e0020002000530075006b0075007200740069002000500044004600200064006f006b0075006d0065006e007400610069002000670061006c006900200062016b007400690020006100740069006400610072006f006d00690020004100630072006f006200610074002000690072002000410064006f00620065002000520065006100640065007200200035002e0030002000610072002000760117006c00650073006e0117006d00690073002000760065007200730069006a006f006d00690073002e> /LVI <FEFF0049007a006d0061006e0074006f006a00690065007400200161006f00730020006900650073007400610074012b006a0075006d00750073002c0020006c0061006900200076006500690064006f00740075002000410064006f00620065002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b006100730020006900720020012b00700061016100690020007000690065006d01130072006f00740069002000610075006700730074006100730020006b00760061006c0069007401010074006500730020007000690072006d007300690065007300700069006501610061006e006100730020006400720075006b00610069002e00200049007a0076006500690064006f006a006900650074002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b006f002000760061007200200061007400760113007200740020006100720020004100630072006f00620061007400200075006e002000410064006f00620065002000520065006100640065007200200035002e0030002c0020006b0101002000610072012b00200074006f0020006a00610075006e0101006b0101006d002000760065007200730069006a0101006d002e> /NLD (Gebruik deze instellingen om Adobe PDF-documenten te maken die zijn geoptimaliseerd voor prepress-afdrukken van hoge kwaliteit. De gemaakte PDF-documenten kunnen worden geopend met Acrobat en Adobe Reader 5.0 en hoger.) /NOR <FEFF004200720075006b00200064006900730073006500200069006e006e007300740069006c006c0069006e00670065006e0065002000740069006c002000e50020006f0070007000720065007400740065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e00740065007200200073006f006d00200065007200200062006500730074002000650067006e0065007400200066006f00720020006600f80072007400720079006b006b0073007500740073006b00720069006600740020006100760020006800f800790020006b00760061006c0069007400650074002e0020005000440046002d0064006f006b0075006d0065006e00740065006e00650020006b0061006e002000e50070006e00650073002000690020004100630072006f00620061007400200065006c006c00650072002000410064006f00620065002000520065006100640065007200200035002e003000200065006c006c00650072002000730065006e006500720065002e> /POL <FEFF0055007300740061007700690065006e0069006100200064006f002000740077006f0072007a0065006e0069006100200064006f006b0075006d0065006e007400f300770020005000440046002000700072007a0065007a006e00610063007a006f006e00790063006800200064006f002000770079006400720075006b00f30077002000770020007700790073006f006b00690065006a0020006a0061006b006f015b00630069002e002000200044006f006b0075006d0065006e0074007900200050004400460020006d006f017c006e00610020006f007400770069006500720061010700200077002000700072006f006700720061006d006900650020004100630072006f00620061007400200069002000410064006f00620065002000520065006100640065007200200035002e0030002000690020006e006f00770073007a0079006d002e> /PTB <FEFF005500740069006c0069007a006500200065007300730061007300200063006f006e00660069006700750072006100e700f50065007300200064006500200066006f0072006d00610020006100200063007200690061007200200064006f00630075006d0065006e0074006f0073002000410064006f0062006500200050004400460020006d00610069007300200061006400650071007500610064006f00730020007000610072006100200070007200e9002d0069006d0070007200650073007300f50065007300200064006500200061006c007400610020007100750061006c00690064006100640065002e0020004f007300200064006f00630075006d0065006e0074006f00730020005000440046002000630072006900610064006f007300200070006f00640065006d0020007300650072002000610062006500720074006f007300200063006f006d0020006f0020004100630072006f006200610074002000650020006f002000410064006f00620065002000520065006100640065007200200035002e0030002000650020007600650072007300f50065007300200070006f00730074006500720069006f007200650073002e> /RUM <FEFF005500740069006c0069007a00610163006900200061006300650073007400650020007300650074010300720069002000700065006e007400720075002000610020006300720065006100200064006f00630075006d0065006e00740065002000410064006f006200650020005000440046002000610064006500630076006100740065002000700065006e0074007200750020007400690070010300720069007200650061002000700072006500700072006500730073002000640065002000630061006c006900740061007400650020007300750070006500720069006f006100720103002e002000200044006f00630075006d0065006e00740065006c00650020005000440046002000630072006500610074006500200070006f00740020006600690020006400650073006300680069007300650020006300750020004100630072006f006200610074002c002000410064006f00620065002000520065006100640065007200200035002e00300020015f00690020007600650072007300690075006e0069006c006500200075006c0074006500720069006f006100720065002e> /RUS <FEFF04180441043f043e043b044c04370443043904420435002004340430043d043d044b04350020043d0430044104420440043e0439043a043800200434043b044f00200441043e043704340430043d0438044f00200434043e043a0443043c0435043d0442043e0432002000410064006f006200650020005000440046002c0020043c0430043a04410438043c0430043b044c043d043e0020043f043e04340445043e0434044f04490438044500200434043b044f00200432044b0441043e043a043e043a0430044704350441044204320435043d043d043e0433043e00200434043e043f0435044704300442043d043e0433043e00200432044b0432043e04340430002e002000200421043e043704340430043d043d044b04350020005000440046002d0434043e043a0443043c0435043d0442044b0020043c043e0436043d043e0020043e0442043a0440044b043204300442044c002004410020043f043e043c043e0449044c044e0020004100630072006f00620061007400200438002000410064006f00620065002000520065006100640065007200200035002e00300020043800200431043e043b043504350020043f043e04370434043d043804450020043204350440044104380439002e> /SKY <FEFF0054006900650074006f0020006e006100730074006100760065006e0069006100200070006f0075017e0069007400650020006e00610020007600790074007600e100720061006e0069006500200064006f006b0075006d0065006e0074006f0076002000410064006f006200650020005000440046002c0020006b0074006f007200e90020007300610020006e0061006a006c0065007001610069006500200068006f0064006900610020006e00610020006b00760061006c00690074006e00fa00200074006c0061010d00200061002000700072006500700072006500730073002e00200056007900740076006f00720065006e00e900200064006f006b0075006d0065006e007400790020005000440046002000620075006400650020006d006f017e006e00e90020006f00740076006f00720069016500200076002000700072006f006700720061006d006f006300680020004100630072006f00620061007400200061002000410064006f00620065002000520065006100640065007200200035002e0030002000610020006e006f0076016100ed00630068002e> /SLV <FEFF005400650020006e006100730074006100760069007400760065002000750070006f0072006100620069007400650020007a00610020007500730074007600610072006a0061006e006a006500200064006f006b0075006d0065006e0074006f0076002000410064006f006200650020005000440046002c0020006b006900200073006f0020006e0061006a007000720069006d00650072006e0065006a016100690020007a00610020006b0061006b006f0076006f00730074006e006f0020007400690073006b0061006e006a00650020007300200070007200690070007200610076006f0020006e00610020007400690073006b002e00200020005500730074007600610072006a0065006e006500200064006f006b0075006d0065006e0074006500200050004400460020006a00650020006d006f0067006f010d00650020006f0064007000720065007400690020007a0020004100630072006f00620061007400200069006e002000410064006f00620065002000520065006100640065007200200035002e003000200069006e0020006e006f00760065006a01610069006d002e> /SUO <FEFF004b00e40079007400e40020006e00e40069007400e4002000610073006500740075006b007300690061002c0020006b0075006e0020006c0075006f00740020006c00e400680069006e006e00e4002000760061006100740069007600610061006e0020007000610069006e006100740075006b00730065006e002000760061006c006d0069007300740065006c00750074007900f6006800f6006e00200073006f00700069007600690061002000410064006f0062006500200050004400460020002d0064006f006b0075006d0065006e007400740065006a0061002e0020004c0075006f0064007500740020005000440046002d0064006f006b0075006d0065006e00740069007400200076006f0069006400610061006e0020006100760061007400610020004100630072006f0062006100740069006c006c00610020006a0061002000410064006f00620065002000520065006100640065007200200035002e0030003a006c006c00610020006a006100200075007500640065006d006d0069006c006c0061002e> /SVE <FEFF0041006e007600e4006e00640020006400650020006800e4007200200069006e0073007400e4006c006c006e0069006e006700610072006e00610020006f006d002000640075002000760069006c006c00200073006b006100700061002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e007400200073006f006d002000e400720020006c00e4006d0070006c0069006700610020006600f60072002000700072006500700072006500730073002d007500740073006b00720069006600740020006d006500640020006800f600670020006b00760061006c0069007400650074002e002000200053006b006100700061006400650020005000440046002d0064006f006b0075006d0065006e00740020006b0061006e002000f600700070006e00610073002000690020004100630072006f0062006100740020006f00630068002000410064006f00620065002000520065006100640065007200200035002e00300020006f00630068002000730065006e006100720065002e> /TUR <FEFF005900fc006b00730065006b0020006b0061006c006900740065006c0069002000f6006e002000790061007a006401310072006d00610020006200610073006b013100730131006e006100200065006e0020006900790069002000750079006100620069006c006500630065006b002000410064006f006200650020005000440046002000620065006c00670065006c0065007200690020006f006c0075015f007400750072006d0061006b0020006900e70069006e00200062007500200061007900610072006c0061007201310020006b0075006c006c0061006e0131006e002e00200020004f006c0075015f0074007500720075006c0061006e0020005000440046002000620065006c00670065006c0065007200690020004100630072006f006200610074002000760065002000410064006f00620065002000520065006100640065007200200035002e003000200076006500200073006f006e0072006100730131006e00640061006b00690020007300fc007200fc006d006c00650072006c00650020006100e70131006c006100620069006c00690072002e> /UKR <FEFF04120438043a043e0440043804410442043e043204430439044204350020044604560020043f043004400430043c043504420440043800200434043b044f0020044104420432043e04400435043d043d044f00200434043e043a0443043c0435043d044204560432002000410064006f006200650020005000440046002c0020044f043a04560020043d04300439043a04400430044904350020043f045604340445043e0434044f0442044c00200434043b044f0020043204380441043e043a043e044f043a04560441043d043e0433043e0020043f0435044004350434043404400443043a043e0432043e0433043e0020043404400443043a0443002e00200020042104420432043e04400435043d045600200434043e043a0443043c0435043d0442043800200050004400460020043c043e0436043d04300020043204560434043a0440043804420438002004430020004100630072006f006200610074002004420430002000410064006f00620065002000520065006100640065007200200035002e0030002004300431043e0020043f04560437043d04560448043e04570020043204350440044104560457002e> /ENU (Use these settings to create Adobe PDF documents best suited for high-quality prepress printing. Created PDF documents can be opened with Acrobat and Adobe Reader 5.0 and later.) >> /Namespace [ (Adobe) (Common) (1.0) ] /OtherNamespaces [ << /AsReaderSpreads false /CropImagesToFrames true /ErrorControl /WarnAndContinue /FlattenerIgnoreSpreadOverrides false /IncludeGuidesGrids false /IncludeNonPrinting false /IncludeSlug false /Namespace [ (Adobe) (InDesign) (4.0) ] /OmitPlacedBitmaps false /OmitPlacedEPS false /OmitPlacedPDF false /SimulateOverprint /Legacy >> << /AddBleedMarks false /AddColorBars false /AddCropMarks false /AddPageInfo false /AddRegMarks false /ConvertColors /ConvertToCMYK /DestinationProfileName () /DestinationProfileSelector /DocumentCMYK /Downsample16BitImages true /FlattenerPreset << /PresetSelector /MediumResolution >> /FormElements false /GenerateStructure false /IncludeBookmarks false /IncludeHyperlinks false /IncludeInteractive false /IncludeLayers false /IncludeProfiles false /MultimediaHandling /UseObjectSettings /Namespace [ (Adobe) (CreativeSuite) (2.0) ] /PDFXOutputIntentProfileSelector /DocumentCMYK /PreserveEditing true /UntaggedCMYKHandling /LeaveUntagged /UntaggedRGBHandling /UseDocumentProfile /UseDocumentBleed false >> ] >> setdistillerparams << /HWResolution [2400 2400] /PageSize [612.000 792.000] >> setpagedevice
id nasplib_isofts_kiev_ua-123456789-83501
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0130-5395
language Russian
last_indexed 2025-12-07T15:57:53Z
publishDate 2014
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
record_format dspace
spelling Глибовец, А.Н.
Решетнев, И.В.
2015-06-19T20:15:06Z
2015-06-19T20:15:06Z
2014
Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf / А.Н. Глибовец, И.В. Решетнев // Управляющие системы и машины. — 2014. — № 5. — С. 42-49. — Бібліогр.: 13 назв. — рос.
0130-5395
https://nasplib.isofts.kiev.ua/handle/123456789/83501
681.3: 658.56
Описана разработка программного модуля в виде веб-сервиса для автоматизированного построения тезаурусов на основе комбинированного метода выявления важных терминов и связей в тексте и алгоритма автоматизированного итеративного построения терминологий в коллекциях научных текстов на украинском языке. Формат тезауруса JSON-LD избран с учетом возможности публикации полученных терминологических связей в стандартизированном виде сетевого доступа к ресурсам, и с позиций понимания тезауруса как полноценного программного модуля поисковой системы научных материалов.
The development of a software module in the form of a web service for thesauruses automated construction based on the combined method of identifying important terms and links in the text and automated iterative algorithm for constructing terminologies in the collections of scientific texts in Ukrainian language is described. Thesaurus format JSON-LD was elected with the possibility to publish the terminological relationships in a standardized form of network access to the resources, and from the standpoint of understanding the thesaurus software module as a part of search engine system.
Описано розробку програмного модуля у вигляді веб-сервісу для автоматизованої побудови тезаурусів на основі комбінованого методу виявлення важливих термінів і зв'язків у тексті і алгоритму автоматизованої ітеративної побудови термінологій в колекціях наукових текстів українською мовою. Формат тезауруса JSON-LD обрано з урахуванням можливості публікації отриманих термінологічних зв'язків у стандартизованому вигляді мережевого доступу до ресурсів, і з позицій розуміння тезауруса як повноцінного програмного модуля пошукової системи наукових матеріалів
ru
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
Управляющие системы и машины
Программная инженерия и программные средства
Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf
The software module of thesauruses automated construction in RDF format from Ukrainian texts in pdf
Програмний модуль автоматизованої побудови тезаурусів в форматі RDF з україномовних текстів формату pdf
Article
published earlier
spellingShingle Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf
Глибовец, А.Н.
Решетнев, И.В.
Программная инженерия и программные средства
title Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf
title_alt The software module of thesauruses automated construction in RDF format from Ukrainian texts in pdf
Програмний модуль автоматизованої побудови тезаурусів в форматі RDF з україномовних текстів формату pdf
title_full Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf
title_fullStr Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf
title_full_unstemmed Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf
title_short Программный модуль автоматизированного построения тезаурусов в формате RDF из украиноязычных текстов формата pdf
title_sort программный модуль автоматизированного построения тезаурусов в формате rdf из украиноязычных текстов формата pdf
topic Программная инженерия и программные средства
topic_facet Программная инженерия и программные средства
url https://nasplib.isofts.kiev.ua/handle/123456789/83501
work_keys_str_mv AT glibovecan programmnyimodulʹavtomatizirovannogopostroeniâtezaurusovvformaterdfizukrainoâzyčnyhtekstovformatapdf
AT rešetneviv programmnyimodulʹavtomatizirovannogopostroeniâtezaurusovvformaterdfizukrainoâzyčnyhtekstovformatapdf
AT glibovecan thesoftwaremoduleofthesaurusesautomatedconstructioninrdfformatfromukrainiantextsinpdf
AT rešetneviv thesoftwaremoduleofthesaurusesautomatedconstructioninrdfformatfromukrainiantextsinpdf
AT glibovecan programniimodulʹavtomatizovanoípobudovitezaurusívvformatírdfzukraínomovnihtekstívformatupdf
AT rešetneviv programniimodulʹavtomatizovanoípobudovitezaurusívvformatírdfzukraínomovnihtekstívformatupdf