Методы и средства анализа текстов публикаций для исследования деятельности научных школ

Проаналізовано методи опрацювання текстової інформації з багатьох розрізнених інформаційних ресурсів. Удосконалено метод екстракції даних з наукової публікації, а також метод кластеризації k-середніх для поділу наукових статей за науковими школами. Визначено метрику якості кластерного рішення. Апроб...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2015
Hauptverfasser: Шаховская, Н.Б., Нога, Р.Ю.
Format: Artikel
Sprache:Russian
Veröffentlicht: Інститут кібернетики ім. В.М. Глушкова НАН України 2015
Schriftenreihe:Проблемы управления и информатики
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/208051
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Методы и средства анализа текстов публикаций для исследования деятельности научных школ / Н.Б. Шаховская, Р.Ю. Нога // Проблемы управления и информатики. — 2015. — № 6. — С. 119-131. — Бібліогр.: 13 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-208051
record_format dspace
spelling irk-123456789-2080512025-10-19T00:18:04Z Методы и средства анализа текстов публикаций для исследования деятельности научных школ Методи та засоби аналізу текстів публікацій для дослідження функціонування наукових шкіл Methods and tools for text analysis of publications to study the functioning of scientific schools Шаховская, Н.Б. Нога, Р.Ю. Методы управления и оценивания в условиях неопределенности Проаналізовано методи опрацювання текстової інформації з багатьох розрізнених інформаційних ресурсів. Удосконалено метод екстракції даних з наукової публікації, а також метод кластеризації k-середніх для поділу наукових статей за науковими школами. Визначено метрику якості кластерного рішення. Апробовано розроблені методи для електронної бібліотеки та наукової установи. Thre are considered the methods of processing text information from a plurality of disparate information resources. The method of extraction of data from scientific publications is improved as well as the method of k-means clustering to subdivide research papers with respect to scientific schools. There is defined the quality metric of cluster solution. The developed methods were tested for e-libraries and for academic institutions. 2015 Article Методы и средства анализа текстов публикаций для исследования деятельности научных школ / Н.Б. Шаховская, Р.Ю. Нога // Проблемы управления и информатики. — 2015. — № 6. — С. 119-131. — Бібліогр.: 13 назв. — рос. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/208051 004.9:371.261 10.1615/JAutomatInfScien.v47.i12.30 ru Проблемы управления и информатики application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Методы управления и оценивания в условиях неопределенности
Методы управления и оценивания в условиях неопределенности
spellingShingle Методы управления и оценивания в условиях неопределенности
Методы управления и оценивания в условиях неопределенности
Шаховская, Н.Б.
Нога, Р.Ю.
Методы и средства анализа текстов публикаций для исследования деятельности научных школ
Проблемы управления и информатики
description Проаналізовано методи опрацювання текстової інформації з багатьох розрізнених інформаційних ресурсів. Удосконалено метод екстракції даних з наукової публікації, а також метод кластеризації k-середніх для поділу наукових статей за науковими школами. Визначено метрику якості кластерного рішення. Апробовано розроблені методи для електронної бібліотеки та наукової установи.
format Article
author Шаховская, Н.Б.
Нога, Р.Ю.
author_facet Шаховская, Н.Б.
Нога, Р.Ю.
author_sort Шаховская, Н.Б.
title Методы и средства анализа текстов публикаций для исследования деятельности научных школ
title_short Методы и средства анализа текстов публикаций для исследования деятельности научных школ
title_full Методы и средства анализа текстов публикаций для исследования деятельности научных школ
title_fullStr Методы и средства анализа текстов публикаций для исследования деятельности научных школ
title_full_unstemmed Методы и средства анализа текстов публикаций для исследования деятельности научных школ
title_sort методы и средства анализа текстов публикаций для исследования деятельности научных школ
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2015
topic_facet Методы управления и оценивания в условиях неопределенности
url https://nasplib.isofts.kiev.ua/handle/123456789/208051
citation_txt Методы и средства анализа текстов публикаций для исследования деятельности научных школ / Н.Б. Шаховская, Р.Ю. Нога // Проблемы управления и информатики. — 2015. — № 6. — С. 119-131. — Бібліогр.: 13 назв. — рос.
series Проблемы управления и информатики
work_keys_str_mv AT šahovskaânb metodyisredstvaanalizatekstovpublikacijdlâissledovaniâdeâtelʹnostinaučnyhškol
AT nogarû metodyisredstvaanalizatekstovpublikacijdlâissledovaniâdeâtelʹnostinaučnyhškol
AT šahovskaânb metoditazasobianalízutekstívpublíkacíjdlâdoslídžennâfunkcíonuvannânaukovihškíl
AT nogarû metoditazasobianalízutekstívpublíkacíjdlâdoslídžennâfunkcíonuvannânaukovihškíl
AT šahovskaânb methodsandtoolsfortextanalysisofpublicationstostudythefunctioningofscientificschools
AT nogarû methodsandtoolsfortextanalysisofpublicationstostudythefunctioningofscientificschools
first_indexed 2025-10-19T01:10:01Z
last_indexed 2025-10-20T01:13:15Z
_version_ 1846461381734301696
fulltext © Н.Б. ШАХОВСКАЯ, Р.Ю. НОГА, 2015 Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 6 119 УДК 004.9:371.261 Н.Б. Шаховская, Р.Ю. Нога МЕТОДЫ И СРЕДСТВА АНАЛИЗА ТЕКСТОВ ПУБЛИКАЦИЙ ДЛЯ ИССЛЕДОВАНИЯ ДЕЯТЕЛЬНОСТИ НАУЧНЫХ ШКОЛ Постановка задачи Необходимой предпосылкой повышения эффективности и инновационной отдачи научных исследований является полноценное и оперативное обеспечение общества новейшей информацией. При оценке результативности научной дея- тельности важное место отводится наукометрии — направлению исследований, которое изучает когнитивные коммуникации в науке по частоте цитирования науч- ных работ и их авторов. Объектом исследований наукометрии является научная школа и результаты ее функционирования. Научная школа — неформальный творческий коллектив исследователей разных поколений, объединенных общей программой и стилем исследовательской работы, которые действуют под руководством признанного лидера [1]. Деятель- ность научной школы заключается в выработке научных знаний, их распростра- нении, подготовке одаренных специалистов. Одним из вариантов представления результата выработки научных знаний является научная публикация, представлен- ная в виде слабоструктурированного или неструктурированного текста [2]. Наличие научных школ — один из определяющих факторов развития региона, поскольку это непосредственно указывает на инновационную деятельность, а также позво- ляет спрогнозировать, какую сферу деятельности целесообразно развивать. Од- нако большое количество публикаций в Интернете и снижение интереса к науке и ее развитию в последние годы значительно усложнило процедуру определения научных школ и анализа их деятельности. Для обработки текстов используются различные методы поиска, рубрикации или кластеризации научных текстов. Необходимо отметить работы в области математической и прикладной лингвистики и лексикографии [3], экстракции значащих признаков [4] и рубрикации текстов [5]. В 1980-х гг. основными методами кластеризации текстов являлись экспертные методы, основанные на использовании экспертных оценок для опре- деления тематики документов. Сегодня этот подход эффективен при решении задач, которые требуют принятия нетривиальных решений об отнесении тех или иных текстов к одному кластеру. Однако вместе с тем ручные методы класте- ризации имеют ряд особенностей, что существенно ограничивает возможности их использования:  ручная кластеризация применима лишь для относительно небольших массивов документов, что в современных условиях встречается довольно редко (по исследованиям Digital Universe Study 2013 года, суммарный объем данных составил 6,3 Zбайт (2 70 байт), 43 % из них — объем данных, содержащих результаты научных исследований);  ручные методы требуют продолжительного времени работы, так как эксперту необходимо время на принятие решения по каждому тексту. Указанные особенности методов ручной кластеризации массивов текстов привели к разработке полуавтоматических, а позднее и автоматических методов 120 ISSN 0572-2691 текстовой кластеризации [6, 7]. Для текстов используют такие алгоритмы, как Expectation maximization, Fuzzy Codok, k-means [8] и др. Однако основная про- блема алгоритмов текстовой кластеризации состоит в определении сходства текстов и высокой вычислительной сложности [9, 10]. Актуальность темы исследования обусловлена такими факторами:  популярность междисциплинарных исследований, усложняющая отнесение публикации только к одной научной школе;  рост количества исследователей (средний процент роста количества защищенных диссертационных работ в Украине на протяжении последних четы- рех лет — 1,8 %);  динамичность науки, быстрое старение информации (согласно данным Digital Universe Study, скорость старения информации за последние пять лет уве- личилась вдвое);  большое количество публикаций в Интернете усложняет выявление основоположников и участников научной школы существующими методами кластеризации, что делает невозможным налаживание связей между ис - следователями. Поэтому на сегодня задача разработки методов и средств анализа текстов публикаций для определения научных школ и исследования их деятельности является актуальной. Цель работы — разработка методов и средств определения научных школ на основе анализа текстов научных публикаций. Формальное определение научной школы Определение 1. Научная школа S характеризуется множеством публикаций Sch научного направления, которое определено множеством ключевых слов Key, множе- ством авторов Author и множеством основоположников школы Main: ,,,, AuthorMainRateSchMainS  ,,,,,, TypeIFactorPublishTAuthorKeySch iii  ,,,,, iiiiii PostonOrganizatiDegreeNameSurnameAuthor  ),,(.1 DegreeIFactorfRate  .:2 KeyTf  Публикация iSch характеризуется множеством ключевых слов Key и авто- ров ,Author полным текстом ,iT изданием ,iPublish рейтингом iIFactor и типом ;iType автор ,iAuthor соответственно, — такими характеристиками, как фамилия, имя, научная степень, организация, должность; ),(1 DegreeIFactorfRate  — это функция определения рейтинга научной школы с учетом индекса публикаций и прироста количества авторов с научными степенями ;Degree IFactor — показа- тель цитирования журналов — определяет их информационную значимость: ,Degree m IFactork Rate ii n i   где Schm  — количество публикаций в научной школе, ik — количество пуб- ликаций в издании с рейтингом .iIFactor Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 6 121 ),()(100 CandDegreeDoctorDegreeDegree it  ,0 year DegreeDegree Degree ttyear   itDegree — количество кандидатов )(CandDegree и докторов наук )(DoctorDegree на it году наблюдения за развитием школы, year — количество лет наблюдения за школой. Этот показатель дает возможность обеспечить анализ наличия звена «учитель–ученик» в научной школе. KeyTf :2 — функция получения ключевых слов на основе анализа текста T научной публикации. С использованием этой функции построен метод экс- тракции ключевых слов из текстов научных публикаций. Определение научных школ в [12] происходит с помощью построенной се- мантической сети с учетом цитирования публикаций авторов. После выделения соавторов определяются их публикации и общие ключевые слова. Для выделения терминов использовался классический статистический метод TFIDF. Подобным образом определены родственные научные исследования на основе анализа тек- стов публикаций [2, 13]. С этой целью строилась сеть соавторов с определением веса узла. В статье предлагается анализировать тексты публикаций и определять школы с учетом результатов анализа. Статистический метод TFIDF предполагает, что публикация — это набор слов. Однако такой подход к научной статье недопус- тим. Анализ семантической сети также не позволяет определить динамику изме- нения количественных и качественных характеристик школы (количество публи- каций, защит и т.п.), что, в свою очередь, не дает возможности определить такие параметры, как Degree и .Rate Для определения научной школы и анализа ее деятельности предлагается такой подход. Метод выделения составляющих текстового документа. Входной инфор- мацией для определения принадлежности публикации к научной школе является текстовый файл любого формата с содержимым публикации. Из файла необходи- мо извлечь базовые элементы публикации: автор(ы) публикации; научное учреж- дение; название публикации; ключевые слова; основной текст. Кластеризация. Базовые элементы публикации являются входными пара- метрами метода кластеризации пубикаций. Результат применения этого метода — определение научных школ. Классификация. Новые научные публикации анализируются (выделяются базовые характеристики) и относятся к существующим научным школам. Прогнозирование изменения динамики публикации . Автоматически определяем количество защит ученых степеней среди участников школы. На основании количества защит и количества научных публикаций анализируется деятельность научной школы. Метод выделения составляющих текстового документа Научные публикации представляют собой слабоструктурированные элек- тронные документы (ЭД). Элемент ЭД ОСНОВНОЙ ТЕКСТ также имеет внут- реннюю структуру, элементы которой разделены заголовками. Слова, длина которых не больше трех букв, выполняют в тексте служебную роль и не влияют существенным образом на семантику предложения. Для выде- ления из контента необходимой информации осуществляется загрузка ЭД, рефе- рирование ЭД, экстракция элементов. 122 ISSN 0572-2691 Метод выделения составляющих текстового документа (функция 2f ) бази- руется на понятии веса предложения и слова (словосочетания). Основу анализа составляет процедура присвоения весовых коэффициентов каждому блоку текста согласно таким характеристикам:  расположение блока в оригинале,  частота появления в тексте,  частота использования в ключевых предложениях,  показатели статистической значимости. Сумма индивидуальных весов слов и предложения, определенная после до- полнительной модификации согласно специальным параметрам налаживания, связанным с каждым весом, дает общий вес предложения U : )(*10)(*10)()( UFormatUPlaceUtWordsWeighUWeight  (1) Для формирования реферата выделяются предложения из основной части. Основная часть, в свою очередь, делится на разделы и подразделы, введен- ные авторами. Предполагается, что предложения из вступительной части и выво- дов имеют более высокое информативное значение, нежели предложения из основного текста. Введем понятие веса предложения. Для этого формализуем элементы формулы (1). Коэффициент расположения определяется как:                                                       7,03,0,2 9,07,03,01,0,1 1,09,0,0 )( count countcount countcount n n n n n n n n n n UPlace , (2) где n — номер предложения, а countn — общее количество предложений в доку- менте. Начало и конец текста оцениваются наименьшими значениями (поскольку это, преимущественно, вступление и выводы) 0 и 1, а основной текст — 2. Если документ содержит аннотацию, то ей присваивается .4)( UPlace Коэффициент форматирования предложения U определяется так:         центру. по выровнять 2, ширине, по выровнять,1 справа, или слева выровнять,0 )(UFormat (3) Коэффициент )(UtWordsWeigh определяется как средний вес слова в пред- ложении (сумма весов всех ключевых слов, входящих в предложение, которая разделена на количество ключевых слов в предложении). Таким образом, длин- ные предложения не имеют преимущества перед короткими. Вес срока Q определяется по формуле: ).(*1000)(*10)(*1000)()( QUserQFormatQPlaceQFrequencyQWeight  (4) Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 6 123 Частотный коэффициент )(QFrequency — отношение числа вхождения некоторого слова (word) к общему количеству слов (words) документа. Таким образом, оценивается значимость слова в пределах отдельного документа: words word QFrequency )( . (5) Коэффициент расположения )(QPlace определяется как функция принад- лежности к предложению, где встречается слово одной из ключевых фраз: «Клю- чевые слова:», «Key words:». Если такая фраза встречается, то коэффициент рас- положения равен 5, если слово находится в заголовке, то коэффициент равен 4, если в списке ключевых слов, присущих теме, — 3, если во внутренней ссылке — 2 , если в основном тексте — 1. Коэффициент форматирования слова )(QFormat определяется в зависимости от того, как выделено слово: жирным, курсивом или подчеркнуто. Если слово со- всем не отформатировано, то коэффициент равняется 0, если применен один фор- мат, то — 1, если два — 2, если три — 3. Показатель )(QUser формируется на основе оценки слова пользователем. Этот показатель определяется как средневзвешенный вес всех весов, установленных пользователем. Весовые коэффициенты из формул (1) и (4) получены эмпирически. В дан- ном случае ставится задача не точного определения этих коэффициентов, а уста- новления веса аддитивных параметров. Поэтому для этих коэффициентов важен порядок числа, а не его значение. Входной информацией для отнесения публикации к научной школе является текстовый файл любого формата с содержимым публикации. Из файла необходи- мо определить базовые характеристики публикации:  автор(ы) публикации (А);  научное учреждение (В);  тема публикации (С);  ключевые слова (D);  текст статьи. Результатом метода выделения составляющих текстового документа является вектор, в котором для таких характеристик, как автор, научное учреждение, ис- пользуются бинарные признаки, а для ключевых слов — веса. Метод кластеризации публикаций по научным школам Для группирования публикаций по направлениям, авторам и учреждениям разработан метод кластеризации публикаций. Результат метода — группа публи- каций, которая и является научной школой. Один из самых больших недостатков метода k-средних и ему подобных (например, fuzzy c-mean) — предварительное задание количества кластеров, от которого сильно зависит кластерное решение. Поэтому в работе решено модифи- цировать этот метод. Модифицированный метод k-средних состоит из выполнения таких шагов [11]. 1. Задаем количество кластеров k, ,2 kN где N — количество публикаций. Поскольку признаки кластеризации (автор, научное учреждение, название, ключевые слова) неотсортированы, используем метрику d изолированных точек:        ,..,0 ,..,1 ).,.( xYxX xYxX xYxXl 124 ISSN 0572-2691 ),.,.().,.().,.().,.(),( CYCXlBYBXlDYDXlAYAXlXXd tt w t jj r j ii p i i   где функция l возвращает 1, если оба ее параметра имеют одинаковые значения, и 0 — в противном случае; YX , — электронные версии текстов научных пуб- ликаций, p — количество авторов в текстах публикаций ;, YX r — суммарное количество ключевых слов; w — суммарное количество научных учреждений; iAX . — значение автора iX публикации ;X CX . — значение названия С научной статьи .X Изолированной точкой множества Е является nRx , если любая окрест- ность этой точки не содержит других точек Е, кроме самой х:        .,1 ,,0 ),( yx yx yxd Любая точка соприкосновения множества Е является или предельной, или изолированной. 2. Выбираем k самых отдаленных объектов, которые будем считать центрами соответствующих кластеров (центроидами). Положим номер шага .0t 3. Формируем вектор центроидов .,...,, 21 t k tt cxcxcx Для каждого объекта находим расстояние ко всем центроидам. Для нахожде- ния расстояния используем евклидовую метрику. 4. Ищем матрицу расстояний к центроидам кластеров: ,min 2 1            ji N i k j cxx где N — количество публикаций, jcx — центроид кластера с номером j. После расчетов матрицы расстояний ищем сильные связи объекта с кластером. Определение 2. Сильной назовем связь между объектами iX и ,X если рас- стояние между названиями публикаций меньше трети максимального: . 3 ),(max ),( i is XXd XXd  5. Ищем стоимость разбивки: ),,( 11 ijsij S j k i cxxddCost i    где k — количество кластеров, iS — количество объектов в кластере и, ijd — расстояние к центру кластера и. 6. Ищем новые центроиды кластеров: . 1 j Sxi i x S cx ij    Если ,CXCX t  то .1 tt Переходим к шагу 3. 7. Если Cost не удовлетворяет условиям локального оптимума, kk1, переходим к шагу 3. Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 6 125 При наличии сильной связи применяется метод определения общих призна- ков в названии публикации. Для этого введено понятие меры расстояния между названиями. Признаки в названии статей назовем термами. Пусть S — множество научных школ, выделенных из коллекции текстов Q. Множество Е дополняется множеством значащих термов коллекции Q, которые выбираются в соответствии со следующим определением. Пусть в коллекции Q n — общее количество термов во всех документах, ni — количество термов в документах, в которых встречается терм i. Пусть общее число термов j во всех текстах — Nj, а количество термов j в документах, которые содержат терм и, — Nіj. Тогда величина !)( !1 ρ ijj j NN i N i ij NN N n n n n ijjj                является мерой корреляции между термами i и j. Чем она меньше, тем больше коррелированы эти термы. Тогда сила связи термов i и j при ),max( jiij  служит мерой корреляции термов i и j в случае .jiij  Терм t текстовой коллекции Q называется значащим (характерным) на уровне , если различие между частотой, с которой терм t встречается в коллекции Q, и средней частотой, с которой он появляется во множестве научных публикаций, превышает . Для оценки качества кластеризации использовался показатель вероятности верной классификации и определено понятие ошибки классификации. Основными результатами экспериментов являются величины ошибок, полу- ченные в различных условиях. Ошибки классификации бывают двух типов:  ошибка первого рода — классификатор не заметил, что документ относится к текущему классу;  ошибка второго рода — классификатор некорректно относит документ к текущему классу. Выделены такие показатели:  TP (true positive) — количество ЭД, правильно отнесенных к категории.  FP (false positive) — ошибка второго рода — количество ЭД, неправильно отнесенных к категории.  FN (false negative) — ошибка первого рода — количество ЭД, которые не- правильно отброшены.  TN (true negative) — количество ЭД, которые правильно отброшены. Показатели TP и TN рассчитываются по формуле: TPNp– fn, TNNn– fp, где Np — количество «правильных» ЭД, а Nn — количество «неправильных» ЭД. Дальше показатели TP, TN, FN, FP нормируются. Классификация Рассмотрим алгоритм классификации научных публикаций. Для этого устанавливается релевантность определенного документа опреде- ленному классу (научной школе). 126 ISSN 0572-2691 Шаг 1. Нормализация. Представляет собой способ уменьшения абсолютного значения веса индексных термов, выявленных в ЭД. Выбрана косинусная норма- лизация. При использовании этого метода нормализации вес каждого индексного терма делится на евклидову длину вектора оцениваемого документа. Евклидова длина вектора определяется как ,... 2 2 2 2 1 n wwwL  где )(QWeightwi  — вес i-го терма (Q) в документе; определяется по формуле (4). Рассмотрим формулу для вычисления веса (w) терма Q в документе с учетом косинусного фактора нормализации: 22 2 2 1 ... )( nwww QWeight W   . Термы, отсутствующие в тексте документа, имеют нулевой вес. В запра- шиваемом списке документы представлены в порядке уменьшения этого чис- ленного значения. Шаг 2. Расчеты условных вероятностей. Для представления научных публи- каций используется векторная модель, в которой любой документ характеризуется бинарным вектором ,...,,, 21 nxxxx  где ix = 0 или 1, в зависимости от того, при- сутствует ли в тексте i-й индексный терм. Рассматриваются два взаимно исключающихся события:  1w — документ относится к научной школе ;ix  2w — документ не относится к научной школе .ix Для каждой научной публикации вычислены условные вероятности )|( 1 ixwP и )|( 2 ixwP , чтобы определить, какие документы относятся к опреде- ленной научной школе, а какие — нет: ,2,1, )( )()|( )|(  i xP wPwxP xwP ii i где )( 1wP — первоначальная вероятность соответствия (i = 1) или несоответствия (i2) запросу, величина )|( iwxP пропорциональна вероятности соответствия или несоответствия научной школы заданному x. Шаг 3. Определение вероятности отнесения к классу. С этой целью ис- пользуем теорему Байеса: ),()|()( 2 1 ii i wPwxPxP    где P(x) — фактор, который нормализует .1)|()|( 21  xwPxwP Для определения релевантности документа определенной научной школе использовано правило: если ),|()|( 21 ii xwPxwP  то научная публикация при- надлежит к научной школе .ix Для множества научных школ определим вектор значений ).|( 1 ixwP Прогнозирование изменения динамики публикации Следующий показатель формальной модели научной школы — прирост публикаций Sch и прирост количества защит докторских и кандидатских дис- сертаций Degree представителями школы. Для вычисления Sch разработан ме- тод тематического моделирования научных публикаций по научным школам. При этом анализируются не все слова ЭД (научной публикации), а только ключевые. Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 6 127 Вероятностная модель появления пары «школа–ключевое слово» представ- лена как ),|()|()()|()|()()|()|()(),( sdpkspkpdspskpspsdpskpspkdp SsSsSs    где S — множество школ; p(s) — неизвестное априорное распределение школ во всей коллекции; p(d) — априорное распределение на множестве научных публикаций, эм- пирическая оценка ,/)( nndp d где d d nn  — суммарная длина всех публикаций; )(kp — априорное распределение на множестве ключевых слов, эмпирическая оценка ,/)( nnkp k где kn — число вхождений ключевого слова k во все публикации. Множество научных публикаций содержит для каждой публикации d допол- нительную информацию, так называемую метаинформацию:  список авторов публикации А;  список публикаций ,d  на которые ссылается d;  список авторов А, на которых ссылается d;  список публикаций, в которых ссылаются на d;  список авторов, которые ссылаются на d;  список научных школ, к которым относится d. Искомые вероятности распределения p (k|s), p (s|d) выражаются как p (s|k), p(d|s) по формуле Байеса: , )()|( )()|( )|(; )()|( )()|( )|( spsdp spsdp dsp kpksp kpksp skp sw       где k , s — список ключевых слов и научная школа соответственно, определен- ные из публикаций, на которые ссылается d. Для идентификации параметров тематической модели (школы) по коллекции научных публикаций применяется принцип максимума правдоподобия, который приводит к задаче минимизации функционала: ,min),(log   kdpndk dkDd ,1)(,1)|(,1)|(   spdspskp ssk где dkn — число вхождений ключевого слова k в публикацию d. Прогнозирование изменения динамики публикации осуществлено с помощью временных рядов, а именно методом скользящего среднего. Задачей прогнозирования является нахождение зависимости между количеством публикаций по каждой из най- денных научных школ, частотой появления новых ключевых слов и частотой получе- ния научных степеней представителями школ. Динамика изменения количества клю- чевых слов зависит от базисного наблюдения и величины изменения соседних уровней. В качестве статистических характеристик временного ряда ,iY ni ,1 , ис- пользовано среднее арифметическое число публикаций j N j Y N Y    1 1 и средний абсолютный прирост количества публикаций по школам ),1/()( 1  NYYSch n где N — количество уровней ряда, Yi — уровень ряда. Согласно методу проверки истинности различия средних, начальный временной ряд разбивается на две оди- наковые части, после чего проверяется гипотеза о существенном различии сред- них для этих частей. Проверка однородности данных выполнена на основе крите- рия Ирвина, базирующегося на сравнении соседних значений ряда. Согласно это- му критерию рассчитывается характеристика Sch YY ts tt    1 . 128 ISSN 0572-2691 Анализ автокорреляции выполнен с помощью графика и критических значе- ний коэффициентов, установленных экспертно. Параметры этого уравнения нахо- дят по методу наименьших квадратов. Среднее в выбранном интервале определе- но как взвешенное среднее всех предыдущих уровней. Метод наименьших квад- ратов использован также для поиска зависимости между приростом количества публикаций в научных школах по годам и приростом количества защит диссерта- ционных работ .Degree Для этого осуществлена загрузка файлов из сайта МОН Украины (приложе- ния). Структура файлов определяется постоянным форматированием и состоит из таких компонентов:  научная степень (доктор, кандидат);  науки;  учебное заведение (научное учреждение);  специализированный ученый совет (не учитывается);  фамилия, имя, отчество (ФИО), специальность (последняя характеристика не учитывается). Критерием оптимизации принята минимизация суммы квадратов отклонений случайной величины от функции f: ,min)),(( 2 1   tSchfDegree jj N j где j — номер научной школы, Sch — прирост публикаций в научной шко- ле j за время t. Анализ результатов Разработана информационная система кластеризации научных публикаций. Построена архитектура, схема базы данных и основные программные модули. Программа состоит из таких модулей: база данных; подсистема графического представления; подсистема кластеризации научных статей по научным школам; подсистема определения весомости и скорости роста научной школы (рис. 1). Администратор Клиентская программа администрирования ошибок кластеризации Анализатор скорости развития школы Аналитик ст 2а ст 2б ыт 2х … Центр работы с данными Система доступа к архиву результатов Система уведомления о результатах анализа данных Координатор запросов анализа данных Серверный уровень Уровень данных Система сбора данных Система построения статистики данных БД статистики БД сервера БД стоп-слов и настройки экстракции БД результатов анализа данных Модуль управления процессами анализа данных Координатор кластеризации Сформирован ные кластеры Очередь запросов Синхронизатор запросов Система мониторинга ошибок Кластеризатор Серверы данных Рис. 1 Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 6 129 Для тестирования работы системы обработаны 134 файла научных пуб- ликаций. В первую очередь анализировалась правильность кластеризации. Правильная рубрика текстовых документов известна заведомо и установлена экспертно (табл. 1). Здесь анализировались только ключевые слова (без учета авторов). Среднее нормированное значение правильно рубрицированных докумен- тов составляет 94 %. Проанализирована зависимость качества кластеризации от объема публикаций в рубрике. Если рубрика универсальна, то ее трудно кластеризовать (рис. 2). % ошибок % публикаций от общего количества Рис. 2 Проанализировано качество кластеризации в зависимости от количества ключевых слов в каждой школе, а также от степени их пересечения. Алго- ритм тестировался на четырех коллекциях входных данных с одинаковым ко- личеством объектов в каждом классе, но с разным количеством ключевых слов и разным количеством общих для разных классов ключевых слов. Ре- зультаты анализа представлены в табл. 2. Таблица 1 Класс ntp, % nfp, % nfn, % ntn, % База данных 93 11 7 33 Информатика 93 13 7 25 Программирование 96 2 4 50 Сеть 94 6 6 60 Системный анализ 93 7 7 50 Таблица 2 Класс Коллекция 1 Коллекция 2 К-во ключевых слов ntp, % К-во ключевых слов ntp, % База данных 7 87 16 88 Информатика 11 67 26 62 Программирование 12 69 19 67 Сеть 3 93 7 91 Системный анализ 4 94 5 89 Определено качество кластеризации для разных методов. Для сравнения про- анализированы результаты работы трех алгоритмов на тех же коллекциях (табл. 3). Таким образом, разработанный алгоритм продемонстрировал лучшие результаты для ntp на текстовых коллекциях по сравнению с другими рассмот- ренными алгоритмами. Далее проанализировано, действительно ли выделенные кластеры принадлежат научным школам. Для этого сравнивались множества публикаций, сформированные разработанным методом на основе анализа текстов и их кластеризации, и публикации 130 ISSN 0572-2691 научных работников официально признанных научных школ. «Правильность» кла- стеров известна и оценена, так же как и качество рубрицирования. В отличие от рубрицирования, во время кластеризации учитываются также сведения об авторах публикаций. Анализировались статьи авторов, которые принадлежали разным науч- ным школам (табл. 4). Таблица 3 Метод кластеризации ntp, % Разработанный метод 92 Островная кластеризация 86 k-средних 71 Средней связи 78 Таблица 4 Публикации авторов разных научных школ, % Ошибки, % 0 3 4 12 9 19 18 27 Для определения перспективности школы в течение трех лет анализирова- лись файлы с информацией о защитах кандидатских и докторских диссертаций. Выполнен анализ вероятности появления новых публикаций в выделенных науч- ных школах в зависимости от разных параметров. Спрогнозировано появле- ние новых публикаций по школам (рис. 3). Появление новых публикаций 0 20 40 0 2 4 6 Школа Количество публикаций Прогноз количества публикаций К о л и ч ес тв о ст ат ей Рис. 3 В работе решена актуальная научная задача разработки математических методов и программных средств анализа текстов научных публикаций для выявления научных школ и исследования их результатов функционирования, что дает возможность повысить качество принятия решений относительно целесообразности поддержки научных исследований за счет выявления новых знаний в слабоструктурированных документах. Н.Б. Шаховська, Р.Ю. Нога МЕТОДИ ТА ЗАСОБИ АНАЛІЗУ ТЕКСТІВ ПУБЛІКАЦІЙ ДЛЯ ДОСЛІДЖЕННЯ ФУНКЦІОНУВАННЯ НАУКОВИХ ШКІЛ Проаналізовано методи опрацювання текстової інформації з багатьох роз- різнених інформаційних ресурсів. Удосконалено метод екстракції даних з наукової публікації, а також метод кластеризації k-середніх для поділу нау- кових статей за науковими школами. Визначено метрику якості кластерно- го рішення. Апробовано розроблені методи для електронної бібліотеки та наукової установи. Международный научно-технический журнал «Проблемы управления и информатики», 2015, № 6 131 N.B. Shakhovska, R.Yu. Noha METHODS AND TOOLS FOR TEXT ANALYSIS OF PUBLICATIONS TO STUDY THE FUNCTIONING OF SCIENTIFIC SCHOOLS Thre are considered the methods of processing text information from a plurality of disparate information resources. The method of extraction of data from scientific publications is improved as well as the method of k-means clustering to subdivide research papers with respect to scientific schools. There is defined the quality metric of cluster solution. The developed methods were tested for e-libraries and for academic institutions. 1. Захарчук Т.В. Научные школы в библиографоведении: особенности формирования // Научно-техническая информация. Сер. 1. Организация и методика информационной работы. — 2011. — № 1. — С. 19–25. 2. Литвинова Л.А. Наукові школи національної бібліотеки України ім. В.І. Вернадсько- го в інформаційно-комунікаційному просторі України // Наукові праці Національної бібліотеки України імені В.І. Вернадського. — 2014. — Вип. 40. — С. 87–100. 3. Широков В.А., Шевченко І.В., Рабулець О.Г. Природномовна індексація як засіб вдос- коналення пошукового апарату інформаційних систем // НТІ. — 2000. — № 3. — С. 23–25. 4. Кунгурцев А.Б., Тыхан И.В. Формирование онтологии на базе словаря предметной об- ласти // Реєстрація, зберігання і обробка даних. — 2014. — 16, № 2. — С. 114–121. 5. Данилюк І.Г. Технологія автоматичного визначення тематики тексту // Лінгвістичні студії: Зб. наук. праць / Укл. А. Загнітко (наук. ред.) та ін. — Донецьк : ДонНУ, 2008. — Вип. 17. — С. 290–293. 6. Larkey L.S., Croft W.B., Combining classifiers in text categorization // Proc. of SIGIR-96, 19th ACM International conference on research and development in information retrieval. — Zurich, CH, 1996. — P. 289–297. 7. Erk K. Vector space models of word meaning and phrase meaning: A survey // Language and lin- guistics compass. — 2012. — 6, N 10. — P. 635–653. 8. Alsabti K., Ranka S., Singh V. An efficient k-means clustering algorithm / Proc. first workshop high performance data mining. — 1998. — P. 94–105. 9. Дерецький В.О., Богданова М.М., Ремарович С.С. Підхід та засоби аналітичної обробки текстової інформації на основі агентної технології // Проблемы программирования. — 2002. — № 1–2. — С. 396–403. 10. Киселев М.В. Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации // Сб. работ участников конкурса Интернет-математика 2007. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 74–83. 11. Shakhovska N., Noha R. One method of analysis of research publications’ elements // MEST Journal. — 2014. — 2, N 1. — P. 94–102; http://mest.meste.org/MEST_Najava/III_ shakhovska.pdf 12. Сhappin E.J.L., Ligtvoet A. Transition and transformation: A bibliometric analysis of two scien- tific networks researching socio-technical change // Renewable and sustainable energy reviews. — 2014. — 30. — P. 715–723. 13. Ланде Д.В., Балагура І.В. Наукометричні дослідження мереж співавторства по базі даних «Україніка наукова» // Реєстрація, зберігання і обробка даних. — 2012. — 14, № 4. — С. 41–51. Получено 25.03.2015 После доработки 04.06.2015 http://mest.meste.org/MEST_Najava/III_%0bshakhovska.pdf http://mest.meste.org/MEST_Najava/III_%0bshakhovska.pdf