Метод формування наукових шкіл на основі аналізу елементів публікацій
У статті розроблено метод визначення елементів наукової публікації та об’єднання авторів публікацій у наукові школи. В статье разработан метод определения элементов научной публикации и объединения авторов публикаций в научные школы. Method for determination of scientific publications elements and a...
Saved in:
| Published in: | Математичні машини і системи |
|---|---|
| Date: | 2013 |
| Main Author: | |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
Інститут проблем математичних машин і систем НАН України
2013
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/84276 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Метод формування наукових шкіл на основі аналізу елементів публікацій / Р.Ю. Нога // Математичні машини і системи. — 2013. — № 4. — С. 107-113. — Бібліогр.: 6 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859467951192670208 |
|---|---|
| author | Нога, Р.Ю. |
| author_facet | Нога, Р.Ю. |
| citation_txt | Метод формування наукових шкіл на основі аналізу елементів публікацій / Р.Ю. Нога // Математичні машини і системи. — 2013. — № 4. — С. 107-113. — Бібліогр.: 6 назв. — укр. |
| collection | DSpace DC |
| container_title | Математичні машини і системи |
| description | У статті розроблено метод визначення елементів наукової публікації та об’єднання авторів публікацій у наукові школи.
В статье разработан метод определения элементов научной публикации и объединения авторов публикаций в научные школы.
Method for determination of scientific publications elements and associations of authors into scientific schools was developed in this paper.
|
| first_indexed | 2025-11-24T08:28:28Z |
| format | Article |
| fulltext |
© Нога Р.Ю., 2013 107
ISSN 1028-9763. Математичні машини і системи, 2013, № 4
УДК 51.001.57+004.652.4+004.827
Р.Ю. НOГА*
МЕТОД ФОРМУВАННЯ НАУКОВИХ ШКІЛ НА ОСНОВІ АНАЛІЗУ ЕЛЕМЕНТІВ
ПУБЛІКАЦІЙ
*
Національний університет «Львівська політехніка», Львів, Україна
Анотація. У статті розроблено метод визначення елементів наукової публікації та об’єднання
авторів публікацій у наукові школи.
Ключові слова: наукова публікація, наукові школи, об’єднання авторів.
Аннотация. В статье разработан метод определения элементов научной публикации и объедине-
ния авторов публикаций в научные школы.
Ключевые слова: научная публикация, научные школы, объединения авторов.
Abstract. Method for determination of scientific publications elements and associations of authors into
scientific schools was developed in this paper.
Keywords: scientific publication, scientific schools, associations of authors.
1. Вступ
Переробка інформації, представлена у вигляді текстів природною мовою, має багато аспе-
ктів. Сюди відносяться такі види інформаційних процесів, як розуміння текстів, їх перек-
лад, стиснення семантичної інформації. Особливе значення має останній тип переробки;
сюди відносяться класифікація та індексування документів, їх анотування та реферування.
Останнім часом серед науковців, редакторів наукових журналів тощо постає про-
блема кластеризувати публікації за науковими школами з метою визначення фаховості
статті, споріднених публікацій та ін. Проте поняття «наукова школа» є неформалізованим.
Тому метою статті є розроблення методу формування наукових шкіл на основі ана-
лізу публікацій.
2. Аналіз літературних джерел
Оскільки основою формування наукової школи є аналіз текстів, розглянемо методи видо-
бування інформації з тексту.
Процес реферування текстової інформації на сьогоднішній день є дуже актуальним,
не дивлячись на величезну кількість робіт. У першу чергу, це викликано постійним зрос-
танням неструктурованих даних Веб-ресурсів, підвищенням вимог до продуктивності та
часу відклику на запит. Крім того, реферування є невід'ємною частиною сучасного видав-
ничого процесу. Будь-яке видання, чи це монографія, підручник, аналітичний огляд тощо,
завжди випереджується вторинним документом (рефератом або анотацією). Реферування
використовується не тільки для економії часу при ознайомленні з великою кількістю дже-
рел, але й з метою пришвидшення повнотекстового пошуку по множині документів, оскі-
льки обсяг реферату у декілька разів менший, ніж обсяг вхідного документа чи їх множини
[1].
Яким чином можна автоматизувати процедуру стискання семантичної інформації
для отримання реферату? Мета процедури автоматизованого реферування – виділити з
тексту документа найважливіші положення, які найповніше розкривають суть цього текс-
ту.
Серед таких положень для наукових публікацій можна визначити такі, як автор ви-
дання, наукова установа, тема, ключові слова. Саме визначення цих чотирьох елементів
108 ISSN 1028-9763. Математичні машини і системи, 2013, № 4
Рис. 1. Виділення інформації з контенту
дає змогу зробити швидкій пошук контенту, інтегрування текстової та структурованої ін-
формації.
На сьогоднішній день методи автоматичного аналізу текстів (text mining) широко
використовуються в різних галузях науки. Використовують три основні підходи: підхід,
заснований на аналізі назв об’єктів, які зустрічаються в текстових документах і так званий
повний та поверхневий парсинг.
Повний парсинг базується на описі мови за допомогою формальних граматик. Ос-
новним недоліком такого методу є високі вимоги до часу виконання. У зв’язку з цим цей
метод має обмежену область застосування. Як приклад систем аналізу текстів, які працю-
ють за принципом повного парсингу, можна навести PathwayStudio [5] і GeneScene [6].
Поверхневий парсинг оснований на витягуванні формалізованої інформації з тексту
з використанням часткових зв'язків між словами за допомогою набору спеціальних шабло-
нів та правил. На цьому методі основані такі системи, як SUISEKI [7], Chilibot [8] та ін.
Однак існуючі системи аналізу текстів орієнтовані на певні предметні області [1–4]
і тому не можуть бути використані для аналізу наукових публікацій певної наукової уста-
нови.
3. Метод формування наукових шкіл. Виділення складових елементів наукової публі-
кації
Введемо поняття наукової школи.
Науковий напрям – це сфера наукових досліджень наукового колективу, спрямова-
них на вирішення певних значних фундаментальних проблем.
Наукова школа – науковий колектив, діяльність якого спрямована на вирішення
проблем наукового напряму.
У цьому дослідженні наукова школа Sch визначатиметься множиною наукових пуб-
лікацій Р, які характеризуються множиною ключових слів Key, множиною авторів Author
та множиною основоположників школи Main:
AuthorMainMainAuthorKeySch ∈= ,,, .
Наукові публікації Р подаються у вигляді
текстових даних Nd та Веб-сайтів Wb.
Необхідні кроки для виділення з контенту
необхідної нам інформації для подальшої роботи
з нею подані на рис. 1.
Виділення класифікаційних ознак науко-
вої публікації здійснюватиметься на основі сема-
нтичної мережі.
Семантична мережа – це структура для
подання знань у вигляді вузлів, з’єднаних дуга-
ми. Семантична мережа, побудована на основі
аналізу термів напівструктурованого джерела
інформації Γ , подається як двійка:
Γ ={ },V D ,
де { }iV v= – множина вершин (вузлів мережі),
{ }jD d= – множина дуг. Дуги між елементами
ISSN 1028-9763. Математичні машини і системи, 2013, № 4 109
визначають взаємозв'язки між вершинами і задають послідовність пошуку концептів (їх
важливість).
Побудуємо функцію трансформації напівструктурованого тексту та Веб-сайтів у ви-
гляді семантичної мережі:
( ) ,S E N E E→ ∈ ∨ ∈Wb Nd – для Веб-сайтів, текстових даних.
Результатом операції S є неорієнтований граф.
Між двома будь-якими елементами ,i jY Y словника даних Dic , ,i jY Dic Y Dic∈ ∈ іс-
нує відображення
{ }: , ( ) , 1,n
i i iY n Y Y i M∀ ∃ Γ = = ,
де { }( ) : ( , ) ( , )i j i j j iY Y S Y Y S Y YΓ = ∃ ∨ .
Формуються підграфи для кожного iY , такі, що в підпункті вузол вихідного параме-
тра один, а інші вузли – це вхідні поняття, що описують обмеження на атрибути
{ } { },1 ,1k i iX k N Y X l N≤ ≤ ← ← ≤ ≤ , тут ( , ) : ( , )k i k i i k i kX Y S X Y Y X S Y X← = ← = . Крім
цього, у граф так само входять усі вхідні поняття, які використовуються як обмеження:
: ( )k
i iY Y′∀ Γ , де
{ }
{ }2
( ) : ( , ) ( , ) .
( ) ( , ( )) : ( , ) ( , ) .
i j i j j i
i i j k i k k i
Y X S Y X S X Y
Y Y X X S Y X S X X
′Γ = ∃ ∨
′ ′ ′Γ = Γ Γ = ∃ ∨
Дуги між вузлами ( )k
iY′Γ визначаються на основі існуючих відношень між понят-
тями kS і підграфи даного типу можна визначити як ( ) ( ),k k
i iG Y Y S′ ′= Γ .
Друга множина підграфів визначається як вузли з вихідних понять, і відношення
між ними ( ) ( ),n n
i iG Y Y S′′ ′′= Γ , де { }( ) : ( , )i j i jY Y S Y Y′′Γ = ∃ .
Для всіх підграфів ( )iG Y′ формується запит, що забезпечує всю вибірку примірни-
ків iY .
Для підграфа ( )iG Y′′ формується запит, забезпечує вибірку примірників
iY на основі
даних по
jY , отриманих на попередньому кроці.
Наступні функції виконуються в автоматичному режимі:
– визначення тематичних рубрик документа;
– визначення об'єктів на основі онтологічного описання;
– формування пошукового образу документа;
– формування частотного словника ключових слів і словосполучень.
Результатом побудови семантичної мережі є розроблення тезауруса.
Тезаурус – це ,Th T R=< > , де T – множина термінів, а R – множина відношень
між цими термінами. Множини T і R скінченні. Термін – це слово або словесний ком-
плекс, який співвідноситься з поняттям певної організованої області знань (науки, техні-
ки), що вступає в системні відношення з іншими словами і словесними комплексами й
утворює разом з ними в будь-якому окремому випадку та у певний час замкнену систему,
яка відрізняється високою інформативністю, однозначністю, точністю й експресивною
нейтральністю.
Тезаурус – структура лінійно пов'язаного подання слів і їхніх значень, призначена
для співставлення концептуальних визначень у контексті слова [1]. Множина термінів те-
зауруса відповідає множині концептів онтології О.
Приклад тезауруса області наукових досліджень поданий на рис. 2.
Структура тезауруса визначена стандартами ANSI Z39.19, ISO 2788-1986, ISO 5964-
1985, ГОСТ 7.25-2001, ГОСТ 7.24-90. Для врахування ефектів, пов'язаних з розбіжністю
110 ISSN 1028-9763. Математичні машини і системи, 2013, № 4
Рис. 2. Тезаурус онтології наукових досліджень
суб`єктивних знань приймача і передавача в комунікаційних процесах, що є наслідками
різних обсягів знань у ПО, використовують тезаурусну модель, яка зв'язує семантичні вла-
стивості інформації зі здатністю користувача сприймати інформацію.
Алгоритм формування бази даних характеристик публікації передбачає такі кроки:
Крок 1. Наукова стаття, подана як структурована текстова інформація, розбивається
на речення та слова.
Крок 2. Відкидаються слова, що містять менше трьох символів.
Крок 3. Здійснюється класифікація слів шляхом видалення з загального списку слів,
які містяться в базі даних «Стоп-слова» та неінформативних слів і словосполучень.
Крок 4. Формується загальний список слів у документі, при цьому зберігається ін-
формація про їх форматування та місце в тексті.
Крок 5. Загальний список слів модифікується у процесі стеммінгу, тобто відкидаю-
чи закінчення слів, ми також видаляємо однакові слова з бази даних, але збільшуємо зна-
чення, що відповідає за кількість вживань цього слова в тексті, а ваги, що були попередньо
присвоєні цим словам, додаються. Таким чином, утворюється база даних «Ключові слова
тексту».
Крок 6. Автори статті та їх наукові установи шукаються на початку файлу за озна-
кою форматування.
4. Кластеризація наукових публікацій
Нехай ми маємо деяку публікацію Р. Після побудови семантичної мережі даної публікації
ми отримуємо такі елементи:
Автор =>А;
Наукова установа =>В;
Тема =>C;
ISSN 1028-9763. Математичні машини і системи, 2013, № 4 111
Ключові слова =>D.
Після того, як ми провели аналіз даних та отримали необхідну інформацію, можемо
приступити до кластеризації публікації.
Кластеризація – це автоматичне розбиття елементів деякої множини на групи. Клас-
теризацію проводитимемо методом k -найближчих сусідів.
Метод найближчих сусідів полягає у виконанні таких кроків.
1. Задаємо кількість сусідів k .
Оскільки ознаки кластеризації (автор, наукова установа, тема, ключові слова) нев-
порядковані, то використовуватимемо метрику d ізольованих точок:
=
=
=
xYxX
xYxX
xYxXl
..,0
..,1
).,.( ,
).,.().,.().,.().,.(),( CYCXlBYBXlDYDXlAYAXlXXd
w
t
tt
r
j
jj
p
i
iii +++= ∑∑∑ ,
де p – кількість авторів обох статей, r – сумарна кількість ключових слів, w – сумарна
кількість наукових установ, iAX . – значення автора з номером і для наукової статті X і
т.д.
2. Для кожного об’єкта знаходимо його k найближчих сусідів. Об’єкт iX назива-
ється найближчим сусідом об’єкта X , якщо NiXXdXXd i
i
i ,1),,(max),( == , де N – кіль-
кість публікацій.
3. Об’єкт X зараховується до того класу, до якого належить більшість з його k су-
сідів.
Якщо об’єкт не зарахований до жодного з кластерів, то шукаються слабкі зв’язки
об'єкта з кластером.
Слабким назвемо зв’язок між об’єктами iX та X , якщо значення відстані між ними
менше, ніж третина від максимальної:
3
),(max
),( i
is
XXd
XXd ≤ .
Продемонструємо, яким чином здійснюється формування наукових шкіл.
Нехай маємо деякі публікації Р1 та Р2.
Спочатку виділяємо інформацію про автора, наукову установу, ключові слова та
тему.
Ми отримаємо множини Р1 та Р2 з деякими характеристиками:
11, 12
1
1
1
11, 12, 13
A a a
B b
P
C c
D d d d
=
== =
=
21, 22
2
2
2
21, 22, 23
A a a
B b
та P
C c
D d d d
=
== =
=
, де 11, 12a a – автори і т.д.
Тепер нехай маємо публікації Р3 та Р4. Робимо аналогічне витягування інформації.
Отримаємо таке:
112 ISSN 1028-9763. Математичні машини і системи, 2013, № 4
Рис. 3. Представлення шкіл зі
статтями
Рис. 4. Представлення шкіл та
слабкий зв’язок зі статтею
31, 11
31, 1
3
3
31, 32, 33, 13
A a a
B b b
P
C c
D d d d d
=
== =
=
41, 22
41, 2
4
4
41, 42, 43, 22
A a a
B b b
та P
C c
D d d d d
=
== =
=
.
Визначаємо кількість спільних елементів для кожної з публікацій.
Публікації Р3 та Р4 мають деякі спільні характеристики з Р1 та Р2, а саме: це 11a
(автор), 1b (наукова установа), та 13d (ключові слова). Так само в Р4.
Ми маємо чотири множини, розбиті за характери-
стиками. Тепер можемо об’єднати множини Р1..Р4 за спі-
льними характеристиками. Так як Р1 та Р3, а також Р2 та
Р4 мають спільних авторів, наукові установи, де вийшли
публікації, та ключові слова, ми отримаємо кластери
{ }1, 3Р Р та { }2, 4Р Р :
11
1, 3 1
13
A a
Р Р B b
D d
=
= =
=
22
2, 4 2
22
A a
та Р Р B b
D d
=
= =
=
.
Отримані групи і будуть формувати школи Sch. Отже,
{ }1 1, 3Sch P Р= та { }2 2, 4Sch P Р= .
Тепер уявімо собі, що в нас є деяка публікація Р5. Нехай після виділення елементів
публікації ми отримаємо таку множину ознак:
51, 51
51, 52
3
5
51, 52, 53, 13
A a a
B b b
P
C c
D d d d d
=
== =
=
.
Ми бачимо, що у множини Р5 у нас є спільне з Р1
лише одне ключове слово. Ми відносимо Р5 до школи
S1. Зв'язок P5 та S1 є «слабким», відносити P5 в школу
S1 не будемо, тільки зв’яжемо.
Слабкий зв'язок необхідно залишити з тих мірку-
вань, що у майбутньому не виключено, що Р5 буде мати
спільні характеристики з іншими публікаціями і створиться власна школа S3.
Для випадків, коли ми маємо слабкі зв’язки, можна застосувати метод визначення
спільних ознак у назві публікації.
5. Метод визначення спільних ознак у назві публікації
Нехай маємо деякі назви С1,С2,С3. Для прикладу:
С1=«Пошук та збереження інформації за допомогою пошукової системи».
С2=«Перегляд та збереження файлів у файловій системі».
С3=«Пошук інформації у всесвітній мережі інтернет».
Умовно розіб'ємо назви на дві частини: праву та ліву. Розбиття здійснюватиметься
шляхом симетричного поділу по довжині. Вважатимемо, що ліва частина є більш
інформативно важливою, ніж права.
ISSN 1028-9763. Математичні машини і системи, 2013, № 4 113
Рис. 5. Представлення спільних
ознак у назві публікації
Розіб'ємо теми на ліву та праву частини й виберемо спільне. При цьому слід не бра-
ти до уваги слова-коннектори, такі як «і, та» і т.д. При цьому не слід відкидати слова,
написані великими літерами: це може бути абревіатура. Також здійснюється відсікання
закінчень.
Тоді отримаємо:
С1л=С3л=«пошук, інформація».
С1л=С2л=«збереження».
Зв’язок, який утворюється між публікаціями, для
яких співпадає більше половини слів у лівій частині на-
зви, назвемо сильним зв’язком назв.
Отже, оскільки С1л та С3л мають два спільних
слова, то між публікаціями Р1 та Р3 утворюється силь-
ний зв’язок назв.
Відповідно в назвах С1л та С2л утворено слабкий
зв’язок назв.
Такі зв'язки між темами можна використовувати
для додаткового навантаження зв'язків між публікаціями,
що, у свою чергу, може вплинути на прийняття рішення,
в яку із існуючих шкіл відносити публікацію, чи залиша-
ти її для створення нової школи.
5. Висновки
У статті запропоновано метод визначення ознак наукових публікацій та їх кластеризації.
Кластеризація використовується для формування інформації про наукові школи. Розроб-
лено метод визначення зв’язку між публікацією та школою.
За допомогою такого підходу ми можемо відстежувати, які школи стрімко розвиваються і
які занепадають, за якими характеристиками поповнюється школа, та проаналізувати
перспективні теми і проблеми.
Також за допомогою шкіл, сформованих подібним шляхом, значно оптимізовується пошук
потрібної інформації. Так, для прикладу, якщо користувач шукатиме якусь інформацію,
нехай 11a , тоді система видасть усю спільну інформацію з 11a , тобто школу S1.
СПИСОК ЛІТЕРАТУРИ
1. Salton G. Automatic Text Structuring and Summarization / G. Salton // Information Processing & Man-
agement. – 1997. – Vol. 33, N 2. – P. 193 – 207.
2. Mani I. The Tipster Summac Text Summarization Evaluation / I. Mani // Proc. 9th Conf. European
Chapter of the November 2000. – 2000. – P. 118 – 121.
3. Mani I. Summarizing Similarities and Differences Among Related Documents / I. Mani, E. Bloedorn //
Information Retrieval. – 1999. – Vol. 1, N 1. – P. 35 – 67.
4. Radev D.R. Generating Natural Language Summaries from Multiple Online Sources / D.R. Radev,
K.R. McKeown // Computational Linguistics. – 1998. – Vol. 24, N 3. – P. 469 – 500.
5. Carbonell J.G. The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing
Summaries / J.G. Carbonell, J. Goldstein // Proc. 21st Int’l ACM SIGIR Conf. Research and Development
in Information Retrieval. – New York: ACM Press, 1998. – P. 335 – 336.
6. Ando R.K. Multidocument Summarization by Visualizing Topical Content / R.K. Ando // Proc.
ANLP/NAACL 2000 Workshop on Automatic Summarization. – 2000. – P. 79 – 88.
Стаття надійшла до редакції 11.12.2012
|
| id | nasplib_isofts_kiev_ua-123456789-84276 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1028-9763 |
| language | Ukrainian |
| last_indexed | 2025-11-24T08:28:28Z |
| publishDate | 2013 |
| publisher | Інститут проблем математичних машин і систем НАН України |
| record_format | dspace |
| spelling | Нога, Р.Ю. 2015-07-05T07:36:36Z 2015-07-05T07:36:36Z 2013 Метод формування наукових шкіл на основі аналізу елементів публікацій / Р.Ю. Нога // Математичні машини і системи. — 2013. — № 4. — С. 107-113. — Бібліогр.: 6 назв. — укр. 1028-9763 https://nasplib.isofts.kiev.ua/handle/123456789/84276 51.001.57+004.652.4+004.827 У статті розроблено метод визначення елементів наукової публікації та об’єднання авторів публікацій у наукові школи. В статье разработан метод определения элементов научной публикации и объединения авторов публикаций в научные школы. Method for determination of scientific publications elements and associations of authors into scientific schools was developed in this paper. uk Інститут проблем математичних машин і систем НАН України Математичні машини і системи Інформаційні і телекомунікаційні технології Метод формування наукових шкіл на основі аналізу елементів публікацій Метод формирования научных школ на основе анализа элементов публикаций Formation method of scientific schools based on the analysis of publications elements Article published earlier |
| spellingShingle | Метод формування наукових шкіл на основі аналізу елементів публікацій Нога, Р.Ю. Інформаційні і телекомунікаційні технології |
| title | Метод формування наукових шкіл на основі аналізу елементів публікацій |
| title_alt | Метод формирования научных школ на основе анализа элементов публикаций Formation method of scientific schools based on the analysis of publications elements |
| title_full | Метод формування наукових шкіл на основі аналізу елементів публікацій |
| title_fullStr | Метод формування наукових шкіл на основі аналізу елементів публікацій |
| title_full_unstemmed | Метод формування наукових шкіл на основі аналізу елементів публікацій |
| title_short | Метод формування наукових шкіл на основі аналізу елементів публікацій |
| title_sort | метод формування наукових шкіл на основі аналізу елементів публікацій |
| topic | Інформаційні і телекомунікаційні технології |
| topic_facet | Інформаційні і телекомунікаційні технології |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/84276 |
| work_keys_str_mv | AT nogarû metodformuvannânaukovihškílnaosnovíanalízuelementívpublíkacíi AT nogarû metodformirovaniânaučnyhškolnaosnoveanalizaélementovpublikacii AT nogarû formationmethodofscientificschoolsbasedontheanalysisofpublicationselements |