Тематичне моделювання науковців на основі їх інтересів у Google Scholar
The article proposes an algorithm for topic modeling of researchers based on their interests from Google Scholar profiles. The algorithm uses the set of fields of research from research classification system ANZSRC. An information resource for topic modeling is a corpus of categorized publications f...
Saved in:
| Date: | 2021 |
|---|---|
| Main Authors: | , |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
2021
|
| Subjects: | |
| Online Access: | https://journal.iasa.kpi.ua/article/view/225166 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | System research and information technologies |
| Download file: | |
Institution
System research and information technologies| _version_ | 1866302713638158336 |
|---|---|
| author | Shtovba, Serhiy Petrychko, Mykola |
| author_facet | Shtovba, Serhiy Petrychko, Mykola |
| author_sort | Shtovba, Serhiy |
| baseUrl_str | http://journal.iasa.kpi.ua/oai |
| collection | OJS |
| datestamp_date | 2021-09-16T11:48:22Z |
| description | The article proposes an algorithm for topic modeling of researchers based on their interests from Google Scholar profiles. The algorithm uses the set of fields of research from research classification system ANZSRC. An information resource for topic modeling is a corpus of categorized publications from Dimensions. Interests from researchers’ profiles are used as search queries to Dimensions that outputs distributions of documents over categories. To reduce information noise these distributions are taken through a few stages of processing. The article also compares the results of topic modeling based on interests from Google Scholar profiles and based on a categorized list of publications from Dimensions. The comparison is done using modified Czekanowski metric that takes into account the similarity between categories. The results of comparing the topic modeling outputs based on different information sources show a good match. |
| doi_str_mv | 10.20535/SRIT.2308-8893.2021.2.09 |
| first_indexed | 2025-07-17T10:27:03Z |
| format | Article |
| fulltext |
С.Д. Штовба, М.В. Петричко, 2021
Системні дослідження та інформаційні технології, 2021, № 2 113
УДК 519.254+001.2
DOI: 10.20535/SRIT.2308-8893.2021.2.09
ТЕМАТИЧНЕ МОДЕЛЮВАННЯ НАУКОВЦІВ НА ОСНОВІ
ЇХ ІНТЕРЕСІВ У GOOGLE SCHOLAR
С.Д. ШТОВБА, М.В. ПЕТРИЧКО
Анотація. Запропоновано алгоритм тематичного моделювання науковців за
науковими спеціальностям на основі їх інтересів у профілях у Google Scholar.
Алгоритм використовує перелік наукових спеціальностей із системи класифі-
кації наук ANZSRC. Інформаційним ресурсом для тематичного моделювання є
база категоризованих наукових публікацій із системи Dimensions. Інтереси з
профілів науковців використовуються як пошукові запити для Dimensions,
сервіси якої видають розподіли релевантних документів за спеціальностями.
Для зменшення інформаційного шуму ці розподіли проходять декілька етапів
оброблення. Порівнюються результати тематичного моделювання на основі
профільних інтересів у Google Scholar і категоризованого списку авторських
публікацій у Dimensions за метрикою Чекановського з урахуванням спорідне-
ності спеціальностей. Для тестових науковців виявлено високу узгодженість
результатів тематичного моделювання за різної початкової інформації.
Ключові слова: тематичне моделювання, категоризація, Google Scholar,
Dimensions, ANZSRC, профіль науковця, наукові інтереси, метрика Чеканов-
ського, індекс Жакара.
ВСТУП
Сьогодні професійні спільноти людей взаємодіють у різноманітних онлай-
нових мережах. Не винятком є і спільнота науковців. Найбільшою онлайно-
вою мережею науковців є Google Scholar. Зокрема, у цій мережі у відкрито-
му доступі понад 50 тисяч профілів українських науковців. Такий
величезний ресурс виглядає привабливим для розроблення технологій ана-
літичного опрацювання нагромадженої в ньому інформації з метою іденти-
фікації лідерів — статей, науковців, університетів та журналів; виявлення
тенденцій наукових досліджень; кластеризації науковців; підбору партнерів
для спільних проєктів, опонентів дисертацій, рецензентів рукописів тощо.
Найчастіше із профілів науковців у Google Scholar використовують дані
про цитованість. Її, наприклад, використовують як початкові дані для рей-
тингування університетів у Webometrics. Створено також кілька інформа-
ційних систем на базі Google Scholar, найбільш відомими серед яких є
Publish or Perish і Scholarometer [1]. Багато досліджень, зокрема [2, 3], сто-
суються перевірки достовірності цитованості в Google Scholar порівняно
з наукометричними системами Scopus, Web of Science, Dimensions та інши-
ми, які наповнюються виключно за метаданими з видавництв.
Окрім списку публікацій та їх цитування у профілі науковця міститься і
інша інформація. Зокрема, науковець у профілі вказує свої інтереси, і робить
він це на власний розсуд, обираючи слова у довільний спосіб. Google Scholar
дозволяє виконувати пошук науковців за тим чи іншим інтересом. Але ви-
дачі формуються за буквальним збігом. Тому видачі для fuzzy set і fuzzy sets
С.Д. Штовба, М.В. Петричко
ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 114
будуть різними, не говорячи вже про синонімічні інтереси типу fuzzy
evidence і fuzzy inference. Google Scholar не враховує і сукупність інтересів
користувача, тобто пошук за кожним інтересом виконується незалежно та
ізольовано. Відповідно, в одну видачу потраплять науковці, що поміж своїх
інтересів вказали безпеку в сенсі як security, так і safety. Таким чином, пошу-
кові та аналітичні сервіси за велетенським масивом профілів науковців
у Google Scholar досить примітивні.
Мета роботи — тематичне моделювання науковців на основі їх інте-
ресів у Google Scholar. Методи опрацювання інтересів із профілів науковців
у Google Scholar є мало дослідженими. Нами виявлено лише дві релевантні
публікації. Перша з них [4] стосується рекомендаційної системи для підбору
наукового керівника, яка поміж інших джерел інформації використовує і
інтереси кандидатів з їх профілів у Google Scholar. Друга публікація [5] опи-
сує інформаційну технологію синтезу наукового профілю інституту чи до-
слідницької лабораторії. Ця технологія, поміж іншої інформації, використо-
вує і інтереси науковців з їх профілів у Google Scholar. Праці [4, 5]
базуються на використанні попарного порівняння за косинусової метрики
близькості — відстані між науковцем та набором ключових слів з деякої те-
матики. Такою тематикою в [4] обрано статтю у Вікіпедії. На відміну від
цих праць, будемо намагатися категоризувати науковців у межах деякої кла-
сифікації наук, тобто розподілити їх за науковими спеціальностями.
Автоматична категоризація науковців виконується зазвичай в результа-
ті узагальнення тематик їх публікацій. Для цього у праці [6] запропоновано
статистичну модель «автор – тема» на основі тематичного моделювання з
використанням прихованого розподілу Діріхле (LDA) [7]. Модель подає на-
уковця як розподіл над деякими абстрактними темами. Теми є кластерами
схожих слів. Її недоліком є погана інтерпретація тем, оскільки вони форму-
ються за частотою слів у одному документі. Для покращення інтерпретації у
[8] запропоновано модель «автор – дисципліна – тема». У ній для опису на-
уковця додатково використовують наукову спеціальність, яка визначається
за журналом чи збірником статей, у якому опубліковано аналізовану працю.
На виході науковець подається сукупністю належностей до наукових спеці-
альностей. У праці [9] для підбору рецензентів запропоновано модель «ав-
тор – персона – тема». У ній враховано те, що автори часто пишуть про де-
кілька різних комбінацій тем з однієї предметної галузі. Дуже рідко особа є
експертом в усіх аспектах якоїсь предметної галузі. За результатами моде-
лювання науковця зіставляють з декількома персонами (personas). Кожна
персона є кластером статей науковця зі своїм тематичним розподілом. У
праці [10] розвинуто методи [8, 9] моделлю «автор – інтерес – тема», яка
містить документи зі схожими темами як один клас документів, подібно до
того, як тематичні моделі подають спільну появу (co-occurrence) слів як од-
ну тематичну змінну.
Окрім методів на основі тематичного моделювання також використо-
вуються моделі на основі ембедингу слів (word embedding) [11–14]. Однією
з найпопулярніших моделей ембедингу слів є модель word2veс [15]. На від-
міну від прихованого розподілу Діріхле [7], прихованого семантичного ана-
лізу (pLSA) [16] та інших статистичних моделей, які породжують імовірніс-
ний розподіл на основі спільної появи слів та документів, word2vec
Тематичне моделювання науковців на основі їх інтересів у Google Scholar
Системні дослідження та інформаційні технології, 2021, № 2 115
фокусується на контекстуальній (семантичній та синтаксичній) інформації
слів. Згадані методи показують непогану ефективність для таких завдань, як
рекомендація рецензентів, пошук експертів тощо. Результати моделювання
подаються у вигляді векторів, які складно інтерпретувати.
Проаналізовані методи передбачають наявність достатньої кількості
статей науковця з виділеними ключовими словами. При цьому не врахову-
ється, що співавторами статті можуть бути кілька науковців, на кожного з
яких припадає деяка підмножина з усього списку ключових слів. Причому з
десятка ключових слів статті внесок співавтора може відображати лише од-
не ключове слово. Крім того, науковець, особливо молодий, може і не мати
достатньої кількості статей для достовірної категоризації. Утім він може са-
мостійно задати у профілі набір ключових слів, який описує його дослі-
дження. Із часом науковець може змінити напрям своєї діяльності, напри-
клад, працювати в іншій лабораторії чи над іншим проєктом. Але його
продовжуватимуть категоризувати за давніми публікаціями. У зв’язку з цим
виникла зацікавленість у тематичному моделюванні на основі інтересів, які
науковець власноруч сформулював на поточний момент, тобто на основі
актуальної та узагальненої початкової інформації, що позбавлена наведених
вище недоліків.
ПОСТАНОВКА ЗАДАЧІ
Вважатимемо відомими:
)...,,,( 21 nwwwW — список ключових слів, якими науковець у своєму
профілі в Google Scholar на власний розсуд описав свої інтереси;
)...,,,( 21 mtttT — перелік можливих тем у формі списку наукових
спеціальностей за деякою класифікацією наук;
mDDD ...,,, 21 — тематичні колекції розмічених текстів, кожна з яких
містить лише публікації з тем mttt ...,,, 21 відповідно;
mDDDВ ...21 — загальна колекція розмічених текстів, тобто
множина публікацій, кожна з яких стосується однієї або декількох тем з
множини T;
TDTDR ),( — відношення, яке описує належність публікацій до
тематичних колекцій.
Задача полягає у знаходженні тем з T, яким відповідає cукупність інте-
ресів W. Будемо вказувати не лише сам факт належності, але і ступінь
належності. Таким чином, на виході отримуємо нечітку множину W
~
на уні-
версальній множині тем T:
m
mWWW
t
t
t
t
t
t
W
)(
,...,
)(
,
)(~
2
2
1
1 ,
де ]1,0[)( pW t — ступінь належності cукупності інтересів W до спеціаль-
ності pt , mp ,1 .
На W
~
накладемо такі обмеження:
С.Д. Штовба, М.В. Петричко
ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 116
1) потужність носія нечіткої множини W
~
має бути невеликою
max)
~
(support1 TW , наприклад, за }4,3,2{max T науковець відповідати-
ме лише кільком спеціальностям;
2) 1)(
,1
mp
pW t , що ототожнюється з умовою регуляризації тематич-
ного моделювання.
ДОБУВАННЯ ПОЧАТКОВИХ ДАНИХ
Для отримання списку ключових слів науковця скористаємося його
профілем у Google Scholar. Для прикладу на рис. 1 наведено профіль
науковця з двома ключовими словами "networksneural"1 w та
"ceintelligenartificial"2 w . Послідовність ключових слів у множині W не-
важлива, що відповідає врахуванню інформації за схемою мішка слів (bag of
words). Часто інтереси у профілі доповнюють один одного, тим самим фоку-
суючи тематику досліджень. Щоб це врахувати синтезуємо додаткові
ключові слова у вигляді пар початкових інтересів. Інтереси в парах
поєднаємо логічною операцією ТА. Для науковця з рис. 1 додаткове ключове
слово запишемо як "ceintelligenartificial"AND"networksneural"3 w . Якщо у
профілі науковця вказано три інтереси, буде синтезовано три додаткові
ключові слова, якщо у профілі чотири інтереси, тоді синтезується шість до-
даткових ключових слів, якщо п’ять інтересів, тоді десять додаткових клю-
чових слів тощо. Синтез додаткових парних ключових слів є своєрідним
аналогом дистантного поєднання слів (word co-occurrence), яке дозволяє
зменшити вербальний шум.
Для тематичного моделювання науковців необхідно обрати систему
класифікації наукових спеціальностей. Їх багато, але під час вибору системи
класифікації врахуємо не лише її змістовні переваги і недоліки, але і наяв-
ність відповідної інформаційної системи з доступними пошуковими серві-
сами. При цьому база даних системи має індексувати велику кількість кате-
горизованих публікацій, які охоплюють усі наукові галузі. Інформаційною
системою, яка задовольняє перераховані вимоги, є Dimensions.
Натепер Dimensions індексує понад 110 млн публікацій. Усі публікації
в Dimensions категоризовано за дворівневим варіантом Австралійсько-
новозеландського стандарту ANZSRC (Australian and New Zealand Standard
Research Classification). У ньому науку поділено на 22 галузі (Divisions) із
154 спеціальностями (Research Groups). Цей дворівневий варіант ANZSRC,
який і будемо надалі використовувати, подано в табл. 1.
Рис. 1. Приклад профілю науковця з двома інтересами
Підтверджено адресу електронної пошти в домені grammarly.com
Тематичне моделювання науковців на основі їх інтересів у Google Scholar
Системні дослідження та інформаційні технології, 2021, № 2 117
Т а б л и ц я 1 . Система класифікації наук ANZSRC, що використовується
у Dimensions
Галузь Спеціальність
Mathematical
Sciences
A1 – Pure Mathematics; A2 – Applied Mathematics; A3 – Numerical and
Computational Mathematics; A4 – Statistics; A5 – Mathematical Physics
Physical
Sciences
B1 – Astronomical and Space Sciences; B2 – Atomic, Molecular, Nuclear,
Particle and Plasma Physics; B3 – Classical Physics; B4 – Condensed Matter
Physics; B5 – Optical Physics; B6 – Quantum Physics;
B7 – Other Physical Sciences
Chemical
Sciences
C1 – Analytical Chemistry; C2 – Inorganic Chemistry; C3 – Macromolecular
and Materials Chemistry; C4 – Medicinal and Biomolecular Chemistry; C5 –
Organic Chemistry; C6 – Physical Chemistry (incl. Structural); C7 –
Theoretical and Computational Chemistry; C8 – Other Chemical Sciences
Earth
Sciences
D1 – Atmospheric Sciences; D2 – Geochemistry; D3 – Geology; D4 – Geo-
physics; D5 – Oceanography; D6 – Physical Geography and Environmental
Geoscience; D7 – Other Earth Sciences
Environmental
Sciences
E1 – Ecological Applications; E2 – Environmental Science and
Management; E3 – Soil Sciences; E4 – Other Environmental Sciences
Biological
Sciences
F1 – Biochemistry and Cell Biology; F2 – Ecology; F3 – Evolutionary
Biology; F4 – Genetics; F5 – Microbiology; F6 – Physiology;
F7 – Plant Biology; F8 – Zoology; F9 – Other Biological Sciences
Agricultural
and Veterinary
Sciences
G1 – Agriculture, Land and Farm Management; G2 – Animal Production;
G3 – Crop and Pasture Production; G4 – Fisheries Sciences; G5 – Forestry
Sciences; G6 – Horticultural Production; G7 – Veterinary Sciences;
G8 – Other Agricultural and Veterinary Sciences
Information
and Computing
Sciences
H1 – Artificial Intelligence and Image Processing; H2 – Computation Theory
and Mathematics; H3 – Computer Software; H4 – Data Format; H5 – Distrib-
uted Computing; H6 – Information Systems; H7 – Library and Information
Studies; H8 – Other Information and Computing Sciences
Engineering
I1 – Aerospace Engineering; I2 – Automotive Engineering; I3 – Biomedical
Engineering; I4 – Chemical Engineering; I5 – Civil Engineering; I6 – Electri-
cal and Electronic Engineering; I7 – Environmental Engineering; I8 – Food
Sciences; I9 – Geomatic Engineering; I10 – Manufacturing Engineering;
I11 – Maritime Engineering; I12 – Materials Engineering; I13 – Mechanical
Engineering; I14 – Resources Engineering and Extractive Metallurgy; I15 –
Interdisciplinary Engineering; I16 – Other Engineering
Technology
J1 – Agricultural Biotechnology; J2 – Environmental Biotechnology; J3 –
Industrial Biotechnology; J4 – Medical Biotechnology; J5 – Communications
Technologies; J6 – Computer Hardware; J7 – Nanotechnology; J8 – Other
Technology
Medical
and Health
Sciences
K1 – Medical Biochemistry and Metabolomics; K2 – Cardiorespiratory Med-
icine and Haematology; K3 – Clinical Sciences; K4 – Complementary and
Alternative Medicine; K5 – Dentistry; K6 – Human Movement and Sports
Science; K7 – Immunology; K8 – Medical Microbiology;
K9 – Neurosciences; K10 – Nursing; K11 – Nutrition and Dietetics;
K12 – Oncology and Carcinogenesis; K13 – Ophthalmology and Optometry;
K14 – Paediatrics and Reproductive Medicine; K15 – Pharmacology
and Pharmaceutical Sciences; K16 – Medical Physiology; K17 – Public
Health and Health Services; K18 – Other Medical and Health Sciences
Built
Environment
and Design
L1 – Architecture; L2 – Building; L3 – Design Practice and
Management; L4 – Engineering Design; L5 – Urban and
Regional Planning; L6 – Other Built Environment and Design
Education M1 – Education Systems; M2 – Curriculum and Pedagogy; M3 – Specialist
Studies In Education; M4 – Other Education
Economics N1 – Economic Theory; N2 – Applied Economics; N3 – Econometrics;
N4 – Other Economics
Commerce,
Management,
Tourism
and Services
O1 – Accounting, Auditing and Accountability; O2 – Banking, Finance and
Investment; O3 – Business and Management; O4 – Commercial Services; O5
– Marketing; O6 – Tourism; O7 – Transportation and Freight Services
С.Д. Штовба, М.В. Петричко
ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 118
Продовження табл.. 1
Галузь Спеціальність
Studies
in Human
Society
P1 – Anthropology; P2 – Criminology; P3 – Demography; P4 – Human
Geography; P5 – Policy and Administration; P6 – Political Science;
P7 – Social Work; P8 – Sociology; P9 – Other Studies In Human Society
Psychology and
Cognitive
Sciences
Q1 – Psychology; Q2 – Cognitive Sciences; Q3 – Other Psychology
and Cognitive Sciences
Law and
Legal Studies R1 – Law; R2 – Other Law and Legal Studies
Studies in
Creative Arts
and Writing
S1 – Art Theory and Criticism; S2 – Film, Television and Digital Media; S3 –
Journalism and Professional Writing; S4 – Performing Arts and
Creative Writing; S5 – Visual Arts and Crafts;
S6 – Other Studies In Creative Arts and Writing
Language,
Communication
and Culture
T1 – Communication and Media Studies; T2 – Cultural Studies; T3 –
Language Studies; T4 – Linguistics; T5 – Literary Studies; T6 – Other
Language, Communication and Culture
History and
Archaeology
U1 – Archaeology; U2 – Curatorial and Related Studies; U3 – Historical
Studies; U4 – Other History and Archaeology
Philosophy
and Religious
Studies
V1 – Applied Ethics; V2 – History and Philosophy of Specific Fields;
V3 – Philosophy; V4 – Religion and Religious Studies;
V5 – Other Philosophy and Religious Studies
Запит до інформаційної системи Dimensions формуємо окремо за кож-
ним елементом множини W. Якщо цей елемент є словосполученням, тоді
подамо його у лапках. Пошук виконуємо за назвою та рефератом публікацій
2016–2020 рр. Приклад видачі за пошуковим запитом “neural networks” по-
дано у вигляді рис. 2. За кожною спеціальністю та за кожною галуззю виво-
диться кількість публікацій, у назві або в рефераті яких фігурує пошуковий
вираз. Видачу відсортовано за спаданням кількості публікацій. Також можна
отримати загальну кількість публікацій за кожною спеціальністю, тобто об-
сяги тематичних колекцій.
Publocatijn Year
Free text in title and abstracts
FILTERS FAVORITES
Рис. 2. Видача Dimensions за пошуковим запитом “neural networks”
Тематичне моделювання науковців на основі їх інтересів у Google Scholar
Системні дослідження та інформаційні технології, 2021, № 2 119
Dimensions індексує переважно англомовні публікації, тому всі інтере-
си з профілю науковця в Google Scholar необхідно попередньо перекласти
англійською мовою. Інколи науковці вказують у своєму профілі один і той
самий інтерес кількома мовами, наприклад, neural networks та нейронні ме-
режі. У такому випадку ці два інтереси об’єднаємо в один англомовний —
neural networks.
АЛГОРИТМ ТЕМАТИЧНОГО МОДЕЛЮВАННЯ
Тематичне моделювання науковців виконаємо на базі таких принципів:
статистичного підтримання — чим більша частка публікацій з
певної спеціальності містить аналізоване ключове слово, тим більша належ-
ність ключового слова до цієї спеціальності;
багатоярликовості — ключове слово може належати до кількох
спеціальностей;
фільтрації шумів — ігноруються спеціальності, до яких ключове
слово належить з незначним ступенем;
ігнорування стоп-слів — ігнорується ключове слово, яке трапляється
у дуже багатьох категоризованих публікаціях;
солідарності — чим більше ключових слів за окремими запитами
належить до однієї і тієї ж спеціальності, тим більша можливість належності
науковця до цієї спеціальності;
фокусування — якщо в тематичній колекції багато публікацій, які
містять кілька ключових слів науковця одночасно, тоді збільшуються шанси
належності науковця до відповідної спеціальності.
компактності — один науковець може належати лише до невеликої
кількості спеціальностей;
взаємодії спеціальностей — під час відсікання хвоста розподілу тем,
внесок мінорних спеціальностей перерозподіляється на лідерів з урахуван-
ням їх схожості.
Наведені принципи пропонується реалізувати алгоритмом, який
містить три ділянки. На першій ділянці формується множина запитів на ос-
нові ключових слів та їх поєднання. Використовуємо лише пари ключових
слів, тому що видачі за трійками часто виявляються порожніми, але при
цьому суттєво збільшується тривалість пошуку.
На другій ділянці алгоритму (рис. 3) виконується тематичне моделю-
вання за кожним запитом окремо. Спеціальності обираємо за частотою
входження запиту в тематичну колекцію. Частота розраховується як відно-
шення кількості документів, що містять пошуковий вираз, до загальної кіль-
кості документів зі спеціальності. При цьому стоп-слова та шуми фільтру-
ються за кількістю входжень в усю колекцію документів із застосуванням
порогових значень. Вилучаються і мінорні спеціальності. Спочатку вилуча-
ємо за пороговим значенням кількості знайдених документів, які належать
до відповідної спеціальності, а потім — за кумулятивним принципом,
відсікаючи хвіст розподілу за пороговим значенням.
С.Д. Штовба, М.В. Петричко
ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 120
На третій ділянці алгоритму (рис. 4) усереднюємо належності за всіма
запитами та відсікаємо хвіст сукупного розподілу за пороговим значенням.
Далі вилучаємо спеціальності з низьким рівнем належності таким чином,
щоб результат став компактним і представницьким, коли науковець
відповідає не більше ніж чотирьом спеціальностям, причому до кожної
з них належність є значущою.
На третій ділянці роботи алгоритму під час ітераційного вилучення мі-
норної спеціальності її внесок перерозподіляється на інші спеціальності з
урахуванням коефіцієнтів схожості із праці [17]. Наприклад, нехай на
проміжному етапі науковця віднесено до наукових спеціальностей таким
чином:
O4
1,0
,
O6
2,0
,
O5
2,0
,
H6
5,0~
W . Вилучимо мінорну спеціальність O4. Для
цього спочатку за методом [17] знайдемо коефіцієнти Жакара між O4 та
іншими спеціальностями. Вони за даними 2016–2020 рр. такі:
0)H6O4,( J , 13,0)O5O4,( J , 22,0)O6O4,( J . З урахуванням схожості
внесок мінорної спеціальності O4 перерозподіляється таким чином:
Рис. 3. Блок-схема другої ділянки алгоритму
тематичного моделювання
Початок
Занулення шумових
значень з розподілу
t(1),,t(m)
Список розподілів
для кожного
запиту E(i)
Кінець
Для кожного запиту E(i)
Пошук
розподілу
за спеціальностями
t(1),,t(m)
E(i) споп-слово
або шум
Множина запитів E
Ні
Так
Початок
Список розподілів
для всіх запитів E(i)
Усереднення
розподілів
за всіма запитами
Занулення шумових
значень
з результуючого
розподілу t(1),,t(m)
Ітераційне
вилучення
мінорної
спеціальності
Розподіл сукупності
ключових слів
за спеціальностями
Кінець
Рис. 4. Блок-схема третьої
ділянки алгоритму
тематичного моделювання
Тематичне моделювання науковців на основі їх інтересів у Google Scholar
Системні дослідження та інформаційні технології, 2021, № 2 121
O6
1,022,02,0
,
O5
1,013,02,0
,
H6
1,005,0~
W . Підрахувавши, отримуємо
O6
222,0
,
O5
213,0
,
H6
5,0~
W . Після нормування на 1 маємо результат:
O6
237,0
,
O5
228,0
,
H6
535,0~
W .
ПОКРОКОВИЙ КОНТРОЛЬНИЙ ПРИКЛАД
Проілюструємо роботу алгоритму на прикладі тематичного моделювання
науковця з рис. 1. За двома інтересами науковця сформовано три пошукові
запити. Частоту входжень трьох ключових слів у тематичні колекції показа-
но на рис. 5, а результати після першого відсікання хвостів розподілів — на
рис. 6. Далі усереднюємо за усіма запитами (рис. 7) і відсікаємо хвіст
розподілу (рис. 8). Проміжний розподіл став перенаповненим через заширо-
ке формулювання науковцем своїх інтересів. Для фокусування результатів
тематичного моделювання на заключному етапі алгоритму розподіл
обрізаємо до двох спеціальностей (рис. 9). У результаті науковець з інтере-
сами в галузі штучного інтелекту та нейронних мереж найбільше відповідає
спеціальностям H1 – Artificial Intelligence and Image Processing зі ступенем
належності 0,767 та Q2 – Cognitive Sciences зі ступенем належності 0,233.
Така категоризація науковця не суперечить поглядам авторів цієї статті. Із
прикладу видно, що навіть за двома початковими ключовими словами за-
пропонований алгоритм достатньо точно знаходить відповідність науковця
спеціальностям.
ПОРІВНЯННЯ З КАТЕГОРИЗАЦІЄЮ ЗА СТАТТЯМИ
Перевіримо узгодженість результатів тематичного моделювання науковців
на основі ключових слів з їх профілів у Google Scholar та на основі катего-
ризованих статей у Dimensions. Для цього відберемо трьох науковців:
А. Чернодуба (див. рис 1), Є. Бодянського (рис. 10) та Н. Куссуль (рис. 11).
Ці науковці мають у Dimensions велику кількість публікацій за п’ять остан-
ніх років, що дозволяє отримати статистично значущі результати.
За аналізований період А. Чернодуб опублікував 22 праці, які категори-
зовано за п’ятьма спеціальностями. Найбільше публікацій — 11 потрапило
до спеціальності H1. Є. Бодянський опублікував 88 робіт. Вони категоризо-
вані за 12 спеціальностями. Найбільше публікацій — 59 потрапило до
спеціальності H1. Н. Куссуль опублікувала 47 робіт, які категоризовано
за 14 спеціальностями. Найбільше публікацій — 21 потрапило до спеціаль-
ності I9.
За розподілами публікацій за спеціальностями з використанням третьої
ділянки алгоритму тематичного моделювання отримаємо належності нау-
ковців до спеціальностей (табл. 2). Там же вказано результати тематичного
моделювання на основі інтересів науковців у Google Scholar.
С.Д. Штовба, М.В. Петричко
ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 122
Частота входжень Частота входжень Частота входжень Р
ис
. 5
. П
оч
ат
ко
ви
й
ро
зп
од
іл
н
ал
еж
но
ст
і к
ож
но
го
ін
те
ре
су
д
о
сп
ец
іа
ль
но
ст
ей
Тематичне моделювання науковців на основі їх інтересів у Google Scholar
Системні дослідження та інформаційні технології, 2021, № 2 123
Ступінь належності Ступінь належності Ступінь належності
Р
ис
. 6
. П
ро
рі
дж
ен
і р
оз
по
ді
ли
п
іс
ля
п
ер
ш
ої
ф
іл
ьт
ра
ці
ї
С.Д. Штовба, М.В. Петричко
ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 124
Р
ис
. 7
. Р
ез
ул
ьт
ат
у
се
ре
дн
ен
ня
з
а
пр
ор
ід
ж
ен
им
и
ро
зп
од
іл
ам
и
Р
ис
. 8
. Р
оз
по
ді
л
пі
сл
я
др
уг
ої
ф
іл
ьт
ра
ці
ї
Р
ис
. 9
. Р
ез
ул
ьт
ат
т
ем
ат
ич
но
го
м
од
ел
ю
ва
нн
я
на
ук
ов
ця
з
р
ис
. 1
Ступінь належності Ступінь належності Ступінь належності
Підтверджено адресу електронної пошти в домені ikd.kiev.ua
Рис. 10. Профіль другого науковця
Тематичне моделювання науковців на основі їх інтересів у Google Scholar
Системні дослідження та інформаційні технології, 2021, № 2 125
Порівнюючи результати, бачимо що за інтересами у Google Scholar,
тобто за суб’єктивною інформацію дуже обмеженого обсягу, запропонова-
ний алгоритм достатньо добре категоризує науковців. Для кількісної оцінки
узгодженості результатів скористаємося метрикою Чекановського. Для роз-
глядуваного випадку — за умови нормованості суми належностей на 1, мет-
рика Чекановського між двома науковцями 1W і 2W розраховується таким
чином:
Mp
tt WWWWFit
pp
,1
2121 ))(),((min),( . (1)
Т а б л и ц я 2 . Результати тематичного моделювання науковців
Chernodub Kussul Bodyanskiy
Спеціальність
Dimensions
Google
Scholar
Dimensions
Google
Scholar
Dimensions
Google
Scholar
D6 0,283
I9 0,675 0,447
H1 0,8 0,767 0,172 0,346 0,797 0,295
H2 0,199
H6 0,153 0,203 0,506
K9 0,2
Q2 0,233
Метрику (1) можна інтерпретувати як суму ступенів належності пере-
тину нечітких множин 1
~
W і 2
~
W , які являють собою результати тематичного
моделювання науковця за двома джерелами початкової інформації — за ін-
тересами в Google Scholar та за категоризованими публікаціями в Dimen-
sions.
За даними з табл. 2 отримуємо такі значення метрики (1):
Fit(Chernodub) = 0,767;
Fit(Bodyanskiy) = 0,498;
Fit(Kussul) = 0,619.
За метрикою (1) збіг враховується ізольовано — лише в межах кожної
окремої спеціальності. Для врахування внеску споріднених спеціальностей
пропонується до значення метрики (1) додати такий доданок:
Mv Mp
ttpv WWttJWWFit
pv
,1 ,1
2121 ))(),((min),(),( , (2)
Підтверджено адресу електронної пошти в домені ikd.kiev.ua
Рис. 11. Профіль третього науковця
С.Д. Штовба, М.В. Петричко
ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 126
де ),( pv ttJ — індекс Жакара між спеціальностями vt і pt ; )( 1W
vt
))()(,0(max 21 WW
vv tt — залишок ступеня належності науковця до
спеціальності vt у 1
~
W після врахування у формулі (1) збігу )( 1W
vt
і
)( 2W
vt
; ))()(,0(max)( 122 WWW
ppp ttt — залишок ступеня належ-
ності науковця до спеціальності pt у 2
~
W після врахування у формулі (1) збі-
гу )( 1W
pt і )( 2W
pt .
Для фільтрації інформаційного шуму формулу (2) застосуємо лише для
пар спеціальностей з високою подібністю — з індексом Жакара понад 0,02.
Для наведених в табл. 2 спеціальностей таких пар виявилося 3. Індекси Жа-
кара для них є такими:
083,0)I9D6,( J ;
071,0)H6,1H( J ;
041,0)Q2K9,( J .
Підставляючи числові дані у формулу (2), отримуємо:
0,008=)(ChernodubFit ;
0,022=)Bodyanskiy(Fit ;
0,03=(Kussul)Fit .
З урахуванням спорідненості спеціальностей збіг результатів тематич-
ного моделювання трохи підвищився і становить:
0,7750,0080,767=)(Chernodubsim Fit ;
0,520,0220,498=)Bodyanskiy(sim Fit ;
0,6490,030,619=(Kussul)sim Fit .
ВИСНОВКИ
Запропоновано тематичне моделювання науковців на основі їх інтересів
у профілях Google Scholar. Інтереси у профілях науковці вказують на влас-
ний розсуд без використання будь-якого словника ключових слів. Запропо-
новано підхід до категоризації таких науковців у межах системи класифікації
наук ANZSRC. Відображення «науковець – спеціальності» здійснюється
з використанням ресурсів інформаційної системи Dimensions, яка містить
понад 110 млн наукових публікацій, що категоризовані за ANZSRC.
Алгоритм тематичного моделювання науковців містить три ділянки. На
першій ділянці формується множина запитів на основі ключових слів та їх
поєднань, на другій — відбувається тематичне моделювання за кожним за-
питом окремо з фільтрацією стоп-слів та маловживаних слів, а на третій —
усереднюються належності за всіма запитами та обрізається розподіл до
кількох спеціальностей. Під час вилучення мінорних спеціальностей врахо-
вується їх вплив на споріднені спеціальності. На виході алгоритму отри-
Тематичне моделювання науковців на основі їх інтересів у Google Scholar
Системні дослідження та інформаційні технології, 2021, № 2 127
муємо ступені належності науковця до кількох спеціальностей, яким
найбільше відповідає сукупність його інтересів. Таке відображення інтересів
можна розглядати як аналог процедури word2vec.
Проведено порівняння тематичного моделювання на основі обмеженої
інформації з профілів науковців з Google Scholar та за кількома десятками
авторських статей, які категоризовано системою Dimensions. У результаті
перевірки встановлено узгодженість результатів тематичного моделювання
на основі різного обсягу початкової інформації. Це дозволяє використовува-
ти запропонований алгоритм як основу технології інформаційної розвідки
наукових кадрів, зокрема, для первинного підбору кандидатів у опоненти
дисертацій, у рецензенти наукових проєктів для формування команди для
виконання спільних наукових проєктів.
ЛІТЕРАТУРА
1. E. Delgado López-Cózar, E. Orduña-Malea, A. Martín-Martín, and J.M. Ayllón,
“Google Scholar: the big data bibliographic tool”, in Research analytics: boosting
university productivity and competitiveness through scientometrics. CRC Press (Tay-
lor & Francis), pp. 59–80, 2017. doi: 10.1201/9781315155890-4.
2. A. Martín-Martín, M. Thelwall, E. Orduna-Malea, and E.D. López-Cózar, “Google
Scholar, Microsoft Academic, Scopus, Dimensions, Web of Science, and OpenCita-
tions’ COCI: a multidisciplinary comparison of coverage via citations”, Scientomet-
rics, 126, pp. 871–906, 2021. doi: 10.1007/s11192-020-03690-4.
3. A.-W. Harzing and S. Alakangas, “Google Scholar, Scopus and the Web of Science:
A longitudinal and cross-disciplinary comparison”, Scientometrics, 106(2), pp. 787–804,
2016. doi: 10.1007/s11192-015-1798-9.
4. B. Rahdari et al., “Grapevine: A profile-based exploratory search and recommenda-
tion system for finding research advisors”, Proceedings of the Association for Infor-
mation Science and Technology, 57(1), e271, 2020. doi: 10.1002/pra2.271.
5. J. Saad-Falcon, O. Shaikh, Z.J. Wang, A.P. Wright, S. Richardson, and D.H. Chau,
“PeopleMap: Visualization Tool for Mapping Out Researchers using Natural Lan-
guage Processing”, arXiv preprint, arXiv:2006.06105 (2020).
6. M. Rosen-Zvi, T. Griffiths, M. Steyvers, and P. Smith, “The author-topic model for
authors and documents”, in Proceedings of the 20th Conference on Uncertainty in
Artificial Intelligence, AUAI Press, pp. 487–494, 2004.
7. D. Blei, A. Ng., and M. Jordan, “Latent Вirichlet allocation”, Journal of Machine
Learning Research, 3, pp. 993–1022, 2003.
8. J. Jian, G. Qian, M. Haikun, and C. Chong, “Author–Subject–Topic model for Re-
viewer Recommendation”, JIS-Journal of Information Science, SAGE, pp. 1–16,
2018. doi: 10.1177/0165551518806116.
9. D. Mimno and A. McCallum, “Expertise modeling for matching papers with review-
ers”, in KDD’07 proceedings of the 13th ACMSIGKDD international conference on
knowledge discovery and data mining, New York: ACM, pp. 500–509, 2007. doi:
10.1145/1281192.1281247.
10. N. Kawamae, “Author interest topic model”, in SIGIR’10 proceeding of the 33rd in-
ternational ACM SIGIR conference on research and development in information re-
trieval, New York: ACM, pp. 887–888, 2010. doi: 10.1145/1835449.1835666.
11. C. Sun, T.J. King, P. Henville, and R. Marchant, “Hierarchical Word Mover Dis-
tance for Collaboration Recommender System”, Australasian Conference on Data
Mining. Communications in Computer and Information Science, Springer 996,
pp. 289–302, 2018. doi: 10.1007/978-981-13-6661-1_23.
С.Д. Штовба, М.В. Петричко
ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 128
12. K. Xiangjie, J. Huizhen, Y. Zhuo, Y. Zhuo, Y. Zhuo, and A. Tolba, “Exploiting Pub-
lication Contents and Collaboration Networks for Collaborator Recommendation”,
PlosOne, 11(2), e0148492, 2016. doi: 10.1371/journal.pone.0148492
13. Y. Zhao, J. Tang, and Z. Du, “EFCNN: A Restricted Convolutional Neural Network
for Expert Finding”, in Advances in Knowledge Discovery and Data Mining.
PAKDD 2019. Lecture Notes in Computer Science, vol. 11440, Springer, Cham,
2019. doi: 10.1007/978-3-030-16145-3_8.
14. A. Omer, G. Hongyu, B. Suma, H. Wen-Mei, and X. JinJun, “PaRe: A Paper Re-
viewer Matching Approach Using a Common Topic Space”, in Proceedings of the
2019 Conference on Empirical Methods in Natural Language Processing and the 9th
International Joint Conference on Natural Language Processing (EMNLPIJCNLP),
pp. 518–528, 2019. doi: 10.18653/v1/D19-1049.
15. T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed repre-
sentations of words and phrases and their compositionality”, in Proceedings of the
26th International Conference on Neural Information Processing Systems 2,
pp. 3111–3119, 2013.
16. T. Hofmann, “Probabilistic latent semantic indexing”, in Proc. 22nd annual interna-
tional ACM SIGIR conference on Research and development in information re-
trieval, pp. 50–57, 1999. doi: 10.1145/312624.312649.
17. S. Shtovba and M. Petrychko, “Jaccard Index-Based Assessing the Similarity of Re-
search Fields in Dimensions”, CEUR Workshop Proceedings, vol. 2533 “Proc. of the
First International Workshop on Digital Content & Smart Multimedia”, pp. 117–128,
2019.
Надійшла 17.03.2021
INFORMATION ON THE ARTICLE
Serhiy D. Shtovba, ORCID: 0000-0003-1302-4899, Vasyl Stus’ Donetsk National
University, Vinnytsia, Ukraine, e-mail: s.shtovba@donnu.edu.ua
Mykola V. Petrychko, ORCID: 0000-0001-6836-7843, Vinnytsia National Technical
University, Vinnytsia, Ukraine, e-mail: mpetrychko@vntu.edu.ua
ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ УЧЕНЫХ НА ОСНОВЕ ИХ
ИНТЕРЕСОВ В GOOGLE SCHOLAR / С.Д. Штовба, Н.В. Петрычко
Аннотация. Предложен алгоритм тематического моделирования ученых по
научным специальностям на основе их интересов в профилях в Google Scholar.
Алгоритм использует перечень научных специальностей из системы класси-
фикации наук ANZSRC. Информационным ресурсом для тематического моде-
лирования является база категоризированных научных публикаций из системы
Dimensions. Интересы из профилей ученых используются как поисковые за-
просы для Dimensions, сервисы которой выдают распределения релевантных
документов по специальностям. Для уменьшения информационного шума эти
распределения проходят несколько этапов обработки. Сравниваются результа-
ты тематического моделирования на основе профильных интересов в Google
Scholar и категоризированного списка авторских публикаций в Dimensions по
метрике Чекановского с учетом схожести специальностей. Для тестовых уче-
ных выявлена высокая согласованность результатов тематического моделиро-
вания при различной исходной информации.
Ключевые слова: тематическое моделирование, категоризация, Google
Scholar, Dimensions, ANZSRC, профиль ученого, научные интересы, метрика
Чекановского, индекс Жакарра.
TOPIC MODELING OF RESEARCHERS BASED ON THEIR INTERESTS
FROM GOOGLE SCHOLAR / S.D. Shtovba, M.V. Petrychko
Тематичне моделювання науковців на основі їх інтересів у Google Scholar
Системні дослідження та інформаційні технології, 2021, № 2 129
Abstract. The article proposes an algorithm for topic modeling of researchers based
on their interests from Google Scholar profiles. The algorithm uses the set of fields
of research from research classification system ANZSRC. An information resource
for topic modeling is a corpus of categorized publications from Dimensions. Inter-
ests from researchers’ profiles are used as search queries to Dimensions that outputs
distributions of documents over categories. To reduce information noise these distri-
butions are taken through a few stages of processing. The article also compares the
results of topic modeling based on interests from Google Scholar profiles and based
on a categorized list of publications from Dimensions. The comparison is done using
modified Czekanowski metric that takes into account the similarity between catego-
ries. The results of comparing the topic modeling outputs based on different infor-
mation sources show a good match.
Keywords: topic modeling, categorization, Google Scholar, Dimensions, ANZSRC,
researcher’s profile, research interests, Czekanowski metric, Jaccard index.
|
| id | journaliasakpiua-article-225166 |
| institution | System research and information technologies |
| keywords_txt_mv | keywords |
| language | Ukrainian |
| last_indexed | 2025-07-17T10:27:03Z |
| publishDate | 2021 |
| publisher | The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" |
| record_format | ojs |
| resource_txt_mv | journaliasakpiua/22/8826a0060ecaaca8daf7972381ed4e22.pdf |
| spelling | journaliasakpiua-article-2251662021-09-16T11:48:22Z Topic modeling of researchers based on their interests from Google Scholar Тематическое моделирование ученых на основе их интересов в Google Scholar Тематичне моделювання науковців на основі їх інтересів у Google Scholar Shtovba, Serhiy Petrychko, Mykola topic modeling categorization Google Scholar Dimensions ANZSRC researcher’s profile research interests Czekanowski metric Jaccard index тематическое моделирование категоризация Google Scholar Dimensions ANZSRC профиль ученого научные интересы метрика Чекановского индекс Жакарра тематичне моделювання категоризація Google Scholar Dimensions ANZSRC профіль науковця наукові інтереси метрика Чекановського індекс Жакара The article proposes an algorithm for topic modeling of researchers based on their interests from Google Scholar profiles. The algorithm uses the set of fields of research from research classification system ANZSRC. An information resource for topic modeling is a corpus of categorized publications from Dimensions. Interests from researchers’ profiles are used as search queries to Dimensions that outputs distributions of documents over categories. To reduce information noise these distributions are taken through a few stages of processing. The article also compares the results of topic modeling based on interests from Google Scholar profiles and based on a categorized list of publications from Dimensions. The comparison is done using modified Czekanowski metric that takes into account the similarity between categories. The results of comparing the topic modeling outputs based on different information sources show a good match. Предложен алгоритм тематического моделирования ученых по научным специальностям на основе их интересов в профилях в Google Scholar. Алгоритм использует перечень научных специальностей из системы классификации наук ANZSRC. Информационным ресурсом для тематического моделирования является база категоризированных научных публикаций из системы Dimensions. Интересы из профилей ученых используются как поисковые запросы для Dimensions, сервисы которой выдают распределения релевантных документов по специальностям. Для уменьшения информационного шума эти распределения проходят несколько этапов обработки. Сравниваются результаты тематического моделирования на основе профильных интересов в Google Scholar и категоризированного списка авторских публикаций в Dimensions по метрике Чекановского с учетом схожести специальностей. Для тестовых ученых выявлена высокая согласованность результатов тематического моделирования при различной исходной информации. Запропоновано алгоритм тематичного моделювання науковців за науковими спеціальностям на основі їх інтересів у профілях у Google Scholar. Алгоритм використовує перелік наукових спеціальностей із системи класифікації наук ANZSRC. Інформаційним ресурсом для тематичного моделювання є база категоризованих наукових публікацій із системи Dimensions. Інтереси з профілів науковців використовуються як пошукові запити для Dimensions, сервіси якої видають розподіли релевантних документів за спеціальностями. Для зменшення інформаційного шуму ці розподіли проходять декілька етапів оброблення. Порівнюються результати тематичного моделювання на основі профільних інтересів у Google Scholar і категоризованого списку авторських публікацій у Dimensions за метрикою Чекановського з урахуванням спорідненості спеціальностей. Для тестових науковців виявлено високу узгодженість результатів тематичного моделювання за різної початкової інформації. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2021-09-14 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/225166 10.20535/SRIT.2308-8893.2021.2.09 System research and information technologies; No. 2 (2021); 113-129 Системные исследования и информационные технологии; № 2 (2021); 113-129 Системні дослідження та інформаційні технології; № 2 (2021); 113-129 2308-8893 1681-6048 uk https://journal.iasa.kpi.ua/article/view/225166/238486 |
| spellingShingle | тематичне моделювання категоризація Google Scholar Dimensions ANZSRC профіль науковця наукові інтереси метрика Чекановського індекс Жакара Shtovba, Serhiy Petrychko, Mykola Тематичне моделювання науковців на основі їх інтересів у Google Scholar |
| title | Тематичне моделювання науковців на основі їх інтересів у Google Scholar |
| title_alt | Topic modeling of researchers based on their interests from Google Scholar Тематическое моделирование ученых на основе их интересов в Google Scholar |
| title_full | Тематичне моделювання науковців на основі їх інтересів у Google Scholar |
| title_fullStr | Тематичне моделювання науковців на основі їх інтересів у Google Scholar |
| title_full_unstemmed | Тематичне моделювання науковців на основі їх інтересів у Google Scholar |
| title_short | Тематичне моделювання науковців на основі їх інтересів у Google Scholar |
| title_sort | тематичне моделювання науковців на основі їх інтересів у google scholar |
| topic | тематичне моделювання категоризація Google Scholar Dimensions ANZSRC профіль науковця наукові інтереси метрика Чекановського індекс Жакара |
| topic_facet | topic modeling categorization Google Scholar Dimensions ANZSRC researcher’s profile research interests Czekanowski metric Jaccard index тематическое моделирование категоризация Google Scholar Dimensions ANZSRC профиль ученого научные интересы метрика Чекановского индекс Жакарра тематичне моделювання категоризація Google Scholar Dimensions ANZSRC профіль науковця наукові інтереси метрика Чекановського індекс Жакара |
| url | https://journal.iasa.kpi.ua/article/view/225166 |
| work_keys_str_mv | AT shtovbaserhiy topicmodelingofresearchersbasedontheirinterestsfromgooglescholar AT petrychkomykola topicmodelingofresearchersbasedontheirinterestsfromgooglescholar AT shtovbaserhiy tematičeskoemodelirovanieučenyhnaosnoveihinteresovvgooglescholar AT petrychkomykola tematičeskoemodelirovanieučenyhnaosnoveihinteresovvgooglescholar AT shtovbaserhiy tematičnemodelûvannânaukovcívnaosnovííhínteresívugooglescholar AT petrychkomykola tematičnemodelûvannânaukovcívnaosnovííhínteresívugooglescholar |