Тематичне моделювання науковців на основі їх інтересів у Google Scholar

The article proposes an algorithm for topic modeling of researchers based on their interests from Google Scholar profiles. The algorithm uses the set of fields of research from research classification system ANZSRC. An information resource for topic modeling is a corpus of categorized publications f...

Full description

Saved in:
Bibliographic Details
Date:2021
Main Authors: Shtovba, Serhiy, Petrychko, Mykola
Format: Article
Language:Ukrainian
Published: The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2021
Subjects:
Online Access:https://journal.iasa.kpi.ua/article/view/225166
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:System research and information technologies
Download file: Pdf

Institution

System research and information technologies
_version_ 1866302713638158336
author Shtovba, Serhiy
Petrychko, Mykola
author_facet Shtovba, Serhiy
Petrychko, Mykola
author_sort Shtovba, Serhiy
baseUrl_str http://journal.iasa.kpi.ua/oai
collection OJS
datestamp_date 2021-09-16T11:48:22Z
description The article proposes an algorithm for topic modeling of researchers based on their interests from Google Scholar profiles. The algorithm uses the set of fields of research from research classification system ANZSRC. An information resource for topic modeling is a corpus of categorized publications from Dimensions. Interests from researchers’ profiles are used as search queries to Dimensions that outputs distributions of documents over categories. To reduce information noise these distributions are taken through a few stages of processing. The article also compares the results of topic modeling based on interests from Google Scholar profiles and based on a categorized list of publications from Dimensions. The comparison is done using modified Czekanowski metric that takes into account the similarity between categories. The results of comparing the topic modeling outputs based on different information sources show a good match.
doi_str_mv 10.20535/SRIT.2308-8893.2021.2.09
first_indexed 2025-07-17T10:27:03Z
format Article
fulltext  С.Д. Штовба, М.В. Петричко, 2021 Системні дослідження та інформаційні технології, 2021, № 2 113 УДК 519.254+001.2 DOI: 10.20535/SRIT.2308-8893.2021.2.09 ТЕМАТИЧНЕ МОДЕЛЮВАННЯ НАУКОВЦІВ НА ОСНОВІ ЇХ ІНТЕРЕСІВ У GOOGLE SCHOLAR С.Д. ШТОВБА, М.В. ПЕТРИЧКО Анотація. Запропоновано алгоритм тематичного моделювання науковців за науковими спеціальностям на основі їх інтересів у профілях у Google Scholar. Алгоритм використовує перелік наукових спеціальностей із системи класифі- кації наук ANZSRC. Інформаційним ресурсом для тематичного моделювання є база категоризованих наукових публікацій із системи Dimensions. Інтереси з профілів науковців використовуються як пошукові запити для Dimensions, сервіси якої видають розподіли релевантних документів за спеціальностями. Для зменшення інформаційного шуму ці розподіли проходять декілька етапів оброблення. Порівнюються результати тематичного моделювання на основі профільних інтересів у Google Scholar і категоризованого списку авторських публікацій у Dimensions за метрикою Чекановського з урахуванням спорідне- ності спеціальностей. Для тестових науковців виявлено високу узгодженість результатів тематичного моделювання за різної початкової інформації. Ключові слова: тематичне моделювання, категоризація, Google Scholar, Dimensions, ANZSRC, профіль науковця, наукові інтереси, метрика Чеканов- ського, індекс Жакара. ВСТУП Сьогодні професійні спільноти людей взаємодіють у різноманітних онлай- нових мережах. Не винятком є і спільнота науковців. Найбільшою онлайно- вою мережею науковців є Google Scholar. Зокрема, у цій мережі у відкрито- му доступі понад 50 тисяч профілів українських науковців. Такий величезний ресурс виглядає привабливим для розроблення технологій ана- літичного опрацювання нагромадженої в ньому інформації з метою іденти- фікації лідерів — статей, науковців, університетів та журналів; виявлення тенденцій наукових досліджень; кластеризації науковців; підбору партнерів для спільних проєктів, опонентів дисертацій, рецензентів рукописів тощо. Найчастіше із профілів науковців у Google Scholar використовують дані про цитованість. Її, наприклад, використовують як початкові дані для рей- тингування університетів у Webometrics. Створено також кілька інформа- ційних систем на базі Google Scholar, найбільш відомими серед яких є Publish or Perish і Scholarometer [1]. Багато досліджень, зокрема [2, 3], сто- суються перевірки достовірності цитованості в Google Scholar порівняно з наукометричними системами Scopus, Web of Science, Dimensions та інши- ми, які наповнюються виключно за метаданими з видавництв. Окрім списку публікацій та їх цитування у профілі науковця міститься і інша інформація. Зокрема, науковець у профілі вказує свої інтереси, і робить він це на власний розсуд, обираючи слова у довільний спосіб. Google Scholar дозволяє виконувати пошук науковців за тим чи іншим інтересом. Але ви- дачі формуються за буквальним збігом. Тому видачі для fuzzy set і fuzzy sets С.Д. Штовба, М.В. Петричко ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 114 будуть різними, не говорячи вже про синонімічні інтереси типу fuzzy evidence і fuzzy inference. Google Scholar не враховує і сукупність інтересів користувача, тобто пошук за кожним інтересом виконується незалежно та ізольовано. Відповідно, в одну видачу потраплять науковці, що поміж своїх інтересів вказали безпеку в сенсі як security, так і safety. Таким чином, пошу- кові та аналітичні сервіси за велетенським масивом профілів науковців у Google Scholar досить примітивні. Мета роботи — тематичне моделювання науковців на основі їх інте- ресів у Google Scholar. Методи опрацювання інтересів із профілів науковців у Google Scholar є мало дослідженими. Нами виявлено лише дві релевантні публікації. Перша з них [4] стосується рекомендаційної системи для підбору наукового керівника, яка поміж інших джерел інформації використовує і інтереси кандидатів з їх профілів у Google Scholar. Друга публікація [5] опи- сує інформаційну технологію синтезу наукового профілю інституту чи до- слідницької лабораторії. Ця технологія, поміж іншої інформації, використо- вує і інтереси науковців з їх профілів у Google Scholar. Праці [4, 5] базуються на використанні попарного порівняння за косинусової метрики близькості — відстані між науковцем та набором ключових слів з деякої те- матики. Такою тематикою в [4] обрано статтю у Вікіпедії. На відміну від цих праць, будемо намагатися категоризувати науковців у межах деякої кла- сифікації наук, тобто розподілити їх за науковими спеціальностями. Автоматична категоризація науковців виконується зазвичай в результа- ті узагальнення тематик їх публікацій. Для цього у праці [6] запропоновано статистичну модель «автор – тема» на основі тематичного моделювання з використанням прихованого розподілу Діріхле (LDA) [7]. Модель подає на- уковця як розподіл над деякими абстрактними темами. Теми є кластерами схожих слів. Її недоліком є погана інтерпретація тем, оскільки вони форму- ються за частотою слів у одному документі. Для покращення інтерпретації у [8] запропоновано модель «автор – дисципліна – тема». У ній для опису на- уковця додатково використовують наукову спеціальність, яка визначається за журналом чи збірником статей, у якому опубліковано аналізовану працю. На виході науковець подається сукупністю належностей до наукових спеці- альностей. У праці [9] для підбору рецензентів запропоновано модель «ав- тор – персона – тема». У ній враховано те, що автори часто пишуть про де- кілька різних комбінацій тем з однієї предметної галузі. Дуже рідко особа є експертом в усіх аспектах якоїсь предметної галузі. За результатами моде- лювання науковця зіставляють з декількома персонами (personas). Кожна персона є кластером статей науковця зі своїм тематичним розподілом. У праці [10] розвинуто методи [8, 9] моделлю «автор – інтерес – тема», яка містить документи зі схожими темами як один клас документів, подібно до того, як тематичні моделі подають спільну появу (co-occurrence) слів як од- ну тематичну змінну. Окрім методів на основі тематичного моделювання також використо- вуються моделі на основі ембедингу слів (word embedding) [11–14]. Однією з найпопулярніших моделей ембедингу слів є модель word2veс [15]. На від- міну від прихованого розподілу Діріхле [7], прихованого семантичного ана- лізу (pLSA) [16] та інших статистичних моделей, які породжують імовірніс- ний розподіл на основі спільної появи слів та документів, word2vec Тематичне моделювання науковців на основі їх інтересів у Google Scholar Системні дослідження та інформаційні технології, 2021, № 2 115 фокусується на контекстуальній (семантичній та синтаксичній) інформації слів. Згадані методи показують непогану ефективність для таких завдань, як рекомендація рецензентів, пошук експертів тощо. Результати моделювання подаються у вигляді векторів, які складно інтерпретувати. Проаналізовані методи передбачають наявність достатньої кількості статей науковця з виділеними ключовими словами. При цьому не врахову- ється, що співавторами статті можуть бути кілька науковців, на кожного з яких припадає деяка підмножина з усього списку ключових слів. Причому з десятка ключових слів статті внесок співавтора може відображати лише од- не ключове слово. Крім того, науковець, особливо молодий, може і не мати достатньої кількості статей для достовірної категоризації. Утім він може са- мостійно задати у профілі набір ключових слів, який описує його дослі- дження. Із часом науковець може змінити напрям своєї діяльності, напри- клад, працювати в іншій лабораторії чи над іншим проєктом. Але його продовжуватимуть категоризувати за давніми публікаціями. У зв’язку з цим виникла зацікавленість у тематичному моделюванні на основі інтересів, які науковець власноруч сформулював на поточний момент, тобто на основі актуальної та узагальненої початкової інформації, що позбавлена наведених вище недоліків. ПОСТАНОВКА ЗАДАЧІ Вважатимемо відомими: )...,,,( 21 nwwwW  — список ключових слів, якими науковець у своєму профілі в Google Scholar на власний розсуд описав свої інтереси; )...,,,( 21 mtttT  — перелік можливих тем у формі списку наукових спеціальностей за деякою класифікацією наук; mDDD ...,,, 21 — тематичні колекції розмічених текстів, кожна з яких містить лише публікації з тем mttt ...,,, 21 відповідно; mDDDВ  ...21 — загальна колекція розмічених текстів, тобто множина публікацій, кожна з яких стосується однієї або декількох тем з множини T; TDTDR ),( — відношення, яке описує належність публікацій до тематичних колекцій. Задача полягає у знаходженні тем з T, яким відповідає cукупність інте- ресів W. Будемо вказувати не лише сам факт належності, але і ступінь належності. Таким чином, на виході отримуємо нечітку множину W ~ на уні- версальній множині тем T:         m mWWW t t t t t t W )( ,..., )( , )(~ 2 2 1 1 , де ]1,0[)(  pW t — ступінь належності cукупності інтересів W до спеціаль- ності pt , mp ,1 . На W ~ накладемо такі обмеження: С.Д. Штовба, М.В. Петричко ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 116 1) потужність носія нечіткої множини W ~ має бути невеликою max) ~ (support1 TW  , наприклад, за }4,3,2{max T науковець відповідати- ме лише кільком спеціальностям; 2) 1)( ,1   mp pW t , що ототожнюється з умовою регуляризації тематич- ного моделювання. ДОБУВАННЯ ПОЧАТКОВИХ ДАНИХ Для отримання списку ключових слів науковця скористаємося його профілем у Google Scholar. Для прикладу на рис. 1 наведено профіль науковця з двома ключовими словами "networksneural"1 w та "ceintelligenartificial"2 w . Послідовність ключових слів у множині W не- важлива, що відповідає врахуванню інформації за схемою мішка слів (bag of words). Часто інтереси у профілі доповнюють один одного, тим самим фоку- суючи тематику досліджень. Щоб це врахувати синтезуємо додаткові ключові слова у вигляді пар початкових інтересів. Інтереси в парах поєднаємо логічною операцією ТА. Для науковця з рис. 1 додаткове ключове слово запишемо як "ceintelligenartificial"AND"networksneural"3 w . Якщо у профілі науковця вказано три інтереси, буде синтезовано три додаткові ключові слова, якщо у профілі чотири інтереси, тоді синтезується шість до- даткових ключових слів, якщо п’ять інтересів, тоді десять додаткових клю- чових слів тощо. Синтез додаткових парних ключових слів є своєрідним аналогом дистантного поєднання слів (word co-occurrence), яке дозволяє зменшити вербальний шум. Для тематичного моделювання науковців необхідно обрати систему класифікації наукових спеціальностей. Їх багато, але під час вибору системи класифікації врахуємо не лише її змістовні переваги і недоліки, але і наяв- ність відповідної інформаційної системи з доступними пошуковими серві- сами. При цьому база даних системи має індексувати велику кількість кате- горизованих публікацій, які охоплюють усі наукові галузі. Інформаційною системою, яка задовольняє перераховані вимоги, є Dimensions. Натепер Dimensions індексує понад 110 млн публікацій. Усі публікації в Dimensions категоризовано за дворівневим варіантом Австралійсько- новозеландського стандарту ANZSRC (Australian and New Zealand Standard Research Classification). У ньому науку поділено на 22 галузі (Divisions) із 154 спеціальностями (Research Groups). Цей дворівневий варіант ANZSRC, який і будемо надалі використовувати, подано в табл. 1. Рис. 1. Приклад профілю науковця з двома інтересами Підтверджено адресу електронної пошти в домені grammarly.com Тематичне моделювання науковців на основі їх інтересів у Google Scholar Системні дослідження та інформаційні технології, 2021, № 2 117 Т а б л и ц я 1 . Система класифікації наук ANZSRC, що використовується у Dimensions Галузь Спеціальність Mathematical Sciences A1 – Pure Mathematics; A2 – Applied Mathematics; A3 – Numerical and Computational Mathematics; A4 – Statistics; A5 – Mathematical Physics Physical Sciences B1 – Astronomical and Space Sciences; B2 – Atomic, Molecular, Nuclear, Particle and Plasma Physics; B3 – Classical Physics; B4 – Condensed Matter Physics; B5 – Optical Physics; B6 – Quantum Physics; B7 – Other Physical Sciences Chemical Sciences C1 – Analytical Chemistry; C2 – Inorganic Chemistry; C3 – Macromolecular and Materials Chemistry; C4 – Medicinal and Biomolecular Chemistry; C5 – Organic Chemistry; C6 – Physical Chemistry (incl. Structural); C7 – Theoretical and Computational Chemistry; C8 – Other Chemical Sciences Earth Sciences D1 – Atmospheric Sciences; D2 – Geochemistry; D3 – Geology; D4 – Geo- physics; D5 – Oceanography; D6 – Physical Geography and Environmental Geoscience; D7 – Other Earth Sciences Environmental Sciences E1 – Ecological Applications; E2 – Environmental Science and Management; E3 – Soil Sciences; E4 – Other Environmental Sciences Biological Sciences F1 – Biochemistry and Cell Biology; F2 – Ecology; F3 – Evolutionary Biology; F4 – Genetics; F5 – Microbiology; F6 – Physiology; F7 – Plant Biology; F8 – Zoology; F9 – Other Biological Sciences Agricultural and Veterinary Sciences G1 – Agriculture, Land and Farm Management; G2 – Animal Production; G3 – Crop and Pasture Production; G4 – Fisheries Sciences; G5 – Forestry Sciences; G6 – Horticultural Production; G7 – Veterinary Sciences; G8 – Other Agricultural and Veterinary Sciences Information and Computing Sciences H1 – Artificial Intelligence and Image Processing; H2 – Computation Theory and Mathematics; H3 – Computer Software; H4 – Data Format; H5 – Distrib- uted Computing; H6 – Information Systems; H7 – Library and Information Studies; H8 – Other Information and Computing Sciences Engineering I1 – Aerospace Engineering; I2 – Automotive Engineering; I3 – Biomedical Engineering; I4 – Chemical Engineering; I5 – Civil Engineering; I6 – Electri- cal and Electronic Engineering; I7 – Environmental Engineering; I8 – Food Sciences; I9 – Geomatic Engineering; I10 – Manufacturing Engineering; I11 – Maritime Engineering; I12 – Materials Engineering; I13 – Mechanical Engineering; I14 – Resources Engineering and Extractive Metallurgy; I15 – Interdisciplinary Engineering; I16 – Other Engineering Technology J1 – Agricultural Biotechnology; J2 – Environmental Biotechnology; J3 – Industrial Biotechnology; J4 – Medical Biotechnology; J5 – Communications Technologies; J6 – Computer Hardware; J7 – Nanotechnology; J8 – Other Technology Medical and Health Sciences K1 – Medical Biochemistry and Metabolomics; K2 – Cardiorespiratory Med- icine and Haematology; K3 – Clinical Sciences; K4 – Complementary and Alternative Medicine; K5 – Dentistry; K6 – Human Movement and Sports Science; K7 – Immunology; K8 – Medical Microbiology; K9 – Neurosciences; K10 – Nursing; K11 – Nutrition and Dietetics; K12 – Oncology and Carcinogenesis; K13 – Ophthalmology and Optometry; K14 – Paediatrics and Reproductive Medicine; K15 – Pharmacology and Pharmaceutical Sciences; K16 – Medical Physiology; K17 – Public Health and Health Services; K18 – Other Medical and Health Sciences Built Environment and Design L1 – Architecture; L2 – Building; L3 – Design Practice and Management; L4 – Engineering Design; L5 – Urban and Regional Planning; L6 – Other Built Environment and Design Education M1 – Education Systems; M2 – Curriculum and Pedagogy; M3 – Specialist Studies In Education; M4 – Other Education Economics N1 – Economic Theory; N2 – Applied Economics; N3 – Econometrics; N4 – Other Economics Commerce, Management, Tourism and Services O1 – Accounting, Auditing and Accountability; O2 – Banking, Finance and Investment; O3 – Business and Management; O4 – Commercial Services; O5 – Marketing; O6 – Tourism; O7 – Transportation and Freight Services С.Д. Штовба, М.В. Петричко ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 118 Продовження табл.. 1 Галузь Спеціальність Studies in Human Society P1 – Anthropology; P2 – Criminology; P3 – Demography; P4 – Human Geography; P5 – Policy and Administration; P6 – Political Science; P7 – Social Work; P8 – Sociology; P9 – Other Studies In Human Society Psychology and Cognitive Sciences Q1 – Psychology; Q2 – Cognitive Sciences; Q3 – Other Psychology and Cognitive Sciences Law and Legal Studies R1 – Law; R2 – Other Law and Legal Studies Studies in Creative Arts and Writing S1 – Art Theory and Criticism; S2 – Film, Television and Digital Media; S3 – Journalism and Professional Writing; S4 – Performing Arts and Creative Writing; S5 – Visual Arts and Crafts; S6 – Other Studies In Creative Arts and Writing Language, Communication and Culture T1 – Communication and Media Studies; T2 – Cultural Studies; T3 – Language Studies; T4 – Linguistics; T5 – Literary Studies; T6 – Other Language, Communication and Culture History and Archaeology U1 – Archaeology; U2 – Curatorial and Related Studies; U3 – Historical Studies; U4 – Other History and Archaeology Philosophy and Religious Studies V1 – Applied Ethics; V2 – History and Philosophy of Specific Fields; V3 – Philosophy; V4 – Religion and Religious Studies; V5 – Other Philosophy and Religious Studies Запит до інформаційної системи Dimensions формуємо окремо за кож- ним елементом множини W. Якщо цей елемент є словосполученням, тоді подамо його у лапках. Пошук виконуємо за назвою та рефератом публікацій 2016–2020 рр. Приклад видачі за пошуковим запитом “neural networks” по- дано у вигляді рис. 2. За кожною спеціальністю та за кожною галуззю виво- диться кількість публікацій, у назві або в рефераті яких фігурує пошуковий вираз. Видачу відсортовано за спаданням кількості публікацій. Також можна отримати загальну кількість публікацій за кожною спеціальністю, тобто об- сяги тематичних колекцій. Publocatijn Year Free text in title and abstracts FILTERS FAVORITES Рис. 2. Видача Dimensions за пошуковим запитом “neural networks” Тематичне моделювання науковців на основі їх інтересів у Google Scholar Системні дослідження та інформаційні технології, 2021, № 2 119 Dimensions індексує переважно англомовні публікації, тому всі інтере- си з профілю науковця в Google Scholar необхідно попередньо перекласти англійською мовою. Інколи науковці вказують у своєму профілі один і той самий інтерес кількома мовами, наприклад, neural networks та нейронні ме- режі. У такому випадку ці два інтереси об’єднаємо в один англомовний — neural networks. АЛГОРИТМ ТЕМАТИЧНОГО МОДЕЛЮВАННЯ Тематичне моделювання науковців виконаємо на базі таких принципів:  статистичного підтримання — чим більша частка публікацій з певної спеціальності містить аналізоване ключове слово, тим більша належ- ність ключового слова до цієї спеціальності;  багатоярликовості — ключове слово може належати до кількох спеціальностей;  фільтрації шумів — ігноруються спеціальності, до яких ключове слово належить з незначним ступенем;  ігнорування стоп-слів — ігнорується ключове слово, яке трапляється у дуже багатьох категоризованих публікаціях;  солідарності — чим більше ключових слів за окремими запитами належить до однієї і тієї ж спеціальності, тим більша можливість належності науковця до цієї спеціальності;  фокусування — якщо в тематичній колекції багато публікацій, які містять кілька ключових слів науковця одночасно, тоді збільшуються шанси належності науковця до відповідної спеціальності.  компактності — один науковець може належати лише до невеликої кількості спеціальностей;  взаємодії спеціальностей — під час відсікання хвоста розподілу тем, внесок мінорних спеціальностей перерозподіляється на лідерів з урахуван- ням їх схожості. Наведені принципи пропонується реалізувати алгоритмом, який містить три ділянки. На першій ділянці формується множина запитів на ос- нові ключових слів та їх поєднання. Використовуємо лише пари ключових слів, тому що видачі за трійками часто виявляються порожніми, але при цьому суттєво збільшується тривалість пошуку. На другій ділянці алгоритму (рис. 3) виконується тематичне моделю- вання за кожним запитом окремо. Спеціальності обираємо за частотою входження запиту в тематичну колекцію. Частота розраховується як відно- шення кількості документів, що містять пошуковий вираз, до загальної кіль- кості документів зі спеціальності. При цьому стоп-слова та шуми фільтру- ються за кількістю входжень в усю колекцію документів із застосуванням порогових значень. Вилучаються і мінорні спеціальності. Спочатку вилуча- ємо за пороговим значенням кількості знайдених документів, які належать до відповідної спеціальності, а потім — за кумулятивним принципом, відсікаючи хвіст розподілу за пороговим значенням. С.Д. Штовба, М.В. Петричко ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 120 На третій ділянці алгоритму (рис. 4) усереднюємо належності за всіма запитами та відсікаємо хвіст сукупного розподілу за пороговим значенням. Далі вилучаємо спеціальності з низьким рівнем належності таким чином, щоб результат став компактним і представницьким, коли науковець відповідає не більше ніж чотирьом спеціальностям, причому до кожної з них належність є значущою. На третій ділянці роботи алгоритму під час ітераційного вилучення мі- норної спеціальності її внесок перерозподіляється на інші спеціальності з урахуванням коефіцієнтів схожості із праці [17]. Наприклад, нехай на проміжному етапі науковця віднесено до наукових спеціальностей таким чином:       O4 1,0 , O6 2,0 , O5 2,0 , H6 5,0~ W . Вилучимо мінорну спеціальність O4. Для цього спочатку за методом [17] знайдемо коефіцієнти Жакара між O4 та іншими спеціальностями. Вони за даними 2016–2020 рр. такі: 0)H6O4,( J , 13,0)O5O4,( J , 22,0)O6O4,( J . З урахуванням схожості внесок мінорної спеціальності O4 перерозподіляється таким чином: Рис. 3. Блок-схема другої ділянки алгоритму тематичного моделювання Початок Занулення шумових значень з розподілу t(1),,t(m) Список розподілів для кожного запиту E(i) Кінець Для кожного запиту E(i) Пошук розподілу за спеціальностями t(1),,t(m) E(i) споп-слово або шум Множина запитів E Ні Так Початок Список розподілів для всіх запитів E(i) Усереднення розподілів за всіма запитами Занулення шумових значень з результуючого розподілу t(1),,t(m) Ітераційне вилучення мінорної спеціальності Розподіл сукупності ключових слів за спеціальностями Кінець Рис. 4. Блок-схема третьої ділянки алгоритму тематичного моделювання Тематичне моделювання науковців на основі їх інтересів у Google Scholar Системні дослідження та інформаційні технології, 2021, № 2 121         O6 1,022,02,0 , O5 1,013,02,0 , H6 1,005,0~ W . Підрахувавши, отримуємо       O6 222,0 , O5 213,0 , H6 5,0~ W . Після нормування на 1 маємо результат:       O6 237,0 , O5 228,0 , H6 535,0~ W . ПОКРОКОВИЙ КОНТРОЛЬНИЙ ПРИКЛАД Проілюструємо роботу алгоритму на прикладі тематичного моделювання науковця з рис. 1. За двома інтересами науковця сформовано три пошукові запити. Частоту входжень трьох ключових слів у тематичні колекції показа- но на рис. 5, а результати після першого відсікання хвостів розподілів — на рис. 6. Далі усереднюємо за усіма запитами (рис. 7) і відсікаємо хвіст розподілу (рис. 8). Проміжний розподіл став перенаповненим через заширо- ке формулювання науковцем своїх інтересів. Для фокусування результатів тематичного моделювання на заключному етапі алгоритму розподіл обрізаємо до двох спеціальностей (рис. 9). У результаті науковець з інтере- сами в галузі штучного інтелекту та нейронних мереж найбільше відповідає спеціальностям H1 – Artificial Intelligence and Image Processing зі ступенем належності 0,767 та Q2 – Cognitive Sciences зі ступенем належності 0,233. Така категоризація науковця не суперечить поглядам авторів цієї статті. Із прикладу видно, що навіть за двома початковими ключовими словами за- пропонований алгоритм достатньо точно знаходить відповідність науковця спеціальностям. ПОРІВНЯННЯ З КАТЕГОРИЗАЦІЄЮ ЗА СТАТТЯМИ Перевіримо узгодженість результатів тематичного моделювання науковців на основі ключових слів з їх профілів у Google Scholar та на основі катего- ризованих статей у Dimensions. Для цього відберемо трьох науковців: А. Чернодуба (див. рис 1), Є. Бодянського (рис. 10) та Н. Куссуль (рис. 11). Ці науковці мають у Dimensions велику кількість публікацій за п’ять остан- ніх років, що дозволяє отримати статистично значущі результати. За аналізований період А. Чернодуб опублікував 22 праці, які категори- зовано за п’ятьма спеціальностями. Найбільше публікацій — 11 потрапило до спеціальності H1. Є. Бодянський опублікував 88 робіт. Вони категоризо- вані за 12 спеціальностями. Найбільше публікацій — 59 потрапило до спеціальності H1. Н. Куссуль опублікувала 47 робіт, які категоризовано за 14 спеціальностями. Найбільше публікацій — 21 потрапило до спеціаль- ності I9. За розподілами публікацій за спеціальностями з використанням третьої ділянки алгоритму тематичного моделювання отримаємо належності нау- ковців до спеціальностей (табл. 2). Там же вказано результати тематичного моделювання на основі інтересів науковців у Google Scholar. С.Д. Штовба, М.В. Петричко ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 122 Частота входжень Частота входжень Частота входжень Р ис . 5 . П оч ат ко ви й ро зп од іл н ал еж но ст і к ож но го ін те ре су д о сп ец іа ль но ст ей Тематичне моделювання науковців на основі їх інтересів у Google Scholar Системні дослідження та інформаційні технології, 2021, № 2 123 Ступінь належності Ступінь належності Ступінь належності Р ис . 6 . П ро рі дж ен і р оз по ді ли п іс ля п ер ш ої ф іл ьт ра ці ї С.Д. Штовба, М.В. Петричко ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 124 Р ис . 7 . Р ез ул ьт ат у се ре дн ен ня з а пр ор ід ж ен им и ро зп од іл ам и Р ис . 8 . Р оз по ді л пі сл я др уг ої ф іл ьт ра ці ї Р ис . 9 . Р ез ул ьт ат т ем ат ич но го м од ел ю ва нн я на ук ов ця з р ис . 1 Ступінь належності Ступінь належності Ступінь належності Підтверджено адресу електронної пошти в домені ikd.kiev.ua Рис. 10. Профіль другого науковця Тематичне моделювання науковців на основі їх інтересів у Google Scholar Системні дослідження та інформаційні технології, 2021, № 2 125 Порівнюючи результати, бачимо що за інтересами у Google Scholar, тобто за суб’єктивною інформацію дуже обмеженого обсягу, запропонова- ний алгоритм достатньо добре категоризує науковців. Для кількісної оцінки узгодженості результатів скористаємося метрикою Чекановського. Для роз- глядуваного випадку — за умови нормованості суми належностей на 1, мет- рика Чекановського між двома науковцями 1W і 2W розраховується таким чином:    Mp tt WWWWFit pp ,1 2121 ))(),((min),( . (1) Т а б л и ц я 2 . Результати тематичного моделювання науковців Chernodub Kussul Bodyanskiy Спеціальність Dimensions Google Scholar Dimensions Google Scholar Dimensions Google Scholar D6 0,283 I9 0,675 0,447 H1 0,8 0,767 0,172 0,346 0,797 0,295 H2 0,199 H6 0,153 0,203 0,506 K9 0,2 Q2 0,233 Метрику (1) можна інтерпретувати як суму ступенів належності пере- тину нечітких множин 1 ~ W і 2 ~ W , які являють собою результати тематичного моделювання науковця за двома джерелами початкової інформації — за ін- тересами в Google Scholar та за категоризованими публікаціями в Dimen- sions. За даними з табл. 2 отримуємо такі значення метрики (1): Fit(Chernodub) = 0,767; Fit(Bodyanskiy) = 0,498; Fit(Kussul) = 0,619. За метрикою (1) збіг враховується ізольовано — лише в межах кожної окремої спеціальності. Для врахування внеску споріднених спеціальностей пропонується до значення метрики (1) додати такий доданок:      Mv Mp ttpv WWttJWWFit pv ,1 ,1 2121 ))(),((min),(),( , (2) Підтверджено адресу електронної пошти в домені ikd.kiev.ua Рис. 11. Профіль третього науковця С.Д. Штовба, М.В. Петричко ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 126 де ),( pv ttJ — індекс Жакара між спеціальностями vt і pt ;  )( 1W vt ))()(,0(max 21 WW vv tt  — залишок ступеня належності науковця до спеціальності vt у 1 ~ W після врахування у формулі (1) збігу )( 1W vt  і )( 2W vt  ; ))()(,0(max)( 122 WWW ppp ttt  — залишок ступеня належ- ності науковця до спеціальності pt у 2 ~ W після врахування у формулі (1) збі- гу )( 1W pt і )( 2W pt . Для фільтрації інформаційного шуму формулу (2) застосуємо лише для пар спеціальностей з високою подібністю — з індексом Жакара понад 0,02. Для наведених в табл. 2 спеціальностей таких пар виявилося 3. Індекси Жа- кара для них є такими: 083,0)I9D6,( J ; 071,0)H6,1H( J ; 041,0)Q2K9,( J . Підставляючи числові дані у формулу (2), отримуємо: 0,008=)(ChernodubFit ; 0,022=)Bodyanskiy(Fit ; 0,03=(Kussul)Fit . З урахуванням спорідненості спеціальностей збіг результатів тематич- ного моделювання трохи підвищився і становить: 0,7750,0080,767=)(Chernodubsim Fit ; 0,520,0220,498=)Bodyanskiy(sim Fit ; 0,6490,030,619=(Kussul)sim Fit . ВИСНОВКИ Запропоновано тематичне моделювання науковців на основі їх інтересів у профілях Google Scholar. Інтереси у профілях науковці вказують на влас- ний розсуд без використання будь-якого словника ключових слів. Запропо- новано підхід до категоризації таких науковців у межах системи класифікації наук ANZSRC. Відображення «науковець – спеціальності» здійснюється з використанням ресурсів інформаційної системи Dimensions, яка містить понад 110 млн наукових публікацій, що категоризовані за ANZSRC. Алгоритм тематичного моделювання науковців містить три ділянки. На першій ділянці формується множина запитів на основі ключових слів та їх поєднань, на другій — відбувається тематичне моделювання за кожним за- питом окремо з фільтрацією стоп-слів та маловживаних слів, а на третій — усереднюються належності за всіма запитами та обрізається розподіл до кількох спеціальностей. Під час вилучення мінорних спеціальностей врахо- вується їх вплив на споріднені спеціальності. На виході алгоритму отри- Тематичне моделювання науковців на основі їх інтересів у Google Scholar Системні дослідження та інформаційні технології, 2021, № 2 127 муємо ступені належності науковця до кількох спеціальностей, яким найбільше відповідає сукупність його інтересів. Таке відображення інтересів можна розглядати як аналог процедури word2vec. Проведено порівняння тематичного моделювання на основі обмеженої інформації з профілів науковців з Google Scholar та за кількома десятками авторських статей, які категоризовано системою Dimensions. У результаті перевірки встановлено узгодженість результатів тематичного моделювання на основі різного обсягу початкової інформації. Це дозволяє використовува- ти запропонований алгоритм як основу технології інформаційної розвідки наукових кадрів, зокрема, для первинного підбору кандидатів у опоненти дисертацій, у рецензенти наукових проєктів для формування команди для виконання спільних наукових проєктів. ЛІТЕРАТУРА 1. E. Delgado López-Cózar, E. Orduña-Malea, A. Martín-Martín, and J.M. Ayllón, “Google Scholar: the big data bibliographic tool”, in Research analytics: boosting university productivity and competitiveness through scientometrics. CRC Press (Tay- lor & Francis), pp. 59–80, 2017. doi: 10.1201/9781315155890-4. 2. A. Martín-Martín, M. Thelwall, E. Orduna-Malea, and E.D. López-Cózar, “Google Scholar, Microsoft Academic, Scopus, Dimensions, Web of Science, and OpenCita- tions’ COCI: a multidisciplinary comparison of coverage via citations”, Scientomet- rics, 126, pp. 871–906, 2021. doi: 10.1007/s11192-020-03690-4. 3. A.-W. Harzing and S. Alakangas, “Google Scholar, Scopus and the Web of Science: A longitudinal and cross-disciplinary comparison”, Scientometrics, 106(2), pp. 787–804, 2016. doi: 10.1007/s11192-015-1798-9. 4. B. Rahdari et al., “Grapevine: A profile-based exploratory search and recommenda- tion system for finding research advisors”, Proceedings of the Association for Infor- mation Science and Technology, 57(1), e271, 2020. doi: 10.1002/pra2.271. 5. J. Saad-Falcon, O. Shaikh, Z.J. Wang, A.P. Wright, S. Richardson, and D.H. Chau, “PeopleMap: Visualization Tool for Mapping Out Researchers using Natural Lan- guage Processing”, arXiv preprint, arXiv:2006.06105 (2020). 6. M. Rosen-Zvi, T. Griffiths, M. Steyvers, and P. Smith, “The author-topic model for authors and documents”, in Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence, AUAI Press, pp. 487–494, 2004. 7. D. Blei, A. Ng., and M. Jordan, “Latent Вirichlet allocation”, Journal of Machine Learning Research, 3, pp. 993–1022, 2003. 8. J. Jian, G. Qian, M. Haikun, and C. Chong, “Author–Subject–Topic model for Re- viewer Recommendation”, JIS-Journal of Information Science, SAGE, pp. 1–16, 2018. doi: 10.1177/0165551518806116. 9. D. Mimno and A. McCallum, “Expertise modeling for matching papers with review- ers”, in KDD’07 proceedings of the 13th ACMSIGKDD international conference on knowledge discovery and data mining, New York: ACM, pp. 500–509, 2007. doi: 10.1145/1281192.1281247. 10. N. Kawamae, “Author interest topic model”, in SIGIR’10 proceeding of the 33rd in- ternational ACM SIGIR conference on research and development in information re- trieval, New York: ACM, pp. 887–888, 2010. doi: 10.1145/1835449.1835666. 11. C. Sun, T.J. King, P. Henville, and R. Marchant, “Hierarchical Word Mover Dis- tance for Collaboration Recommender System”, Australasian Conference on Data Mining. Communications in Computer and Information Science, Springer 996, pp. 289–302, 2018. doi: 10.1007/978-981-13-6661-1_23. С.Д. Штовба, М.В. Петричко ISSN 1681–6048 System Research & Information Technologies, 2021, № 2 128 12. K. Xiangjie, J. Huizhen, Y. Zhuo, Y. Zhuo, Y. Zhuo, and A. Tolba, “Exploiting Pub- lication Contents and Collaboration Networks for Collaborator Recommendation”, PlosOne, 11(2), e0148492, 2016. doi: 10.1371/journal.pone.0148492 13. Y. Zhao, J. Tang, and Z. Du, “EFCNN: A Restricted Convolutional Neural Network for Expert Finding”, in Advances in Knowledge Discovery and Data Mining. PAKDD 2019. Lecture Notes in Computer Science, vol. 11440, Springer, Cham, 2019. doi: 10.1007/978-3-030-16145-3_8. 14. A. Omer, G. Hongyu, B. Suma, H. Wen-Mei, and X. JinJun, “PaRe: A Paper Re- viewer Matching Approach Using a Common Topic Space”, in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLPIJCNLP), pp. 518–528, 2019. doi: 10.18653/v1/D19-1049. 15. T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed repre- sentations of words and phrases and their compositionality”, in Proceedings of the 26th International Conference on Neural Information Processing Systems 2, pp. 3111–3119, 2013. 16. T. Hofmann, “Probabilistic latent semantic indexing”, in Proc. 22nd annual interna- tional ACM SIGIR conference on Research and development in information re- trieval, pp. 50–57, 1999. doi: 10.1145/312624.312649. 17. S. Shtovba and M. Petrychko, “Jaccard Index-Based Assessing the Similarity of Re- search Fields in Dimensions”, CEUR Workshop Proceedings, vol. 2533 “Proc. of the First International Workshop on Digital Content & Smart Multimedia”, pp. 117–128, 2019. Надійшла 17.03.2021 INFORMATION ON THE ARTICLE Serhiy D. Shtovba, ORCID: 0000-0003-1302-4899, Vasyl Stus’ Donetsk National University, Vinnytsia, Ukraine, e-mail: s.shtovba@donnu.edu.ua Mykola V. Petrychko, ORCID: 0000-0001-6836-7843, Vinnytsia National Technical University, Vinnytsia, Ukraine, e-mail: mpetrychko@vntu.edu.ua ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ УЧЕНЫХ НА ОСНОВЕ ИХ ИНТЕРЕСОВ В GOOGLE SCHOLAR / С.Д. Штовба, Н.В. Петрычко Аннотация. Предложен алгоритм тематического моделирования ученых по научным специальностям на основе их интересов в профилях в Google Scholar. Алгоритм использует перечень научных специальностей из системы класси- фикации наук ANZSRC. Информационным ресурсом для тематического моде- лирования является база категоризированных научных публикаций из системы Dimensions. Интересы из профилей ученых используются как поисковые за- просы для Dimensions, сервисы которой выдают распределения релевантных документов по специальностям. Для уменьшения информационного шума эти распределения проходят несколько этапов обработки. Сравниваются результа- ты тематического моделирования на основе профильных интересов в Google Scholar и категоризированного списка авторских публикаций в Dimensions по метрике Чекановского с учетом схожести специальностей. Для тестовых уче- ных выявлена высокая согласованность результатов тематического моделиро- вания при различной исходной информации. Ключевые слова: тематическое моделирование, категоризация, Google Scholar, Dimensions, ANZSRC, профиль ученого, научные интересы, метрика Чекановского, индекс Жакарра. TOPIC MODELING OF RESEARCHERS BASED ON THEIR INTERESTS FROM GOOGLE SCHOLAR / S.D. Shtovba, M.V. Petrychko Тематичне моделювання науковців на основі їх інтересів у Google Scholar Системні дослідження та інформаційні технології, 2021, № 2 129 Abstract. The article proposes an algorithm for topic modeling of researchers based on their interests from Google Scholar profiles. The algorithm uses the set of fields of research from research classification system ANZSRC. An information resource for topic modeling is a corpus of categorized publications from Dimensions. Inter- ests from researchers’ profiles are used as search queries to Dimensions that outputs distributions of documents over categories. To reduce information noise these distri- butions are taken through a few stages of processing. The article also compares the results of topic modeling based on interests from Google Scholar profiles and based on a categorized list of publications from Dimensions. The comparison is done using modified Czekanowski metric that takes into account the similarity between catego- ries. The results of comparing the topic modeling outputs based on different infor- mation sources show a good match. Keywords: topic modeling, categorization, Google Scholar, Dimensions, ANZSRC, researcher’s profile, research interests, Czekanowski metric, Jaccard index.
id journaliasakpiua-article-225166
institution System research and information technologies
keywords_txt_mv keywords
language Ukrainian
last_indexed 2025-07-17T10:27:03Z
publishDate 2021
publisher The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
record_format ojs
resource_txt_mv journaliasakpiua/22/8826a0060ecaaca8daf7972381ed4e22.pdf
spelling journaliasakpiua-article-2251662021-09-16T11:48:22Z Topic modeling of researchers based on their interests from Google Scholar Тематическое моделирование ученых на основе их интересов в Google Scholar Тематичне моделювання науковців на основі їх інтересів у Google Scholar Shtovba, Serhiy Petrychko, Mykola topic modeling categorization Google Scholar Dimensions ANZSRC researcher’s profile research interests Czekanowski metric Jaccard index тематическое моделирование категоризация Google Scholar Dimensions ANZSRC профиль ученого научные интересы метрика Чекановского индекс Жакарра тематичне моделювання категоризація Google Scholar Dimensions ANZSRC профіль науковця наукові інтереси метрика Чекановського індекс Жакара The article proposes an algorithm for topic modeling of researchers based on their interests from Google Scholar profiles. The algorithm uses the set of fields of research from research classification system ANZSRC. An information resource for topic modeling is a corpus of categorized publications from Dimensions. Interests from researchers’ profiles are used as search queries to Dimensions that outputs distributions of documents over categories. To reduce information noise these distributions are taken through a few stages of processing. The article also compares the results of topic modeling based on interests from Google Scholar profiles and based on a categorized list of publications from Dimensions. The comparison is done using modified Czekanowski metric that takes into account the similarity between categories. The results of comparing the topic modeling outputs based on different information sources show a good match. Предложен алгоритм тематического моделирования ученых по научным специальностям на основе их интересов в профилях в Google Scholar. Алгоритм использует перечень научных специальностей из системы классификации наук ANZSRC. Информационным ресурсом для тематического моделирования является база категоризированных научных публикаций из системы Dimensions. Интересы из профилей ученых используются как поисковые запросы для Dimensions, сервисы которой выдают распределения релевантных документов по специальностям. Для уменьшения информационного шума эти распределения проходят несколько этапов обработки. Сравниваются результаты тематического моделирования на основе профильных интересов в Google Scholar и категоризированного списка авторских публикаций в Dimensions по метрике Чекановского с учетом схожести специальностей. Для тестовых ученых выявлена высокая согласованность результатов тематического моделирования при различной исходной информации. Запропоновано алгоритм тематичного моделювання науковців за науковими спеціальностям на основі їх інтересів у профілях у Google Scholar. Алгоритм використовує перелік наукових спеціальностей із системи класифікації наук ANZSRC. Інформаційним ресурсом для тематичного моделювання є база категоризованих наукових публікацій із системи Dimensions. Інтереси з профілів науковців використовуються як пошукові запити для Dimensions, сервіси якої видають розподіли релевантних документів за спеціальностями. Для зменшення інформаційного шуму ці розподіли проходять декілька етапів оброблення. Порівнюються результати тематичного моделювання на основі профільних інтересів у Google Scholar і категоризованого списку авторських публікацій у Dimensions за метрикою Чекановського з урахуванням спорідненості спеціальностей. Для тестових науковців виявлено високу узгодженість результатів тематичного моделювання за різної початкової інформації. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2021-09-14 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/225166 10.20535/SRIT.2308-8893.2021.2.09 System research and information technologies; No. 2 (2021); 113-129 Системные исследования и информационные технологии; № 2 (2021); 113-129 Системні дослідження та інформаційні технології; № 2 (2021); 113-129 2308-8893 1681-6048 uk https://journal.iasa.kpi.ua/article/view/225166/238486
spellingShingle тематичне моделювання
категоризація
Google Scholar
Dimensions
ANZSRC
профіль науковця
наукові інтереси
метрика Чекановського
індекс Жакара
Shtovba, Serhiy
Petrychko, Mykola
Тематичне моделювання науковців на основі їх інтересів у Google Scholar
title Тематичне моделювання науковців на основі їх інтересів у Google Scholar
title_alt Topic modeling of researchers based on their interests from Google Scholar
Тематическое моделирование ученых на основе их интересов в Google Scholar
title_full Тематичне моделювання науковців на основі їх інтересів у Google Scholar
title_fullStr Тематичне моделювання науковців на основі їх інтересів у Google Scholar
title_full_unstemmed Тематичне моделювання науковців на основі їх інтересів у Google Scholar
title_short Тематичне моделювання науковців на основі їх інтересів у Google Scholar
title_sort тематичне моделювання науковців на основі їх інтересів у google scholar
topic тематичне моделювання
категоризація
Google Scholar
Dimensions
ANZSRC
профіль науковця
наукові інтереси
метрика Чекановського
індекс Жакара
topic_facet topic modeling
categorization
Google Scholar
Dimensions
ANZSRC
researcher’s profile
research interests
Czekanowski metric
Jaccard index
тематическое моделирование
категоризация
Google Scholar
Dimensions
ANZSRC
профиль ученого
научные интересы
метрика Чекановского
индекс Жакарра
тематичне моделювання
категоризація
Google Scholar
Dimensions
ANZSRC
профіль науковця
наукові інтереси
метрика Чекановського
індекс Жакара
url https://journal.iasa.kpi.ua/article/view/225166
work_keys_str_mv AT shtovbaserhiy topicmodelingofresearchersbasedontheirinterestsfromgooglescholar
AT petrychkomykola topicmodelingofresearchersbasedontheirinterestsfromgooglescholar
AT shtovbaserhiy tematičeskoemodelirovanieučenyhnaosnoveihinteresovvgooglescholar
AT petrychkomykola tematičeskoemodelirovanieučenyhnaosnoveihinteresovvgooglescholar
AT shtovbaserhiy tematičnemodelûvannânaukovcívnaosnovííhínteresívugooglescholar
AT petrychkomykola tematičnemodelûvannânaukovcívnaosnovííhínteresívugooglescholar