Research specialties’ kinship level identification based on data from Dimensions

Knowledge about research specialties’ kinship level is needed for solving such problems as: improving current research classification system; detecting similar scientific and educational institutions to set up cooperative relations or perform their reorganization; automatic reviewer assignment for p...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2024
Автори: Shtovba, S.D., Petrychko, M.V.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут програмних систем НАН України 2024
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/609
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-609
record_format ojs
resource_txt_mv ppisoftskievua/3c/8898478b64deac993ac4aae9fb4ccc3c.pdf
spelling pp_isofts_kiev_ua-article-6092024-04-27T16:41:13Z Research specialties’ kinship level identification based on data from Dimensions Ідентифікація рівня спорідненості наукових спеціальностей на основі даних системи Dimensions Shtovba, S.D. Petrychko, M.V. identification, research classification, specialties’ kinship, data analysis, Jaccard index, research publications, reviewer assignment, scientometrics, Dimensions, ANZS-RC-2020 UDC 001.2 ідентифікація; класифікація наук; спорідненість спеціальностей; аналіз даних; індекс Жаккара; наукові публікації; підбір рецензентів; наукометрія; Dimensions; ANZSRC-2020 УДК 001.2 Knowledge about research specialties’ kinship level is needed for solving such problems as: improving current research classification system; detecting similar scientific and educational institutions to set up cooperative relations or perform their reorganization; automatic reviewer assignment for peer reviewing PhD-thesis, papers, grant proposals etc. In this paper research specialties’ kinship level is identified according to Australian and New Zealand standard research classification ANZC-RC-2020. The identification is done using information system Dimensions by analyzing 33.8 million publications for 2019-2023. The level of kinship is assessed by Jaccard index as the ratio of two specialties common publications’ number to the total number of publications in these specialties. It is found, that from 14535 possible pairs of specialties only 131 pairs have significant kinship with Jaccard index greater than 0.05. For 20 pairs among them the kinship level is high, and for 61 pairs – average.Prombles in programming 2024; 1: 77-85 Ідентифіковано рівні спорідненості наукових спеціальностей у межах Австралійсько–Новозеландської стандартної класифікації наук ANZCRC-2020. Ідентифікація здійснена з використанням інформаційної системи Dimensions шляхом аналізу 33.8 млн публікацій за 2019–2023 рр. Рівень спорідненості оцінено за індексом Жаккара. Встановлено, що із 14535 можливих пар спеціальностей, лише 131 пара має значиму спорідненість з індексом Жаккара, що перевищує 0.05. З них для 20 пар спеціальностей рівень спорідненості є високим, а для 61 пари – середнім.Prombles in programming 2024; 1: 77-85 Інститут програмних систем НАН України 2024-04-01 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/609 10.15407/pp2024.01.077 PROBLEMS IN PROGRAMMING; No 1 (2024); 77-85 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2024); 77-85 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2024); 77-85 1727-4907 10.15407/pp2024.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/609/659 Copyright (c) 2024 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2024-04-27T16:41:13Z
collection OJS
language Ukrainian
topic identification
research classification
specialties’ kinship
data analysis
Jaccard index
research publications
reviewer assignment
scientometrics
Dimensions
ANZS-RC-2020
UDC 001.2
spellingShingle identification
research classification
specialties’ kinship
data analysis
Jaccard index
research publications
reviewer assignment
scientometrics
Dimensions
ANZS-RC-2020
UDC 001.2
Shtovba, S.D.
Petrychko, M.V.
Research specialties’ kinship level identification based on data from Dimensions
topic_facet identification
research classification
specialties’ kinship
data analysis
Jaccard index
research publications
reviewer assignment
scientometrics
Dimensions
ANZS-RC-2020
UDC 001.2
ідентифікація
класифікація наук
спорідненість спеціальностей
аналіз даних
індекс Жаккара
наукові публікації
підбір рецензентів
наукометрія
Dimensions
ANZSRC-2020
УДК 001.2
format Article
author Shtovba, S.D.
Petrychko, M.V.
author_facet Shtovba, S.D.
Petrychko, M.V.
author_sort Shtovba, S.D.
title Research specialties’ kinship level identification based on data from Dimensions
title_short Research specialties’ kinship level identification based on data from Dimensions
title_full Research specialties’ kinship level identification based on data from Dimensions
title_fullStr Research specialties’ kinship level identification based on data from Dimensions
title_full_unstemmed Research specialties’ kinship level identification based on data from Dimensions
title_sort research specialties’ kinship level identification based on data from dimensions
title_alt Ідентифікація рівня спорідненості наукових спеціальностей на основі даних системи Dimensions
description Knowledge about research specialties’ kinship level is needed for solving such problems as: improving current research classification system; detecting similar scientific and educational institutions to set up cooperative relations or perform their reorganization; automatic reviewer assignment for peer reviewing PhD-thesis, papers, grant proposals etc. In this paper research specialties’ kinship level is identified according to Australian and New Zealand standard research classification ANZC-RC-2020. The identification is done using information system Dimensions by analyzing 33.8 million publications for 2019-2023. The level of kinship is assessed by Jaccard index as the ratio of two specialties common publications’ number to the total number of publications in these specialties. It is found, that from 14535 possible pairs of specialties only 131 pairs have significant kinship with Jaccard index greater than 0.05. For 20 pairs among them the kinship level is high, and for 61 pairs – average.Prombles in programming 2024; 1: 77-85
publisher Інститут програмних систем НАН України
publishDate 2024
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/609
work_keys_str_mv AT shtovbasd researchspecialtieskinshiplevelidentificationbasedondatafromdimensions
AT petrychkomv researchspecialtieskinshiplevelidentificationbasedondatafromdimensions
AT shtovbasd ídentifíkacíârívnâsporídnenostínaukovihspecíalʹnostejnaosnovídanihsistemidimensions
AT petrychkomv ídentifíkacíârívnâsporídnenostínaukovihspecíalʹnostejnaosnovídanihsistemidimensions
first_indexed 2024-09-21T04:05:15Z
last_indexed 2024-09-21T04:05:15Z
_version_ 1818528012575965184
fulltext 77 Інформатизація наукових досліджень © С.Д. Штовба, М.В. Петричко, 2024 ISSN 1727-4907. Проблеми програмування. 2024. №1 УДК001.2 http://doi.org/10.15407/pp2024.01.77 С. Д. Штовба, М. В. Петричко ІДЕНТИФІКАЦІЯ РІВНЯ СПОРІДНЕНОСТІ НАУКОВИХ СПЕЦІАЛЬНОСТЕЙ НА ОСНОВІ ДАНИХ СИСТЕМИ DIMENSIONS Ідентифіковано рівні спорідненості наукових спеціальностей у межах Австралійсько–Новозеландської стандартної класифікації наук ANZCRC-2020. Ідентифікація здійснена з використанням інформаційної системи Dimensions шляхом аналізу 33.8 млн публікацій за 2019–2023 рр. Рівень спорідненості оцінено за індексом Жаккара. Встановлено, що із 14535 можливих пар спеціальностей, лише 131 пара має зна- чущу спорідненість, за індексом Жаккара, що перевищує 0.05. З них для 20 пар спеціальностей рівень спорідненості є високим, а для 61 пари – середнім. Ключові слова: ідентифікація, класифікація наук, спорідненість спеціальностей, аналіз даних, індекс Жаккара, наукові публікації, підбір рецензентів, наукометрія, Dimensions, ANZSRC-2020. Вступ Управління науковою діяльністю здійснюється в рамках деякої системи кла- сифікації наук. В Україні одночасно діє дві системи класифікації наук: трирівнева та дворівнева. Трирівнева система формалі- зована «Переліком наукових спеціально- стей», який складається з 27 галузей та 488 спеціальностей. Галузь утворюють від 3 до 133 спеціальностей. В деяких галузях спе- ціальності об’єднані у групи, наприклад, в галузі «Технічні науки» утворено 20 груп спеціальностей. З 2015 р. діє і дворівнева система класифікації освітньо-наукової діяльності, яка формалізована «Переліком галузей знань і спеціальностей, за якими здійснюється підготовка здобувачів вищої освіти». Відповідно до його поточної вер- сії є 28 галузей знань, кожна з яких містить від 1 до 9 спеціальностей. Загальна кіль- кість спеціальностей дорівнює 121. Є бага- то інших систем класифікації наук, як на- ціонального рівня, так і міжнародного. Поміж національних систем виділимо три- рівневу Австралійсько–Новозеландську класифікацію ANZCRC-2020 [1], яка включає 22 галузі та 171 спеціальність та класифікацію Організації економічного співробітництва та розвитку [2], яка вклю- чає 6 галузей та 42 спеціальності. Вдала система класифікації наук дозволяє краще зрозуміти особливості філософських процесів пізнання у різних науках, дослідити історичний розвиток та взаємодію різних галузей знань, підвищи- ти ефективність пошуку документів і нау- кової інформації та удосконалити адмініс- трування та управління дослідженнями [3]. Метою статі є ідентифікація поточ- ного рівня спорідненості наукових спеціа- льностей. Оцінки рівня спорідненості спе- ціальностей необхідні для ухвалення рі- шень під час вирішення таких задач як: • удосконалення системи класифіка- ції наук, як-от, об’єднання спеціа- льностей або зміна їхньої галузевої належності; • виявлення схожих наукових та осві- тніх установ для налагодження но- вих кооперативних зв’язків або проведення їх реорганізації; • автоматизація підбору рецензентів для експертизи дисертацій, рукопи- сів статей, заявок на гранти тощо; • формування міждисциплінарних наукових досліджень та освітніх програм. Огляд літератури та ідея дослідження Найчастіше ідентифікація спорід- неності наукових спеціальностей здійсню- ється шляхом аналізу цитування [4]. Ідея оцінювання спорідненості за цитованістю полягає в тому, що спорідненість між спе- ціальностями збільшується, якщо в статті за однією спеціальністю є посилання на статтю з іншої спеціальності. Також вико- ристовуються і методи статистичного ана- лізу тексту, зокрема, в [5] запропоновано 78 Інформатизація наукових досліджень лінгвістичний підхід для дослідження ор- ганізації та еволюції наукових галузей у Web of Science. За лінгвістичним підходом спорідненість визначається частотами поя- ви слів у контексті конкретних спеціально- стей. У роботі [5] порівнюються 3 підходи до визначення спорідненості спеціально- стей: на основі експертної класифікації; на основі цитувань; на основі лінгвістичної схожості. Спорідненість оцінюється за метрикою розбіжності (dissimilarity) – чим менше значення метрики, тим більша спо- рідненість і навпаки. Експерименти здійс- нено для статей з Web of Science, що роз- мічені за трирівневою системою класифі- кації наук. Виявлено, що підходи на основі цитувань та лінгвістичного аналізу дають подібні значення спорідненості, водночас вони значно відрізняються від експертних оцінок. Експертна оцінка дає ідеалізоване уявлення про спорідненість спеціально- стей, в той час як аналіз цитувань дозволяє виявити соціальну спорідненість спеціаль- ностей, а лінгвістичний підхід дозволяє виявити змістовну (когнітивну) спорідне- ність. В [6] рівень спорідненості ідентифі- кують за кількістю цитувань зі статті пев- ного дослідника на статті у журналах з Web of Science, де кожен із журналів від- несено до однієї із предметних областей Web of Science. В [7] ідентифікація здійс- нюється за допомогою показників різно- манітності за розподілом посилань між спеціальностями з урахуванням відстані між ними. Деякі дослідження [8, 9] вико- ристовують одночасно аналіз цитувань та лінгвістичний аналіз для виявлення спорі- дненості. Дещо менш поширеним підхо- дом є ідентифікація за аналізом графу ко- лаборацій, який описує належність співав- торів до наукових спеціальностей [10]. Як математична модель використовується індекс різноманітності Стірлінга. Усі вищезгадані підходи вимагають опрацювання великих інформаційних ресу- рсів. Окрім того, методи, що базуються на аналізі цитування, є досить інерційними. Неможливо миттєво оцінити міждисциплі- нарність нової роботи, оскільки для її циту- вання потрібен певний час. На противагу згаданим підходам, у статті [11] запропоно- вано швидкий метод оцінювання спорідне- ності наукових спеціальностей відповідно до системи класифікаці ANZSRC-2008. Метод оснований на текстовому аналізі з використанням сервісів інформаційної сис- теми Dimensions. Розрахунок спорідненості спеціальностей здійснюється за індексом Жаккара як відношення кількості спільних публікацій двох спеціальності до загальної кількості публікацій за цими двома спеціа- льностями. Нещодавно Dimensions перейш- ла на оновлену систему класифікації ANZSRC-2020 [1]. Також база публікацій значно оновилася. Відповідно отримані в [11] оцінки рівня спорідненості втратили актуальність. Тому нижче здійснюється ідентифікація спорідненості наукових спе- ціальностей за методом [11] на новій дже- рельній базі і за новою системою класифі- кації наук. Ідентифікація здійснюється за публікаціями за період 2019–2023 рр. Початкові дані для ідентифікації спорідненості спеціальностей ANZSRC-2020 - це трирівнева кла- сифікація наук за схемою: галузі (Divisions), спеціальності (Groups) та обла- сті (Fields). Уся наука розділена на такі 22 галузі: 30 Agricultural, Veterinary and Food Sciences; 31 Biological Sciences; 32 Biomedical and Clinical Sciences; 33 Built Environment and Design; 35 Commerce, Management, Tourism and Services; 34 Chemical Sciences; 36 Creative Arts and Writing; 37 Earth Sciences; 38 Economics; 39 Education; 40 Engineering; 41 Environmental Sciences; 47 Language, Communication and Cul- ture; 48 Law and Legal Studies; 42 Health Sciences; 43 History, Heritage and Archaeology; 44 Human Society; 46 Information and Computing Sciences; 49 Mathematical Sciences; 50 Philosophy and Religious Studies; 79 Інформатизація наукових досліджень 51 Physical Sciences; 52 Psychology. Кожна галузь об’єднує від 3 до 19 спеціальностей. Назва спеціальності скла- дається з цифрового коду та змістовної частини. Код складається з номера галузі та порядкового номера спеціальності в межах галузі. Всього є 171 спеціальність, список наведено нижче: 3001 Agricultural Biotechnology; 3002 Agriculture, Land and Farm Manage- ment; 3003 Animal Production; 3004 Crop and Pasture Production; 3005 Fisheries Sciences; 3006 Food Sciences; 3007 Forestry Sciences; 3008 Horticultural Production; 3009 Veterinary Sciences; 3101 Biochemistry and Cell Biology; 3102 Bioinformatics and Computational Biology; 3103 Ecology; 3104 Evolutionary Biology; 3105 Genetics; 3106 Industrial Biotechnology; 3107 Microbiology; 3108 Plant Biology; 3109 Zoology; 3201 Cardiovascular Medicine and Haema- tology; 3202 Clinical Sciences; 3203 Dentistry; 3204 Immunology; 3205 Medical Biochemistry and Metabo- lomics; 3206 Medical Biotechnology; 3207 Medical Microbiology; 3208 Medical Physiology; 3209 Neurosciences; 3210 Nutrition and Dietetics; 3211 Oncology and Carcinogenesis; 3212 Ophthalmology and Optometry; 3213 Pediatrics; 3214 Pharmacology and Pharmaceutical Sciences; 3215 Reproductive Medicine; 3301 Architecture; 3302 Building; 3303 Design; 3304 Urban and Regional Planning; 3401 Analytical Chemistry; 3402 Inorganic Chemistry; 3403 Macromolecular and Materials Chem- istry; 3404 Medicinal and Biomolecular Chemis- try; 3405 Organic Chemistry; 3406 Physical Chemistry; 3407 Theoretical and Computational Chem- istry; 3501 Accounting, Auditing and Accounta- bility; 3502 Banking, Finance and Investment; 3503 Business Systems in Context; 3504 Commercial Services; 3505 Human Resources and Industrial Rela- tions; 3506 Marketing; 3507 Strategy, Management and Organisa- tional Behaviour; 3508 Tourism; 3509 Transportation, Logistics and Supply Chains; 3601 Art History, Theory and Criticism; 3602 Creative and Professional Writing; 3603 Music; 3604 Performing Arts; 3605 Screen and Digital Media; 3606 Visual Arts; 3701 Atmospheric Sciences; 3702 Climate Change Science; 3703 Geochemistry; 3704 Geoinformatics; 3705 Geology; 3706 Geophysics; 3707 Hydrology; 3708 Oceanography; 3709 Physical Geography and Environmen- tal Geoscience; 3801 Applied Economics; 3802 Econometrics; 3803 Economic Theory; 3901 Curriculum and Pedagogy; 3902 Education Policy, Sociology and Phi- losophy; 3903 Education Systems; 3904 Specialist Studies in Education; 4001 Aerospace Engineering; 4002 Automotive Engineering; 4003 Biomedical Engineering; 4004 Chemical Engineering; 4005 Civil Engineering; 4006 Communications Engineering; 80 Інформатизація наукових досліджень 4007 Control Engineering, Mechatronics and Robotics; 4008 Electrical Engineering; 4009 Electronics, Sensors and Digital Hardware; 4010 Engineering Practice and Education; 4011 Environmental Engineering; 4012 Fluid Mechanics and Thermal Engi- neering; 4013 Geomatic Engineering; 4014 Manufacturing Engineering; 4015 Maritime Engineering; 4016 Materials Engineering; 4017 Mechanical Engineering; 4018 Nanotechnology; 4019 Resources Engineering and Extractive Metallurgy; 4101 Climate Change Impacts and Adapta- tion; 4102 Ecological Applications; 4103 Environmental Biotechnology; 4104 Environmental Management; 4105 Pollution and Contamination; 4106 Soil Sciences; 4201 Allied Health and Rehabilitation Sci- ence; 4202 Epidemiology; 4203 Health Services and Systems; 4204 Midwifery; 4205 Nursing; 4206 Public Health; 4207 Sports Science and Exercise; 4208 Traditional, Complementary and Inte- grative Medicine; 4301 Archaeology; 4302 Heritage, Archive and Museum Studies; 4303 Historical Studies; 4401 Anthropology; 4402 Criminology; 4403 Demography; 4404 Development Studies; 4405 Gender Studies; 4406 Human Geography; 4407 Policy and Administration; 4408 Political Science; 4409 Social Work; 4410 Sociology; 4601 Applied Computing; 4602 Artificial Intelligence; 4603 Computer Vision and Multimedia Computation; 4604 Cybersecurity and Privacy; 4605 Data Management and Data Science; 4606 Distributed Computing and Systems Software; 4607 Graphics, Augmented Reality and Games; 4608 Human-Centred Computing; 4609 Information Systems; 4610 Library and Information Studies; 4611 Machine Learning; 4612 Software Engineering; 4613 Theory of Computation; 4701 Communication and Media Studies; 4702 Cultural Studies; 4703 Language Studies; 4704 Linguistics; 4705 Literary Studies; 4801 Commercial Law; 4802 Environmental and Resources Law; 4803 International and Comparative Law; 4804 Law in Context; 4805 Legal Systems; 4806 Private Law and Civil Obligations; 4807 Public Law; 4901 Applied Mathematics; 4902 Mathematical Physics; 4903 Numerical and Computational Math- ematics; 4904 Pure Mathematics; 4905 Statistics; 5001 Applied Ethics; 5002 History and Philosophy of Specific Fields; 5003 Philosophy; 5004 Religious Studies; 5005 Theology; 5101 Astronomical Sciences; 5102 Atomic, Molecular and Optical Physics; 5103 Classical Physics; 5104 Condensed Matter Physics; 5105 Medical and Biological Physics; 5106 Nuclear and Plasma Physics; 5107 Particle and High Energy Physics; 5108 Quantum Physics; 5109 Space Sciences; 5110 Synchrotrons and Accelerators; 5201 Applied and Developmental Psychol- ogy; 5202 Biological Psychology; 5203 Clinical and Health Psychology; 5204 Cognitive and Computational Psy- chology; 5205 Social and Personality Psychology. 81 Інформатизація наукових досліджень На сьогодні в системі Dimensions проіндексовано понад 140 млн наукових публікацій. Біля 80% від усіх публікацій категоризовано за спеціальностями, тобто віднесено до однієї чи кількох спеціально- стей [1]. Категоризація публікацій у Dimensions здійснена на основі машинного навчання, переважно за аналізом змісту назв, анотацій та ключових слів. За останні 5 років у системі Dimensions проіндексо- вано 33.8 млн публікацій, які є джерель- ною базою дослідження. Публікації за спеціальностями розподілені нерівномірно (рис. 1). Децильний коефіцієнт дорівнює 14.9. Найбільше публікацій – 3188112 від- несено до спеціальності 3202, найменше – 3339 – до спеціальності 3606. Навіть най- менш популярна спеціальність має достат- ню кількість публікацій, щоб на їх основі отримати достовірні статистичні висновки. Ідентифікація спорідненості спеціальностей Індекс спорідненості пари спеціа- льностей (A, B) розраховується таким чи- ном [11]: BABA BA NNN N BAJ   −+ =),( , (1) де AN – кількість публікацій за спеці- альністю A; BN - кількість публікацій за спеціа- льністю B; BAN  - кількість публікацій, які одночасно віднесено як до спеціальності A, так і до спеціальності B. Проілюструємо застосування фор- мули (1) на прикладі розрахунку спорідне- ності спеціальностей 4602 та 4608. За спе- ціальністю 4602 є 316910 публікацій, за спеціальністю 4608 – 239664 публікації. За обома спеціальностями одночасно катего- ризовано 17757 публікацій. Відповідно рівень спорідненості спеціальностей 4602 та 4608 становить: =)46084602,(J 03.0 17757239664316910 17757 = −+ = . Dimensions можна за API [12]. Дані можна отримати використовуючи звичай- ний HTTP запит, де тілом є текст у форма- ті Dimensions Search Language [13]. Напри- клад, для того, щоб отримати розподіл кількості публікацій за кожною спеціаль- ністю за останні 5 років необхідно відпра- вити запит із таким тілом: search publications where year in [2019, 2020, 2021, 2022, 2023] return category_for_2020 Результат повертається у JSON-форматі, в якому для кожної спеціальності вказано кількість публікацій, категоризованих до відповідної спеціальності. Для того, щоб знайти кількість публікацій віднесених одночасно до двох спеціальностей у запиті необхідно додатково вказати ідентифіка- тор спеціальності. Як відповідь поверта- ється кількість публікацій, які категоризо- вані одночасно до вказаної спеціальності і Рис. 1. Перший квартиль розподілу публікацій за спеціальностями за 2019–2023 рр. 82 Інформатизація наукових досліджень до кожної іншої спеціальності. Приклад такого запиту для спеціальності 3202, яка має внутрішній ідентифікатор 80045, наве- дено нижче: search publications where year in [2019, 2020, 2021, 2022, 2023] and category_for.id=80045 return category_for_2020 Надіславши API-запит для кожної спеціальності отримуємо необхідні почат- кові дані для розрахунку рівня спорідненос- ті всіх пар спеціальностей. Ранговий розподіл пар спеціальностей за індексом Жаккара (1) наведено на рис. 2. Високу спорідненість має 20 пар спеціальностей, індекс Жаккара для яких перевищує 0.2 (табл. 1). Поміж 20 сильно споріднених пар 3 пари утворено спеціальностями з різних галузей знань. Середня спорідненість має місце для 41 пари спеціальностей (табл. 2). Поміж 41 пари із середньою спорідненістю 9 пар утворено спеціальностями з різних галузей знань. Спорідненість пар із висо- кими та середніми індексами Жаккара варто врахувати під час автоматичного підбору рецензентів чи виявлення схожих наукових та освітніх установ. Можливо, деякий ефект буде і від врахування пар спеціальностей із низьким рівнем спорідненості. Таких пар виявилося 70. Решта пар спеціальностей, а саме 1440413114535 =− має шумову спо- рідненість – їхній індекс Жаккара менше 0.05. Поріг щодо шуму встановлено на під- ставі обчислювальних експериментів [14]. Таблиця 1. Спеціальності з сильною спорідненістю Спеціальності Індекс Жаккара 3504 3508 0.485 4703 4704 0.378 3506 3508 0.339 3504 3506 0.332 4008 4009 0.322 4002 4017 0.313 3002 3004 0.309 3901 3903 0.297 5106 5107 0.294 4402 4805 0.293 3503 3506 0.247 4901 4904 0.245 4007 4010 0.236 5106 5110 0.224 3705 3706 0.218 3703 3706 0.212 3703 3705 0.211 4902 5107 0.21 3605 4701 0.208 4004 4011 0.2 Таблиця 2. Спеціальності з середньою спорідненістю Спеціальності Індекс Жаккара 3802 3803 0.199 3302 4005 0.172 3502 3801 0.169 4901 4903 0.168 3501 3502 0.167 3801 3802 0.164 5102 5108 0.163 5004 5005 0.162 4902 4904 0.159 3402 3405 0.154 4006 4613 0.152 4203 4205 0.146 4604 4606 0.144 3103 3104 0.144 5201 5205 0.14 4803 4807 0.14 3304 3509 0.139 3102 3105 0.138 3209 5202 0.129 3705 3709 0.127 4407 4408 0.127 5201 5203 0.126 4605 4606 0.124 3801 3803 0.123 4006 4009 0.123 Рис. 2. Фрагмент рангового розподілу спорідненості пар спеціальностей (напівлогарифмічний формат) 83 Інформатизація наукових досліджень Спеціальності Індекс Жаккара 4602 4605 0.122 5101 5109 0.122 3902 3903 0.119 3204 3211 0.118 4804 4807 0.118 3404 3405 0.112 3403 4016 0.111 3406 4016 0.11 Спеціальності Індекс Жаккара 5202 5204 0.109 4903 4904 0.108 4803 4804 0.108 3702 3709 0.107 3503 4609 0.106 4301 4303 0.105 5002 5003 0.104 3107 3207 0.101 Рис. 3. Діаграми спорідненості спеціальностей з топ-20 за індексом Жаккара 84 Інформатизація наукових досліджень На рис. 3 наведені діаграми спорід- неності для 32 спеціальностей, які утворили пари з максимальними індексами Жаккара. Більшість із них мають сильну спорідне- ність лише з однією спеціальністю. Водно- час, 7 спеціальностей сильно взаємодіють з двома спеціальностями. Спеціальність 3506 має високу спорідненість аж із трьома спе- ціальностями – 3504, 3508 та 3503. Усі вони належать до спільної галузі 35 – Commerce, Management, Tourism and Services. Висновки Ідентифіковано рівні спорідненості спеціальностей за системою класифікації наукових спеціальностей ANZSRC-2020. Ідентифікація здійснена з використанням інформаційної системи Dimensions шляхом аналізу 33.8 млн публікацій за 2019– 2023 рр. Рівень спорідненості оцінено за індексом Жаккара. Встановлено, що із 14535 можливих пар спеціальностей, лише 131 пара має значнішу спорідненість з ін- дексом Жаккара, що перевищує 0.05. З них для 20 пар спеціальностей рівень спорід- неності є високим, а для 61 пари – серед- нім. Поміж пар із високою спорідненістю переважають спеціальності з однакових галузей, але 3 пари із 20 утворено із спеці- альностей з різних галузей. Отримані оцінки рівня спорідненос- ті спеціальностей можуть бути використа- ні для покращення розв’язання задач авто- матичного призначення рецензентів дисер- тацій, запитів на гранти, рукописів статей, для створення міждисциплінарних PhD- програм, удосконалення системи класифі- кації наук, відслідковування трендів між- дисциплінарних досліджень тощо. Подяки Автори висловлюють подяку Digital Science & Research Solutions Inc. за надан- ня доступу до ресурсів Dimensions за проє- ктом DIM-371. Література 1. Porter, S. J., Hawizy, L., & Hook, D. W. (2023). Recategorising research: Mapping from FoR 2008 to FoR 2020 in Dimensions. Quantitative Science Studies, 4(1), 127–143. https://doi.org/10.1162/qss_a_00244. 2. Frascati Manual 2015. Frascati Manual 2015. OECD. https://doi.org/10.1787/9789264268111-ko. 3. Legendre, A. (2019). The development of the Canadian research and development classification. Knowledge Organization. International Society for Knowledge Organization. https://doi.org/10.5771/0943- 7444-2019-5-371. 4. Wagner, C. S., Roessner, J. D., Bobb, K., Klein, J. T., Boyack, K. W., Keyton, J., Rafols I., Börner, K. (2011). Approaches to understanding and measuring interdisciplinary scientific research (IDR): A review of the literature. Journal of Informetrics, 5(1), 14– 26. https://doi.org/10.1016/j.joi.2010.06.004. 5. Dias, L., Gerlach, M., Scharloth, J., & Altmann, E. G. (2018). Using text analysis to quantify the similarity and evolution of scientific disciplines. Royal Society Open Science, 5(1). https://doi.org/10.1098/rsos.171545. 6. Porter, A. L., Cohen, A. S., David Roessner, J., & Perreault, M. (2007). Measuring researcher interdisciplinarity. Scientometrics, 72(1), 117–147. https://doi.org/10.1007/s11192-007-1700-5. 7. Van Noorden, R. (2015, September 16). Interdisciplinary research by the numbers. Nature. Nature Publishing Group. https://doi.org/10.1038/525306a. 8. Braam, R. R., Moed, H. F., & van Raan, A. F. J. (1991). Mapping of science by combined co‐citation and word analysis. II: Dynamical aspects. Journal of the American Society for Information Science, 42(4), 252–266. https://doi.org/10.1002/(SICI)1097- 4571(199105)42:4<252::AID- ASI2>3.0.CO;2-G. 9. Silva, F. N., Amancio, D. R., Bardosova, M., Costa, L. da F., & Oliveira, O. N. (2016). Using network science and text analytics to produce surveys in a scientific topic. Journal of Informetrics, 10(2), 487–502. https://doi.org/10.1016/j.joi.2016.03.008. 10. Karlovčec, M., & Mladenić, D. (2015). Interdisciplinarity of scientific fields and its evolution based on graph of project collaboration and co-authoring. Scientometrics, 102(1), 433–454. https://doi.org/10.1007/s11192-014-1355-y. 11. Shtovba, S., & Petrychko, M. (2019). Jaccard index-based assessing the similarity of 85 Інформатизація наукових досліджень research fields in dimensions. In CEUR Workshop Proceedings (Vol. 2533, pp. 117– 128). CEUR-WS. 12. Dimensions API request. Електронний ресурс. Режим доступу: https://www.dimensions.ai/products/all- products/dimensions-api/ (20.02.2024). 13. Dimensions DSL. Електронний ресурс. Режим доступу: https://docs.dimensions.ai/dsl/ (20.02.2024). 14. Shtovba S., Petrychko M., Shtovba O. Simi- larity metric оf categorical distributions for topic modeling problems with akin categories // CEUR Workshop Proceedings, Vol. 3392 “Proc. of the Sixth International Workshop on Computer Modeling and Intelligent Sys- tems”. – 2023. – P. 76-85. DOI: https://doi.org/10.32782/cmis/3392-7. Одержано: 22.02.2024 Про авторів: Штовба Сергій Дмитрович, професор, д. т. н., професор кафедри інформаційних технологій Донецького національного університету імені Василя Стуса. Кількість наукових публікацій в українських виданнях – понад 100. Кількість наукових публікацій в іноземних виданнях – понад 50. Індекс Гірша – 8. https://orcid.org/0000-0003-1302-4899 Петричко Микола Володимирович, аспірант кафедри комп’ютерних систем управління Вінницького національного технічного університету. Кількість наукових публікацій в українських виданнях – 7. Кількість наукових публікацій в іноземних виданнях – 6. Індекс Гірша – 3. https://orcid.org/0000-0001-6836-7843 Місце роботи авторів: Донецький національний університет імені Василя Стуса, 600-річчя, 21, 21021, м. Вінниця email: s.shtovba@donnu.edu.ua Вінницький національний технічний університет, Хмельницьке шосе, 95, 21021, м.Вінниця email: mpetrychko@vntu.edu.ua