Research specialties’ kinship level identification based on data from Dimensions
Knowledge about research specialties’ kinship level is needed for solving such problems as: improving current research classification system; detecting similar scientific and educational institutions to set up cooperative relations or perform their reorganization; automatic reviewer assignment for p...
Збережено в:
Дата: | 2024 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут програмних систем НАН України
2024
|
Теми: | |
Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/609 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Problems in programming |
Завантажити файл: |
Репозитарії
Problems in programmingid |
pp_isofts_kiev_ua-article-609 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/3c/8898478b64deac993ac4aae9fb4ccc3c.pdf |
spelling |
pp_isofts_kiev_ua-article-6092024-04-27T16:41:13Z Research specialties’ kinship level identification based on data from Dimensions Ідентифікація рівня спорідненості наукових спеціальностей на основі даних системи Dimensions Shtovba, S.D. Petrychko, M.V. identification, research classification, specialties’ kinship, data analysis, Jaccard index, research publications, reviewer assignment, scientometrics, Dimensions, ANZS-RC-2020 UDC 001.2 ідентифікація; класифікація наук; спорідненість спеціальностей; аналіз даних; індекс Жаккара; наукові публікації; підбір рецензентів; наукометрія; Dimensions; ANZSRC-2020 УДК 001.2 Knowledge about research specialties’ kinship level is needed for solving such problems as: improving current research classification system; detecting similar scientific and educational institutions to set up cooperative relations or perform their reorganization; automatic reviewer assignment for peer reviewing PhD-thesis, papers, grant proposals etc. In this paper research specialties’ kinship level is identified according to Australian and New Zealand standard research classification ANZC-RC-2020. The identification is done using information system Dimensions by analyzing 33.8 million publications for 2019-2023. The level of kinship is assessed by Jaccard index as the ratio of two specialties common publications’ number to the total number of publications in these specialties. It is found, that from 14535 possible pairs of specialties only 131 pairs have significant kinship with Jaccard index greater than 0.05. For 20 pairs among them the kinship level is high, and for 61 pairs – average.Prombles in programming 2024; 1: 77-85 Ідентифіковано рівні спорідненості наукових спеціальностей у межах Австралійсько–Новозеландської стандартної класифікації наук ANZCRC-2020. Ідентифікація здійснена з використанням інформаційної системи Dimensions шляхом аналізу 33.8 млн публікацій за 2019–2023 рр. Рівень спорідненості оцінено за індексом Жаккара. Встановлено, що із 14535 можливих пар спеціальностей, лише 131 пара має значиму спорідненість з індексом Жаккара, що перевищує 0.05. З них для 20 пар спеціальностей рівень спорідненості є високим, а для 61 пари – середнім.Prombles in programming 2024; 1: 77-85 Інститут програмних систем НАН України 2024-04-01 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/609 10.15407/pp2024.01.077 PROBLEMS IN PROGRAMMING; No 1 (2024); 77-85 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2024); 77-85 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2024); 77-85 1727-4907 10.15407/pp2024.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/609/659 Copyright (c) 2024 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2024-04-27T16:41:13Z |
collection |
OJS |
language |
Ukrainian |
topic |
identification research classification specialties’ kinship data analysis Jaccard index research publications reviewer assignment scientometrics Dimensions ANZS-RC-2020 UDC 001.2 |
spellingShingle |
identification research classification specialties’ kinship data analysis Jaccard index research publications reviewer assignment scientometrics Dimensions ANZS-RC-2020 UDC 001.2 Shtovba, S.D. Petrychko, M.V. Research specialties’ kinship level identification based on data from Dimensions |
topic_facet |
identification research classification specialties’ kinship data analysis Jaccard index research publications reviewer assignment scientometrics Dimensions ANZS-RC-2020 UDC 001.2 ідентифікація класифікація наук спорідненість спеціальностей аналіз даних індекс Жаккара наукові публікації підбір рецензентів наукометрія Dimensions ANZSRC-2020 УДК 001.2 |
format |
Article |
author |
Shtovba, S.D. Petrychko, M.V. |
author_facet |
Shtovba, S.D. Petrychko, M.V. |
author_sort |
Shtovba, S.D. |
title |
Research specialties’ kinship level identification based on data from Dimensions |
title_short |
Research specialties’ kinship level identification based on data from Dimensions |
title_full |
Research specialties’ kinship level identification based on data from Dimensions |
title_fullStr |
Research specialties’ kinship level identification based on data from Dimensions |
title_full_unstemmed |
Research specialties’ kinship level identification based on data from Dimensions |
title_sort |
research specialties’ kinship level identification based on data from dimensions |
title_alt |
Ідентифікація рівня спорідненості наукових спеціальностей на основі даних системи Dimensions |
description |
Knowledge about research specialties’ kinship level is needed for solving such problems as: improving current research classification system; detecting similar scientific and educational institutions to set up cooperative relations or perform their reorganization; automatic reviewer assignment for peer reviewing PhD-thesis, papers, grant proposals etc. In this paper research specialties’ kinship level is identified according to Australian and New Zealand standard research classification ANZC-RC-2020. The identification is done using information system Dimensions by analyzing 33.8 million publications for 2019-2023. The level of kinship is assessed by Jaccard index as the ratio of two specialties common publications’ number to the total number of publications in these specialties. It is found, that from 14535 possible pairs of specialties only 131 pairs have significant kinship with Jaccard index greater than 0.05. For 20 pairs among them the kinship level is high, and for 61 pairs – average.Prombles in programming 2024; 1: 77-85 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2024 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/609 |
work_keys_str_mv |
AT shtovbasd researchspecialtieskinshiplevelidentificationbasedondatafromdimensions AT petrychkomv researchspecialtieskinshiplevelidentificationbasedondatafromdimensions AT shtovbasd ídentifíkacíârívnâsporídnenostínaukovihspecíalʹnostejnaosnovídanihsistemidimensions AT petrychkomv ídentifíkacíârívnâsporídnenostínaukovihspecíalʹnostejnaosnovídanihsistemidimensions |
first_indexed |
2024-09-21T04:05:15Z |
last_indexed |
2024-09-21T04:05:15Z |
_version_ |
1818528012575965184 |
fulltext |
77
Інформатизація наукових досліджень
© С.Д. Штовба, М.В. Петричко, 2024
ISSN 1727-4907. Проблеми програмування. 2024. №1
УДК001.2 http://doi.org/10.15407/pp2024.01.77
С. Д. Штовба, М. В. Петричко
ІДЕНТИФІКАЦІЯ РІВНЯ СПОРІДНЕНОСТІ НАУКОВИХ
СПЕЦІАЛЬНОСТЕЙ НА ОСНОВІ ДАНИХ СИСТЕМИ DIMENSIONS
Ідентифіковано рівні спорідненості наукових спеціальностей у межах Австралійсько–Новозеландської
стандартної класифікації наук ANZCRC-2020. Ідентифікація здійснена з використанням інформаційної
системи Dimensions шляхом аналізу 33.8 млн публікацій за 2019–2023 рр. Рівень спорідненості оцінено
за індексом Жаккара. Встановлено, що із 14535 можливих пар спеціальностей, лише 131 пара має зна-
чущу спорідненість, за індексом Жаккара, що перевищує 0.05. З них для 20 пар спеціальностей рівень
спорідненості є високим, а для 61 пари – середнім.
Ключові слова: ідентифікація, класифікація наук, спорідненість спеціальностей, аналіз даних, індекс
Жаккара, наукові публікації, підбір рецензентів, наукометрія, Dimensions, ANZSRC-2020.
Вступ
Управління науковою діяльністю
здійснюється в рамках деякої системи кла-
сифікації наук. В Україні одночасно діє дві
системи класифікації наук: трирівнева та
дворівнева. Трирівнева система формалі-
зована «Переліком наукових спеціально-
стей», який складається з 27 галузей та 488
спеціальностей. Галузь утворюють від 3 до
133 спеціальностей. В деяких галузях спе-
ціальності об’єднані у групи, наприклад, в
галузі «Технічні науки» утворено 20 груп
спеціальностей. З 2015 р. діє і дворівнева
система класифікації освітньо-наукової
діяльності, яка формалізована «Переліком
галузей знань і спеціальностей, за якими
здійснюється підготовка здобувачів вищої
освіти». Відповідно до його поточної вер-
сії є 28 галузей знань, кожна з яких містить
від 1 до 9 спеціальностей. Загальна кіль-
кість спеціальностей дорівнює 121. Є бага-
то інших систем класифікації наук, як на-
ціонального рівня, так і міжнародного.
Поміж національних систем виділимо три-
рівневу Австралійсько–Новозеландську
класифікацію ANZCRC-2020 [1], яка
включає 22 галузі та 171 спеціальність та
класифікацію Організації економічного
співробітництва та розвитку [2], яка вклю-
чає 6 галузей та 42 спеціальності.
Вдала система класифікації наук
дозволяє краще зрозуміти особливості
філософських процесів пізнання у різних
науках, дослідити історичний розвиток та
взаємодію різних галузей знань, підвищи-
ти ефективність пошуку документів і нау-
кової інформації та удосконалити адмініс-
трування та управління дослідженнями [3].
Метою статі є ідентифікація поточ-
ного рівня спорідненості наукових спеціа-
льностей. Оцінки рівня спорідненості спе-
ціальностей необхідні для ухвалення рі-
шень під час вирішення таких задач як:
• удосконалення системи класифіка-
ції наук, як-от, об’єднання спеціа-
льностей або зміна їхньої галузевої
належності;
• виявлення схожих наукових та осві-
тніх установ для налагодження но-
вих кооперативних зв’язків або
проведення їх реорганізації;
• автоматизація підбору рецензентів
для експертизи дисертацій, рукопи-
сів статей, заявок на гранти тощо;
• формування міждисциплінарних
наукових досліджень та освітніх
програм.
Огляд літератури та ідея
дослідження
Найчастіше ідентифікація спорід-
неності наукових спеціальностей здійсню-
ється шляхом аналізу цитування [4]. Ідея
оцінювання спорідненості за цитованістю
полягає в тому, що спорідненість між спе-
ціальностями збільшується, якщо в статті
за однією спеціальністю є посилання на
статтю з іншої спеціальності. Також вико-
ристовуються і методи статистичного ана-
лізу тексту, зокрема, в [5] запропоновано
78
Інформатизація наукових досліджень
лінгвістичний підхід для дослідження ор-
ганізації та еволюції наукових галузей у
Web of Science. За лінгвістичним підходом
спорідненість визначається частотами поя-
ви слів у контексті конкретних спеціально-
стей. У роботі [5] порівнюються 3 підходи
до визначення спорідненості спеціально-
стей: на основі експертної класифікації; на
основі цитувань; на основі лінгвістичної
схожості. Спорідненість оцінюється за
метрикою розбіжності (dissimilarity) – чим
менше значення метрики, тим більша спо-
рідненість і навпаки. Експерименти здійс-
нено для статей з Web of Science, що роз-
мічені за трирівневою системою класифі-
кації наук. Виявлено, що підходи на основі
цитувань та лінгвістичного аналізу дають
подібні значення спорідненості, водночас
вони значно відрізняються від експертних
оцінок. Експертна оцінка дає ідеалізоване
уявлення про спорідненість спеціально-
стей, в той час як аналіз цитувань дозволяє
виявити соціальну спорідненість спеціаль-
ностей, а лінгвістичний підхід дозволяє
виявити змістовну (когнітивну) спорідне-
ність. В [6] рівень спорідненості ідентифі-
кують за кількістю цитувань зі статті пев-
ного дослідника на статті у журналах з
Web of Science, де кожен із журналів від-
несено до однієї із предметних областей
Web of Science. В [7] ідентифікація здійс-
нюється за допомогою показників різно-
манітності за розподілом посилань між
спеціальностями з урахуванням відстані
між ними. Деякі дослідження [8, 9] вико-
ристовують одночасно аналіз цитувань та
лінгвістичний аналіз для виявлення спорі-
дненості. Дещо менш поширеним підхо-
дом є ідентифікація за аналізом графу ко-
лаборацій, який описує належність співав-
торів до наукових спеціальностей [10]. Як
математична модель використовується
індекс різноманітності Стірлінга.
Усі вищезгадані підходи вимагають
опрацювання великих інформаційних ресу-
рсів. Окрім того, методи, що базуються на
аналізі цитування, є досить інерційними.
Неможливо миттєво оцінити міждисциплі-
нарність нової роботи, оскільки для її циту-
вання потрібен певний час. На противагу
згаданим підходам, у статті [11] запропоно-
вано швидкий метод оцінювання спорідне-
ності наукових спеціальностей відповідно
до системи класифікаці ANZSRC-2008.
Метод оснований на текстовому аналізі з
використанням сервісів інформаційної сис-
теми Dimensions. Розрахунок спорідненості
спеціальностей здійснюється за індексом
Жаккара як відношення кількості спільних
публікацій двох спеціальності до загальної
кількості публікацій за цими двома спеціа-
льностями. Нещодавно Dimensions перейш-
ла на оновлену систему класифікації
ANZSRC-2020 [1]. Також база публікацій
значно оновилася. Відповідно отримані в
[11] оцінки рівня спорідненості втратили
актуальність. Тому нижче здійснюється
ідентифікація спорідненості наукових спе-
ціальностей за методом [11] на новій дже-
рельній базі і за новою системою класифі-
кації наук. Ідентифікація здійснюється за
публікаціями за період 2019–2023 рр.
Початкові дані для ідентифікації
спорідненості спеціальностей
ANZSRC-2020 - це трирівнева кла-
сифікація наук за схемою: галузі
(Divisions), спеціальності (Groups) та обла-
сті (Fields). Уся наука розділена на такі 22
галузі:
30 Agricultural, Veterinary and Food
Sciences;
31 Biological Sciences;
32 Biomedical and Clinical Sciences;
33 Built Environment and Design;
35 Commerce, Management, Tourism and
Services;
34 Chemical Sciences;
36 Creative Arts and Writing;
37 Earth Sciences;
38 Economics;
39 Education;
40 Engineering;
41 Environmental Sciences;
47 Language, Communication and Cul-
ture;
48 Law and Legal Studies;
42 Health Sciences;
43 History, Heritage and Archaeology;
44 Human Society;
46 Information and Computing Sciences;
49 Mathematical Sciences;
50 Philosophy and Religious Studies;
79
Інформатизація наукових досліджень
51 Physical Sciences;
52 Psychology.
Кожна галузь об’єднує від 3 до 19
спеціальностей. Назва спеціальності скла-
дається з цифрового коду та змістовної
частини. Код складається з номера галузі
та порядкового номера спеціальності в
межах галузі. Всього є 171 спеціальність,
список наведено нижче:
3001 Agricultural Biotechnology;
3002 Agriculture, Land and Farm Manage-
ment;
3003 Animal Production;
3004 Crop and Pasture Production;
3005 Fisheries Sciences;
3006 Food Sciences;
3007 Forestry Sciences;
3008 Horticultural Production;
3009 Veterinary Sciences;
3101 Biochemistry and Cell Biology;
3102 Bioinformatics and Computational
Biology;
3103 Ecology;
3104 Evolutionary Biology;
3105 Genetics;
3106 Industrial Biotechnology;
3107 Microbiology;
3108 Plant Biology;
3109 Zoology;
3201 Cardiovascular Medicine and Haema-
tology;
3202 Clinical Sciences;
3203 Dentistry;
3204 Immunology;
3205 Medical Biochemistry and Metabo-
lomics;
3206 Medical Biotechnology;
3207 Medical Microbiology;
3208 Medical Physiology;
3209 Neurosciences;
3210 Nutrition and Dietetics;
3211 Oncology and Carcinogenesis;
3212 Ophthalmology and Optometry;
3213 Pediatrics;
3214 Pharmacology and Pharmaceutical
Sciences;
3215 Reproductive Medicine;
3301 Architecture;
3302 Building;
3303 Design;
3304 Urban and Regional Planning;
3401 Analytical Chemistry;
3402 Inorganic Chemistry;
3403 Macromolecular and Materials Chem-
istry;
3404 Medicinal and Biomolecular Chemis-
try;
3405 Organic Chemistry;
3406 Physical Chemistry;
3407 Theoretical and Computational Chem-
istry;
3501 Accounting, Auditing and Accounta-
bility;
3502 Banking, Finance and Investment;
3503 Business Systems in Context;
3504 Commercial Services;
3505 Human Resources and Industrial Rela-
tions;
3506 Marketing;
3507 Strategy, Management and Organisa-
tional Behaviour;
3508 Tourism;
3509 Transportation, Logistics and Supply
Chains;
3601 Art History, Theory and Criticism;
3602 Creative and Professional Writing;
3603 Music;
3604 Performing Arts;
3605 Screen and Digital Media;
3606 Visual Arts;
3701 Atmospheric Sciences;
3702 Climate Change Science;
3703 Geochemistry;
3704 Geoinformatics;
3705 Geology;
3706 Geophysics;
3707 Hydrology;
3708 Oceanography;
3709 Physical Geography and Environmen-
tal Geoscience;
3801 Applied Economics;
3802 Econometrics;
3803 Economic Theory;
3901 Curriculum and Pedagogy;
3902 Education Policy, Sociology and Phi-
losophy;
3903 Education Systems;
3904 Specialist Studies in Education;
4001 Aerospace Engineering;
4002 Automotive Engineering;
4003 Biomedical Engineering;
4004 Chemical Engineering;
4005 Civil Engineering;
4006 Communications Engineering;
80
Інформатизація наукових досліджень
4007 Control Engineering, Mechatronics
and Robotics;
4008 Electrical Engineering;
4009 Electronics, Sensors and Digital
Hardware;
4010 Engineering Practice and Education;
4011 Environmental Engineering;
4012 Fluid Mechanics and Thermal Engi-
neering;
4013 Geomatic Engineering;
4014 Manufacturing Engineering;
4015 Maritime Engineering;
4016 Materials Engineering;
4017 Mechanical Engineering;
4018 Nanotechnology;
4019 Resources Engineering and Extractive
Metallurgy;
4101 Climate Change Impacts and Adapta-
tion;
4102 Ecological Applications;
4103 Environmental Biotechnology;
4104 Environmental Management;
4105 Pollution and Contamination;
4106 Soil Sciences;
4201 Allied Health and Rehabilitation Sci-
ence;
4202 Epidemiology;
4203 Health Services and Systems;
4204 Midwifery;
4205 Nursing;
4206 Public Health;
4207 Sports Science and Exercise;
4208 Traditional, Complementary and Inte-
grative Medicine;
4301 Archaeology;
4302 Heritage, Archive and Museum Studies;
4303 Historical Studies;
4401 Anthropology;
4402 Criminology;
4403 Demography;
4404 Development Studies;
4405 Gender Studies;
4406 Human Geography;
4407 Policy and Administration;
4408 Political Science;
4409 Social Work;
4410 Sociology;
4601 Applied Computing;
4602 Artificial Intelligence;
4603 Computer Vision and Multimedia
Computation;
4604 Cybersecurity and Privacy;
4605 Data Management and Data Science;
4606 Distributed Computing and Systems
Software;
4607 Graphics, Augmented Reality and
Games;
4608 Human-Centred Computing;
4609 Information Systems;
4610 Library and Information Studies;
4611 Machine Learning;
4612 Software Engineering;
4613 Theory of Computation;
4701 Communication and Media Studies;
4702 Cultural Studies;
4703 Language Studies;
4704 Linguistics;
4705 Literary Studies;
4801 Commercial Law;
4802 Environmental and Resources Law;
4803 International and Comparative Law;
4804 Law in Context;
4805 Legal Systems;
4806 Private Law and Civil Obligations;
4807 Public Law;
4901 Applied Mathematics;
4902 Mathematical Physics;
4903 Numerical and Computational Math-
ematics;
4904 Pure Mathematics;
4905 Statistics;
5001 Applied Ethics;
5002 History and Philosophy of Specific
Fields;
5003 Philosophy;
5004 Religious Studies;
5005 Theology;
5101 Astronomical Sciences;
5102 Atomic, Molecular and Optical Physics;
5103 Classical Physics;
5104 Condensed Matter Physics;
5105 Medical and Biological Physics;
5106 Nuclear and Plasma Physics;
5107 Particle and High Energy Physics;
5108 Quantum Physics;
5109 Space Sciences;
5110 Synchrotrons and Accelerators;
5201 Applied and Developmental Psychol-
ogy;
5202 Biological Psychology;
5203 Clinical and Health Psychology;
5204 Cognitive and Computational Psy-
chology;
5205 Social and Personality Psychology.
81
Інформатизація наукових досліджень
На сьогодні в системі Dimensions
проіндексовано понад 140 млн наукових
публікацій. Біля 80% від усіх публікацій
категоризовано за спеціальностями, тобто
віднесено до однієї чи кількох спеціально-
стей [1]. Категоризація публікацій у
Dimensions здійснена на основі машинного
навчання, переважно за аналізом змісту
назв, анотацій та ключових слів. За останні
5 років у системі Dimensions проіндексо-
вано 33.8 млн публікацій, які є джерель-
ною базою дослідження. Публікації за
спеціальностями розподілені нерівномірно
(рис. 1). Децильний коефіцієнт дорівнює
14.9. Найбільше публікацій – 3188112 від-
несено до спеціальності 3202, найменше –
3339 – до спеціальності 3606. Навіть най-
менш популярна спеціальність має достат-
ню кількість публікацій, щоб на їх основі
отримати достовірні статистичні висновки.
Ідентифікація спорідненості
спеціальностей
Індекс спорідненості пари спеціа-
льностей (A, B) розраховується таким чи-
ном [11]:
BABA
BA
NNN
N
BAJ
−+
=),( , (1)
де AN – кількість публікацій за спеці-
альністю A;
BN - кількість публікацій за спеціа-
льністю B;
BAN - кількість публікацій, які
одночасно віднесено як до спеціальності A,
так і до спеціальності B.
Проілюструємо застосування фор-
мули (1) на прикладі розрахунку спорідне-
ності спеціальностей 4602 та 4608. За спе-
ціальністю 4602 є 316910 публікацій, за
спеціальністю 4608 – 239664 публікації. За
обома спеціальностями одночасно катего-
ризовано 17757 публікацій. Відповідно
рівень спорідненості спеціальностей 4602
та 4608 становить: =)46084602,(J
03.0
17757239664316910
17757
=
−+
= .
Dimensions можна за API [12]. Дані
можна отримати використовуючи звичай-
ний HTTP запит, де тілом є текст у форма-
ті Dimensions Search Language [13]. Напри-
клад, для того, щоб отримати розподіл
кількості публікацій за кожною спеціаль-
ністю за останні 5 років необхідно відпра-
вити запит із таким тілом:
search publications
where year in
[2019, 2020, 2021, 2022, 2023]
return category_for_2020
Результат повертається у JSON-форматі, в
якому для кожної спеціальності вказано
кількість публікацій, категоризованих до
відповідної спеціальності. Для того, щоб
знайти кількість публікацій віднесених
одночасно до двох спеціальностей у запиті
необхідно додатково вказати ідентифіка-
тор спеціальності. Як відповідь поверта-
ється кількість публікацій, які категоризо-
вані одночасно до вказаної спеціальності і
Рис. 1. Перший квартиль розподілу
публікацій за спеціальностями
за 2019–2023 рр.
82
Інформатизація наукових досліджень
до кожної іншої спеціальності. Приклад
такого запиту для спеціальності 3202, яка
має внутрішній ідентифікатор 80045, наве-
дено нижче:
search publications
where year in
[2019, 2020, 2021, 2022, 2023]
and category_for.id=80045
return category_for_2020
Надіславши API-запит для кожної
спеціальності отримуємо необхідні почат-
кові дані для розрахунку рівня спорідненос-
ті всіх пар спеціальностей. Ранговий
розподіл пар спеціальностей за індексом
Жаккара (1) наведено на рис. 2. Високу
спорідненість має 20 пар спеціальностей,
індекс Жаккара для яких перевищує 0.2
(табл. 1). Поміж 20 сильно споріднених пар
3 пари утворено спеціальностями з різних
галузей знань. Середня спорідненість має
місце для 41 пари спеціальностей (табл. 2).
Поміж 41 пари із середньою спорідненістю
9 пар утворено спеціальностями з різних
галузей знань. Спорідненість пар із висо-
кими та середніми індексами Жаккара варто
врахувати під час автоматичного підбору
рецензентів чи виявлення схожих наукових
та освітніх установ. Можливо, деякий ефект
буде і від врахування пар спеціальностей із
низьким рівнем спорідненості. Таких пар
виявилося 70. Решта пар спеціальностей, а
саме 1440413114535 =− має шумову спо-
рідненість – їхній індекс Жаккара менше
0.05. Поріг щодо шуму встановлено на під-
ставі обчислювальних експериментів [14].
Таблиця 1.
Спеціальності з сильною спорідненістю
Спеціальності Індекс Жаккара
3504 3508 0.485
4703 4704 0.378
3506 3508 0.339
3504 3506 0.332
4008 4009 0.322
4002 4017 0.313
3002 3004 0.309
3901 3903 0.297
5106 5107 0.294
4402 4805 0.293
3503 3506 0.247
4901 4904 0.245
4007 4010 0.236
5106 5110 0.224
3705 3706 0.218
3703 3706 0.212
3703 3705 0.211
4902 5107 0.21
3605 4701 0.208
4004 4011 0.2
Таблиця 2.
Спеціальності з середньою спорідненістю
Спеціальності Індекс Жаккара
3802 3803 0.199
3302 4005 0.172
3502 3801 0.169
4901 4903 0.168
3501 3502 0.167
3801 3802 0.164
5102 5108 0.163
5004 5005 0.162
4902 4904 0.159
3402 3405 0.154
4006 4613 0.152
4203 4205 0.146
4604 4606 0.144
3103 3104 0.144
5201 5205 0.14
4803 4807 0.14
3304 3509 0.139
3102 3105 0.138
3209 5202 0.129
3705 3709 0.127
4407 4408 0.127
5201 5203 0.126
4605 4606 0.124
3801 3803 0.123
4006 4009 0.123
Рис. 2. Фрагмент рангового розподілу
спорідненості пар спеціальностей
(напівлогарифмічний формат)
83
Інформатизація наукових досліджень
Спеціальності Індекс Жаккара
4602 4605 0.122
5101 5109 0.122
3902 3903 0.119
3204 3211 0.118
4804 4807 0.118
3404 3405 0.112
3403 4016 0.111
3406 4016 0.11
Спеціальності Індекс Жаккара
5202 5204 0.109
4903 4904 0.108
4803 4804 0.108
3702 3709 0.107
3503 4609 0.106
4301 4303 0.105
5002 5003 0.104
3107 3207 0.101
Рис. 3. Діаграми спорідненості спеціальностей з топ-20 за індексом Жаккара
84
Інформатизація наукових досліджень
На рис. 3 наведені діаграми спорід-
неності для 32 спеціальностей, які утворили
пари з максимальними індексами Жаккара.
Більшість із них мають сильну спорідне-
ність лише з однією спеціальністю. Водно-
час, 7 спеціальностей сильно взаємодіють з
двома спеціальностями. Спеціальність 3506
має високу спорідненість аж із трьома спе-
ціальностями – 3504, 3508 та 3503. Усі вони
належать до спільної галузі 35 – Commerce,
Management, Tourism and Services.
Висновки
Ідентифіковано рівні спорідненості
спеціальностей за системою класифікації
наукових спеціальностей ANZSRC-2020.
Ідентифікація здійснена з використанням
інформаційної системи Dimensions шляхом
аналізу 33.8 млн публікацій за 2019–
2023 рр. Рівень спорідненості оцінено за
індексом Жаккара. Встановлено, що із
14535 можливих пар спеціальностей, лише
131 пара має значнішу спорідненість з ін-
дексом Жаккара, що перевищує 0.05. З них
для 20 пар спеціальностей рівень спорід-
неності є високим, а для 61 пари – серед-
нім. Поміж пар із високою спорідненістю
переважають спеціальності з однакових
галузей, але 3 пари із 20 утворено із спеці-
альностей з різних галузей.
Отримані оцінки рівня спорідненос-
ті спеціальностей можуть бути використа-
ні для покращення розв’язання задач авто-
матичного призначення рецензентів дисер-
тацій, запитів на гранти, рукописів статей,
для створення міждисциплінарних PhD-
програм, удосконалення системи класифі-
кації наук, відслідковування трендів між-
дисциплінарних досліджень тощо.
Подяки
Автори висловлюють подяку Digital
Science & Research Solutions Inc. за надан-
ня доступу до ресурсів Dimensions за проє-
ктом DIM-371.
Література
1. Porter, S. J., Hawizy, L., & Hook, D. W.
(2023). Recategorising research: Mapping
from FoR 2008 to FoR 2020 in Dimensions.
Quantitative Science Studies, 4(1), 127–143.
https://doi.org/10.1162/qss_a_00244.
2. Frascati Manual 2015. Frascati Manual
2015. OECD.
https://doi.org/10.1787/9789264268111-ko.
3. Legendre, A. (2019). The development of the
Canadian research and development
classification. Knowledge Organization.
International Society for Knowledge
Organization. https://doi.org/10.5771/0943-
7444-2019-5-371.
4. Wagner, C. S., Roessner, J. D., Bobb, K.,
Klein, J. T., Boyack, K. W., Keyton, J., Rafols
I., Börner, K. (2011). Approaches to
understanding and measuring interdisciplinary
scientific research (IDR): A review of the
literature. Journal of Informetrics, 5(1), 14–
26. https://doi.org/10.1016/j.joi.2010.06.004.
5. Dias, L., Gerlach, M., Scharloth, J., &
Altmann, E. G. (2018). Using text analysis to
quantify the similarity and evolution of
scientific disciplines. Royal Society Open
Science, 5(1).
https://doi.org/10.1098/rsos.171545.
6. Porter, A. L., Cohen, A. S., David Roessner,
J., & Perreault, M. (2007). Measuring
researcher interdisciplinarity. Scientometrics,
72(1), 117–147.
https://doi.org/10.1007/s11192-007-1700-5.
7. Van Noorden, R. (2015, September 16).
Interdisciplinary research by the numbers.
Nature. Nature Publishing Group.
https://doi.org/10.1038/525306a.
8. Braam, R. R., Moed, H. F., & van Raan, A. F.
J. (1991). Mapping of science by combined
co‐citation and word analysis. II: Dynamical
aspects. Journal of the American Society for
Information Science, 42(4), 252–266.
https://doi.org/10.1002/(SICI)1097-
4571(199105)42:4<252::AID-
ASI2>3.0.CO;2-G.
9. Silva, F. N., Amancio, D. R., Bardosova,
M., Costa, L. da F., & Oliveira, O. N. (2016).
Using network science and text analytics to
produce surveys in a scientific topic. Journal
of Informetrics, 10(2), 487–502.
https://doi.org/10.1016/j.joi.2016.03.008.
10. Karlovčec, M., & Mladenić, D. (2015).
Interdisciplinarity of scientific fields and its
evolution based on graph of project
collaboration and co-authoring.
Scientometrics, 102(1), 433–454.
https://doi.org/10.1007/s11192-014-1355-y.
11. Shtovba, S., & Petrychko, M. (2019). Jaccard
index-based assessing the similarity of
85
Інформатизація наукових досліджень
research fields in dimensions. In CEUR
Workshop Proceedings (Vol. 2533, pp. 117–
128). CEUR-WS.
12. Dimensions API request. Електронний
ресурс. Режим доступу:
https://www.dimensions.ai/products/all-
products/dimensions-api/ (20.02.2024).
13. Dimensions DSL. Електронний ресурс.
Режим доступу:
https://docs.dimensions.ai/dsl/ (20.02.2024).
14. Shtovba S., Petrychko M., Shtovba O. Simi-
larity metric оf categorical distributions for
topic modeling problems with akin categories
// CEUR Workshop Proceedings, Vol. 3392
“Proc. of the Sixth International Workshop on
Computer Modeling and Intelligent Sys-
tems”. – 2023. – P. 76-85. DOI:
https://doi.org/10.32782/cmis/3392-7.
Одержано: 22.02.2024
Про авторів:
Штовба Сергій Дмитрович,
професор, д. т. н., професор кафедри
інформаційних технологій
Донецького національного університету
імені Василя Стуса.
Кількість наукових публікацій
в українських виданнях – понад 100.
Кількість наукових публікацій
в іноземних виданнях – понад 50.
Індекс Гірша – 8.
https://orcid.org/0000-0003-1302-4899
Петричко Микола Володимирович,
аспірант кафедри комп’ютерних
систем управління Вінницького національного
технічного університету.
Кількість наукових публікацій
в українських виданнях – 7.
Кількість наукових публікацій
в іноземних виданнях – 6.
Індекс Гірша – 3.
https://orcid.org/0000-0001-6836-7843
Місце роботи авторів:
Донецький національний університет
імені Василя Стуса,
600-річчя, 21, 21021, м. Вінниця
email: s.shtovba@donnu.edu.ua
Вінницький національний
технічний університет,
Хмельницьке шосе, 95,
21021, м.Вінниця
email: mpetrychko@vntu.edu.ua
|