Semantic Indexing and Cluster Analysis of Cybersecurity Documents
This study examines methods for extracting concepts from textual messages and constructing semantic networks for text data analysis, specifically within the context of cyberthreats. The semantic networks are essential tools for identifying key concepts and their relationships which provide a better...
Збережено в:
Дата: | 2024 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут проблем реєстрації інформації НАН України
2024
|
Теми: | |
Онлайн доступ: | http://drsp.ipri.kiev.ua/article/view/316711 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Data Recording, Storage & Processing |
Репозитарії
Data Recording, Storage & Processingid |
drspiprikievua-article-316711 |
---|---|
record_format |
ojs |
spelling |
drspiprikievua-article-3167112024-12-22T06:30:36Z Semantic Indexing and Cluster Analysis of Cybersecurity Documents Семантичне індексування та кластерний аналіз документів з кібербезпеки Ланде, Д. В. Рибак, О. О. Semantic Indexing, Cluster Analysis, Modularity, Large Language Models (LLMs), Cybersecurity, Text Analysis, Semantic Networks семантичне індексування, кластерний аналіз, модулярність, великі мовні моделі (LLM), кібербезпека, аналіз тексту, семантичні мережі This study examines methods for extracting concepts from textual messages and constructing semantic networks for text data analysis, specifically within the context of cyberthreats. The semantic networks are essential tools for identifying key concepts and their relationships which provide a better understanding of the relationships between concepts and help uncover critical data such as hacker group names, malicious programs, vulnerabilities, and other threats. Such an approach can be applied in cybersecurity, where textual information can contain vital data for preventing and responding to cyber threats. The focus is on the use of large language models (LLMs) that enable automated extraction of entities and the construction of concept networks. Utilizing LLMs for information extraction from text data helps create networks of relationships that can be used to analyze causal links between events and objects, detect interdependencies, and structure information. These networks can be further employed for cluster analysis, allowing for the automatic grouping of nodes by similarity and the identification of new patterns in the data. The research also addresses the construction of document proximity networks, which assess the degree of similarity between texts based on their semantic structures. This enables the identification of thematically related documents that may contain significant information for analysis, as well as the detection of informational chains and key trends within large textual datasets. By applying the methods described in the article, it is possible to effectively structure and analyze large volumes of textual information in cybersecurity, facilitating quicker threat detection and the formulation of strategies for prevention. This approach also allows for the streamline of many stages of analytical work to do, thereby enhancing the efficiency of big data analysis. Fig.: 3. Refs: 11 titles. Розглянуто методи екстракції концептів із текстів та побудови семантичних мереж для аналізу даних у контексті кібербезпеки. Основна увага приділена використанню великих мовних моделей (LLM) для автоматизованого витягу сутностей і побудови мереж концептів. Це дозволяє визначати взаємозалежності та структурувати інформацію, формувати семантичні мережі. Такі мережі можна використовувати для подальшого кластерного аналізу, що дає можливість автоматично групувати вузли за схожістю та визначати нові закономірності в даних. Досліджено побудову мереж близькості документів, що дозволяє оцінювати ступінь схожості текстів на основі їхніх семантичних структур. Запропонований підхід дозволяє виявляти тематично споріднені документи, що можуть містити важливу інформацію для аналізу, а також визначати інформаційні ланцюжки та ключові тенденції у великих масивах текстових даних, ключові тенденції і загрози у сфері кібербезпеки. Інститут проблем реєстрації інформації НАН України 2024-11-19 Article Article application/pdf http://drsp.ipri.kiev.ua/article/view/316711 10.35681/1560-9189.2024.26.2.316711 Data Recording, Storage & Processing; Vol. 26 No. 2 (2024); 19-32 Регистрация, хранение и обработка данных; Том 26 № 2 (2024); 19-32 Реєстрація, зберігання і обробка даних; Том 26 № 2 (2024); 19-32 1560-9189 uk http://drsp.ipri.kiev.ua/article/view/316711/308964 Авторське право (c) 2024 Реєстрація, зберігання і обробка даних |
institution |
Data Recording, Storage & Processing |
baseUrl_str |
|
datestamp_date |
2024-12-22T06:30:36Z |
collection |
OJS |
language |
Ukrainian |
topic |
Semantic Indexing Cluster Analysis Modularity Large Language Models (LLMs) Cybersecurity Text Analysis Semantic Networks |
spellingShingle |
Semantic Indexing Cluster Analysis Modularity Large Language Models (LLMs) Cybersecurity Text Analysis Semantic Networks Ланде, Д. В. Рибак, О. О. Semantic Indexing and Cluster Analysis of Cybersecurity Documents |
topic_facet |
Semantic Indexing Cluster Analysis Modularity Large Language Models (LLMs) Cybersecurity Text Analysis Semantic Networks семантичне індексування кластерний аналіз модулярність великі мовні моделі (LLM) кібербезпека аналіз тексту семантичні мережі |
format |
Article |
author |
Ланде, Д. В. Рибак, О. О. |
author_facet |
Ланде, Д. В. Рибак, О. О. |
author_sort |
Ланде, Д. В. |
title |
Semantic Indexing and Cluster Analysis of Cybersecurity Documents |
title_short |
Semantic Indexing and Cluster Analysis of Cybersecurity Documents |
title_full |
Semantic Indexing and Cluster Analysis of Cybersecurity Documents |
title_fullStr |
Semantic Indexing and Cluster Analysis of Cybersecurity Documents |
title_full_unstemmed |
Semantic Indexing and Cluster Analysis of Cybersecurity Documents |
title_sort |
semantic indexing and cluster analysis of cybersecurity documents |
title_alt |
Семантичне індексування та кластерний аналіз документів з кібербезпеки |
description |
This study examines methods for extracting concepts from textual messages and constructing semantic networks for text data analysis, specifically within the context of cyberthreats. The semantic networks are essential tools for identifying key concepts and their relationships which provide a better understanding of the relationships between concepts and help uncover critical data such as hacker group names, malicious programs, vulnerabilities, and other threats. Such an approach can be applied in cybersecurity, where textual information can contain vital data for preventing and responding to cyber threats.
The focus is on the use of large language models (LLMs) that enable automated extraction of entities and the construction of concept networks. Utilizing LLMs for information extraction from text data helps create networks of relationships that can be used to analyze causal links between events and objects, detect interdependencies, and structure information. These networks can be further employed for cluster analysis, allowing for the automatic grouping of nodes by similarity and the identification of new patterns in the data.
The research also addresses the construction of document proximity networks, which assess the degree of similarity between texts based on their semantic structures. This enables the identification of thematically related documents that may contain significant information for analysis, as well as the detection of informational chains and key trends within large textual datasets.
By applying the methods described in the article, it is possible to effectively structure and analyze large volumes of textual information in cybersecurity, facilitating quicker threat detection and the formulation of strategies for prevention. This approach also allows for the streamline of many stages of analytical work to do, thereby enhancing the efficiency of big data analysis. Fig.: 3. Refs: 11 titles. |
publisher |
Інститут проблем реєстрації інформації НАН України |
publishDate |
2024 |
url |
http://drsp.ipri.kiev.ua/article/view/316711 |
work_keys_str_mv |
AT landedv semanticindexingandclusteranalysisofcybersecuritydocuments AT ribakoo semanticindexingandclusteranalysisofcybersecuritydocuments AT landedv semantičneíndeksuvannâtaklasternijanalízdokumentívzkíberbezpeki AT ribakoo semantičneíndeksuvannâtaklasternijanalízdokumentívzkíberbezpeki |
first_indexed |
2024-12-23T04:04:09Z |
last_indexed |
2024-12-23T04:04:09Z |
_version_ |
1827446776754339840 |