Semantic Indexing and Cluster Analysis of Cybersecurity Documents

This study examines methods for extracting concepts from textual messages and constructing semantic networks for text data analysis, specifically within the context of cyberthreats. The semantic networks are essential tools for identifying key concepts and their relationships which provide a better...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2024
Автори: Ланде, Д. В., Рибак, О. О.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут проблем реєстрації інформації НАН України 2024
Теми:
Онлайн доступ:http://drsp.ipri.kiev.ua/article/view/316711
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Data Recording, Storage & Processing

Репозитарії

Data Recording, Storage & Processing
id drspiprikievua-article-316711
record_format ojs
spelling drspiprikievua-article-3167112024-12-22T06:30:36Z Semantic Indexing and Cluster Analysis of Cybersecurity Documents Семантичне індексування та кластерний аналіз документів з кібербезпеки Ланде, Д. В. Рибак, О. О. Semantic Indexing, Cluster Analysis, Modularity, Large Language Models (LLMs), Cybersecurity, Text Analysis, Semantic Networks семантичне індексування, кластерний аналіз, модулярність, великі мовні моделі (LLM), кібербезпека, аналіз тексту, семантичні мережі This study examines methods for extracting concepts from textual messages and constructing semantic networks for text data analysis, specifically within the context of cyberthreats. The semantic networks are essential tools for identifying key concepts and their relationships which provide a better understanding of the relationships between concepts and help uncover critical data such as hacker group names, malicious programs, vulnerabilities, and other threats. Such an approach can be applied in cybersecurity, where textual information can contain vital data for preventing and responding to cyber threats. The focus is on the use of large language models (LLMs) that enable automated extraction of entities and the construction of concept networks. Utilizing LLMs for information extraction from text data helps create networks of relationships that can be used to analyze causal links between events and objects, detect interdependencies, and structure information. These networks can be further employed for cluster analysis, allowing for the automatic grouping of nodes by similarity and the identification of new patterns in the data. The research also addresses the construction of document proximity networks, which assess the degree of similarity between texts based on their semantic structures. This enables the identification of thematically related documents that may contain significant information for analysis, as well as the detection of informational chains and key trends within large textual datasets. By applying the methods described in the article, it is possible to effectively structure and analyze large volumes of textual information in cybersecurity, facilitating quicker threat detection and the formulation of strategies for prevention. This approach also allows for the streamline of many stages of analytical work to do, thereby enhancing the efficiency of big data analysis. Fig.: 3. Refs: 11 titles. Розглянуто методи екстракції концептів із текстів та побудови семантичних мереж для аналізу даних у контексті кібербезпеки. Основна увага приділена використанню великих мовних моделей (LLM) для автоматизованого витягу сутностей і побудови мереж концептів. Це дозволяє визначати взаємозалежності та структурувати інформацію, формувати семантичні мережі. Такі мережі можна використовувати для подальшого кластерного аналізу, що дає можливість автоматично групувати вузли за схожістю та визначати нові закономірності в даних. Досліджено побудову мереж близькості документів, що дозволяє оцінювати ступінь схожості текстів на основі їхніх семантичних структур. Запропонований підхід дозволяє виявляти тематично споріднені документи, що можуть містити важливу інформацію для аналізу, а також визначати інформаційні ланцюжки та ключові тенденції у великих масивах текстових даних, ключові тенденції і загрози у сфері кібербезпеки. Інститут проблем реєстрації інформації НАН України 2024-11-19 Article Article application/pdf http://drsp.ipri.kiev.ua/article/view/316711 10.35681/1560-9189.2024.26.2.316711 Data Recording, Storage & Processing; Vol. 26 No. 2 (2024); 19-32 Регистрация, хранение и обработка данных; Том 26 № 2 (2024); 19-32 Реєстрація, зберігання і обробка даних; Том 26 № 2 (2024); 19-32 1560-9189 uk http://drsp.ipri.kiev.ua/article/view/316711/308964 Авторське право (c) 2024 Реєстрація, зберігання і обробка даних
institution Data Recording, Storage & Processing
baseUrl_str
datestamp_date 2024-12-22T06:30:36Z
collection OJS
language Ukrainian
topic Semantic Indexing
Cluster Analysis
Modularity
Large Language Models (LLMs)
Cybersecurity
Text Analysis
Semantic Networks
spellingShingle Semantic Indexing
Cluster Analysis
Modularity
Large Language Models (LLMs)
Cybersecurity
Text Analysis
Semantic Networks
Ланде, Д. В.
Рибак, О. О.
Semantic Indexing and Cluster Analysis of Cybersecurity Documents
topic_facet Semantic Indexing
Cluster Analysis
Modularity
Large Language Models (LLMs)
Cybersecurity
Text Analysis
Semantic Networks
семантичне індексування
кластерний аналіз
модулярність
великі мовні моделі (LLM)
кібербезпека
аналіз тексту
семантичні мережі
format Article
author Ланде, Д. В.
Рибак, О. О.
author_facet Ланде, Д. В.
Рибак, О. О.
author_sort Ланде, Д. В.
title Semantic Indexing and Cluster Analysis of Cybersecurity Documents
title_short Semantic Indexing and Cluster Analysis of Cybersecurity Documents
title_full Semantic Indexing and Cluster Analysis of Cybersecurity Documents
title_fullStr Semantic Indexing and Cluster Analysis of Cybersecurity Documents
title_full_unstemmed Semantic Indexing and Cluster Analysis of Cybersecurity Documents
title_sort semantic indexing and cluster analysis of cybersecurity documents
title_alt Семантичне індексування та кластерний аналіз документів з кібербезпеки
description This study examines methods for extracting concepts from textual messages and constructing semantic networks for text data analysis, specifically within the context of cyberthreats. The semantic networks are essential tools for identifying key concepts and their relationships which provide a better understanding of the relationships between concepts and help uncover critical data such as hacker group names, malicious programs, vulnerabilities, and other threats. Such an approach can be applied in cybersecurity, where textual information can contain vital data for preventing and responding to cyber threats. The focus is on the use of large language models (LLMs) that enable automated extraction of entities and the construction of concept networks. Utilizing LLMs for information extraction from text data helps create networks of relationships that can be used to analyze causal links between events and objects, detect interdependencies, and structure information. These networks can be further employed for cluster analysis, allowing for the automatic grouping of nodes by similarity and the identification of new patterns in the data. The research also addresses the construction of document proximity networks, which assess the degree of similarity between texts based on their semantic structures. This enables the identification of thematically related documents that may contain significant information for analysis, as well as the detection of informational chains and key trends within large textual datasets. By applying the methods described in the article, it is possible to effectively structure and analyze large volumes of textual information in cybersecurity, facilitating quicker threat detection and the formulation of strategies for prevention. This approach also allows for the streamline of many stages of analytical work to do, thereby enhancing the efficiency of big data analysis. Fig.: 3. Refs: 11 titles.
publisher Інститут проблем реєстрації інформації НАН України
publishDate 2024
url http://drsp.ipri.kiev.ua/article/view/316711
work_keys_str_mv AT landedv semanticindexingandclusteranalysisofcybersecuritydocuments
AT ribakoo semanticindexingandclusteranalysisofcybersecuritydocuments
AT landedv semantičneíndeksuvannâtaklasternijanalízdokumentívzkíberbezpeki
AT ribakoo semantičneíndeksuvannâtaklasternijanalízdokumentívzkíberbezpeki
first_indexed 2024-12-23T04:04:09Z
last_indexed 2024-12-23T04:04:09Z
_version_ 1827446776754339840