Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі

Classifying DNA sequences as healthy or diseased is a crucial task in genomics, with significant implications for understanding genetic disorders and developing precision medicine. Neural networks have emerged as a powerful tool for this classification due to their ability to model complex patterns...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2024
1. Verfasser: Terpilovskyi, Yehor
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2024
Schlagworte:
Online Zugang:https://jais.net.ua/index.php/files/article/view/408
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Problems of Control and Informatics

Institution

Problems of Control and Informatics
id oai:ojs2.jais.net.ua:article-408
record_format ojs
institution Problems of Control and Informatics
baseUrl_str
datestamp_date 2025-05-30T10:00:30Z
collection OJS
language Ukrainian
topic CBL
ДНК
машинне навчання
процесор
оперативна пам'ять
нейронна мережа
FASTA
k-мер
ДНК послідовність
spellingShingle CBL
ДНК
машинне навчання
процесор
оперативна пам'ять
нейронна мережа
FASTA
k-мер
ДНК послідовність
Terpilovskyi, Yehor
Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі
topic_facet CBL
ДНК
машинне навчання
процесор
оперативна пам'ять
нейронна мережа
FASTA
k-мер
ДНК послідовність
CBL
DNA
DNA sequence
k-mer
CPU
RAM
FASTA
neural network
machine learning
format Article
author Terpilovskyi, Yehor
author_facet Terpilovskyi, Yehor
author_sort Terpilovskyi, Yehor
title Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі
title_short Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі
title_full Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі
title_fullStr Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі
title_full_unstemmed Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі
title_sort порівняння представлень k-мер-даних днк для класифікації через нейронні мережі
title_alt Comparison of DNA k-mer data representations for classification via neural networks
description Classifying DNA sequences as healthy or diseased is a crucial task in genomics, with significant implications for understanding genetic disorders and developing precision medicine. Neural networks have emerged as a powerful tool for this classification due to their ability to model complex patterns in large datasets. A foundational step in this process involves representing DNA sequences as sets of k-mers, which are subsequences of a fixed length (k). This study evaluates and compares two methods for representing k-mer data. The first method employs a binary feature vector, where each possible k-mer corresponds to a binary feature. This representation, while straightforward, results in high-dimensional and sparse feature vectors, leading to substantial memory requirements and potential computational inefficiencies. The second method is based on the Conway–Bromage–Lyndon (CBL) structure, which introduces a compressed and dynamic representation of k-mers. By leveraging the smallest cyclic rotations, or necklaces, the CBL method reduces redundancy and optimizes data storage. We analyze these methods across three key metrics: memory usage, computational efficiency, and classification performance using neural networks. The CBL-based method consistently demonstrates superior memory efficiency by significantly reducing the memory footprint required to store k-mer features. It also achieves faster feature vector generation times, addressing the computational challenges posed by the binary feature vector approach. In terms of classification accuracy, the CBL-based method performs comparably, with slight improvements in some cases, highlighting its capacity to capture meaningful sequence features effectively. Our findings underscore the advantages of the CBL-based k-mer representation, making it a promising alternative for large-scale genomic analyses where both memory and computational resources are critical constraints.
publisher V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
publishDate 2024
url https://jais.net.ua/index.php/files/article/view/408
work_keys_str_mv AT terpilovskyiyehor comparisonofdnakmerdatarepresentationsforclassificationvianeuralnetworks
AT terpilovskyiyehor porívnânnâpredstavlenʹkmerdanihdnkdlâklasifíkacííčereznejronnímereží
first_indexed 2025-10-30T02:49:08Z
last_indexed 2025-10-30T02:49:08Z
_version_ 1847373383247855616
spelling oai:ojs2.jais.net.ua:article-4082025-05-30T10:00:30Z Comparison of DNA k-mer data representations for classification via neural networks Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі Terpilovskyi, Yehor CBL ДНК машинне навчання процесор оперативна пам'ять нейронна мережа FASTA k-мер ДНК послідовність CBL DNA DNA sequence k-mer CPU RAM FASTA neural network machine learning Classifying DNA sequences as healthy or diseased is a crucial task in genomics, with significant implications for understanding genetic disorders and developing precision medicine. Neural networks have emerged as a powerful tool for this classification due to their ability to model complex patterns in large datasets. A foundational step in this process involves representing DNA sequences as sets of k-mers, which are subsequences of a fixed length (k). This study evaluates and compares two methods for representing k-mer data. The first method employs a binary feature vector, where each possible k-mer corresponds to a binary feature. This representation, while straightforward, results in high-dimensional and sparse feature vectors, leading to substantial memory requirements and potential computational inefficiencies. The second method is based on the Conway–Bromage–Lyndon (CBL) structure, which introduces a compressed and dynamic representation of k-mers. By leveraging the smallest cyclic rotations, or necklaces, the CBL method reduces redundancy and optimizes data storage. We analyze these methods across three key metrics: memory usage, computational efficiency, and classification performance using neural networks. The CBL-based method consistently demonstrates superior memory efficiency by significantly reducing the memory footprint required to store k-mer features. It also achieves faster feature vector generation times, addressing the computational challenges posed by the binary feature vector approach. In terms of classification accuracy, the CBL-based method performs comparably, with slight improvements in some cases, highlighting its capacity to capture meaningful sequence features effectively. Our findings underscore the advantages of the CBL-based k-mer representation, making it a promising alternative for large-scale genomic analyses where both memory and computational resources are critical constraints. Ключовим завданням геноміки, яке сприяє розумінню генетичних розладів і розробці точної медицини, є класифікація послідовностей ДНК здорових та хворих людей. Потужним інструментом для його вирішення стали нейронні мережі внаслідок своєї здатності моделювати складні шаблони у великих наборах даних. Фундаментальним кроком у цьому процесі стало представлення послідовностей ДНК у вигляді наборів k-мерів, які є підпослідовностями фіксованої довжини k. У статті оцінюються та порівнюються два методи представлення k-мер-даних. Перший використовує двійкове векторне представлення ознак, де кожен можливий k-мер відповідає двійковій ознаці. Це представлення, незважаючи на свою простоту, потребує високовимірних і розріджених векторів ознак, що висуває значні вимоги до пам’яті та потенційної неефективності обчислень. Другий метод базується на структурі Конвея–Бромейджа–Ліндона Lyndon (CBL — Conway–Bromage–Lyndon), яка вводить стисле та динамічне представлення k-мер-даних. Внаслідок використання найменших циклічних обертань, або намиста, метод CBL зменшує надмірність даних і оптимізує їх зберігання. Ці методи проаналізовано за трьома ключовими показниками: пам’ять, обчислювальна ефективність і продуктивність класифікації за допомогою нейронних мереж. Метод CBL демонструє високу ефективність пам’яті шляхом значного зменшення її обсягу, необхідного для зберігання функцій k-мерів. Він також досягає швидшого часу генерації вектора ознак при вирішенні обчислювальних проблем, пов’язаних з підходом бінарного вектора ознак. З погляду точності класифікації метод CBL працює релятивно, з незначними покращеннями в деяких випадках, що підкреслює його здатність ефективно охоплювати значущі ознаки послідовності. Наведено переваги представлення k-мер-даних на основі CBL, що робить його перспективною альтернативою для великомасштабного геномного аналізу, де і пам’ять, і обчислювальні ресурси є критично обмеженими. V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2024-12-23 Article Article application/pdf https://jais.net.ua/index.php/files/article/view/408 10.34229/1028-0979-2024-6-5 Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; Том 69 № 6 (2024): Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; 61-69 International Scientific Technical Journal "Problems of Control and Informatics; Том 69 № 6 (2024): International Scientific Technical Journal «Problems of Control and Informatics»; 61-69 International Scientific Technical Journal "Problems of Control and Informatics"; Vol. 69 No. 6 (2024): International Scientific Technical Journal «Problems of Control and Informatics»; 61-69 2786-6505 2786-6491 uk https://jais.net.ua/index.php/files/article/view/408/494 Copyright (c) 2024 Yehor Terpilovskyi https://creativecommons.org/licenses/by-nc-nd/4.0