Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі
Classifying DNA sequences as healthy or diseased is a crucial task in genomics, with significant implications for understanding genetic disorders and developing precision medicine. Neural networks have emerged as a powerful tool for this classification due to their ability to model complex patterns...
Gespeichert in:
| Datum: | 2024 |
|---|---|
| 1. Verfasser: | |
| Format: | Artikel |
| Sprache: | Ukrainian |
| Veröffentlicht: |
V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
2024
|
| Schlagworte: | |
| Online Zugang: | https://jais.net.ua/index.php/files/article/view/408 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Problems of Control and Informatics |
Institution
Problems of Control and Informatics| id |
oai:ojs2.jais.net.ua:article-408 |
|---|---|
| record_format |
ojs |
| institution |
Problems of Control and Informatics |
| baseUrl_str |
|
| datestamp_date |
2025-05-30T10:00:30Z |
| collection |
OJS |
| language |
Ukrainian |
| topic |
CBL ДНК машинне навчання процесор оперативна пам'ять нейронна мережа FASTA k-мер ДНК послідовність |
| spellingShingle |
CBL ДНК машинне навчання процесор оперативна пам'ять нейронна мережа FASTA k-мер ДНК послідовність Terpilovskyi, Yehor Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі |
| topic_facet |
CBL ДНК машинне навчання процесор оперативна пам'ять нейронна мережа FASTA k-мер ДНК послідовність CBL DNA DNA sequence k-mer CPU RAM FASTA neural network machine learning |
| format |
Article |
| author |
Terpilovskyi, Yehor |
| author_facet |
Terpilovskyi, Yehor |
| author_sort |
Terpilovskyi, Yehor |
| title |
Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі |
| title_short |
Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі |
| title_full |
Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі |
| title_fullStr |
Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі |
| title_full_unstemmed |
Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі |
| title_sort |
порівняння представлень k-мер-даних днк для класифікації через нейронні мережі |
| title_alt |
Comparison of DNA k-mer data representations for classification via neural networks |
| description |
Classifying DNA sequences as healthy or diseased is a crucial task in genomics, with significant implications for understanding genetic disorders and developing precision medicine. Neural networks have emerged as a powerful tool for this classification due to their ability to model complex patterns in large datasets. A foundational step in this process involves representing DNA sequences as sets of k-mers, which are subsequences of a fixed length (k). This study evaluates and compares two methods for representing k-mer data. The first method employs a binary feature vector, where each possible k-mer corresponds to a binary feature. This representation, while straightforward, results in high-dimensional and sparse feature vectors, leading to substantial memory requirements and potential computational inefficiencies. The second method is based on the Conway–Bromage–Lyndon (CBL) structure, which introduces a compressed and dynamic representation of k-mers. By leveraging the smallest cyclic rotations, or necklaces, the CBL method reduces redundancy and optimizes data storage. We analyze these methods across three key metrics: memory usage, computational efficiency, and classification performance using neural networks. The CBL-based method consistently demonstrates superior memory efficiency by significantly reducing the memory footprint required to store k-mer features. It also achieves faster feature vector generation times, addressing the computational challenges posed by the binary feature vector approach. In terms of classification accuracy, the CBL-based method performs comparably, with slight improvements in some cases, highlighting its capacity to capture meaningful sequence features effectively. Our findings underscore the advantages of the CBL-based k-mer representation, making it a promising alternative for large-scale genomic analyses where both memory and computational resources are critical constraints. |
| publisher |
V.M. Glushkov Institute of Cybernetics of NAS of Ukraine |
| publishDate |
2024 |
| url |
https://jais.net.ua/index.php/files/article/view/408 |
| work_keys_str_mv |
AT terpilovskyiyehor comparisonofdnakmerdatarepresentationsforclassificationvianeuralnetworks AT terpilovskyiyehor porívnânnâpredstavlenʹkmerdanihdnkdlâklasifíkacííčereznejronnímereží |
| first_indexed |
2025-10-30T02:49:08Z |
| last_indexed |
2025-10-30T02:49:08Z |
| _version_ |
1847373383247855616 |
| spelling |
oai:ojs2.jais.net.ua:article-4082025-05-30T10:00:30Z Comparison of DNA k-mer data representations for classification via neural networks Порівняння представлень k-мер-даних ДНК для класифікації через нейронні мережі Terpilovskyi, Yehor CBL ДНК машинне навчання процесор оперативна пам'ять нейронна мережа FASTA k-мер ДНК послідовність CBL DNA DNA sequence k-mer CPU RAM FASTA neural network machine learning Classifying DNA sequences as healthy or diseased is a crucial task in genomics, with significant implications for understanding genetic disorders and developing precision medicine. Neural networks have emerged as a powerful tool for this classification due to their ability to model complex patterns in large datasets. A foundational step in this process involves representing DNA sequences as sets of k-mers, which are subsequences of a fixed length (k). This study evaluates and compares two methods for representing k-mer data. The first method employs a binary feature vector, where each possible k-mer corresponds to a binary feature. This representation, while straightforward, results in high-dimensional and sparse feature vectors, leading to substantial memory requirements and potential computational inefficiencies. The second method is based on the Conway–Bromage–Lyndon (CBL) structure, which introduces a compressed and dynamic representation of k-mers. By leveraging the smallest cyclic rotations, or necklaces, the CBL method reduces redundancy and optimizes data storage. We analyze these methods across three key metrics: memory usage, computational efficiency, and classification performance using neural networks. The CBL-based method consistently demonstrates superior memory efficiency by significantly reducing the memory footprint required to store k-mer features. It also achieves faster feature vector generation times, addressing the computational challenges posed by the binary feature vector approach. In terms of classification accuracy, the CBL-based method performs comparably, with slight improvements in some cases, highlighting its capacity to capture meaningful sequence features effectively. Our findings underscore the advantages of the CBL-based k-mer representation, making it a promising alternative for large-scale genomic analyses where both memory and computational resources are critical constraints. Ключовим завданням геноміки, яке сприяє розумінню генетичних розладів і розробці точної медицини, є класифікація послідовностей ДНК здорових та хворих людей. Потужним інструментом для його вирішення стали нейронні мережі внаслідок своєї здатності моделювати складні шаблони у великих наборах даних. Фундаментальним кроком у цьому процесі стало представлення послідовностей ДНК у вигляді наборів k-мерів, які є підпослідовностями фіксованої довжини k. У статті оцінюються та порівнюються два методи представлення k-мер-даних. Перший використовує двійкове векторне представлення ознак, де кожен можливий k-мер відповідає двійковій ознаці. Це представлення, незважаючи на свою простоту, потребує високовимірних і розріджених векторів ознак, що висуває значні вимоги до пам’яті та потенційної неефективності обчислень. Другий метод базується на структурі Конвея–Бромейджа–Ліндона Lyndon (CBL — Conway–Bromage–Lyndon), яка вводить стисле та динамічне представлення k-мер-даних. Внаслідок використання найменших циклічних обертань, або намиста, метод CBL зменшує надмірність даних і оптимізує їх зберігання. Ці методи проаналізовано за трьома ключовими показниками: пам’ять, обчислювальна ефективність і продуктивність класифікації за допомогою нейронних мереж. Метод CBL демонструє високу ефективність пам’яті шляхом значного зменшення її обсягу, необхідного для зберігання функцій k-мерів. Він також досягає швидшого часу генерації вектора ознак при вирішенні обчислювальних проблем, пов’язаних з підходом бінарного вектора ознак. З погляду точності класифікації метод CBL працює релятивно, з незначними покращеннями в деяких випадках, що підкреслює його здатність ефективно охоплювати значущі ознаки послідовності. Наведено переваги представлення k-мер-даних на основі CBL, що робить його перспективною альтернативою для великомасштабного геномного аналізу, де і пам’ять, і обчислювальні ресурси є критично обмеженими. V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2024-12-23 Article Article application/pdf https://jais.net.ua/index.php/files/article/view/408 10.34229/1028-0979-2024-6-5 Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; Том 69 № 6 (2024): Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; 61-69 International Scientific Technical Journal "Problems of Control and Informatics; Том 69 № 6 (2024): International Scientific Technical Journal «Problems of Control and Informatics»; 61-69 International Scientific Technical Journal "Problems of Control and Informatics"; Vol. 69 No. 6 (2024): International Scientific Technical Journal «Problems of Control and Informatics»; 61-69 2786-6505 2786-6491 uk https://jais.net.ua/index.php/files/article/view/408/494 Copyright (c) 2024 Yehor Terpilovskyi https://creativecommons.org/licenses/by-nc-nd/4.0 |