Порівняльний аналіз класифікації ДНК з використанням методу випадкового лісу і згорткових нейронних мереж

У статті представлено комплексне порівняльне дослідження двох різних методологій класифікації послідовностей ДНК як у здорових людей, так і у хворих, описано переваги та обмеження їхнього застосування. Перший підхід передбачає представлення k-mer, де кожен можливий k-мер — підрядок довжини k в послі...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2024
1. Verfasser: Terpilovskyi, Yehor
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2024
Schlagworte:
Online Zugang:https://jais.net.ua/index.php/files/article/view/244
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Problems of Control and Informatics

Institution

Problems of Control and Informatics
id oai:ojs2.jais.net.ua:article-244
record_format ojs
institution Problems of Control and Informatics
baseUrl_str
datestamp_date 2025-03-11T15:14:24Z
collection OJS
language Ukrainian
topic k-mer
машинне навчання
ДНК послідовність
геном
дерево ухвалення рішень
метод випадкового лісу
нейронна мережа
зворотне поширення помилки
spellingShingle k-mer
машинне навчання
ДНК послідовність
геном
дерево ухвалення рішень
метод випадкового лісу
нейронна мережа
зворотне поширення помилки
Terpilovskyi, Yehor
Порівняльний аналіз класифікації ДНК з використанням методу випадкового лісу і згорткових нейронних мереж
topic_facet k-mer
машинне навчання
ДНК послідовність
геном
дерево ухвалення рішень
метод випадкового лісу
нейронна мережа
зворотне поширення помилки
backpropagation
CNN
k-mer
Decision tree
Random Forest
machine learning
DNA sequence
genome
RF
neural network
format Article
author Terpilovskyi, Yehor
author_facet Terpilovskyi, Yehor
author_sort Terpilovskyi, Yehor
title Порівняльний аналіз класифікації ДНК з використанням методу випадкового лісу і згорткових нейронних мереж
title_short Порівняльний аналіз класифікації ДНК з використанням методу випадкового лісу і згорткових нейронних мереж
title_full Порівняльний аналіз класифікації ДНК з використанням методу випадкового лісу і згорткових нейронних мереж
title_fullStr Порівняльний аналіз класифікації ДНК з використанням методу випадкового лісу і згорткових нейронних мереж
title_full_unstemmed Порівняльний аналіз класифікації ДНК з використанням методу випадкового лісу і згорткових нейронних мереж
title_sort порівняльний аналіз класифікації днк з використанням методу випадкового лісу і згорткових нейронних мереж
title_alt Comparative Analysis of DNA Classification Using the method of Random Forests and Convolutional Neural Networks
ПОРІВНЯЛЬНИЙ АНАЛІЗ КЛАСИФІКАЦІЇ ДНК З ВИКОРИСТАННЯМ RANDOM FOREST І ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ
description У статті представлено комплексне порівняльне дослідження двох різних методологій класифікації послідовностей ДНК як у здорових людей, так і у хворих, описано переваги та обмеження їхнього застосування. Перший підхід передбачає представлення k-mer, де кожен можливий k-мер — підрядок довжини k в послідовності ДНК — кодується як двійкова характеристика. Потім ці функції класифікуються за допомогою алгоритму випадкового лісу (random forest — RF), потужної методики ансамблевого навчання, відомої своєю надійністю, здатністю обробляти дані великої розмірності та можливістю інтерпретації. Цей алгоритм створює кілька дерев рішень під час навчання та агрегує їхні прогнози, забезпечуючи надійну структуру класифікації в управлінні різноманітними та зашумленими даними. Другий підхід використовує згорткові нейронні мережі (convolutional neural networks — CNN), які безпосередньо навчаються на необроблених послідовностях ДНК, наданих у форматі FASTA. CNN розроблені для автоматичного вибору ієрархічних характеристик з вхідних даних за допомогою кількох рівнів згортання та об’єднання, що дозволяє їм розпізнавати складні моделі та тонкі варіації в послідовностях ДНК, які можуть вказувати на здоровий стан людини чи хворобу. В процесі навчання CNN використовується зворотне поширення — алгоритм, що широко застосовується для оптимізації нейронних мереж та ітеративно регулює ваги мережі, щоб мінімізувати помилку класифікації та підвищити точність прогнозування. Результати дослідження показують, що CNN, незважаючи на високу точність у визначенні складних шаблонів послідовності, вимагають значно більше обчислювальних ресурсів і гірше інтерпретуються порівняно з RF. Особливо ефективні CNN при виборі нелінійних зв’язків у даних, що робить їх придатними для завдань, де потрібна висока точність. Однак підхід RF пропонує більш ефективне, з погляду обчислень, рішення зі швидшим навчанням і прогнозуванням, а також забезпечує вищий ступінь інтерпретації. Це робить RF особливо цінним у контекстах, де важлива прозорість моделі, наприклад у нормативному середовищі або коли результати потрібно повідомляти зацікавленим сторонам без глибокої технічної експертизи.
publisher V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
publishDate 2024
url https://jais.net.ua/index.php/files/article/view/244
work_keys_str_mv AT terpilovskyiyehor porívnâlʹnijanalízklasifíkacíídnkzvikoristannâmmetoduvipadkovogolísuízgortkovihnejronnihmerež
AT terpilovskyiyehor comparativeanalysisofdnaclassificationusingthemethodofrandomforestsandconvolutionalneuralnetworks
AT terpilovskyiyehor porívnâlʹnijanalízklasifíkacíídnkzvikoristannâmrandomforestízgortkovihnejronnihmerež
first_indexed 2025-10-30T02:48:51Z
last_indexed 2025-10-30T02:48:51Z
_version_ 1847373365514338304
spelling oai:ojs2.jais.net.ua:article-2442025-03-11T15:14:24Z Порівняльний аналіз класифікації ДНК з використанням методу випадкового лісу і згорткових нейронних мереж Comparative Analysis of DNA Classification Using the method of Random Forests and Convolutional Neural Networks ПОРІВНЯЛЬНИЙ АНАЛІЗ КЛАСИФІКАЦІЇ ДНК З ВИКОРИСТАННЯМ RANDOM FOREST І ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ Terpilovskyi, Yehor k-mer машинне навчання ДНК послідовність геном дерево ухвалення рішень метод випадкового лісу нейронна мережа зворотне поширення помилки backpropagation CNN k-mer Decision tree Random Forest machine learning DNA sequence genome RF neural network У статті представлено комплексне порівняльне дослідження двох різних методологій класифікації послідовностей ДНК як у здорових людей, так і у хворих, описано переваги та обмеження їхнього застосування. Перший підхід передбачає представлення k-mer, де кожен можливий k-мер — підрядок довжини k в послідовності ДНК — кодується як двійкова характеристика. Потім ці функції класифікуються за допомогою алгоритму випадкового лісу (random forest — RF), потужної методики ансамблевого навчання, відомої своєю надійністю, здатністю обробляти дані великої розмірності та можливістю інтерпретації. Цей алгоритм створює кілька дерев рішень під час навчання та агрегує їхні прогнози, забезпечуючи надійну структуру класифікації в управлінні різноманітними та зашумленими даними. Другий підхід використовує згорткові нейронні мережі (convolutional neural networks — CNN), які безпосередньо навчаються на необроблених послідовностях ДНК, наданих у форматі FASTA. CNN розроблені для автоматичного вибору ієрархічних характеристик з вхідних даних за допомогою кількох рівнів згортання та об’єднання, що дозволяє їм розпізнавати складні моделі та тонкі варіації в послідовностях ДНК, які можуть вказувати на здоровий стан людини чи хворобу. В процесі навчання CNN використовується зворотне поширення — алгоритм, що широко застосовується для оптимізації нейронних мереж та ітеративно регулює ваги мережі, щоб мінімізувати помилку класифікації та підвищити точність прогнозування. Результати дослідження показують, що CNN, незважаючи на високу точність у визначенні складних шаблонів послідовності, вимагають значно більше обчислювальних ресурсів і гірше інтерпретуються порівняно з RF. Особливо ефективні CNN при виборі нелінійних зв’язків у даних, що робить їх придатними для завдань, де потрібна висока точність. Однак підхід RF пропонує більш ефективне, з погляду обчислень, рішення зі швидшим навчанням і прогнозуванням, а також забезпечує вищий ступінь інтерпретації. Це робить RF особливо цінним у контекстах, де важлива прозорість моделі, наприклад у нормативному середовищі або коли результати потрібно повідомляти зацікавленим сторонам без глибокої технічної експертизи. This article presents a comprehensive comparative study of two distinct methodologies for the classification of DNA sequences as either healthy or unhealthy, focusing on their respective strengths and limitations. The first approach involves the use of k-mer representation, where each possible k-mer — a substring of length k within a DNA sequence — is encoded as a binary feature. These features are then classified using the Random Forest algorithm, a powerful ensemble learning technique known for its robustness, ability to handle high-dimensional data, and interpretability. The Random Forest algorithm constructs multiple decision trees during training and aggregates their predictions, providing a reliable classification framework that is particularly adept at managing diverse and noisy data. The second approach employs Convolutional Neural Networks (CNN), which are directly trained on raw DNA sequences provided in FASTA format. CNNs are designed to automatically capture hierarchical features from the input data through multiple layers of convolution and pooling, enabling them to recognize complex patterns and subtle variations within DNA sequences that may be indicative of health or disease. The CNN training process utilizes backpropagation, a widely used algorithm for optimizing neural networks, which iteratively adjusts the network’s weights to minimize classification error and enhance predictive accuracy. The results of this study reveal that while CNN exhibit superior accuracy in identifying complex sequence patterns, they require significantly more computational resources and are less interpretable compared to Random Forests. CNN are particularly effective in capturing non-linear relationships within the data, making them suitable for tasks where high precision is essential. However, the Random Forest approach offers a more computationally efficient solution, with faster training and prediction times, and maintains a higher degree of interpretability. This makes Random Forests especially valuable in contexts where model transparency is essential, such as in regulatory environments or when results need to be communicated to stakeholders without deep technical expertise. У цій статті представлено комплексне порівняльне дослідження двох різних методологій класифікації послідовностей ДНК як здорових або нездорових, зосереджуючись на їхніх сильних сторонах і обмеженнях. Перший підхід передбачає використання представлення k-mer, де кожен можливий k-mer — підрядок довжини k у послідовності ДНК — кодується як двійкова характеристика. Потім ці функції класифікуються за допомогою алгоритму Random Forest, потужної методики ансамблевого навчання, відомої своєю надійністю, здатністю обробляти дані великої розмірності та можливістю інтерпретації. Алгоритм Random Forest створює кілька дерев рішень під час навчання та агрегує їхні прогнози, забезпечуючи надійну структуру класифікації, яка особливо вправна в управлінні різноманітними та шумними даними. Другий підхід використовує згорткові нейронні мережі (CNN), які безпосередньо навчаються на необроблених послідовностях ДНК, наданих у форматі FASTA. CNN розроблені для автоматичного захоплення ієрархічних характеристик із вхідних даних за допомогою кількох рівнів згортання та об’єднання, що дозволяє їм розпізнавати складні моделі та тонкі варіації в послідовностях ДНК, які можуть вказувати на здоров’я чи хворобу. Процес навчання CNN використовує зворотне поширення, широко використовуваний алгоритм для оптимізації нейронних мереж, який ітеративно регулює ваги мережі, щоб мінімізувати помилку класифікації та підвищити точність прогнозування. Результати цього дослідження показують, що, хоча CNN демонструють високу точність у визначенні складних шаблонів послідовності, вони вимагають значно більше обчислювальних ресурсів і гірше інтерпретуються порівняно з Random Forest. CNN особливо ефективні у захопленні нелінійних зв’язків у даних, що робить їх придатними для завдань, де потрібна висока точність. Однак підхід Random Forest пропонує більш ефективне з точки зору обчислень рішення з швидшим навчанням і прогнозуванням, а також забезпечує вищий ступінь інтерпретації. Це робить Random Forest особливо цінними в контекстах, де прозорість моделі є важливою, наприклад, у нормативному середовищі або коли результати потрібно повідомляти зацікавленим сторонам без глибокої технічної експертизи. V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2024-11-04 Article Article application/pdf https://jais.net.ua/index.php/files/article/view/244 10.34229/1028-0979-2024-5-8 Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; Том 69 № 5 (2024): Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; 96-103 International Scientific Technical Journal "Problems of Control and Informatics; Том 69 № 5 (2024): International Scientific Technical Journal «Problems of Control and Informatics»; 96-103 International Scientific Technical Journal "Problems of Control and Informatics"; Vol. 69 No. 5 (2024): International Scientific Technical Journal «Problems of Control and Informatics»; 96-103 2786-6505 2786-6491 10.34229/1028-0979-2024-5 uk https://jais.net.ua/index.php/files/article/view/244/489 Copyright (c) 2024 Yehor Terpilovskyi https://creativecommons.org/licenses/by-nc-nd/4.0