Порівняльний аналіз класифікації ДНК з використанням методу випадкового лісу і згорткових нейронних мереж

У статті представлено комплексне порівняльне дослідження двох різних методологій класифікації послідовностей ДНК як у здорових людей, так і у хворих, описано переваги та обмеження їхнього застосування. Перший підхід передбачає представлення k-mer, де кожен можливий k-мер — підрядок довжини k в послі...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2024
1. Verfasser: Terpilovskyi, Yehor
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2024
Schlagworte:
Online Zugang:https://jais.net.ua/index.php/files/article/view/244
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Problems of Control and Informatics

Institution

Problems of Control and Informatics
Beschreibung
Zusammenfassung:У статті представлено комплексне порівняльне дослідження двох різних методологій класифікації послідовностей ДНК як у здорових людей, так і у хворих, описано переваги та обмеження їхнього застосування. Перший підхід передбачає представлення k-mer, де кожен можливий k-мер — підрядок довжини k в послідовності ДНК — кодується як двійкова характеристика. Потім ці функції класифікуються за допомогою алгоритму випадкового лісу (random forest — RF), потужної методики ансамблевого навчання, відомої своєю надійністю, здатністю обробляти дані великої розмірності та можливістю інтерпретації. Цей алгоритм створює кілька дерев рішень під час навчання та агрегує їхні прогнози, забезпечуючи надійну структуру класифікації в управлінні різноманітними та зашумленими даними. Другий підхід використовує згорткові нейронні мережі (convolutional neural networks — CNN), які безпосередньо навчаються на необроблених послідовностях ДНК, наданих у форматі FASTA. CNN розроблені для автоматичного вибору ієрархічних характеристик з вхідних даних за допомогою кількох рівнів згортання та об’єднання, що дозволяє їм розпізнавати складні моделі та тонкі варіації в послідовностях ДНК, які можуть вказувати на здоровий стан людини чи хворобу. В процесі навчання CNN використовується зворотне поширення — алгоритм, що широко застосовується для оптимізації нейронних мереж та ітеративно регулює ваги мережі, щоб мінімізувати помилку класифікації та підвищити точність прогнозування. Результати дослідження показують, що CNN, незважаючи на високу точність у визначенні складних шаблонів послідовності, вимагають значно більше обчислювальних ресурсів і гірше інтерпретуються порівняно з RF. Особливо ефективні CNN при виборі нелінійних зв’язків у даних, що робить їх придатними для завдань, де потрібна висока точність. Однак підхід RF пропонує більш ефективне, з погляду обчислень, рішення зі швидшим навчанням і прогнозуванням, а також забезпечує вищий ступінь інтерпретації. Це робить RF особливо цінним у контекстах, де важлива прозорість моделі, наприклад у нормативному середовищі або коли результати потрібно повідомляти зацікавленим сторонам без глибокої технічної експертизи.