Порівняльний аналіз класифікації ДНК з використанням методу випадкового лісу і згорткових нейронних мереж
У статті представлено комплексне порівняльне дослідження двох різних методологій класифікації послідовностей ДНК як у здорових людей, так і у хворих, описано переваги та обмеження їхнього застосування. Перший підхід передбачає представлення k-mer, де кожен можливий k-мер — підрядок довжини k в послі...
Збережено в:
| Дата: | 2024 |
|---|---|
| Автор: | |
| Формат: | Стаття |
| Мова: | Ukrainian |
| Опубліковано: |
V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
2024
|
| Теми: | |
| Онлайн доступ: | https://jais.net.ua/index.php/files/article/view/244 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Problems of Control and Informatics |
Репозитарії
Problems of Control and Informatics| Резюме: | У статті представлено комплексне порівняльне дослідження двох різних методологій класифікації послідовностей ДНК як у здорових людей, так і у хворих, описано переваги та обмеження їхнього застосування. Перший підхід передбачає представлення k-mer, де кожен можливий k-мер — підрядок довжини k в послідовності ДНК — кодується як двійкова характеристика. Потім ці функції класифікуються за допомогою алгоритму випадкового лісу (random forest — RF), потужної методики ансамблевого навчання, відомої своєю надійністю, здатністю обробляти дані великої розмірності та можливістю інтерпретації. Цей алгоритм створює кілька дерев рішень під час навчання та агрегує їхні прогнози, забезпечуючи надійну структуру класифікації в управлінні різноманітними та зашумленими даними. Другий підхід використовує згорткові нейронні мережі (convolutional neural networks — CNN), які безпосередньо навчаються на необроблених послідовностях ДНК, наданих у форматі FASTA. CNN розроблені для автоматичного вибору ієрархічних характеристик з вхідних даних за допомогою кількох рівнів згортання та об’єднання, що дозволяє їм розпізнавати складні моделі та тонкі варіації в послідовностях ДНК, які можуть вказувати на здоровий стан людини чи хворобу. В процесі навчання CNN використовується зворотне поширення — алгоритм, що широко застосовується для оптимізації нейронних мереж та ітеративно регулює ваги мережі, щоб мінімізувати помилку класифікації та підвищити точність прогнозування. Результати дослідження показують, що CNN, незважаючи на високу точність у визначенні складних шаблонів послідовності, вимагають значно більше обчислювальних ресурсів і гірше інтерпретуються порівняно з RF. Особливо ефективні CNN при виборі нелінійних зв’язків у даних, що робить їх придатними для завдань, де потрібна висока точність. Однак підхід RF пропонує більш ефективне, з погляду обчислень, рішення зі швидшим навчанням і прогнозуванням, а також забезпечує вищий ступінь інтерпретації. Це робить RF особливо цінним у контекстах, де важлива прозорість моделі, наприклад у нормативному середовищі або коли результати потрібно повідомляти зацікавленим сторонам без глибокої технічної експертизи. |
|---|