Метод k-mer у завданнях виявлення закономірних послідовностей

В статье сравниваются две методологии предварительной обработки последовательностей ДНК человека для улучшения идентификации конкретных генетических заболеваний с помощью методов машинного обучения. Первый подход обеспечивает выборку слов k-mer, а второй использует Multiple EM for Motif Elicitation...

Full description

Saved in:
Bibliographic Details
Date:2024
Main Author: Terpilovskyi, Yehor
Format: Article
Language:Ukrainian
Published: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2024
Subjects:
Online Access:https://jais.net.ua/index.php/files/article/view/220
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Problems of Control and Informatics

Institution

Problems of Control and Informatics
Description
Summary:В статье сравниваются две методологии предварительной обработки последовательностей ДНК человека для улучшения идентификации конкретных генетических заболеваний с помощью методов машинного обучения. Первый подход обеспечивает выборку слов k-mer, а второй использует Multiple EM for Motif Elicitation (MEME) для распознавания мотива. Метод k-mer предполагает разбиение последовательности ДНК на меньшие фрагменты фиксированной длины, что позволяет структурировать и анализировать большие объемы данных эффективно. С другой стороны, MEME применяет алгоритм максимизации ожиданий (EM) — Expectation-Maximization для выявления статистически значимых биологических мотивов в последовательностях, позволяющих глубже понять функциональные области ДНК. Всесторонний анализ подразумевает тренировку модели машинного обучения на выборках данных, оценку точности и другие метрики производительности, а также возможность практического внедрения обоих методов. Данные для исследования предоставлены центром U.S. National Library of Medicine и представлены в формате FASTA, который обеспечивает стандартизированное представление нуклеотидных последовательностей. Каждый образец ДНК принадлежит людям, давшим согласие на использование их генетических материалов в научных исследованиях. Для обеспечения всестороннего анализа данные обработаны как с помощью k-mer, так и MEME. Первый метод совместим с разными алгоритмами машинного обучения и позволяет эффективно обрабатывать большие объемы генетических данных, а второй - мощный инструмент для распознавания мотивов, но требует значительных вычислительных ресурсов и времени для анализа. Сравнение этих методов показало, что в контексте идентификации генетических заболеваний по геномным последовательностям k-mer имеет преимущества в скорости и эффективности, поэтому более пригоден для практического применения в клинических условиях. Выявлено, что этот метод обеспечивает также высокую точность и эффективность, что делает целесообразнее его интеграцию в клинические системы для более быстрой диагностики. Полученные выводы будут способствовать усовершенствованию подходов к генетической диагностике и развитию персонализированной медицины.