Метод k-mer у завданнях виявлення закономірних послідовностей
В статье сравниваются две методологии предварительной обработки последовательностей ДНК человека для улучшения идентификации конкретных генетических заболеваний с помощью методов машинного обучения. Первый подход обеспечивает выборку слов k-mer, а второй использует Multiple EM for Motif Elicitation...
Saved in:
| Date: | 2024 |
|---|---|
| Main Author: | |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
2024
|
| Subjects: | |
| Online Access: | https://jais.net.ua/index.php/files/article/view/220 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Problems of Control and Informatics |
Institution
Problems of Control and Informatics| Summary: | В статье сравниваются две методологии предварительной обработки последовательностей ДНК человека для улучшения идентификации конкретных генетических заболеваний с помощью методов машинного обучения. Первый подход обеспечивает выборку слов k-mer, а второй использует Multiple EM for Motif Elicitation (MEME) для распознавания мотива. Метод k-mer предполагает разбиение последовательности ДНК на меньшие фрагменты фиксированной длины, что позволяет структурировать и анализировать большие объемы данных эффективно. С другой стороны, MEME применяет алгоритм максимизации ожиданий (EM) — Expectation-Maximization для выявления статистически значимых биологических мотивов в последовательностях, позволяющих глубже понять функциональные области ДНК. Всесторонний анализ подразумевает тренировку модели машинного обучения на выборках данных, оценку точности и другие метрики производительности, а также возможность практического внедрения обоих методов. Данные для исследования предоставлены центром U.S. National Library of Medicine и представлены в формате FASTA, который обеспечивает стандартизированное представление нуклеотидных последовательностей. Каждый образец ДНК принадлежит людям, давшим согласие на использование их генетических материалов в научных исследованиях. Для обеспечения всестороннего анализа данные обработаны как с помощью k-mer, так и MEME. Первый метод совместим с разными алгоритмами машинного обучения и позволяет эффективно обрабатывать большие объемы генетических данных, а второй - мощный инструмент для распознавания мотивов, но требует значительных вычислительных ресурсов и времени для анализа. Сравнение этих методов показало, что в контексте идентификации генетических заболеваний по геномным последовательностям k-mer имеет преимущества в скорости и эффективности, поэтому более пригоден для практического применения в клинических условиях. Выявлено, что этот метод обеспечивает также высокую точность и эффективность, что делает целесообразнее его интеграцию в клинические системы для более быстрой диагностики. Полученные выводы будут способствовать усовершенствованию подходов к генетической диагностике и развитию персонализированной медицины. |
|---|