Метод k-mer у завданнях виявлення закономірних послідовностей

В статье сравниваются две методологии предварительной обработки последовательностей ДНК человека для улучшения идентификации конкретных генетических заболеваний с помощью методов машинного обучения. Первый подход обеспечивает выборку слов k-mer, а второй использует Multiple EM for Motif Elicitation...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2024
Автор:	Terpilovskyi, Yehor
Формат:	Стаття
Мова:	Ukrainian
Опубліковано:	V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2024
Теми:	мотив MEME k-mer машинне навчання ДНК послідовність геном ней-ронна мережа CNN
Онлайн доступ:	https://jais.net.ua/index.php/files/article/view/220
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Problems of Control and Informatics

Репозитарії

Problems of Control and Informatics

Опис
Резюме:	В статье сравниваются две методологии предварительной обработки последовательностей ДНК человека для улучшения идентификации конкретных генетических заболеваний с помощью методов машинного обучения. Первый подход обеспечивает выборку слов k-mer, а второй использует Multiple EM for Motif Elicitation (MEME) для распознавания мотива. Метод k-mer предполагает разбиение последовательности ДНК на меньшие фрагменты фиксированной длины, что позволяет структурировать и анализировать большие объемы данных эффективно. С другой стороны, MEME применяет алгоритм максимизации ожиданий (EM) — Expectation-Maximization для выявления статистически значимых биологических мотивов в последовательностях, позволяющих глубже понять функциональные области ДНК. Всесторонний анализ подразумевает тренировку модели машинного обучения на выборках данных, оценку точности и другие метрики производительности, а также возможность практического внедрения обоих методов. Данные для исследования предоставлены центром U.S. National Library of Medicine и представлены в формате FASTA, который обеспечивает стандартизированное представление нуклеотидных последовательностей. Каждый образец ДНК принадлежит людям, давшим согласие на использование их генетических материалов в научных исследованиях. Для обеспечения всестороннего анализа данные обработаны как с помощью k-mer, так и MEME. Первый метод совместим с разными алгоритмами машинного обучения и позволяет эффективно обрабатывать большие объемы генетических данных, а второй - мощный инструмент для распознавания мотивов, но требует значительных вычислительных ресурсов и времени для анализа. Сравнение этих методов показало, что в контексте идентификации генетических заболеваний по геномным последовательностям k-mer имеет преимущества в скорости и эффективности, поэтому более пригоден для практического применения в клинических условиях. Выявлено, что этот метод обеспечивает также высокую точность и эффективность, что делает целесообразнее его интеграцию в клинические системы для более быстрой диагностики. Полученные выводы будут способствовать усовершенствованию подходов к генетической диагностике и развитию персонализированной медицины.

Метод k-mer у завданнях виявлення закономірних послідовностей

Репозитарії

Схожі ресурси