Метод k-mer у завданнях виявлення закономірних послідовностей

В статье сравниваются две методологии предварительной обработки последовательностей ДНК человека для улучшения идентификации конкретных генетических заболеваний с помощью методов машинного обучения. Первый подход обеспечивает выборку слов k-mer, а второй использует Multiple EM for Motif Elicitation...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2024
1. Verfasser: Terpilovskyi, Yehor
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2024
Schlagworte:
Online Zugang:https://jais.net.ua/index.php/files/article/view/220
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Problems of Control and Informatics

Institution

Problems of Control and Informatics
id oai:ojs2.jais.net.ua:article-220
record_format ojs
institution Problems of Control and Informatics
baseUrl_str
datestamp_date 2025-03-11T15:06:37Z
collection OJS
language Ukrainian
topic мотив
MEME
k-mer
машинне навчання
ДНК послідовність
геном
ней-ронна мережа
CNN
spellingShingle мотив
MEME
k-mer
машинне навчання
ДНК послідовність
геном
ней-ронна мережа
CNN
Terpilovskyi, Yehor
Метод k-mer у завданнях виявлення закономірних послідовностей
topic_facet мотив
MEME
k-mer
машинне навчання
ДНК послідовність
геном
ней-ронна мережа
CNN
motif
MEME
k-mer
machine learning
DNA sequence
genome
neural network
CNN.
format Article
author Terpilovskyi, Yehor
author_facet Terpilovskyi, Yehor
author_sort Terpilovskyi, Yehor
title Метод k-mer у завданнях виявлення закономірних послідовностей
title_short Метод k-mer у завданнях виявлення закономірних послідовностей
title_full Метод k-mer у завданнях виявлення закономірних послідовностей
title_fullStr Метод k-mer у завданнях виявлення закономірних послідовностей
title_full_unstemmed Метод k-mer у завданнях виявлення закономірних послідовностей
title_sort метод k-mer у завданнях виявлення закономірних послідовностей
title_alt The k-mer method in tasks of identifying regular sequences
Метод k-mer в задачах выявления закономерных последовательностей
description В статье сравниваются две методологии предварительной обработки последовательностей ДНК человека для улучшения идентификации конкретных генетических заболеваний с помощью методов машинного обучения. Первый подход обеспечивает выборку слов k-mer, а второй использует Multiple EM for Motif Elicitation (MEME) для распознавания мотива. Метод k-mer предполагает разбиение последовательности ДНК на меньшие фрагменты фиксированной длины, что позволяет структурировать и анализировать большие объемы данных эффективно. С другой стороны, MEME применяет алгоритм максимизации ожиданий (EM) — Expectation-Maximization для выявления статистически значимых биологических мотивов в последовательностях, позволяющих глубже понять функциональные области ДНК. Всесторонний анализ подразумевает тренировку модели машинного обучения на выборках данных, оценку точности и другие метрики производительности, а также возможность практического внедрения обоих методов. Данные для исследования предоставлены центром U.S. National Library of Medicine и представлены в формате FASTA, который обеспечивает стандартизированное представление нуклеотидных последовательностей. Каждый образец ДНК принадлежит людям, давшим согласие на использование их генетических материалов в научных исследованиях. Для обеспечения всестороннего анализа данные обработаны как с помощью k-mer, так и MEME. Первый метод совместим с разными алгоритмами машинного обучения и позволяет эффективно обрабатывать большие объемы генетических данных, а второй - мощный инструмент для распознавания мотивов, но требует значительных вычислительных ресурсов и времени для анализа. Сравнение этих методов показало, что в контексте идентификации генетических заболеваний по геномным последовательностям k-mer имеет преимущества в скорости и эффективности, поэтому более пригоден для практического применения в клинических условиях. Выявлено, что этот метод обеспечивает также высокую точность и эффективность, что делает целесообразнее его интеграцию в клинические системы для более быстрой диагностики. Полученные выводы будут способствовать усовершенствованию подходов к генетической диагностике и развитию персонализированной медицины.
publisher V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
publishDate 2024
url https://jais.net.ua/index.php/files/article/view/220
work_keys_str_mv AT terpilovskyiyehor metodkmeruzavdannâhviâvlennâzakonomírnihposlídovnostej
AT terpilovskyiyehor thekmermethodintasksofidentifyingregularsequences
AT terpilovskyiyehor metodkmervzadačahvyâvleniâzakonomernyhposledovatelʹnostej
first_indexed 2025-10-30T02:48:49Z
last_indexed 2025-10-30T02:48:49Z
_version_ 1847373363370000384
spelling oai:ojs2.jais.net.ua:article-2202025-03-11T15:06:37Z Метод k-mer у завданнях виявлення закономірних послідовностей The k-mer method in tasks of identifying regular sequences Метод k-mer в задачах выявления закономерных последовательностей Terpilovskyi, Yehor мотив, MEME, k-mer, машинне навчання, ДНК послідовність, геном, ней-ронна мережа, CNN motif, MEME, k-mer, machine learning, DNA sequence, genome, neural network, CNN. В статье сравниваются две методологии предварительной обработки последовательностей ДНК человека для улучшения идентификации конкретных генетических заболеваний с помощью методов машинного обучения. Первый подход обеспечивает выборку слов k-mer, а второй использует Multiple EM for Motif Elicitation (MEME) для распознавания мотива. Метод k-mer предполагает разбиение последовательности ДНК на меньшие фрагменты фиксированной длины, что позволяет структурировать и анализировать большие объемы данных эффективно. С другой стороны, MEME применяет алгоритм максимизации ожиданий (EM) — Expectation-Maximization для выявления статистически значимых биологических мотивов в последовательностях, позволяющих глубже понять функциональные области ДНК. Всесторонний анализ подразумевает тренировку модели машинного обучения на выборках данных, оценку точности и другие метрики производительности, а также возможность практического внедрения обоих методов. Данные для исследования предоставлены центром U.S. National Library of Medicine и представлены в формате FASTA, который обеспечивает стандартизированное представление нуклеотидных последовательностей. Каждый образец ДНК принадлежит людям, давшим согласие на использование их генетических материалов в научных исследованиях. Для обеспечения всестороннего анализа данные обработаны как с помощью k-mer, так и MEME. Первый метод совместим с разными алгоритмами машинного обучения и позволяет эффективно обрабатывать большие объемы генетических данных, а второй - мощный инструмент для распознавания мотивов, но требует значительных вычислительных ресурсов и времени для анализа. Сравнение этих методов показало, что в контексте идентификации генетических заболеваний по геномным последовательностям k-mer имеет преимущества в скорости и эффективности, поэтому более пригоден для практического применения в клинических условиях. Выявлено, что этот метод обеспечивает также высокую точность и эффективность, что делает целесообразнее его интеграцию в клинические системы для более быстрой диагностики. Полученные выводы будут способствовать усовершенствованию подходов к генетической диагностике и развитию персонализированной медицины. У статті порівнюються дві методології попередньої обробки послідовностей ДНК людини для покращення ідентифікації конкретних генетичних захворювань за допомогою методів машинного навчання. Перший підхід забезпечує вибірку слів k-mer, тоді як другий використовує Multiple EM for Motif Elicitation (MEME) для розпізнавання мотиву. Метод k-mer передбачає розбиття по­слідовності ДНК на менші фрагменти фіксованої довжини, що дозволяє структурувати та аналізувати великі обсяги даних ефективно. З іншого боку, MEME застосовує алгоритм максимізації сподівань (EM) — Expectation-Maximization для виявлення статистично значущих біологічних мотивів у послідовностях, що дає змогу глибше зрозуміти функціональні області ДНК. Всебічний аналіз передбачає тренування моделі машинного навчання на вибірках даних, оцінку точності та інші метрики продуктивності, а також можливість практичного впровадження обох методів. Дані для дослідження надані центром U.S. National Library of Medicine і репрезентовані у форматі FASTA, який забезпечує стандартизоване представлення нуклеотидних послідовностей. Кожен зразок ДНК належить людям, які дали згоду на використання їхніх генетичних матеріалів у наукових дослідженнях. Для забезпечення всебічного аналізу дані оброблені як за допомогою k-mer, так і MEME. Перший метод сумісний з різними алгоритмами машинного навчання та дозволяє ефективно обробляти великі обсяги генетичних даних, а другий є потужним інструментом для розпізнавання мотивів, але потребує значних обчислювальних ресурсів та часу для аналізу. Порівняння цих методів показало, що у контексті ідентифікації генетичних захворювань за геномними послідовностями k-mer має переваги у швидкості та ефективності, тому більш придатний для практичного застосування у клінічних умовах. Виявлено, що цей метод забезпечує також високу точність і ефективність, що робить більш доцільним його інтеграцію у клінічні системи для швидшої діагностики. Отримані висновки сприятимуть удос­коналенню підходів до генетичної діагностики та розвитку персоналізованої медицини. In this study, we compare two methodologies for preprocessing human DNA sequences to improve the identification of specific genetic diseases using machine learning techniques. The first approach involves k-mer word sampling, while the second uses Motif Elicitation (MEME) for motif recognition. The k-mer method involves dividing the DNA sequence into smaller fragments of a fixed length, which allows structuring and analyzing large volumes of data efficiently. MEME, on the other hand, applies an expectation maximization (EM) algorithm to detect statistically significant biological motifs in sequences, which allows for a deeper understanding of functional DNA regions. Our comprehensive analysis includes training a machine learning model on data samples, accuracy scores and other performance metrics, as well as considerations for the practical implementation of both methods. Data for this study were provided by the U.S. National Library of Medicine and presented in the FASTA format, which provides a standardized representation of nucleotide sequences. Each DNA sample belongs to people who have given consent for their genetic data to be used in scientific research. The data were processed with both k-mer and MEME to ensure a comprehensive analysis. The k-mer method allows efficient processing of large volumes of genetic data and is compatible with various machine learning algorithms. On the other hand, MEME is a powerful tool for motif recognition, but requires significant computational resources and time for analysis. A comparison of these methods showed that k-mer has advantages in speed and efficiency, which makes it more suitable for practical use in clinical settings. The main goal of our research is to find out the advantages of the k-mer method over MEME in the context of identifying genetic diseases by genomic sequences. The results of our study show that the k-mer method provides high accuracy and efficiency, which makes it more suitable for integration into clinical systems for faster diagnosis. The conclusions of our research can contribute to the improvement of approaches to genetic diagnostics and the development of personalized medicine. V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2024-07-04 Article Article application/pdf https://jais.net.ua/index.php/files/article/view/220 10.34229/1028-0979-2024-3-5 Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; Том 69 № 3 (2024): Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; 77-83 International Scientific Technical Journal "Problems of Control and Informatics; Том 69 № 3 (2024): International Scientific Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 77-83 International Scientific Technical Journal "Problems of Control and Informatics"; Vol. 69 No. 3 (2024): International Scientific Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 77-83 2786-6505 2786-6491 10.34229/10.34229/1028-0979-2024-3 uk https://jais.net.ua/index.php/files/article/view/220/319 Copyright (c) 2024 Yehor Terpilovskyi https://creativecommons.org/licenses/by-nc-nd/4.0