Распознавание фрагментов генов в ДНК

На основе аппарата цепей Маркова и байесовских процедур проведено распознавание известных экзонно-интронных фрагментов генов организма Caenorhabditis elegans. За допомогою апарата ланцюгів Маркова та байєсівських процедур проведено розпізнання відомих інтронно-екзонних фрагментів генів організму Cae...

Full description

Saved in:
Bibliographic Details
Published in:Компьютерная математика
Date:2011
Main Author: Андрейчук, И.И.
Format: Article
Language:Russian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2011
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/84666
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Распознавание фрагментов генов в ДНК / И.И. Андрейчук // Компьютерная математика: сб. науч. тр. — 2011. — № 2. — С. 110-115. — Бібліогр.: 5 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859605434751516672
author Андрейчук, И.И.
author_facet Андрейчук, И.И.
citation_txt Распознавание фрагментов генов в ДНК / И.И. Андрейчук // Компьютерная математика: сб. науч. тр. — 2011. — № 2. — С. 110-115. — Бібліогр.: 5 назв. — рос.
collection DSpace DC
container_title Компьютерная математика
description На основе аппарата цепей Маркова и байесовских процедур проведено распознавание известных экзонно-интронных фрагментов генов организма Caenorhabditis elegans. За допомогою апарата ланцюгів Маркова та байєсівських процедур проведено розпізнання відомих інтронно-екзонних фрагментів генів організму Caenorhabditis Elegans. On the basis of instrument of Bayesian approach and Markov chain, recognition procedure for gene fragments is obtained. The procedure has high percentage of recognition (80–90 %) and is simple and effective in computation. Its applicability is described by using Markov chains of 1-th order for the entire array of intron-exon sequences of the genome of a Caenorhabditis Elegans organism.
first_indexed 2025-11-28T03:19:17Z
format Article
fulltext 110 Компьютерная математика. 2011, № 2 Математические модели в биологии и медицине На основе аппарата цепей Мар- кова и байесовских процедур про- ведено распознавание известных экзонно-интронных фрагментов генов организма Caenorhabditis elegans.  И.И. Андрейчук, 2011 Компьютерная математика. 2011, № 2 111 УДК 519.681 И.И. АНДРЕЙЧУК РАСПОЗНАВАНИЕ ФРАГМЕТОВ ГЕНОВ В ДНК Введение. Симметрия в запи- си оснований, подсчитанных по нитям в хромосомах ДНК, исследовалась в работах [1, 2]. Соотношения симметрии приведены в виде коротких формул, что значительно уп- рощает восприятие этих ре- зультатов и является основой построения математического аппарата для получения но- вых результатов. Полученные результаты открывают широ- кие возможности применения байесовских процедур на мо- делях цепей Маркова для распознавания свойств участ- ков оснований (генов), в том числе генетических заболева- ний. В данной работе показано, что в геноме червяка Caenorhabditis elegans наблю- дается явная ассимметрия в записи оснований интронно- экзонных фрагментов генов. На осно-ве этих свойств по- строены эффективные проце- дуры распознавания извест- ных фрагментов данного ге- нома. ДНК имеет форму двойной спирали, информация запи- сана в четырехбуквенном ал- фавите оснований: аденин (A), цитозин (C), гуанин (G), тимин (T). Известно, что C – G, A – T – ком- плементарные пары оснований, связываю- щие две цепи. Запись и считывание основа- ний по первой комплементарной нити хро- мосомы ДНК выполняется слева направо в направлении 5′→3′ , по второй – справа налево в направлении 5′→3′ (рис. 1). Для оснований, записанных по одной нити ДНК хромосомы, выполняются приближен- ные соотношения )T()A( nn = , )G()C( nn = , (1) где )(in – количество оснований i , { }TG,C,A,∈i , вычисленных по одной нити. И.И. АНДРЕЙЧУК Компьютерная математика. 2011, № 2 112 Таким образом, имеет место симметрия относительно записи оснований по каж- дой нити ДНК. ' ' ' ' 5 ________ C ________ G ___ __ 3 1-я нить ........................................... .................... 3 ________ G ________ C ____ __ 5 2-я нить Α Τ → Τ Α ← bb РИС. 1. Условная запись двух нитей хромосомы (модель Уотсона – Крика) Расчеты показали, что для пар оснований выполняются соотношения )()( ijnijn = , (2) где },TG,C,A,{, ∈ji ,TA = GC = , ,AT = CG = . Из соотношения (2) вытекает симметрия относительно записи 16 пар осно- ваний по каждой нити ДНК: 1),(ijn = )2,(ijn , где }TG,C,A,{, ∈ji [1, 2]. Материалы и методы. Общая выборка фрагментов генома червяка Caenorhabditis elegans сформирована на основе версии W190 из сайта NCBI [3]. Структура гена и процесс формирования зрелой мРНК(CDS) из первичной мРНК представлен на диаграмме (рис. 2). Ген всегда начинается с экзона (UTR или CDS фрагмент) при этом последовательности экзонов чередуются с интронами [4]. РИС. 2. Структура гена и мРНК Классы распознавания. Рассмотрим три класса интронно-экзонных фраг- ментов генома: UTR – транскрибирующиеся, но не транслируемые области ге- нома, CDS – транслируемые в белок области генома и INTRON – не трансли- руемые области генома, которые удаляются из первичной мРНК в процессе сплайсинга. Таким образом, класс EXON cостоит из двух подклассов отличаю- щихся по своим функциям в формировании мРНК и синтезе белков: UTR и CDS. Данные о начальной и конечной позиции интервалов для фрагментов UTR и CDS, ориентации нити и их принадлежность к определенному гену взяты из файла seq_gene.md [3]. Последовательности фрагментов формируются из файла хромосомы в формате FASTA, используя позиции начала и конца фрагмента (chr_start, chr_stop). Для хромосомы I средняя длина фрагмента CDS по числу оснований – 213, INTRON – 402, UTR – 126 при средней длине гена – 3446 оснований. Средние значения числа фрагментов по геному равны: 6.11 INTRON-ов на ген, 6.85 CDS-ов на ген, 1.84 UTR-ов на ген соответственно. РАСПОЗНАВАНИЕ ФРАГМЕНТОВ ГЕНОВ В ДНК Компьютерная математика. 2011, № 2 113 Хромосома 5 содержит наибольшие количества фрагментов в гене: 66 CDS и 65 INTRON, соответственно хромосома X содержит в гене 25 фрагментов UTR. Фрагменты максимальной длины в основаниях находятся: CDS – 14975 в хромо- соме 4, UTR – 4530 в хромосоме 2, INTRON – 100913 в хромосоме X. Процедура распознавания фрагмента y последовательности оснований ),...,,( 21 nxxxx = , { }TG,C,A,∈ix строится на основе формулы Байеса ( ) ( ) ( ) ( )n n n xxP yPyxxP xxyP ,..., ,..., ,..., 1 1 1 = , (3) где ∈y {intron, cds, utr}. В модели однородной цепи Маркова =),...,,( 21 nxxxp ),()...,()( 1211 nn xxpxxpxp − , (4) где )( 1xp – начальное распределение, )(),( 1 ixjxpjip kk === − – переходные вероятности. В численных расчетах используем оценки переходных вероятно- стей, построенных в виде частот: ∑ = j ijn ijn ijp )( )( )(ˆ , (5) где )(ijn – число пар )(ij оснований в суммарной последовательности класса ∈y {intron, cds, utr}. В табл. 1 приведены подсчеты числа оснований и их частот по фрагментам генов в хромосоме 1. Для хромосом 2–5 частоты оснований аналогичны часто- там для хромосомы I. Знак «+» или «–» обозначают, что частоты подсчитаны по 1-й и 2-й нитям ДНК соответственно. В столбцах без знака, частоты подсчиты- вались по фрагментам, расположенным на обеих нитях. Из табл. 1 видно, что для фрагментов y ∈{intron, cds, utr} симметрия (1) не выполняется, при этом для всей нити ДНК она имеет место. В табл. 2 записано количество пар оснований и оценки переходных вероятностей (о.п.в.), подсчи- танные по фрагментам генов и ДНК по одной нити. Аналогично табл. 1 симмет- рия (2) для пар оснований отсутствует, а для всей нити ДНК она выполняется. Результаты распознавания. Результаты распознавания для хромосомы 3 приведены в табл. 3. В первом столбце указаны классы распознавания. В вычис- лениях используются логарифмы от значений переходных вероятностей в (4), чтобы избежать проблем в вычислениях с бесконечно малыми значениями; строка lh обозначает, что априорная вероятность класса )( yP в (3) не учитыва- ется; а в строке pclass_lh она вычисляется. Интересно, что фрагменты utr, не принимающие участия в синтезе белка, в ситуации CDS/INTRON распознаются в 70 % случаях как INTRON, что говорит о схожести utr и intron фрагментов. И.И. АНДРЕЙЧУК Компьютерная математика. 2011, № 2 114 ТАБЛИЦА 1 Осно- вание intron число intron частота cds число cds частота utr число utr частота cds+ число A 2119211 0.334400 1261728 0.307918 158469 0.283964 635295 C 1027014 0.162057 853033 0.208178 110473 0.197959 427076 G 1022900 0.161408 916644 0.223702 80198 0.143708 460074 T 2168235 0.342135 1066206 0.260202 208921 0.374369 539866 utr- число utr- частота utr+ число utr+ частота cds- число cds- частота cds+ частота A 79302 0.284672 79167 0.283257 626433 0.307784 0.30805 C 55051 0.197618 55422 0.198298 425957 0.209285 0.207086 G 40148 0.14412 40050 0.143298 456570 0.224326 0.223087 T 104072 0.37359 104849 0.375147 526340 0.258606 0.261777 intron- число intron- частота intron+ число intron+ частота DNA+ число DNA+ частота A 1054142 0.335282 1065069 0.333531 4835939 0.320847 C 507744 0.161494 519270 0.162612 2695879 0.178862 G 507601 0.161448 515299 0.161368 2692150 0.178614 T 1074557 0.341775 1093678 0.34249 4848453 0.321677 ТАБЛИЦА 2 Пары букв intron число intron о.п.в. cds число cds о.п.в. utr число utr о.п.в. DNA+ число DNA+ о.п.в. AA 988702 0.466547 437705 0.348420 59322 0.378235 2049736 0.423855 AC 267960 0.126444 224876 0.179005 25033 0.159610 704042 0.145585 AG 294225 0.138838 254398 0.202505 19767 0.126034 758857 0.156920 AT 568304 0.268170 339277 0.270070 52717 0.336122 1323304 0.273640 CA 348548 0.339384 293857 0.344903 33902 0.308716 909654 0.337424 CC 201872 0.196565 157821 0.185236 24770 0.225559 521368 0.193395 CG 184086 0.179246 183496 0.215371 16597 0.151135 503521 0.186774 CT 292495 0.284805 216824 0.254489 34547 0.31459 761335 0.282407 GA 343641 0.341505 355057 0.391833 26493 0.334170 953424 0.354150 GC 190521 0.189337 179035 0.197579 15002 0.189228 515116 0.191340 GG 182455 0.181321 178787 0.197306 11521 0.145320 518674 0.192662 GT 289638 0.287838 193264 0.213282 26264 0.331282 704936 0.261849 TA 438301 0.202148 164805 0.154938 36783 0.177024 923125 0.190396 TC 366647 0.169100 288942 0.271643 45172 0.217398 955353 0.197043 TG 345492 0.159344 295194 0.277520 31534 0.151763 911097 0.187915 TT 1017780 0.469408 314743 0.295899 94296 0.453815 2058878 0.424646 РАСПОЗНАВАНИЕ ФРАГМЕНТОВ ГЕНОВ В ДНК Компьютерная математика. 2011, № 2 115 ТАБЛИЦА 3 Классы распознавания Распознано число Не распознано число Число Распознано % Не распознано % cds/utr/intron lh 36848 7794 44642 0.8254 0.1746 pclass_lh 34173 10469 44642 0.7655 0.2345 cds/intron lh 36765 3414 40179 0.9150 0.0850 pclass_lh 36969 3210 40179 0.9201 0.0799 utr/intron lh 18950 4301 23251 0.8150 0.1850 pclass_lh 16747 6504 23251 0.7203 0.2797 cds/utr lh 22354 3500 25854 0.8646 0.1354 pclass_lh 21996 3858 25854 0.8508 0.1492 utr как cds/intron cds intron Распознано как cds Распознано как intron lh 1286 3177 4463 0.2881 0.7119 pclass_lh 1542 2921 4463 0.3455 0.6545 Заключение. На основе байесовского подхода и модели однородных цепей Маркова построены простые в вычислительном плане процедуры распознавания известных фрагментов генома организма Caenorhabditis elegans с процентом распознавания порядка 80–90 %. В настоящее время аналогичные задачи реша- ются на геноме человека. Полученные результаты открывают широкие возмож- ности применения байесовских процедур на моделях цепей Маркова для распо- знавания свойств участков оснований (генов), в том числе генетических заболе- ваний. І.І. Андрійчук РОЗПІЗНАВАННЯ ФРАГМЕНТІВ ГЕНІВ У ДНК За допомогою апарата ланцюгів Маркова та байєсівських процедур проведено розпізнання відомих інтронно-екзонних фрагментів генів організму Caenorhabditis Elegans. I.I. Andriychuk RECOGNITION OF GENE FRAGMENTS IN DNA On the basis of instrument of Bayesian approach and Markov chain, recognition procedure for gene fragments is obtained. The procedure has high percentage of recognition (80–90 %) and is simple and effective in computation. Its applicability is described by using Markov chains of 1-th order for the entire array of intron-exon sequences of the genome of a Caenorhabditis Elegans organism. И.И. АНДРЕЙЧУК Компьютерная математика. 2011, № 2 116 1. Гупал А.М., Сергиенко И.В. Оптимальные процедуры распознавания. – Киев: Наук. дум- ка, 2008. – 232 с. 2. Гупал А.М., Гупал Н.А., Островский А.В. Симметрия и свойства записи генетической информации в ДНК // Проблемы управления и информатики. – 2011. – № 3. – С. 120–127. 3. NCBI ftp resource for Caenorhabditis Elegans gene regions (CDS, UTR) data 4. ftp://ftp.ncbi.nih.gov/genomes/MapView/Caenorhabditis_elegans/sequence/current/initial_relea se/seq_gene.md.gz 5. Batzoglou S., Alexandersson M., Pachter L., Saxonov S. / Lecture – Gene Recognition, http://ai.stanford.edu/~serafim/CS262_2006/Slides/CS262_2006_Lecture16.ppt Получено 22.04.2011 Об авторе: Андрейчук Иван Иванович, младший научный сотрудник Института кибернетики имени В.М. Глушкова НАН Украины. vanya@ukr.net.
id nasplib_isofts_kiev_ua-123456789-84666
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn ХХХХ-0003
language Russian
last_indexed 2025-11-28T03:19:17Z
publishDate 2011
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
record_format dspace
spelling Андрейчук, И.И.
2015-07-11T20:44:25Z
2015-07-11T20:44:25Z
2011
Распознавание фрагментов генов в ДНК / И.И. Андрейчук // Компьютерная математика: сб. науч. тр. — 2011. — № 2. — С. 110-115. — Бібліогр.: 5 назв. — рос.
ХХХХ-0003
https://nasplib.isofts.kiev.ua/handle/123456789/84666
519.681
На основе аппарата цепей Маркова и байесовских процедур проведено распознавание известных экзонно-интронных фрагментов генов организма Caenorhabditis elegans.
За допомогою апарата ланцюгів Маркова та байєсівських процедур проведено розпізнання відомих інтронно-екзонних фрагментів генів організму Caenorhabditis Elegans.
On the basis of instrument of Bayesian approach and Markov chain, recognition procedure for gene fragments is obtained. The procedure has high percentage of recognition (80–90 %) and is simple and effective in computation. Its applicability is described by using Markov chains of 1-th order for the entire array of intron-exon sequences of the genome of a Caenorhabditis Elegans organism.
ru
Інститут кібернетики ім. В.М. Глушкова НАН України
Компьютерная математика
Математические модели в биологии и медицине
Распознавание фрагментов генов в ДНК
Розпізнавання фрагментів генів у ДНК
Recognition of gene fragments in DNA
Article
published earlier
spellingShingle Распознавание фрагментов генов в ДНК
Андрейчук, И.И.
Математические модели в биологии и медицине
title Распознавание фрагментов генов в ДНК
title_alt Розпізнавання фрагментів генів у ДНК
Recognition of gene fragments in DNA
title_full Распознавание фрагментов генов в ДНК
title_fullStr Распознавание фрагментов генов в ДНК
title_full_unstemmed Распознавание фрагментов генов в ДНК
title_short Распознавание фрагментов генов в ДНК
title_sort распознавание фрагментов генов в днк
topic Математические модели в биологии и медицине
topic_facet Математические модели в биологии и медицине
url https://nasplib.isofts.kiev.ua/handle/123456789/84666
work_keys_str_mv AT andreičukii raspoznavaniefragmentovgenovvdnk
AT andreičukii rozpíznavannâfragmentívgenívudnk
AT andreičukii recognitionofgenefragmentsindna