Распознавание фрагментов генов в ДНК
На основе аппарата цепей Маркова и байесовских процедур проведено распознавание известных экзонно-интронных фрагментов генов организма Caenorhabditis elegans. За допомогою апарата ланцюгів Маркова та байєсівських процедур проведено розпізнання відомих інтронно-екзонних фрагментів генів організму Cae...
Saved in:
| Published in: | Компьютерная математика |
|---|---|
| Date: | 2011 |
| Main Author: | |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2011
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/84666 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Распознавание фрагментов генов в ДНК / И.И. Андрейчук // Компьютерная математика: сб. науч. тр. — 2011. — № 2. — С. 110-115. — Бібліогр.: 5 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859605434751516672 |
|---|---|
| author | Андрейчук, И.И. |
| author_facet | Андрейчук, И.И. |
| citation_txt | Распознавание фрагментов генов в ДНК / И.И. Андрейчук // Компьютерная математика: сб. науч. тр. — 2011. — № 2. — С. 110-115. — Бібліогр.: 5 назв. — рос. |
| collection | DSpace DC |
| container_title | Компьютерная математика |
| description | На основе аппарата цепей Маркова и байесовских процедур проведено распознавание известных экзонно-интронных фрагментов генов организма Caenorhabditis elegans.
За допомогою апарата ланцюгів Маркова та байєсівських процедур проведено розпізнання відомих інтронно-екзонних фрагментів генів організму Caenorhabditis Elegans.
On the basis of instrument of Bayesian approach and Markov chain, recognition procedure for gene fragments is obtained. The procedure has high percentage of recognition (80–90 %) and is simple and effective in computation. Its applicability is described by using Markov chains of 1-th order for the entire array of intron-exon sequences of the genome of a Caenorhabditis Elegans organism.
|
| first_indexed | 2025-11-28T03:19:17Z |
| format | Article |
| fulltext |
110 Компьютерная математика. 2011, № 2
Математические
модели в биологии
и медицине
На основе аппарата цепей Мар-
кова и байесовских процедур про-
ведено распознавание известных
экзонно-интронных фрагментов
генов организма Caenorhabditis
elegans.
И.И. Андрейчук, 2011
Компьютерная математика. 2011, № 2 111
УДК 519.681
И.И. АНДРЕЙЧУК
РАСПОЗНАВАНИЕ
ФРАГМЕТОВ ГЕНОВ
В ДНК
Введение. Симметрия в запи-
си оснований, подсчитанных
по нитям в хромосомах ДНК,
исследовалась в работах [1,
2]. Соотношения симметрии
приведены в виде коротких
формул, что значительно уп-
рощает восприятие этих ре-
зультатов и является основой
построения математического
аппарата для получения но-
вых результатов. Полученные
результаты открывают широ-
кие возможности применения
байесовских процедур на мо-
делях цепей Маркова для
распознавания свойств участ-
ков оснований (генов), в том
числе генетических заболева-
ний.
В данной работе показано,
что в геноме червяка
Caenorhabditis elegans наблю-
дается явная ассимметрия в
записи оснований интронно-
экзонных фрагментов генов.
На осно-ве этих свойств по-
строены эффективные проце-
дуры распознавания извест-
ных фрагментов данного ге-
нома.
ДНК имеет форму двойной
спирали, информация запи-
сана в четырехбуквенном ал-
фавите оснований: аденин
(A), цитозин (C), гуанин (G),
тимин (T). Известно, что C – G, A – T – ком-
плементарные пары оснований, связываю-
щие две цепи. Запись и считывание основа-
ний по первой комплементарной нити хро-
мосомы ДНК выполняется слева направо в
направлении 5′→3′ , по второй – справа
налево в направлении 5′→3′ (рис. 1).
Для оснований, записанных по одной нити
ДНК хромосомы, выполняются приближен-
ные соотношения
)T()A( nn = , )G()C( nn = , (1)
где )(in – количество оснований i ,
{ }TG,C,A,∈i , вычисленных по одной нити.
И.И. АНДРЕЙЧУК
Компьютерная математика. 2011, № 2 112
Таким образом, имеет место симметрия относительно записи оснований по каж-
дой нити ДНК.
' '
' '
5 ________ C ________ G ___ __ 3 1-я нить
........................................... ....................
3 ________ G ________ C ____ __ 5 2-я нить
Α Τ →
Τ Α ←
bb
РИС. 1. Условная запись двух нитей хромосомы (модель Уотсона – Крика)
Расчеты показали, что для пар оснований выполняются соотношения
)()( ijnijn = , (2)
где },TG,C,A,{, ∈ji ,TA = GC = , ,AT = CG = .
Из соотношения (2) вытекает симметрия относительно записи 16 пар осно-
ваний по каждой нити ДНК: 1),(ijn = )2,(ijn , где }TG,C,A,{, ∈ji [1, 2].
Материалы и методы. Общая выборка фрагментов генома червяка
Caenorhabditis elegans сформирована на основе версии W190 из сайта NCBI [3].
Структура гена и процесс формирования зрелой мРНК(CDS) из первичной мРНК
представлен на диаграмме (рис. 2). Ген всегда начинается с экзона (UTR или CDS
фрагмент) при этом последовательности экзонов чередуются с интронами [4].
РИС. 2. Структура гена и мРНК
Классы распознавания. Рассмотрим три класса интронно-экзонных фраг-
ментов генома: UTR – транскрибирующиеся, но не транслируемые области ге-
нома, CDS – транслируемые в белок области генома и INTRON – не трансли-
руемые области генома, которые удаляются из первичной мРНК в процессе
сплайсинга. Таким образом, класс EXON cостоит из двух подклассов отличаю-
щихся по своим функциям в формировании мРНК и синтезе белков: UTR и CDS.
Данные о начальной и конечной позиции интервалов для фрагментов UTR и
CDS, ориентации нити и их принадлежность к определенному гену взяты из
файла seq_gene.md [3]. Последовательности фрагментов формируются из файла
хромосомы в формате FASTA, используя позиции начала и конца фрагмента
(chr_start, chr_stop).
Для хромосомы I средняя длина фрагмента CDS по числу оснований – 213,
INTRON – 402, UTR – 126 при средней длине гена – 3446 оснований.
Средние значения числа фрагментов по геному равны: 6.11 INTRON-ов на ген,
6.85 CDS-ов на ген, 1.84 UTR-ов на ген соответственно.
РАСПОЗНАВАНИЕ ФРАГМЕНТОВ ГЕНОВ В ДНК
Компьютерная математика. 2011, № 2 113
Хромосома 5 содержит наибольшие количества фрагментов в гене: 66 CDS и 65
INTRON, соответственно хромосома X содержит в гене 25 фрагментов UTR.
Фрагменты максимальной длины в основаниях находятся: CDS – 14975 в хромо-
соме 4, UTR – 4530 в хромосоме 2, INTRON – 100913 в хромосоме X.
Процедура распознавания фрагмента y последовательности оснований
),...,,( 21 nxxxx = , { }TG,C,A,∈ix строится на основе формулы Байеса
( ) ( ) ( )
( )n
n
n xxP
yPyxxP
xxyP
,...,
,...,
,...,
1
1
1 = , (3)
где ∈y {intron, cds, utr}.
В модели однородной цепи Маркова
=),...,,( 21 nxxxp ),()...,()( 1211 nn xxpxxpxp − , (4)
где )( 1xp – начальное распределение, )(),( 1 ixjxpjip kk === − – переходные
вероятности. В численных расчетах используем оценки переходных вероятно-
стей, построенных в виде частот:
∑
=
j
ijn
ijn
ijp
)(
)(
)(ˆ , (5)
где )(ijn – число пар )(ij оснований в суммарной последовательности класса
∈y {intron, cds, utr}.
В табл. 1 приведены подсчеты числа оснований и их частот по фрагментам
генов в хромосоме 1. Для хромосом 2–5 частоты оснований аналогичны часто-
там для хромосомы I. Знак «+» или «–» обозначают, что частоты подсчитаны по
1-й и 2-й нитям ДНК соответственно. В столбцах без знака, частоты подсчиты-
вались по фрагментам, расположенным на обеих нитях.
Из табл. 1 видно, что для фрагментов y ∈{intron, cds, utr} симметрия (1) не
выполняется, при этом для всей нити ДНК она имеет место. В табл. 2 записано
количество пар оснований и оценки переходных вероятностей (о.п.в.), подсчи-
танные по фрагментам генов и ДНК по одной нити. Аналогично табл. 1 симмет-
рия (2) для пар оснований отсутствует, а для всей нити ДНК она выполняется.
Результаты распознавания. Результаты распознавания для хромосомы 3
приведены в табл. 3. В первом столбце указаны классы распознавания. В вычис-
лениях используются логарифмы от значений переходных вероятностей в (4),
чтобы избежать проблем в вычислениях с бесконечно малыми значениями;
строка lh обозначает, что априорная вероятность класса )( yP в (3) не учитыва-
ется; а в строке pclass_lh она вычисляется.
Интересно, что фрагменты utr, не принимающие участия в синтезе белка, в
ситуации CDS/INTRON распознаются в 70 % случаях как INTRON, что говорит
о схожести utr и intron фрагментов.
И.И. АНДРЕЙЧУК
Компьютерная математика. 2011, № 2 114
ТАБЛИЦА 1
Осно-
вание
intron
число
intron
частота
cds
число
cds
частота
utr
число
utr
частота
cds+
число
A 2119211 0.334400 1261728 0.307918 158469 0.283964 635295
C 1027014 0.162057 853033 0.208178 110473 0.197959 427076
G 1022900 0.161408 916644 0.223702 80198 0.143708 460074
T 2168235 0.342135 1066206 0.260202 208921 0.374369 539866
utr-
число
utr-
частота
utr+
число
utr+
частота
cds-
число
cds-
частота
cds+
частота
A 79302 0.284672 79167 0.283257 626433 0.307784 0.30805
C 55051 0.197618 55422 0.198298 425957 0.209285 0.207086
G 40148 0.14412 40050 0.143298 456570 0.224326 0.223087
T 104072 0.37359 104849 0.375147 526340 0.258606 0.261777
intron-
число
intron-
частота
intron+
число
intron+
частота
DNA+
число
DNA+
частота
A 1054142 0.335282 1065069 0.333531 4835939 0.320847
C 507744 0.161494 519270 0.162612 2695879 0.178862
G 507601 0.161448 515299 0.161368 2692150 0.178614
T 1074557 0.341775 1093678 0.34249 4848453 0.321677
ТАБЛИЦА 2
Пары
букв
intron
число
intron
о.п.в.
cds
число
cds
о.п.в.
utr
число
utr
о.п.в.
DNA+
число
DNA+
о.п.в.
AA 988702 0.466547 437705 0.348420 59322 0.378235 2049736 0.423855
AC 267960 0.126444 224876 0.179005 25033 0.159610 704042 0.145585
AG 294225 0.138838 254398 0.202505 19767 0.126034 758857 0.156920
AT 568304 0.268170 339277 0.270070 52717 0.336122 1323304 0.273640
CA 348548 0.339384 293857 0.344903 33902 0.308716 909654 0.337424
CC 201872 0.196565 157821 0.185236 24770 0.225559 521368 0.193395
CG 184086 0.179246 183496 0.215371 16597 0.151135 503521 0.186774
CT 292495 0.284805 216824 0.254489 34547 0.31459 761335 0.282407
GA 343641 0.341505 355057 0.391833 26493 0.334170 953424 0.354150
GC 190521 0.189337 179035 0.197579 15002 0.189228 515116 0.191340
GG 182455 0.181321 178787 0.197306 11521 0.145320 518674 0.192662
GT 289638 0.287838 193264 0.213282 26264 0.331282 704936 0.261849
TA 438301 0.202148 164805 0.154938 36783 0.177024 923125 0.190396
TC 366647 0.169100 288942 0.271643 45172 0.217398 955353 0.197043
TG 345492 0.159344 295194 0.277520 31534 0.151763 911097 0.187915
TT 1017780 0.469408 314743 0.295899 94296 0.453815 2058878 0.424646
РАСПОЗНАВАНИЕ ФРАГМЕНТОВ ГЕНОВ В ДНК
Компьютерная математика. 2011, № 2 115
ТАБЛИЦА 3
Классы
распознавания
Распознано
число
Не распознано
число Число Распознано
%
Не распознано
%
cds/utr/intron
lh 36848 7794 44642 0.8254 0.1746
pclass_lh 34173 10469 44642 0.7655 0.2345
cds/intron
lh 36765 3414 40179 0.9150 0.0850
pclass_lh 36969 3210 40179 0.9201 0.0799
utr/intron
lh 18950 4301 23251 0.8150 0.1850
pclass_lh 16747 6504 23251 0.7203 0.2797
cds/utr
lh 22354 3500 25854 0.8646 0.1354
pclass_lh 21996 3858 25854 0.8508 0.1492
utr как cds/intron cds intron
Распознано
как cds
Распознано
как intron
lh 1286 3177 4463 0.2881 0.7119
pclass_lh 1542 2921 4463 0.3455 0.6545
Заключение. На основе байесовского подхода и модели однородных цепей
Маркова построены простые в вычислительном плане процедуры распознавания
известных фрагментов генома организма Caenorhabditis elegans с процентом
распознавания порядка 80–90 %. В настоящее время аналогичные задачи реша-
ются на геноме человека. Полученные результаты открывают широкие возмож-
ности применения байесовских процедур на моделях цепей Маркова для распо-
знавания свойств участков оснований (генов), в том числе генетических заболе-
ваний.
І.І. Андрійчук
РОЗПІЗНАВАННЯ ФРАГМЕНТІВ ГЕНІВ У ДНК
За допомогою апарата ланцюгів Маркова та байєсівських процедур проведено розпізнання
відомих інтронно-екзонних фрагментів генів організму Caenorhabditis Elegans.
I.I. Andriychuk
RECOGNITION OF GENE FRAGMENTS IN DNA
On the basis of instrument of Bayesian approach and Markov chain, recognition procedure for gene
fragments is obtained. The procedure has high percentage of recognition (80–90 %) and is simple
and effective in computation. Its applicability is described by using Markov chains of 1-th order for
the entire array of intron-exon sequences of the genome of a Caenorhabditis Elegans organism.
И.И. АНДРЕЙЧУК
Компьютерная математика. 2011, № 2 116
1. Гупал А.М., Сергиенко И.В. Оптимальные процедуры распознавания. – Киев: Наук. дум-
ка, 2008. – 232 с.
2. Гупал А.М., Гупал Н.А., Островский А.В. Симметрия и свойства записи генетической
информации в ДНК // Проблемы управления и информатики. – 2011. – № 3. – С. 120–127.
3. NCBI ftp resource for Caenorhabditis Elegans gene regions (CDS, UTR) data
4. ftp://ftp.ncbi.nih.gov/genomes/MapView/Caenorhabditis_elegans/sequence/current/initial_relea
se/seq_gene.md.gz
5. Batzoglou S., Alexandersson M., Pachter L., Saxonov S. / Lecture – Gene Recognition,
http://ai.stanford.edu/~serafim/CS262_2006/Slides/CS262_2006_Lecture16.ppt
Получено 22.04.2011
Об авторе:
Андрейчук Иван Иванович,
младший научный сотрудник
Института кибернетики имени В.М. Глушкова НАН Украины.
vanya@ukr.net.
|
| id | nasplib_isofts_kiev_ua-123456789-84666 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | ХХХХ-0003 |
| language | Russian |
| last_indexed | 2025-11-28T03:19:17Z |
| publishDate | 2011 |
| publisher | Інститут кібернетики ім. В.М. Глушкова НАН України |
| record_format | dspace |
| spelling | Андрейчук, И.И. 2015-07-11T20:44:25Z 2015-07-11T20:44:25Z 2011 Распознавание фрагментов генов в ДНК / И.И. Андрейчук // Компьютерная математика: сб. науч. тр. — 2011. — № 2. — С. 110-115. — Бібліогр.: 5 назв. — рос. ХХХХ-0003 https://nasplib.isofts.kiev.ua/handle/123456789/84666 519.681 На основе аппарата цепей Маркова и байесовских процедур проведено распознавание известных экзонно-интронных фрагментов генов организма Caenorhabditis elegans. За допомогою апарата ланцюгів Маркова та байєсівських процедур проведено розпізнання відомих інтронно-екзонних фрагментів генів організму Caenorhabditis Elegans. On the basis of instrument of Bayesian approach and Markov chain, recognition procedure for gene fragments is obtained. The procedure has high percentage of recognition (80–90 %) and is simple and effective in computation. Its applicability is described by using Markov chains of 1-th order for the entire array of intron-exon sequences of the genome of a Caenorhabditis Elegans organism. ru Інститут кібернетики ім. В.М. Глушкова НАН України Компьютерная математика Математические модели в биологии и медицине Распознавание фрагментов генов в ДНК Розпізнавання фрагментів генів у ДНК Recognition of gene fragments in DNA Article published earlier |
| spellingShingle | Распознавание фрагментов генов в ДНК Андрейчук, И.И. Математические модели в биологии и медицине |
| title | Распознавание фрагментов генов в ДНК |
| title_alt | Розпізнавання фрагментів генів у ДНК Recognition of gene fragments in DNA |
| title_full | Распознавание фрагментов генов в ДНК |
| title_fullStr | Распознавание фрагментов генов в ДНК |
| title_full_unstemmed | Распознавание фрагментов генов в ДНК |
| title_short | Распознавание фрагментов генов в ДНК |
| title_sort | распознавание фрагментов генов в днк |
| topic | Математические модели в биологии и медицине |
| topic_facet | Математические модели в биологии и медицине |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/84666 |
| work_keys_str_mv | AT andreičukii raspoznavaniefragmentovgenovvdnk AT andreičukii rozpíznavannâfragmentívgenívudnk AT andreičukii recognitionofgenefragmentsindna |