Правила симметрии в записи генетической информации в ДНК
Показано, що для пар основ можливі два види симетрії, але в природі реалізований один, ефективніший спосіб запису і зчитування інформації. Доведено, що з симетрії послідовностей основ випливає симетрія коротких послідовностей, зокрема окремих основ. За допомогою моделі ланцюгів Маркова показано, що...
Saved in:
| Date: | 2011 |
|---|---|
| Main Authors: | , , |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2011
|
| Series: | Кибернетика и системный анализ |
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/84203 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Правила симметрии в записи генетической информации в ДНК / И.В. Сергиенко, А.М. Гупал, А.А. Вагис // Кибернетика и системный анализ. — 2011. — Т. 47, № 3. — С. 88-94. — Бібліогр.: 5 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-84203 |
|---|---|
| record_format |
dspace |
| spelling |
nasplib_isofts_kiev_ua-123456789-842032025-02-23T17:45:50Z Правила симметрии в записи генетической информации в ДНК Правила симетрії у записі генетичної інформації в ДНК Symmetry in recording genetic information in DNA Сергиенко, И.В. Гупал, А.М. Вагис, А.А. Системный анализ Показано, що для пар основ можливі два види симетрії, але в природі реалізований один, ефективніший спосіб запису і зчитування інформації. Доведено, що з симетрії послідовностей основ випливає симетрія коротких послідовностей, зокрема окремих основ. За допомогою моделі ланцюгів Маркова показано, що симетрія послідовностей основ випливає з симетрії пар основ It is shown that, for pairs of bases, two types of symmetry are possible, but only one more efficient method of recording and reading information is realized in nature. It is proved that the symmetry of short sequences including separate bases follows from the symmetry of sequences of bases. Based on a model of Markov chains, it is shown that the symmetry of sequences of bases follows from the symmetry of pair of bases. Работа выполнена в рамках проекта НАН Украины и Российского фонда фундаментальных исследований 2010–2011 гг. при финансовой поддержке Президиума НАН Украины. 2011 Article Правила симметрии в записи генетической информации в ДНК / И.В. Сергиенко, А.М. Гупал, А.А. Вагис // Кибернетика и системный анализ. — 2011. — Т. 47, № 3. — С. 88-94. — Бібліогр.: 5 назв. — рос. 0023-1274 https://nasplib.isofts.kiev.ua/handle/123456789/84203 519.217.2 ru Кибернетика и системный анализ application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| language |
Russian |
| topic |
Системный анализ Системный анализ |
| spellingShingle |
Системный анализ Системный анализ Сергиенко, И.В. Гупал, А.М. Вагис, А.А. Правила симметрии в записи генетической информации в ДНК Кибернетика и системный анализ |
| description |
Показано, що для пар основ можливі два види симетрії, але в природі реалізований один, ефективніший спосіб запису і зчитування інформації. Доведено, що з симетрії послідовностей основ випливає симетрія коротких послідовностей, зокрема окремих основ. За допомогою моделі ланцюгів Маркова показано, що симетрія послідовностей основ випливає з симетрії пар основ |
| format |
Article |
| author |
Сергиенко, И.В. Гупал, А.М. Вагис, А.А. |
| author_facet |
Сергиенко, И.В. Гупал, А.М. Вагис, А.А. |
| author_sort |
Сергиенко, И.В. |
| title |
Правила симметрии в записи генетической информации в ДНК |
| title_short |
Правила симметрии в записи генетической информации в ДНК |
| title_full |
Правила симметрии в записи генетической информации в ДНК |
| title_fullStr |
Правила симметрии в записи генетической информации в ДНК |
| title_full_unstemmed |
Правила симметрии в записи генетической информации в ДНК |
| title_sort |
правила симметрии в записи генетической информации в днк |
| publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
| publishDate |
2011 |
| topic_facet |
Системный анализ |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/84203 |
| citation_txt |
Правила симметрии в записи генетической информации в ДНК / И.В. Сергиенко, А.М. Гупал, А.А. Вагис // Кибернетика и системный анализ. — 2011. — Т. 47, № 3. — С. 88-94. — Бібліогр.: 5 назв. — рос. |
| series |
Кибернетика и системный анализ |
| work_keys_str_mv |
AT sergienkoiv pravilasimmetriivzapisigenetičeskojinformaciivdnk AT gupalam pravilasimmetriivzapisigenetičeskojinformaciivdnk AT vagisaa pravilasimmetriivzapisigenetičeskojinformaciivdnk AT sergienkoiv pravilasimetrííuzapisígenetičnoíínformacíívdnk AT gupalam pravilasimetrííuzapisígenetičnoíínformacíívdnk AT vagisaa pravilasimetrííuzapisígenetičnoíínformacíívdnk AT sergienkoiv symmetryinrecordinggeneticinformationindna AT gupalam symmetryinrecordinggeneticinformationindna AT vagisaa symmetryinrecordinggeneticinformationindna |
| first_indexed |
2025-11-24T05:54:16Z |
| last_indexed |
2025-11-24T05:54:16Z |
| _version_ |
1849649954654519296 |
| fulltext |
ÓÄÊ 519.217.2
È.Â. ÑÅÐÃÈÅÍÊÎ, À.Ì. ÃÓÏÀË, À.À. ÂÀÃÈÑ
ÏÐÀÂÈËÀ ÑÈÌÌÅÒÐÈÈ Â ÇÀÏÈÑÈ
ÃÅÍÅÒÈ×ÅÑÊÎÉ ÈÍÔÎÐÌÀÖÈÈ Â ÄÍÊ1
Êëþ÷åâûå ñëîâà: îñíîâàíèÿ, êîìïëåìåíòàðíîñòü, ñèììåòðèÿ, öåïü Ìàðêîâà,
ïåðåõîäíûå âåðîÿòíîñòè.
ÂÂÅÄÅÍÈÅ
Ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè, èëè ñèììåòðèè, â çàïèñè îñíîâàíèé, ïîä-
ñ÷èòàííûõ ïî îäíîé íèòè â õðîìîñîìàõ ÄÍÊ, èññëåäîâàëèñü â ðàáîòàõ [1–3]
(â [1] ñîäåðæèòñÿ ñïèñîê ëèòåðàòóðû ïî äàííîìó âîïðîñó). Â [2, 3] ñîîòíîøå-
íèÿ ñèììåòðèè ïðèâåäåíû â âèäå êîðîòêèõ ôîðìóë, ÷òî çíà÷èòåëüíî óïðîùà-
åò âîñïðèÿòèå ýòèõ ðåçóëüòàòîâ è ÿâëÿåòñÿ îñíîâîé ïîñòðîåíèÿ ìàòåìàòè÷åñ-
êîãî àïïàðàòà â öåëÿõ ïîëó÷åíèÿ íîâûõ ðåçóëüòàòîâ. Ñòàòèñòè÷åñêèé àíàëèç
ïîäòâåðäèë âûïîëíåíèå ñîîòíîøåíèé ñèììåòðèè îòíîñèòåëüíî ãåíîìîâ áàêòå-
ðèé, ðàñòåíèé, âûñøèõ îðãàíèçìîâ (ïðèìåðíî ñòî ãåíîìîâ), â òîì ÷èñëå
â ÄÍÊ ÷åëîâåêà [2, 3]. Òàêèì îáðàçîì, â çàïèñè ãåíåòè÷åñêîé èíôîðìàöèè
â ÄÍÊ ÿâíî íàáëþäàåòñÿ ñèììåòðèÿ, îäíàêî äî íàñòîÿùåãî âðåìåíè íå âûÿñ-
íåíû ïðè÷èíû, êîòîðûå îáúÿñíÿþò ýòîò ôåíîìåí â ïðèðîäå.
 íàñòîÿùåé ðàáîòå ïîëó÷åíû íîâûå ïðàâèëà â çàïèñè îñíîâàíèé ïî îäíîé
íèòè â õðîìîñîìàõ ÄÍÊ. Äîêàçàíî, ÷òî èç ñèììåòðèè ïîñëåäîâàòåëüíîñòåé îñíî-
âàíèé âûòåêàåò ñèììåòðèÿ êîðîòêèõ ïîñëåäîâàòåëüíîñòåé, â òîì ÷èñëå îòäåëü-
íûõ îñíîâàíèé. Äëÿ ïàð îñíîâàíèé âîçìîæíû äâà âèäà ñèììåòðèè, íî â ïðèðîäå
ðåàëèçîâàí îäèí, áîëåå ýôôåêòèâíûé ñïîñîá çàïèñè è ñ÷èòûâàíèÿ èíôîðìàöèè.
Íà îñíîâå ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà ïîêàçàíî, ÷òî ñèììåòðèÿ äëÿ
òðîåê, ÷åòâåðîê è êîðîòêèõ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé âûòåêàåò èç ñèììåò-
ðèè ïàð îñíîâàíèé.
ÑÈÌÌÅÒÐÈß ÎÑÍÎÂÀÍÈÉ
ÄÍÊ èìååò ôîðìó äâîéíîé ñïèðàëè, èíôîðìàöèÿ çàïèñàíà â ÷åòûðåõáóêâåí-
íîì àëôàâèòå îñíîâàíèé: àäåíèí (A), öèòîçèí (C), ãóàíèí (G), òèìèí (T).
Èçâåñòíî, ÷òî C — G, A — T — êîìïëåìåíòàðíûå ïàðû îñíîâàíèé, ñâÿçûâà-
þùèå äâå öåïè. Õðîìîñîìû — íåäåëèìûå ó÷àñòêè ÄÍÊ, â íèõ ñîäåðæèòñÿ
èíôîðìàöèÿ îòíîñèòåëüíî òûñÿ÷ ãåíîâ, ïîýòîìó ðàñ÷åòû ïðîâîäèëèñü íà
óðîâíå âñåé õðîìîñîìû, à íå îòäåëüíîãî ãåíà.
Çàïèñü è ñ÷èòûâàíèå îñíîâàíèé ïî ïåðâîé êîìïëåìåíòàðíîé íèòè õðîìîñî-
ìû ÄÍÊ âûïîëíÿåòñÿ ñëåâà íàïðàâî â íàïðàâëåíèè 5 3� � �, ïî âòîðîé — ñïðàâà
íàëåâî â íàïðàâëåíèè 5 3� � � (ðèñ. 1). Ïðèâîäèìûå äàëåå ñîîòíîøåíèÿ, êàê ïðà-
âèëî, âûïîëíÿþòñÿ ïðèáëèæåííî.
88 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3
�5 _________AC______GT______�____ �3 1-ÿ íèòü
......................................��...........................
�3 _________TG______CA______�____ �5 2-ÿ íèòü
Ðèñ 1. Óñëîâíàÿ çàïèñü äâóõ íèòåé õðîìîñîìû
1Ðàáîòà âûïîëíåíà â ðàìêàõ ïðîåêòà ÍÀÍ Óêðàèíû è Ðîññèéñêîãî ôîíäà ôóíäàìåíòàëüíûõ
èññëåäîâàíèé 2010–2011 ãã. ïðè ôèíàíñîâîé ïîääåðæêå Ïðåçèäèóìà ÍÀÍ Óêðàèíû.
© È.Â. Ñåðãèåíêî, À.Ì. Ãóïàë, À.À. Âàãèñ, 2011
Äëÿ îñíîâàíèé, çàïèñàííûõ ïî îäíîé íèòè ÄÍÊ õðîìîñîìû, âûïîëíÿþòñÿ
ïðèáëèæåííûå ñîîòíîøåíèÿ
n n( ) ( )A T� , n n( ) ( )C G� , (1)
ãäå n j( ) — êîëè÷åñòâî îñíîâàíèé j, j �{A,C,G,T}, âû÷èñëåííûõ íà îäíîé
íèòè.
Çàìåòèì, ÷òî èç êîìïëåìåíòàðíîñòè ïàð îñíîâàíèé ïî äâóì íèòÿì ÄÍÊ íå
ñëåäóåò, ÷òî çíà÷åíèÿ áóêâ A è T, à òàêæå C è G, ïîäñ÷èòàííûå ïî îäíîé íèòè,
ñîâïàäàþò ìåæäó ñîáîé.
Èç ñîîòíîøåíèé (1) âûòåêàåò, ÷òî êîëè÷åñòâà êàæäîãî îñíîâàíèÿ, ïîäñ÷è-
òàííîãî ïî ïåðâîé è âòîðîé íèòè, ñîâïàäàþò:
n( )A,1 � n( )A,2 , n( )T,1 � n( )T,2 , n( )C,1 � n( )C,2 , n n( ) ( )G,1 G,2� . (2)
Òàêèì îáðàçîì, èìååò ìåñòî ñèììåòðèÿ îòíîñèòåëüíî çàïèñè îñíîâàíèé ïî
êàæäîé íèòè ÄÍÊ. Îòñþäà ñëåäóåò âàæíûé âûâîä î òîì, ÷òî âåñà äâóõ íèòåé
ñîâïàäàþò.
ÑÈÌÌÅÒÐÈß ÏÀÐ ÎÑÍÎÂÀÍÈÉ
Ðàñ÷åòû ïîêàçàëè, ÷òî äëÿ ïàð îñíîâàíèé âûïîëíÿþòñÿ ñîîòíîøåíèÿ
n n n n( ) ( ), ( ) ( ),AC GT AG CT� �
n n n n( ) ( ), ( ) ( ),TC GA TG CA� � (3)
n n n n( ) ( ), ( ) ( ),AA TT CC GG� �
èëè êîðî÷å, â âèäå ôîðìóëû
n ij n ji( ) ( )� , (4)
ãäå i j, ,�{A,C,G,T} A T� , C G� , T A� , G C� . Çàìåòèì, ÷òî ïàðû AT, TA, CG
è GC íå âõîäÿò â (3), ïîñêîëüêó îíè ïðèâîäÿò ê òàâòîëîãèè. Â òàáë. 1 ïðèâå-
äåíû çíà÷åíèÿ ïàð îñíîâàíèé â ãåíîìå ÷åëîâåêà [2].
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3 89
Ò à á ë è ö à 1
Ïàðà
îñíîâàíèé
Êîëè÷åñòâo ïàð îñíîâàíèé â ãåíîìå ÷åëîâåêà ïî îäíîé íèòè ÄÍÊ
Õðîìîñîìà 1 Õðîìîñîìà 3 Õðîìîñîìà 6 Õðîìîñîìà 10 Õðîìîñîìà 18
AA 21 191 409 19 746 023 17 083 089 12 607 303 7 553 856
TT 21 245 312 19 772 366 17 080 492 12 628 305 7 560 778
AC 11 189 673 9 791 735 8 417 550 6 641 892 3 762 190
GT 11 209 763 9 798 222 8 411 037 6 651 425 3 776 890
AG 15 878 823 13 482 539 11 543 173 9 275 834 5 136 579
CT 15 904 404 13 478 613 11 532 563 9 286 062 5 138 944
CA 16 200 299 13 972 734 11 983 646 9 656 789 5 382 301
TG 16 226 750 13 970 283 11 984 196 9 667 666 5 401993
CC 12 132 633 9 518 322 8 128 472 7 073 095 3 640 163
GG 12 121 539 9 520 091 8 140 958 7 062 604 3 647 384
GA 13 313 713 11 472 583 9 879 809 7 851 856 4 411 285
TC 13 322 934 11 477 596 9 862 177 7 860 740 4 408 666
AT 16 615 348 15 646 889 13 495 077 9 896 788 6 012 563
TA 14 169 829 13 466 193 11 592 344 8 305 870 5 117 737
CG 2 256 627 1 620 941 1 473 327 1 353 534 677 210
GC 9 838 754 7 836 943 6 709 818 5 793 769 3 027 601
Èç ñîîòíîøåíèé (3), (4) âûòåêàåò ñèììåòðèÿ îòíîñèòåëüíî çàïèñè 16 ïàð
îñíîâàíèé ïî êàæäîé íèòè ÄÍÊ
n ij( ,1) = n ij( , 2), (5)
ãäå i j, �{A,C,G,T}.
Èçâåñòíî, ÷òî ñîîòíîøåíèÿ
� ( )
( )
( )
p ij
n ij
n i
� , (6)
ãäå n ij( ) — ÷èñëî ïàð ( )ij , i j, �{A,C,G,T}, n i( ) — ÷èñëî îñíîâàíèé i â öåïè
õðîìîñîìû, ïðåäñòàâëÿþò ñîáîé îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé äëÿ îäíî-
ðîäíûõ öåïåé Ìàðêîâà [4].
 îòëè÷èå îò íåçàâèñèìûõ áåðíóëëèåâñêèõ âåëè÷èí ìàòåìàòè÷åñêîå îæèäà-
íèå îöåíîê ïåðåõîäíûõ âåðîÿòíîñòåé, ïîñòðîåííûõ â âèäå ÷àñòîò, ñìåùåíî è íå
ñîâïàäàåò ñ òî÷íûìè çíà÷åíèÿìè âåðîÿòíîñòåé.  [4] ïîêàçàíî, ÷òî îöåíêè ïåðå-
õîäíûõ âåðîÿòíîñòåé àñèìïòîòè÷åñêè íîðìàëüíû, è âûâåäåíû ôîðìóëû äèñïåð-
ñèè è êîâàðèàöèè îöåíîê äëÿ ýòîãî ïðåäåëüíîãî ðàñïðåäåëåíèÿ.
Èç (5) è (6) âûòåêàåò, ÷òî âòîðàÿ êîìïëåìåíòàðíàÿ íèòü â íàïðàâëåíèè
5 3� � � èìååò òàêèå æå îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé � ( )p ij , êàê è èñõîäíàÿ
ïåðâàÿ íèòü (ðèñ. 1). Îòñþäà ñëåäóåò, ÷òî âåðîÿòíîñòè äâóõ ïðîòèâîïîëîæíûõ
íèòåé õðîìîñîìû, ïîäñ÷èòàííûå â ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà íà îñíîâå
îöåíîê ïåðåõîäíûõ âåðîÿòíîñòåé (6), ñîâïàäàþò.
Ëåãêî çàìåòèòü, ÷òî äëÿ ëþáîé ïîñëåäîâàòåëüíîñòè áåç ïðîïóñêîâ áóêâ
ñ òî÷íîñòüþ äî åäèíèöû âûïîëíÿþòñÿ ñîîòíîøåíèÿ
n i n i n i n i n i( ) ( ) ( ) ( ) ( )� � � � �A C G T
� � � �n i n i n i n i( ) ( ) ( ) ( ),A C G T (7)
ãäå i �{A,C,G,T}, ò.å. êîëè÷åñòâî êàæäîé áóêâû òåêñòà ìîæíî ïîäñ÷èòàòü íà
îñíîâå êîëè÷åñòâ ïàð áóêâ.
Äëÿ îñíîâàíèÿ A èç (7) ïîëó÷àåì ñâÿçûâàþùåå îãðàíè÷åíèå äëÿ ïàð AT, TA,
êîòîðûå íå âõîäÿò â (3),
n n n n n n( ) ( ) ( ) ( ) ( ) ( ),CA GA TA AC AG AT� � � � � (8)
äëÿ îñíîâàíèÿ C èç (7) — îãðàíè÷åíèå äëÿ ïàð CG è GC
n n n n n n( ) ( ) ( ) ( ) ( ) ( ).AC GC TC CA CG CT� � � � � (9)
Äëÿ îñíîâàíèé T è G ñ ó÷åòîì (3) ïîëó÷àåì òå æå ñîîòíîøåíèÿ, ÷òî è â (8), (9).
Íàïðèìåð, äëÿ õðîìîñîìû 6 ãåíîìà ÷åëîâåêà (òàáë. 1) èìååì
n n n n n n( ) ( ) ( ) , ( ) ( ) ( )CA GA TA AC AG AT� � � � � �33 455 799 33 455 800.
Îäíà èç îñîáåííîñòåé â àíàëèçå ïîñëåäîâàòåëüíîñòåé îñíîâàíèé ñîñòîèò
â òîì, ÷òî ÷àñòîòû âñòðå÷àåìîñòè ñîñåäíèõ áóêâ íå ÿâëÿþòñÿ íåçàâèñèìûìè [5].
×àñòîòû ïàð ñîñåäíèõ îñíîâàíèé îòëè÷àþòñÿ îò ïðîèçâåäåíèé ÷àñòîò ñàìèõ
îñíîâàíèé, ò.å.
n ij
n
n i
n
n j
n
( ) ( ) ( )
� , i j, �{A,C,G,T}, n — äëèíà õðîìîñîìû. Ýòî î÷å-
âèäíî, íàïðèìåð, äëÿ ïàð CG è GC â òàáë. 1.
Çàìåòèì, ÷òî ñèììåòðèÿ (5) ìîæåò íàáëþäàòüñÿ òàêæå è äëÿ ñîîòíîøåíèé
n ij n i j( ) ( )� , ò.å. êîãäà îáå íèòè õðîìîñîìû èìåþò îäèíàêîâûå íàïðàâëåíèÿ çàïè-
ñè è ñ÷èòûâàíèÿ îñíîâàíèé. Îäíàêî â ïðèðîäå òàêîé âèä ñèììåòðèè íå ðåàëèçî-
âàí è â äàííîé ðàáîòå íå ðàññìàòðèâàåòñÿ, ïîñêîëüêó òðåáóåò îòäåëüíîãî îáñóæ-
äåíèÿ. Ó ñèììåòðèè âèäà n ij n ji( ) ( )� áîëüøå ñòåïåíåé ñâîáîäû, ÷åì ó ñèììåò-
90 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3
ðèè n ij n i j( ) ( )� , è ñ òî÷êè çðåíèÿ òåîðèè èíôîðìàöèè îíà áîëåå ýôôåêòèâíà.
Ïîýòîìó èç ñèììåòðèè îñíîâàíèé (1), (2) íåëüçÿ âûâåñòè ñèììåòðèþ ïàð îñíîâà-
íèé. Îáðàòíîå óòâåðæäåíèå ñïðàâåäëèâî.
Óòâåðæäåíèå 1. Èç ñèììåòðèè ïàð îñíîâàíèé âûòåêàåò ñèììåòðèÿ îñíîâàíèé.
Äåéñòâèòåëüíî, ñ ïîìîùüþ ñîîòíîøåíèé (7) êîëè÷åñòâà îñíîâàíèé n( )A è
n( )T çàïèñûâàþòñÿ â âèäå ðàâåíñòâ
n n n n n( ) ( ) ( ) ( ) ( ),A AA AC AG AT� � � �
n n n n n( ) ( ) ( ) ( ) ( .T TA TC TG TT)� � � �
Ñ ó÷åòîì n ij n ji( ) ( )� , i j, �{A,C,G,T}, è ñîîòíîøåíèÿ (8), êîòîðîå ïðèíèìàåò
âèä
n n n n n n( ) ( ) ( ) ( ) ( ) ( ),AC AG AT TA GA CA� � � � �
ïîëó÷àåì n n( ) ( )A T� .
Âûâîä ðàâåíñòâà n n( ) ( )C G� âûïîëíÿåòñÿ àíàëîãè÷íî íà îñíîâå (7), (9) è ñî-
îòíîøåíèé n ij n ji( ) ( )� , i j, �{A,C,G,T}:
n n n n n n( ) ( ) ( ) ( ) ( ) ( ).AC GC TC CA CG CT� � � � �
ÑÈÌÌÅÒÐÈß ÒÐÎÅÊ ÎÑÍÎÂÀÍÈÉ
Êîäîíû (òðîéêè îñíîâàíèé) ñâÿçàíû ñëåäóþùèìè ñîîòíîøåíèÿìè:
n ijk n kji( ) ( )� . (10)
Çäåñü n ijk( ) — ÷èñëî òðîåê îñíîâàíèé ( )ijk , i j k, , �{A,C,G,T}, ( )kji — àíòèêî-
äîí êîäîíà ( )ijk .  ðàáîòå [2] äëÿ 64 òðèïëåòîâ ïîëó÷åíû 32 ñîîòíîøåíèÿ
âèäà (10) òèïà êîäîí–àíòèêîäîí â õðîìîñîìå 6 ãåíîìà ÷åëîâåêà (òàáë. 2).
Àíàëîãè÷íî (5) èç ñîîòíîøåíèé (10) âûòåêàåò ñèììåòðèÿ îòíîñèòåëüíî çà-
ïèñè 64 òðîåê îñíîâàíèé äëÿ êàæäîé íèòè ÄÍÊ
n ijk n ijk( , ( ,1) )� 2 . (11)
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3 91
Ò à á ë è ö à 2
Êîäîí
×èñëî
êîäîíîâ
Êîäîí
×èñëî
êîäîíîâ
Êîäîí
×èñëî
êîäîíîâ
Êîäîí
×èñëî
êîäîíîâ
AAA 6 742 017 TTT 6 744 661 CAG 3 216 761 CTG 3 217 346
AAC 2 509 339 GTT 2 507 886 CCA 2 932 409 TGG 2 932 367
AAG 3 412 535 CTT 3 407 422 CCC 1 980 135 GGG 1 986 846
AAT 4 419 198 ATT 4 420 523 CCG 394 680 CGG 396 760
ACA 3 417 383 TGT 3 417 331 CGA 341 096 TCG 340 572
ACC 1 872 766 GGT 1 869 465 CGC 345 302 GCG 346 653
ACG 391 422 CGT 390 169 CTA 2 226 977 TAG 2 227 635
ACT 2 735 979 AGT 2 734 072 CTC 2 680 818 GAG 2 686 241
AGA 3 741 389 TCT 3 735 896 GAA 3 394 901 TTC 3 388 807
AGC 2 242 727 GCT 2 239 440 GAC 1 533 503 GTC 1 532 047
AGG 2 824 985 CCT 2 821 248 GCA 2 330 699 TGC 2 327 157
ATA 3 684 661 TAT 3 682 369 GCC 1 793 026 GGC 1 794 632
ATC 2 260 505 GAT 2 265 164 GGA 2 490 014 TCC 2 482 545
ATG 3 129 388 CAT 3 128 346 GTA 1 962 626 TAC 1 966 011
CAA 3 229 842 TTG 3 228 944 TAA 3 716 329 TTA 3 718 080
CAC 2 408 697 GTG 2 408 478 TCA 3 303 155 TGA 3 307 301
Äëÿ 16 ïàð îñíîâàíèé ( )ij , i j, �{A,C,G,T}, ñïðàâåäëèâû ñîîòíîøåíèÿ
n ij n ij n ij n ij n ij( ) ( ) ( ) ( ) ( )� � � � �A C G T n ij n ij n ij n ij( ) ( ) ( ) ( ).A C G T� � �
Íàïðèìåð, èç òàáë. 2 èìååì
n n n n( ) ( ) ( ) ( ) ,AAA AAC AAG AAT� � � �17 083 089
n n n n( ( ) ( ) ( ) .AAA) CAA GAA TAA� � � �17 083 089
Äëÿ øåñòè ïàð îñíîâàíèé (3), èñïîëüçóÿ ñîîòíîøåíèÿ (10), ïîëó÷àåì ñëåäó-
þùèå ñâÿçûâàþùèå îãðàíè÷åíèÿ:
n n n n n n( ) ( ) ( ) ( ) ( ) ( ),AAC AAG AAT CAA GAA TAA� � � � � (12)
n n n n n n n n( ) ( ) ( ) ( ) ( ) ( ) ( )ACA ACC ACG ACT AAC CAC GAC� � � � � � � ( ),TAC (13)
n n n n( ) ( ) ( ) ( )AGA AGC AGG AGT� � � �
� � � �n n n n( ) ( ) ( ) ( ),AAG CAG GAG TAG (14)
n n n n n n n n( ) ( ) ( ) ( ) ( ) ( ) ( )CAA CAC CAG CAT ACA CCA GCA� � � � � � � ( ),TCA (15)
n n n n n n( ) ( ) ( ) ( ) ( ) ( ),CCA CCG CCT ACC GCC TCC� � � � � (16)
n n n n n n n n( ) ( ) ( ) ( ) ( ) ( ) ( )GAA GAC GAG GAT AGA CGA GGA� � � � � � � ( ).TGA (17)
Äëÿ ïàð AT, TA, CG è GC íîâûå ñîîòíîøåíèÿ íå âûâîäÿòñÿ, ïîñêîëüêó èç
(10) ïîëó÷àåì òàâòîëîãèè. Ôîðìóëû (12)–(17) âàæíû òåì, ÷òî ñ ïîìîùüþ óíèâåð-
ñàëüíîãî ãåíåòè÷åñêîãî êîäà îíè ïåðåâîäÿòñÿ â ñîîòíîøåíèÿ äëÿ àìèíîêèñëîò.
Óòâåðæäåíèå 2. Èç ñèììåòðèè òðîåê îñíîâàíèé âûòåêàåò ñèììåòðèÿ ïàð
îñíîâàíèé.
Ñ ïîìîùüþ ðàâåíñòâ (7) äëÿ ïàð áóêâ êîëè÷åñòâà n( )AA è n( )TT çàïèñûâà-
þòñÿ â âèäå ñîîòíîøåíèé:
n n n n n( ) ( ) ( ) ( ) ( ),AA AAA AAC AAG AAT� � � �
n n n n n( ) ( ) ( ) ( ) ( ).TT TTA TTC TTG TTT� � � �
Äàííûå âûðàæåíèÿ ñ ïîìîùüþ n ijk n kji( ) ( )� ïðåîáðàçóþòñÿ â ðàâåíñòâî (12):
n n n n n n( ( ) ( ) ( ) ( ) ( ).AAC) AAG AAT TAA GAA CAA� � � � �
Äîêàçàòåëüñòâî äëÿ îñòàëüíûõ ïàð n n n n( ) ( ), ( ) ( ),CC GG AC GT� � n( )AG �
� � �n n n n n( ), ( ) ( ), ( ) ( )CT CA TG GA TC ïðîâîäèòñÿ àíàëîãè÷íî ñ ó÷åòîì ôîðìóë
(13)–(17).
Òàêèì îáðàçîì, èç ñèììåòðèè ïîñëåäîâàòåëüíîñòåé îñíîâàíèé ïî èíäóêöèè
âûòåêàåò ñèììåòðèÿ êîðîòêèõ ïîñëåäîâàòåëüíîñòåé.
Çàìåòèì, ÷òî ñîîòíîøåíèÿ (12)–(17) âûïîëíÿþòñÿ äëÿ ìîäåëè îäíîðîäíîé
öåïè Ìàðêîâà:
� ( � ( ) � (p p pAAC) AAG AAT)� � � � ( � ( � (p p pCAA) GAA) TAA)� � ,
� ( � ( ) � (p p pAAC) AAG AAT)� � �
n n
nn
(
(
AA) (AC)
A)
�
n n
nn
(
(
AA) (AG)
A)
�
� �
n n
nn
(
(
AA) (AT)
A)
n n n n
nn
(
(
AA)( (AC) (AG) (AT))
A)
� �
,
92 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3
� ( � ( � (p p pCAA) GAA) TAA)� � �
n n
nn
(
(
CA) (AA)
A)
�
n n
nn
(
(
GA) (AA)
A)
�
n n
nn
(
(
TA) (AA)
A)
�
�
� �n n n n
nn
(
(
AA)( (CA) (GA) (TA))
A)
.
Îñòàåòñÿ âîñïîëüçîâàòüñÿ ôîðìóëîé (8). Äëÿ îáîñíîâàíèÿ (13), ó÷èòûâàÿ
ôîðìóëó (7), ïîëó÷àåì
� ( � ( ) � ( �p p p pACA) ACC ACG) (ACT)� � � �
�
� � �
�
n n n n n
nn
(
(
AC)( (CA) (CC) (CG) (CT))
C)
n n
nn
(
(
AC) (C)
C)
,
� ( � ( ) � ( �p p p pAAC) CAC GAC) (TAC)� � � �
�
� � �
�
n n n n n
nn
(
(
AC)( (AA) (CA) (GA) (TA))
A)
n n
nn
(
(
AC) (A)
A)
.
Àíàëîãè÷íûì îáðàçîì âûïîëíÿþòñÿ ôîðìóëû (14)–(17).
Ïîñêîëüêó ñèììåòðèÿ â çàïèñè îñíîâàíèé ïî íèòÿì â ÄÍÊ îáíàðóæåíà ýì-
ïèðè÷åñêè è â íàñòîÿùåå âðåìÿ íå ñóùåñòâóåò îáúÿñíåíèÿ ýòîãî ôåíîìåíà â ïðè-
ðîäå, âàæíî ïîñòðîèòü ìîäåëü, ïîäòâåðæäàþùóþ ñèììåòðèþ ïîñëåäîâàòåëüíîñ-
òåé îñíîâàíèé íà îñíîâå ñèììåòðèè êîðîòêèõ ïîñëåäîâàòåëüíîñòåé.
Óòâåðæäåíèå 3. Äëÿ ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà ñèììåòðèÿ òðîåê
îñíîâàíèé âûòåêàåò èç ñèììåòðèè îñíîâàíèé è ñèììåòðèè ïàð îñíîâàíèé.
Èç ñîîòíîøåíèé (1), (4) ñëåäóåò, ÷òî äëÿ îäíîðîäíîé öåïè Ìàðêîâà îöåíêè
âåðîÿòíîñòåé òðîåê îñíîâàíèé ( )ijk è ( )kji ñîâïàäàþò:
np ijk
n i n ij n jk
n i n j
np kji
n k n kj� ( )
( ) ( ) ( )
( ) ( )
� ( )
( ) ( )
� � �
n ji
n k n j
( )
( ) ( )
,
ãäå n — äëèíà õðîìîñîìû. Òàêèì îáðàçîì, îæèäàåìîå ÷èñëî ïîâòîðîâ òðîåê
îñíîâàíèé ( )ijk è ( )kji ñîâïàäàåò ïî äëèíå õðîìîñîìû.
Ñèììåòðèÿ äëÿ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé òàêæå ïîäòâåðæäàåòñÿ äëÿ
ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà è âûòåêàåò èç ñèììåòðèè ïàð îñíîâàíèé. Ýòîò
ðåçóëüòàò ÿâëÿåòñÿ ñëåäñòâèåì âàæíîãî óòâåðæäåíèÿ.
Óòâåðæäåíèå 4. Îöåíêà âåðîÿòíîñòè ïîñëåäîâàòåëüíîñòè x x x xn n1 2 1, , ..., ,
ñîâïàäàåò ñ îöåíêîé âåðîÿòíîñòè ïîñëåäîâàòåëüíîñòè x x x xn n, ,
1 2 1� , ò.å.
� ( , , ..., , ) � ( , , )p x x x x p x x x xn n n n1 2 1 1 2 1 �
� . (18)
Âåðîÿòíîñòü îäíîðîäíîé öåïè Ìàðêîâà îïðåäåëÿåòñÿ ñîîòíîøåíèåì
p x x x x p x p x x p x xn n n n( , , ..., , ) ( ) ( , )... ( , )1 2 1 1 1 2 1 � , (19)
ãäå p x( )1 — âåðîÿòíîñòü íà÷àëüíîãî ñîñòîÿíèÿ, p x xi i( , ) 1 — ïåðåõîäíûå âå-
ðîÿòíîñòè, i n�1 2, , ..., .
Çàìåíèâ âåðîÿòíîñòü íà÷àëüíîãî ñîñòîÿíèÿ ÷àñòîòîé, à ïåðåõîäíûå âåðîÿò-
íîñòè p x xi i( , ) 1 â (19) — èõ îöåíêàìè (6), ïîëó÷èì
� ( , , ..., , )p x x x xn n1 2 1 �
n x n x x n x x n x x
nn x n x n
n n( ) ( , ) ( , )... ( , )
( ) ( )... (
1 1 2 2 3 1
1 2
xn 1 )
,
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3 93
� ( , , )p x x x xn n
�1 2 1�
n x n x x n x x n x x
nn x n x
n n n n n
n n
( ) ( , ) ( , )... ( , )
( ) (
1 1 2 2 1
1 )... ( )n x2
,
ïîýòîìó èç ñîîòíîøåíèé (1), (4) èìååì (18).
Ó÷èòûâàÿ, ÷òî äëÿ ìîäåëè öåïåé Ìàðêîâà ñèììåòðèÿ ïîñëåäîâàòåëüíîñòåé
îñíîâàíèé âûòåêàåò èç ñèììåòðèè ïàð, à èç ñèììåòðèè ïàð ñëåäóåò ñèììåòðèÿ
îñíîâàíèé, ñîîòíîøåíèÿ äëÿ ïàð n ij n ji( ) ( )� , i j, �{A,C,G,T}, ÿâëÿþòñÿ îñíîâ-
íûìè â çàïèñè ãåíåòè÷åñêîé èíôîðìàöèè â ÄÍÊ.
Ñ ïîìîùüþ ìîäåëè öåïåé Ìàðêîâà ìîæíî ëåãêî ñãåíåðèðîâàòü ñëó÷àéíóþ ïî-
ñëåäîâàòåëüíîñòü, äëÿ êîòîðîé áóäåò âûïîëíÿòüñÿ ñèììåòðèÿ âèäà (4), (10). Íà
îñíîâå îöåíîê ïåðåõîäíûõ âåðîÿòíîñòåé (6), òàáë. 1 è ïðîãðàììû ïñåâäîñëó÷àéíûõ
÷èñåë ñòðîèòñÿ ñëó÷àéíàÿ ïîñëåäîâàòåëüíîñòü îñíîâàíèé, ñîâïàäàþùàÿ ïî äëèíå
ñ õðîìîñîìîé ÷åëîâåêà. Ðàñ÷åòû ïîêàçàëè, ÷òî îòíîñèòåëüíàÿ ðàçíîñòü ìåæäó òðîé-
êàìè îñíîâàíèé â (10) çíà÷èòåëüíî ìåíüøå 1%. Òàêèì îáðàçîì, ìîäåëü Ìàðêîâà
óáåäèòåëüíî ïîäòâåðæäàåò ñèììåòðèþ êîðîòêèõ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé.
ÇÀÊËÞ×ÅÍÈÅ
 íàñòîÿùåé ðàáîòå ïîëó÷åíû íîâûå ñâÿçûâàþùèå îãðàíè÷åíèÿ (8), (9) äëÿ ïàð
AT, TA, CG è GC, êîòîðûå íå âõîäèëè â ñîîòíîøåíèÿ (3) äëÿ ïàð îñíîâàíèé.
Àíàëîãè÷íûì îáðàçîì ïîëó÷åíû íîâûå îãðàíè÷åíèÿ (12)–(17) äëÿ òðîåê îñíîâà-
íèé. Ïîêàçàíî, ÷òî ñèììåòðèÿ îòäåëüíûõ îñíîâàíèé ÿâëÿåòñÿ ñëåäñòâèåì ñèì-
ìåòðèè ïàð îñíîâàíèé è ñîîòâåòñòâåííî ñèììåòðèÿ ïàð îñíîâàíèé — ñëåäñòâè-
åì ñèììåòðèè òðîåê îñíîâàíèé. Ñ ïîìîùüþ ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà
ïîäòâåðæäàåòñÿ, ÷òî ñèììåòðèÿ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé âûòåêàåò èç
ñèììåòðèè êîðîòêèõ ïîñëåäîâàòåëüíîñòåé (ïàð îñíîâàíèé).
Ðåøåíèå ñëîæíûõ çàäà÷ ïðåäñêàçàíèÿ ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêîâ
ïîêàçàëî, ÷òî åñëè ñîîòíîøåíèÿ ñèììåòðèè â çàïèñè ãåíåòè÷åñêîé èíôîðìàöèè
íå âûïîëíÿþòñÿ, òî áàéåñîâñêèå ïðîöåäóðû ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêîâà íå
ðàáîòàþò [3].
Ïîëó÷åííûå ðåçóëüòàòû îòêðûâàþò øèðîêèå âîçìîæíîñòè ïðèìåíåíèÿ
áàéåñîâñêèõ ïðîöåäóð íà ìîäåëÿõ öåïåé Ìàðêîâà äëÿ ðàñïîçíàâàíèÿ ñâîéñòâ
ó÷àñòêîâ îñíîâàíèé (ãåíîâ), ðàñïîëîæåííûõ íà íèòÿõ ÄÍÊ.
ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ
1. B a i s n � e P . - F . , H a m p s o n S . , B a l d i P . Why are complementary DNA strands symmetric? //
Bioinformatics. — 2002. — 18, N 2. — P. 1021–1033.
2. Ã ó ï à ë À . Ì . , Â à ã è ñ À . À . Êîìïëåìåíòàðíîñòü îñíîâàíèé â õðîìîñîìàõ ÄÍÊ // Ïðîáëåìû
óïðàâëåíèÿ è èíôîðìàòèêè. — 2005. — ¹ 5. — Ñ. 90–94.
3. Ã ó ï à ë À . Ì . , Ñ å ð ã è å í ê î È . Â . Îïòèìàëüíûå ïðîöåäóðû ðàñïîçíàâàíèÿ. — Êèåâ: Íàóê.
äóìêà, 2008. — 232 ñ.
4. A n d e r s o n T . W . , G o o d m a n L . A . Statistical inference about Markov chains // Ann. Math. Stat. —
1957. — 28. — P. 89–110.
5.  å é ð Á . Àíàëèç ãåíåòè÷åñêèõ äàííûõ. — Ì.: Ìèð, 1995. — 400 ñ.
Ïîñòóïèëà 11.01.2011
94 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3
|