Правила симметрии в записи генетической информации в ДНК

Показано, що для пар основ можливі два види симетрії, але в природі реалізований один, ефективніший спосіб запису і зчитування інформації. Доведено, що з симетрії послідовностей основ випливає симетрія коротких послідовностей, зокрема окремих основ. За допомогою моделі ланцюгів Маркова показано, що...

Full description

Saved in:
Bibliographic Details
Date:2011
Main Authors: Сергиенко, И.В., Гупал, А.М., Вагис, А.А.
Format: Article
Language:Russian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2011
Series:Кибернетика и системный анализ
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/84203
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Правила симметрии в записи генетической информации в ДНК / И.В. Сергиенко, А.М. Гупал, А.А. Вагис // Кибернетика и системный анализ. — 2011. — Т. 47, № 3. — С. 88-94. — Бібліогр.: 5 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-84203
record_format dspace
spelling nasplib_isofts_kiev_ua-123456789-842032025-02-23T17:45:50Z Правила симметрии в записи генетической информации в ДНК Правила симетрії у записі генетичної інформації в ДНК Symmetry in recording genetic information in DNA Сергиенко, И.В. Гупал, А.М. Вагис, А.А. Системный анализ Показано, що для пар основ можливі два види симетрії, але в природі реалізований один, ефективніший спосіб запису і зчитування інформації. Доведено, що з симетрії послідовностей основ випливає симетрія коротких послідовностей, зокрема окремих основ. За допомогою моделі ланцюгів Маркова показано, що симетрія послідовностей основ випливає з симетрії пар основ It is shown that, for pairs of bases, two types of symmetry are possible, but only one more efficient method of recording and reading information is realized in nature. It is proved that the symmetry of short sequences including separate bases follows from the symmetry of sequences of bases. Based on a model of Markov chains, it is shown that the symmetry of sequences of bases follows from the symmetry of pair of bases. Работа выполнена в рамках проекта НАН Украины и Российского фонда фундаментальных исследований 2010–2011 гг. при финансовой поддержке Президиума НАН Украины. 2011 Article Правила симметрии в записи генетической информации в ДНК / И.В. Сергиенко, А.М. Гупал, А.А. Вагис // Кибернетика и системный анализ. — 2011. — Т. 47, № 3. — С. 88-94. — Бібліогр.: 5 назв. — рос. 0023-1274 https://nasplib.isofts.kiev.ua/handle/123456789/84203 519.217.2 ru Кибернетика и системный анализ application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Системный анализ
Системный анализ
spellingShingle Системный анализ
Системный анализ
Сергиенко, И.В.
Гупал, А.М.
Вагис, А.А.
Правила симметрии в записи генетической информации в ДНК
Кибернетика и системный анализ
description Показано, що для пар основ можливі два види симетрії, але в природі реалізований один, ефективніший спосіб запису і зчитування інформації. Доведено, що з симетрії послідовностей основ випливає симетрія коротких послідовностей, зокрема окремих основ. За допомогою моделі ланцюгів Маркова показано, що симетрія послідовностей основ випливає з симетрії пар основ
format Article
author Сергиенко, И.В.
Гупал, А.М.
Вагис, А.А.
author_facet Сергиенко, И.В.
Гупал, А.М.
Вагис, А.А.
author_sort Сергиенко, И.В.
title Правила симметрии в записи генетической информации в ДНК
title_short Правила симметрии в записи генетической информации в ДНК
title_full Правила симметрии в записи генетической информации в ДНК
title_fullStr Правила симметрии в записи генетической информации в ДНК
title_full_unstemmed Правила симметрии в записи генетической информации в ДНК
title_sort правила симметрии в записи генетической информации в днк
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2011
topic_facet Системный анализ
url https://nasplib.isofts.kiev.ua/handle/123456789/84203
citation_txt Правила симметрии в записи генетической информации в ДНК / И.В. Сергиенко, А.М. Гупал, А.А. Вагис // Кибернетика и системный анализ. — 2011. — Т. 47, № 3. — С. 88-94. — Бібліогр.: 5 назв. — рос.
series Кибернетика и системный анализ
work_keys_str_mv AT sergienkoiv pravilasimmetriivzapisigenetičeskojinformaciivdnk
AT gupalam pravilasimmetriivzapisigenetičeskojinformaciivdnk
AT vagisaa pravilasimmetriivzapisigenetičeskojinformaciivdnk
AT sergienkoiv pravilasimetrííuzapisígenetičnoíínformacíívdnk
AT gupalam pravilasimetrííuzapisígenetičnoíínformacíívdnk
AT vagisaa pravilasimetrííuzapisígenetičnoíínformacíívdnk
AT sergienkoiv symmetryinrecordinggeneticinformationindna
AT gupalam symmetryinrecordinggeneticinformationindna
AT vagisaa symmetryinrecordinggeneticinformationindna
first_indexed 2025-11-24T05:54:16Z
last_indexed 2025-11-24T05:54:16Z
_version_ 1849649954654519296
fulltext ÓÄÊ 519.217.2 È.Â. ÑÅÐÃÈÅÍÊÎ, À.Ì. ÃÓÏÀË, À.À. ÂÀÃÈÑ ÏÐÀÂÈËÀ ÑÈÌÌÅÒÐÈÈ Â ÇÀÏÈÑÈ ÃÅÍÅÒÈ×ÅÑÊÎÉ ÈÍÔÎÐÌÀÖÈÈ Â ÄÍÊ1 Êëþ÷åâûå ñëîâà: îñíîâàíèÿ, êîìïëåìåíòàðíîñòü, ñèììåòðèÿ, öåïü Ìàðêîâà, ïåðåõîäíûå âåðîÿòíîñòè. ÂÂÅÄÅÍÈÅ Ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè, èëè ñèììåòðèè, â çàïèñè îñíîâàíèé, ïîä- ñ÷èòàííûõ ïî îäíîé íèòè â õðîìîñîìàõ ÄÍÊ, èññëåäîâàëèñü â ðàáîòàõ [1–3] (â [1] ñîäåðæèòñÿ ñïèñîê ëèòåðàòóðû ïî äàííîìó âîïðîñó).  [2, 3] ñîîòíîøå- íèÿ ñèììåòðèè ïðèâåäåíû â âèäå êîðîòêèõ ôîðìóë, ÷òî çíà÷èòåëüíî óïðîùà- åò âîñïðèÿòèå ýòèõ ðåçóëüòàòîâ è ÿâëÿåòñÿ îñíîâîé ïîñòðîåíèÿ ìàòåìàòè÷åñ- êîãî àïïàðàòà â öåëÿõ ïîëó÷åíèÿ íîâûõ ðåçóëüòàòîâ. Ñòàòèñòè÷åñêèé àíàëèç ïîäòâåðäèë âûïîëíåíèå ñîîòíîøåíèé ñèììåòðèè îòíîñèòåëüíî ãåíîìîâ áàêòå- ðèé, ðàñòåíèé, âûñøèõ îðãàíèçìîâ (ïðèìåðíî ñòî ãåíîìîâ), â òîì ÷èñëå â ÄÍÊ ÷åëîâåêà [2, 3]. Òàêèì îáðàçîì, â çàïèñè ãåíåòè÷åñêîé èíôîðìàöèè â ÄÍÊ ÿâíî íàáëþäàåòñÿ ñèììåòðèÿ, îäíàêî äî íàñòîÿùåãî âðåìåíè íå âûÿñ- íåíû ïðè÷èíû, êîòîðûå îáúÿñíÿþò ýòîò ôåíîìåí â ïðèðîäå.  íàñòîÿùåé ðàáîòå ïîëó÷åíû íîâûå ïðàâèëà â çàïèñè îñíîâàíèé ïî îäíîé íèòè â õðîìîñîìàõ ÄÍÊ. Äîêàçàíî, ÷òî èç ñèììåòðèè ïîñëåäîâàòåëüíîñòåé îñíî- âàíèé âûòåêàåò ñèììåòðèÿ êîðîòêèõ ïîñëåäîâàòåëüíîñòåé, â òîì ÷èñëå îòäåëü- íûõ îñíîâàíèé. Äëÿ ïàð îñíîâàíèé âîçìîæíû äâà âèäà ñèììåòðèè, íî â ïðèðîäå ðåàëèçîâàí îäèí, áîëåå ýôôåêòèâíûé ñïîñîá çàïèñè è ñ÷èòûâàíèÿ èíôîðìàöèè. Íà îñíîâå ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà ïîêàçàíî, ÷òî ñèììåòðèÿ äëÿ òðîåê, ÷åòâåðîê è êîðîòêèõ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé âûòåêàåò èç ñèììåò- ðèè ïàð îñíîâàíèé. ÑÈÌÌÅÒÐÈß ÎÑÍÎÂÀÍÈÉ ÄÍÊ èìååò ôîðìó äâîéíîé ñïèðàëè, èíôîðìàöèÿ çàïèñàíà â ÷åòûðåõáóêâåí- íîì àëôàâèòå îñíîâàíèé: àäåíèí (A), öèòîçèí (C), ãóàíèí (G), òèìèí (T). Èçâåñòíî, ÷òî C — G, A — T — êîìïëåìåíòàðíûå ïàðû îñíîâàíèé, ñâÿçûâà- þùèå äâå öåïè. Õðîìîñîìû — íåäåëèìûå ó÷àñòêè ÄÍÊ, â íèõ ñîäåðæèòñÿ èíôîðìàöèÿ îòíîñèòåëüíî òûñÿ÷ ãåíîâ, ïîýòîìó ðàñ÷åòû ïðîâîäèëèñü íà óðîâíå âñåé õðîìîñîìû, à íå îòäåëüíîãî ãåíà. Çàïèñü è ñ÷èòûâàíèå îñíîâàíèé ïî ïåðâîé êîìïëåìåíòàðíîé íèòè õðîìîñî- ìû ÄÍÊ âûïîëíÿåòñÿ ñëåâà íàïðàâî â íàïðàâëåíèè 5 3� � �, ïî âòîðîé — ñïðàâà íàëåâî â íàïðàâëåíèè 5 3� � � (ðèñ. 1). Ïðèâîäèìûå äàëåå ñîîòíîøåíèÿ, êàê ïðà- âèëî, âûïîëíÿþòñÿ ïðèáëèæåííî. 88 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3 �5 _________AC______GT______�____ �3 1-ÿ íèòü ......................................��........................... �3 _________TG______CA______�____ �5 2-ÿ íèòü Ðèñ 1. Óñëîâíàÿ çàïèñü äâóõ íèòåé õðîìîñîìû 1Ðàáîòà âûïîëíåíà â ðàìêàõ ïðîåêòà ÍÀÍ Óêðàèíû è Ðîññèéñêîãî ôîíäà ôóíäàìåíòàëüíûõ èññëåäîâàíèé 2010–2011 ãã. ïðè ôèíàíñîâîé ïîääåðæêå Ïðåçèäèóìà ÍÀÍ Óêðàèíû. © È.Â. Ñåðãèåíêî, À.Ì. Ãóïàë, À.À. Âàãèñ, 2011 Äëÿ îñíîâàíèé, çàïèñàííûõ ïî îäíîé íèòè ÄÍÊ õðîìîñîìû, âûïîëíÿþòñÿ ïðèáëèæåííûå ñîîòíîøåíèÿ n n( ) ( )A T� , n n( ) ( )C G� , (1) ãäå n j( ) — êîëè÷åñòâî îñíîâàíèé j, j �{A,C,G,T}, âû÷èñëåííûõ íà îäíîé íèòè. Çàìåòèì, ÷òî èç êîìïëåìåíòàðíîñòè ïàð îñíîâàíèé ïî äâóì íèòÿì ÄÍÊ íå ñëåäóåò, ÷òî çíà÷åíèÿ áóêâ A è T, à òàêæå C è G, ïîäñ÷èòàííûå ïî îäíîé íèòè, ñîâïàäàþò ìåæäó ñîáîé. Èç ñîîòíîøåíèé (1) âûòåêàåò, ÷òî êîëè÷åñòâà êàæäîãî îñíîâàíèÿ, ïîäñ÷è- òàííîãî ïî ïåðâîé è âòîðîé íèòè, ñîâïàäàþò: n( )A,1 � n( )A,2 , n( )T,1 � n( )T,2 , n( )C,1 � n( )C,2 , n n( ) ( )G,1 G,2� . (2) Òàêèì îáðàçîì, èìååò ìåñòî ñèììåòðèÿ îòíîñèòåëüíî çàïèñè îñíîâàíèé ïî êàæäîé íèòè ÄÍÊ. Îòñþäà ñëåäóåò âàæíûé âûâîä î òîì, ÷òî âåñà äâóõ íèòåé ñîâïàäàþò. ÑÈÌÌÅÒÐÈß ÏÀÐ ÎÑÍÎÂÀÍÈÉ Ðàñ÷åòû ïîêàçàëè, ÷òî äëÿ ïàð îñíîâàíèé âûïîëíÿþòñÿ ñîîòíîøåíèÿ n n n n( ) ( ), ( ) ( ),AC GT AG CT� � n n n n( ) ( ), ( ) ( ),TC GA TG CA� � (3) n n n n( ) ( ), ( ) ( ),AA TT CC GG� � èëè êîðî÷å, â âèäå ôîðìóëû n ij n ji( ) ( )� , (4) ãäå i j, ,�{A,C,G,T} A T� , C G� , T A� , G C� . Çàìåòèì, ÷òî ïàðû AT, TA, CG è GC íå âõîäÿò â (3), ïîñêîëüêó îíè ïðèâîäÿò ê òàâòîëîãèè.  òàáë. 1 ïðèâå- äåíû çíà÷åíèÿ ïàð îñíîâàíèé â ãåíîìå ÷åëîâåêà [2]. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3 89 Ò à á ë è ö à 1 Ïàðà îñíîâàíèé Êîëè÷åñòâo ïàð îñíîâàíèé â ãåíîìå ÷åëîâåêà ïî îäíîé íèòè ÄÍÊ Õðîìîñîìà 1 Õðîìîñîìà 3 Õðîìîñîìà 6 Õðîìîñîìà 10 Õðîìîñîìà 18 AA 21 191 409 19 746 023 17 083 089 12 607 303 7 553 856 TT 21 245 312 19 772 366 17 080 492 12 628 305 7 560 778 AC 11 189 673 9 791 735 8 417 550 6 641 892 3 762 190 GT 11 209 763 9 798 222 8 411 037 6 651 425 3 776 890 AG 15 878 823 13 482 539 11 543 173 9 275 834 5 136 579 CT 15 904 404 13 478 613 11 532 563 9 286 062 5 138 944 CA 16 200 299 13 972 734 11 983 646 9 656 789 5 382 301 TG 16 226 750 13 970 283 11 984 196 9 667 666 5 401993 CC 12 132 633 9 518 322 8 128 472 7 073 095 3 640 163 GG 12 121 539 9 520 091 8 140 958 7 062 604 3 647 384 GA 13 313 713 11 472 583 9 879 809 7 851 856 4 411 285 TC 13 322 934 11 477 596 9 862 177 7 860 740 4 408 666 AT 16 615 348 15 646 889 13 495 077 9 896 788 6 012 563 TA 14 169 829 13 466 193 11 592 344 8 305 870 5 117 737 CG 2 256 627 1 620 941 1 473 327 1 353 534 677 210 GC 9 838 754 7 836 943 6 709 818 5 793 769 3 027 601 Èç ñîîòíîøåíèé (3), (4) âûòåêàåò ñèììåòðèÿ îòíîñèòåëüíî çàïèñè 16 ïàð îñíîâàíèé ïî êàæäîé íèòè ÄÍÊ n ij( ,1) = n ij( , 2), (5) ãäå i j, �{A,C,G,T}. Èçâåñòíî, ÷òî ñîîòíîøåíèÿ � ( ) ( ) ( ) p ij n ij n i � , (6) ãäå n ij( ) — ÷èñëî ïàð ( )ij , i j, �{A,C,G,T}, n i( ) — ÷èñëî îñíîâàíèé i â öåïè õðîìîñîìû, ïðåäñòàâëÿþò ñîáîé îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé äëÿ îäíî- ðîäíûõ öåïåé Ìàðêîâà [4].  îòëè÷èå îò íåçàâèñèìûõ áåðíóëëèåâñêèõ âåëè÷èí ìàòåìàòè÷åñêîå îæèäà- íèå îöåíîê ïåðåõîäíûõ âåðîÿòíîñòåé, ïîñòðîåííûõ â âèäå ÷àñòîò, ñìåùåíî è íå ñîâïàäàåò ñ òî÷íûìè çíà÷åíèÿìè âåðîÿòíîñòåé.  [4] ïîêàçàíî, ÷òî îöåíêè ïåðå- õîäíûõ âåðîÿòíîñòåé àñèìïòîòè÷åñêè íîðìàëüíû, è âûâåäåíû ôîðìóëû äèñïåð- ñèè è êîâàðèàöèè îöåíîê äëÿ ýòîãî ïðåäåëüíîãî ðàñïðåäåëåíèÿ. Èç (5) è (6) âûòåêàåò, ÷òî âòîðàÿ êîìïëåìåíòàðíàÿ íèòü â íàïðàâëåíèè 5 3� � � èìååò òàêèå æå îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé � ( )p ij , êàê è èñõîäíàÿ ïåðâàÿ íèòü (ðèñ. 1). Îòñþäà ñëåäóåò, ÷òî âåðîÿòíîñòè äâóõ ïðîòèâîïîëîæíûõ íèòåé õðîìîñîìû, ïîäñ÷èòàííûå â ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà íà îñíîâå îöåíîê ïåðåõîäíûõ âåðîÿòíîñòåé (6), ñîâïàäàþò. Ëåãêî çàìåòèòü, ÷òî äëÿ ëþáîé ïîñëåäîâàòåëüíîñòè áåç ïðîïóñêîâ áóêâ ñ òî÷íîñòüþ äî åäèíèöû âûïîëíÿþòñÿ ñîîòíîøåíèÿ n i n i n i n i n i( ) ( ) ( ) ( ) ( )� � � � �A C G T � � � �n i n i n i n i( ) ( ) ( ) ( ),A C G T (7) ãäå i �{A,C,G,T}, ò.å. êîëè÷åñòâî êàæäîé áóêâû òåêñòà ìîæíî ïîäñ÷èòàòü íà îñíîâå êîëè÷åñòâ ïàð áóêâ. Äëÿ îñíîâàíèÿ A èç (7) ïîëó÷àåì ñâÿçûâàþùåå îãðàíè÷åíèå äëÿ ïàð AT, TA, êîòîðûå íå âõîäÿò â (3), n n n n n n( ) ( ) ( ) ( ) ( ) ( ),CA GA TA AC AG AT� � � � � (8) äëÿ îñíîâàíèÿ C èç (7) — îãðàíè÷åíèå äëÿ ïàð CG è GC n n n n n n( ) ( ) ( ) ( ) ( ) ( ).AC GC TC CA CG CT� � � � � (9) Äëÿ îñíîâàíèé T è G ñ ó÷åòîì (3) ïîëó÷àåì òå æå ñîîòíîøåíèÿ, ÷òî è â (8), (9). Íàïðèìåð, äëÿ õðîìîñîìû 6 ãåíîìà ÷åëîâåêà (òàáë. 1) èìååì n n n n n n( ) ( ) ( ) , ( ) ( ) ( )CA GA TA AC AG AT� � � � � �33 455 799 33 455 800. Îäíà èç îñîáåííîñòåé â àíàëèçå ïîñëåäîâàòåëüíîñòåé îñíîâàíèé ñîñòîèò â òîì, ÷òî ÷àñòîòû âñòðå÷àåìîñòè ñîñåäíèõ áóêâ íå ÿâëÿþòñÿ íåçàâèñèìûìè [5]. ×àñòîòû ïàð ñîñåäíèõ îñíîâàíèé îòëè÷àþòñÿ îò ïðîèçâåäåíèé ÷àñòîò ñàìèõ îñíîâàíèé, ò.å. n ij n n i n n j n ( ) ( ) ( ) � , i j, �{A,C,G,T}, n — äëèíà õðîìîñîìû. Ýòî î÷å- âèäíî, íàïðèìåð, äëÿ ïàð CG è GC â òàáë. 1. Çàìåòèì, ÷òî ñèììåòðèÿ (5) ìîæåò íàáëþäàòüñÿ òàêæå è äëÿ ñîîòíîøåíèé n ij n i j( ) ( )� , ò.å. êîãäà îáå íèòè õðîìîñîìû èìåþò îäèíàêîâûå íàïðàâëåíèÿ çàïè- ñè è ñ÷èòûâàíèÿ îñíîâàíèé. Îäíàêî â ïðèðîäå òàêîé âèä ñèììåòðèè íå ðåàëèçî- âàí è â äàííîé ðàáîòå íå ðàññìàòðèâàåòñÿ, ïîñêîëüêó òðåáóåò îòäåëüíîãî îáñóæ- äåíèÿ. Ó ñèììåòðèè âèäà n ij n ji( ) ( )� áîëüøå ñòåïåíåé ñâîáîäû, ÷åì ó ñèììåò- 90 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3 ðèè n ij n i j( ) ( )� , è ñ òî÷êè çðåíèÿ òåîðèè èíôîðìàöèè îíà áîëåå ýôôåêòèâíà. Ïîýòîìó èç ñèììåòðèè îñíîâàíèé (1), (2) íåëüçÿ âûâåñòè ñèììåòðèþ ïàð îñíîâà- íèé. Îáðàòíîå óòâåðæäåíèå ñïðàâåäëèâî. Óòâåðæäåíèå 1. Èç ñèììåòðèè ïàð îñíîâàíèé âûòåêàåò ñèììåòðèÿ îñíîâàíèé. Äåéñòâèòåëüíî, ñ ïîìîùüþ ñîîòíîøåíèé (7) êîëè÷åñòâà îñíîâàíèé n( )A è n( )T çàïèñûâàþòñÿ â âèäå ðàâåíñòâ n n n n n( ) ( ) ( ) ( ) ( ),A AA AC AG AT� � � � n n n n n( ) ( ) ( ) ( ) ( .T TA TC TG TT)� � � � Ñ ó÷åòîì n ij n ji( ) ( )� , i j, �{A,C,G,T}, è ñîîòíîøåíèÿ (8), êîòîðîå ïðèíèìàåò âèä n n n n n n( ) ( ) ( ) ( ) ( ) ( ),AC AG AT TA GA CA� � � � � ïîëó÷àåì n n( ) ( )A T� . Âûâîä ðàâåíñòâà n n( ) ( )C G� âûïîëíÿåòñÿ àíàëîãè÷íî íà îñíîâå (7), (9) è ñî- îòíîøåíèé n ij n ji( ) ( )� , i j, �{A,C,G,T}: n n n n n n( ) ( ) ( ) ( ) ( ) ( ).AC GC TC CA CG CT� � � � � ÑÈÌÌÅÒÐÈß ÒÐÎÅÊ ÎÑÍÎÂÀÍÈÉ Êîäîíû (òðîéêè îñíîâàíèé) ñâÿçàíû ñëåäóþùèìè ñîîòíîøåíèÿìè: n ijk n kji( ) ( )� . (10) Çäåñü n ijk( ) — ÷èñëî òðîåê îñíîâàíèé ( )ijk , i j k, , �{A,C,G,T}, ( )kji — àíòèêî- äîí êîäîíà ( )ijk .  ðàáîòå [2] äëÿ 64 òðèïëåòîâ ïîëó÷åíû 32 ñîîòíîøåíèÿ âèäà (10) òèïà êîäîí–àíòèêîäîí â õðîìîñîìå 6 ãåíîìà ÷åëîâåêà (òàáë. 2). Àíàëîãè÷íî (5) èç ñîîòíîøåíèé (10) âûòåêàåò ñèììåòðèÿ îòíîñèòåëüíî çà- ïèñè 64 òðîåê îñíîâàíèé äëÿ êàæäîé íèòè ÄÍÊ n ijk n ijk( , ( ,1) )� 2 . (11) ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3 91 Ò à á ë è ö à 2 Êîäîí ×èñëî êîäîíîâ Êîäîí ×èñëî êîäîíîâ Êîäîí ×èñëî êîäîíîâ Êîäîí ×èñëî êîäîíîâ AAA 6 742 017 TTT 6 744 661 CAG 3 216 761 CTG 3 217 346 AAC 2 509 339 GTT 2 507 886 CCA 2 932 409 TGG 2 932 367 AAG 3 412 535 CTT 3 407 422 CCC 1 980 135 GGG 1 986 846 AAT 4 419 198 ATT 4 420 523 CCG 394 680 CGG 396 760 ACA 3 417 383 TGT 3 417 331 CGA 341 096 TCG 340 572 ACC 1 872 766 GGT 1 869 465 CGC 345 302 GCG 346 653 ACG 391 422 CGT 390 169 CTA 2 226 977 TAG 2 227 635 ACT 2 735 979 AGT 2 734 072 CTC 2 680 818 GAG 2 686 241 AGA 3 741 389 TCT 3 735 896 GAA 3 394 901 TTC 3 388 807 AGC 2 242 727 GCT 2 239 440 GAC 1 533 503 GTC 1 532 047 AGG 2 824 985 CCT 2 821 248 GCA 2 330 699 TGC 2 327 157 ATA 3 684 661 TAT 3 682 369 GCC 1 793 026 GGC 1 794 632 ATC 2 260 505 GAT 2 265 164 GGA 2 490 014 TCC 2 482 545 ATG 3 129 388 CAT 3 128 346 GTA 1 962 626 TAC 1 966 011 CAA 3 229 842 TTG 3 228 944 TAA 3 716 329 TTA 3 718 080 CAC 2 408 697 GTG 2 408 478 TCA 3 303 155 TGA 3 307 301 Äëÿ 16 ïàð îñíîâàíèé ( )ij , i j, �{A,C,G,T}, ñïðàâåäëèâû ñîîòíîøåíèÿ n ij n ij n ij n ij n ij( ) ( ) ( ) ( ) ( )� � � � �A C G T n ij n ij n ij n ij( ) ( ) ( ) ( ).A C G T� � � Íàïðèìåð, èç òàáë. 2 èìååì n n n n( ) ( ) ( ) ( ) ,AAA AAC AAG AAT� � � �17 083 089 n n n n( ( ) ( ) ( ) .AAA) CAA GAA TAA� � � �17 083 089 Äëÿ øåñòè ïàð îñíîâàíèé (3), èñïîëüçóÿ ñîîòíîøåíèÿ (10), ïîëó÷àåì ñëåäó- þùèå ñâÿçûâàþùèå îãðàíè÷åíèÿ: n n n n n n( ) ( ) ( ) ( ) ( ) ( ),AAC AAG AAT CAA GAA TAA� � � � � (12) n n n n n n n n( ) ( ) ( ) ( ) ( ) ( ) ( )ACA ACC ACG ACT AAC CAC GAC� � � � � � � ( ),TAC (13) n n n n( ) ( ) ( ) ( )AGA AGC AGG AGT� � � � � � � �n n n n( ) ( ) ( ) ( ),AAG CAG GAG TAG (14) n n n n n n n n( ) ( ) ( ) ( ) ( ) ( ) ( )CAA CAC CAG CAT ACA CCA GCA� � � � � � � ( ),TCA (15) n n n n n n( ) ( ) ( ) ( ) ( ) ( ),CCA CCG CCT ACC GCC TCC� � � � � (16) n n n n n n n n( ) ( ) ( ) ( ) ( ) ( ) ( )GAA GAC GAG GAT AGA CGA GGA� � � � � � � ( ).TGA (17) Äëÿ ïàð AT, TA, CG è GC íîâûå ñîîòíîøåíèÿ íå âûâîäÿòñÿ, ïîñêîëüêó èç (10) ïîëó÷àåì òàâòîëîãèè. Ôîðìóëû (12)–(17) âàæíû òåì, ÷òî ñ ïîìîùüþ óíèâåð- ñàëüíîãî ãåíåòè÷åñêîãî êîäà îíè ïåðåâîäÿòñÿ â ñîîòíîøåíèÿ äëÿ àìèíîêèñëîò. Óòâåðæäåíèå 2. Èç ñèììåòðèè òðîåê îñíîâàíèé âûòåêàåò ñèììåòðèÿ ïàð îñíîâàíèé. Ñ ïîìîùüþ ðàâåíñòâ (7) äëÿ ïàð áóêâ êîëè÷åñòâà n( )AA è n( )TT çàïèñûâà- þòñÿ â âèäå ñîîòíîøåíèé: n n n n n( ) ( ) ( ) ( ) ( ),AA AAA AAC AAG AAT� � � � n n n n n( ) ( ) ( ) ( ) ( ).TT TTA TTC TTG TTT� � � � Äàííûå âûðàæåíèÿ ñ ïîìîùüþ n ijk n kji( ) ( )� ïðåîáðàçóþòñÿ â ðàâåíñòâî (12): n n n n n n( ( ) ( ) ( ) ( ) ( ).AAC) AAG AAT TAA GAA CAA� � � � � Äîêàçàòåëüñòâî äëÿ îñòàëüíûõ ïàð n n n n( ) ( ), ( ) ( ),CC GG AC GT� � n( )AG � � � �n n n n n( ), ( ) ( ), ( ) ( )CT CA TG GA TC ïðîâîäèòñÿ àíàëîãè÷íî ñ ó÷åòîì ôîðìóë (13)–(17). Òàêèì îáðàçîì, èç ñèììåòðèè ïîñëåäîâàòåëüíîñòåé îñíîâàíèé ïî èíäóêöèè âûòåêàåò ñèììåòðèÿ êîðîòêèõ ïîñëåäîâàòåëüíîñòåé. Çàìåòèì, ÷òî ñîîòíîøåíèÿ (12)–(17) âûïîëíÿþòñÿ äëÿ ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà: � ( � ( ) � (p p pAAC) AAG AAT)� � � � ( � ( � (p p pCAA) GAA) TAA)� � , � ( � ( ) � (p p pAAC) AAG AAT)� � � n n nn ( ( AA) (AC) A) � n n nn ( ( AA) (AG) A) � � � n n nn ( ( AA) (AT) A) n n n n nn ( ( AA)( (AC) (AG) (AT)) A) � � , 92 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3 � ( � ( � (p p pCAA) GAA) TAA)� � � n n nn ( ( CA) (AA) A) � n n nn ( ( GA) (AA) A) � n n nn ( ( TA) (AA) A) � � � �n n n n nn ( ( AA)( (CA) (GA) (TA)) A) . Îñòàåòñÿ âîñïîëüçîâàòüñÿ ôîðìóëîé (8). Äëÿ îáîñíîâàíèÿ (13), ó÷èòûâàÿ ôîðìóëó (7), ïîëó÷àåì � ( � ( ) � ( �p p p pACA) ACC ACG) (ACT)� � � � � � � � � n n n n n nn ( ( AC)( (CA) (CC) (CG) (CT)) C) n n nn ( ( AC) (C) C) , � ( � ( ) � ( �p p p pAAC) CAC GAC) (TAC)� � � � � � � � � n n n n n nn ( ( AC)( (AA) (CA) (GA) (TA)) A) n n nn ( ( AC) (A) A) . Àíàëîãè÷íûì îáðàçîì âûïîëíÿþòñÿ ôîðìóëû (14)–(17). Ïîñêîëüêó ñèììåòðèÿ â çàïèñè îñíîâàíèé ïî íèòÿì â ÄÍÊ îáíàðóæåíà ýì- ïèðè÷åñêè è â íàñòîÿùåå âðåìÿ íå ñóùåñòâóåò îáúÿñíåíèÿ ýòîãî ôåíîìåíà â ïðè- ðîäå, âàæíî ïîñòðîèòü ìîäåëü, ïîäòâåðæäàþùóþ ñèììåòðèþ ïîñëåäîâàòåëüíîñ- òåé îñíîâàíèé íà îñíîâå ñèììåòðèè êîðîòêèõ ïîñëåäîâàòåëüíîñòåé. Óòâåðæäåíèå 3. Äëÿ ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà ñèììåòðèÿ òðîåê îñíîâàíèé âûòåêàåò èç ñèììåòðèè îñíîâàíèé è ñèììåòðèè ïàð îñíîâàíèé. Èç ñîîòíîøåíèé (1), (4) ñëåäóåò, ÷òî äëÿ îäíîðîäíîé öåïè Ìàðêîâà îöåíêè âåðîÿòíîñòåé òðîåê îñíîâàíèé ( )ijk è ( )kji ñîâïàäàþò: np ijk n i n ij n jk n i n j np kji n k n kj� ( ) ( ) ( ) ( ) ( ) ( ) � ( ) ( ) ( ) � � � n ji n k n j ( ) ( ) ( ) , ãäå n — äëèíà õðîìîñîìû. Òàêèì îáðàçîì, îæèäàåìîå ÷èñëî ïîâòîðîâ òðîåê îñíîâàíèé ( )ijk è ( )kji ñîâïàäàåò ïî äëèíå õðîìîñîìû. Ñèììåòðèÿ äëÿ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé òàêæå ïîäòâåðæäàåòñÿ äëÿ ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà è âûòåêàåò èç ñèììåòðèè ïàð îñíîâàíèé. Ýòîò ðåçóëüòàò ÿâëÿåòñÿ ñëåäñòâèåì âàæíîãî óòâåðæäåíèÿ. Óòâåðæäåíèå 4. Îöåíêà âåðîÿòíîñòè ïîñëåäîâàòåëüíîñòè x x x xn n1 2 1, , ..., , ñîâïàäàåò ñ îöåíêîé âåðîÿòíîñòè ïîñëåäîâàòåëüíîñòè x x x xn n, , 1 2 1� , ò.å. � ( , , ..., , ) � ( , , )p x x x x p x x x xn n n n1 2 1 1 2 1 � � . (18) Âåðîÿòíîñòü îäíîðîäíîé öåïè Ìàðêîâà îïðåäåëÿåòñÿ ñîîòíîøåíèåì p x x x x p x p x x p x xn n n n( , , ..., , ) ( ) ( , )... ( , )1 2 1 1 1 2 1 � , (19) ãäå p x( )1 — âåðîÿòíîñòü íà÷àëüíîãî ñîñòîÿíèÿ, p x xi i( , ) 1 — ïåðåõîäíûå âå- ðîÿòíîñòè, i n�1 2, , ..., . Çàìåíèâ âåðîÿòíîñòü íà÷àëüíîãî ñîñòîÿíèÿ ÷àñòîòîé, à ïåðåõîäíûå âåðîÿò- íîñòè p x xi i( , ) 1 â (19) — èõ îöåíêàìè (6), ïîëó÷èì � ( , , ..., , )p x x x xn n1 2 1 � n x n x x n x x n x x nn x n x n n n( ) ( , ) ( , )... ( , ) ( ) ( )... ( 1 1 2 2 3 1 1 2 xn 1 ) , ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3 93 � ( , , )p x x x xn n �1 2 1� n x n x x n x x n x x nn x n x n n n n n n n ( ) ( , ) ( , )... ( , ) ( ) ( 1 1 2 2 1 1 )... ( )n x2 , ïîýòîìó èç ñîîòíîøåíèé (1), (4) èìååì (18). Ó÷èòûâàÿ, ÷òî äëÿ ìîäåëè öåïåé Ìàðêîâà ñèììåòðèÿ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé âûòåêàåò èç ñèììåòðèè ïàð, à èç ñèììåòðèè ïàð ñëåäóåò ñèììåòðèÿ îñíîâàíèé, ñîîòíîøåíèÿ äëÿ ïàð n ij n ji( ) ( )� , i j, �{A,C,G,T}, ÿâëÿþòñÿ îñíîâ- íûìè â çàïèñè ãåíåòè÷åñêîé èíôîðìàöèè â ÄÍÊ. Ñ ïîìîùüþ ìîäåëè öåïåé Ìàðêîâà ìîæíî ëåãêî ñãåíåðèðîâàòü ñëó÷àéíóþ ïî- ñëåäîâàòåëüíîñòü, äëÿ êîòîðîé áóäåò âûïîëíÿòüñÿ ñèììåòðèÿ âèäà (4), (10). Íà îñíîâå îöåíîê ïåðåõîäíûõ âåðîÿòíîñòåé (6), òàáë. 1 è ïðîãðàììû ïñåâäîñëó÷àéíûõ ÷èñåë ñòðîèòñÿ ñëó÷àéíàÿ ïîñëåäîâàòåëüíîñòü îñíîâàíèé, ñîâïàäàþùàÿ ïî äëèíå ñ õðîìîñîìîé ÷åëîâåêà. Ðàñ÷åòû ïîêàçàëè, ÷òî îòíîñèòåëüíàÿ ðàçíîñòü ìåæäó òðîé- êàìè îñíîâàíèé â (10) çíà÷èòåëüíî ìåíüøå 1%. Òàêèì îáðàçîì, ìîäåëü Ìàðêîâà óáåäèòåëüíî ïîäòâåðæäàåò ñèììåòðèþ êîðîòêèõ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé. ÇÀÊËÞ×ÅÍÈÅ Â íàñòîÿùåé ðàáîòå ïîëó÷åíû íîâûå ñâÿçûâàþùèå îãðàíè÷åíèÿ (8), (9) äëÿ ïàð AT, TA, CG è GC, êîòîðûå íå âõîäèëè â ñîîòíîøåíèÿ (3) äëÿ ïàð îñíîâàíèé. Àíàëîãè÷íûì îáðàçîì ïîëó÷åíû íîâûå îãðàíè÷åíèÿ (12)–(17) äëÿ òðîåê îñíîâà- íèé. Ïîêàçàíî, ÷òî ñèììåòðèÿ îòäåëüíûõ îñíîâàíèé ÿâëÿåòñÿ ñëåäñòâèåì ñèì- ìåòðèè ïàð îñíîâàíèé è ñîîòâåòñòâåííî ñèììåòðèÿ ïàð îñíîâàíèé — ñëåäñòâè- åì ñèììåòðèè òðîåê îñíîâàíèé. Ñ ïîìîùüþ ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà ïîäòâåðæäàåòñÿ, ÷òî ñèììåòðèÿ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé âûòåêàåò èç ñèììåòðèè êîðîòêèõ ïîñëåäîâàòåëüíîñòåé (ïàð îñíîâàíèé). Ðåøåíèå ñëîæíûõ çàäà÷ ïðåäñêàçàíèÿ ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêîâ ïîêàçàëî, ÷òî åñëè ñîîòíîøåíèÿ ñèììåòðèè â çàïèñè ãåíåòè÷åñêîé èíôîðìàöèè íå âûïîëíÿþòñÿ, òî áàéåñîâñêèå ïðîöåäóðû ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêîâà íå ðàáîòàþò [3]. Ïîëó÷åííûå ðåçóëüòàòû îòêðûâàþò øèðîêèå âîçìîæíîñòè ïðèìåíåíèÿ áàéåñîâñêèõ ïðîöåäóð íà ìîäåëÿõ öåïåé Ìàðêîâà äëÿ ðàñïîçíàâàíèÿ ñâîéñòâ ó÷àñòêîâ îñíîâàíèé (ãåíîâ), ðàñïîëîæåííûõ íà íèòÿõ ÄÍÊ. ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1. B a i s n � e P . - F . , H a m p s o n S . , B a l d i P . Why are complementary DNA strands symmetric? // Bioinformatics. — 2002. — 18, N 2. — P. 1021–1033. 2. à ó ï à ë À . Ì . ,  à ã è ñ À . À . Êîìïëåìåíòàðíîñòü îñíîâàíèé â õðîìîñîìàõ ÄÍÊ // Ïðîáëåìû óïðàâëåíèÿ è èíôîðìàòèêè. — 2005. — ¹ 5. — Ñ. 90–94. 3. à ó ï à ë À . Ì . , Ñ å ð ã è å í ê î È .  . Îïòèìàëüíûå ïðîöåäóðû ðàñïîçíàâàíèÿ. — Êèåâ: Íàóê. äóìêà, 2008. — 232 ñ. 4. A n d e r s o n T . W . , G o o d m a n L . A . Statistical inference about Markov chains // Ann. Math. Stat. — 1957. — 28. — P. 89–110. 5.  å é ð Á . Àíàëèç ãåíåòè÷åñêèõ äàííûõ. — Ì.: Ìèð, 1995. — 400 ñ. Ïîñòóïèëà 11.01.2011 94 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2011, ¹ 3