Методы предсказания пространственной структуры белков
Наведено огляд сучасних методів передбачення просторової структури білків. Обговорюються результати чисельних розрахунків передбачення вторинної структури білків на основі байєсівських процедур розпізнавання на нестаціонарних ланцюгах Маркова. Наведено комплементарні закономірності щодо запису генет...
Збережено в:
Дата: | 2010 |
---|---|
Автори: | , , , , , |
Формат: | Стаття |
Мова: | Russian |
Опубліковано: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2010
|
Назва видання: | Кибернетика и системный анализ |
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/45124 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Методы предсказания пространственной структуры белков / И.В. Сергиенко, В.В. Рязанов, Б.А. Белецкий, А.В. Быць, А.М. Гупал, С.С. Ржепецкий // Кибернетика и системный анализ. — 2010. — № 1. — С. 38–58. — Бібліогр.: 27 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-45124 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-451242013-06-08T03:23:50Z Методы предсказания пространственной структуры белков Сергиенко, И.В. Рязанов, В.В. Белецкий, Б.А. Быць, А.В. Гупал, А.М. Ржепецкий, С.С. Системный анализ Наведено огляд сучасних методів передбачення просторової структури білків. Обговорюються результати чисельних розрахунків передбачення вторинної структури білків на основі байєсівських процедур розпізнавання на нестаціонарних ланцюгах Маркова. Наведено комплементарні закономірності щодо запису генетичної інформації в геномах та білках. A review of methods of prediction of the spatial protein structure is presented. The numerical results of predicting the secondary protein structure on the basis of Bayesian recognition procedures on non-stationary Markov chains are discussed. Complementary principles of encoding genetic information in DNA and proteins are presented. 2010 Article Методы предсказания пространственной структуры белков / И.В. Сергиенко, В.В. Рязанов, Б.А. Белецкий, А.В. Быць, А.М. Гупал, С.С. Ржепецкий // Кибернетика и системный анализ. — 2010. — № 1. — С. 38–58. — Бібліогр.: 27 назв. — рос. 0023-1274 http://dspace.nbuv.gov.ua/handle/123456789/45124 519.68 ru Кибернетика и системный анализ Інститут кібернетики ім. В.М. Глушкова НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
topic |
Системный анализ Системный анализ |
spellingShingle |
Системный анализ Системный анализ Сергиенко, И.В. Рязанов, В.В. Белецкий, Б.А. Быць, А.В. Гупал, А.М. Ржепецкий, С.С. Методы предсказания пространственной структуры белков Кибернетика и системный анализ |
description |
Наведено огляд сучасних методів передбачення просторової структури білків. Обговорюються результати чисельних розрахунків передбачення вторинної структури білків на основі байєсівських процедур розпізнавання на нестаціонарних ланцюгах Маркова. Наведено комплементарні закономірності щодо запису генетичної інформації в геномах та білках. |
format |
Article |
author |
Сергиенко, И.В. Рязанов, В.В. Белецкий, Б.А. Быць, А.В. Гупал, А.М. Ржепецкий, С.С. |
author_facet |
Сергиенко, И.В. Рязанов, В.В. Белецкий, Б.А. Быць, А.В. Гупал, А.М. Ржепецкий, С.С. |
author_sort |
Сергиенко, И.В. |
title |
Методы предсказания пространственной структуры белков |
title_short |
Методы предсказания пространственной структуры белков |
title_full |
Методы предсказания пространственной структуры белков |
title_fullStr |
Методы предсказания пространственной структуры белков |
title_full_unstemmed |
Методы предсказания пространственной структуры белков |
title_sort |
методы предсказания пространственной структуры белков |
publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
publishDate |
2010 |
topic_facet |
Системный анализ |
url |
http://dspace.nbuv.gov.ua/handle/123456789/45124 |
citation_txt |
Методы предсказания пространственной структуры белков / И.В. Сергиенко, В.В. Рязанов, Б.А. Белецкий, А.В. Быць, А.М. Гупал, С.С. Ржепецкий // Кибернетика и системный анализ. — 2010. — № 1. — С. 38–58. — Бібліогр.: 27 назв. — рос. |
series |
Кибернетика и системный анализ |
work_keys_str_mv |
AT sergienkoiv metodypredskazaniâprostranstvennojstrukturybelkov AT râzanovvv metodypredskazaniâprostranstvennojstrukturybelkov AT beleckijba metodypredskazaniâprostranstvennojstrukturybelkov AT bycʹav metodypredskazaniâprostranstvennojstrukturybelkov AT gupalam metodypredskazaniâprostranstvennojstrukturybelkov AT ržepeckijss metodypredskazaniâprostranstvennojstrukturybelkov |
first_indexed |
2025-07-04T03:45:08Z |
last_indexed |
2025-07-04T03:45:08Z |
_version_ |
1836686476081889280 |
fulltext |
È.Â. ÑÅÐÃÈÅÍÊÎ, Â.Â. ÐßÇÀÍÎÂ, Á.À. ÁÅËÅÖÊÈÉ,
À.Â. ÁÛÖÜ, À.Ì. ÃÓÏÀË, Ñ.Ñ. ÐÆÅÏÅÖÊÈÉ
ÓÄÊ 519.68 ÌÅÒÎÄÛ ÏÐÅÄÑÊÀÇÀÍÈß ÏÐÎÑÒÐÀÍÑÒÂÅÍÍÎÉ
ÑÒÐÓÊÒÓÐÛ ÁÅËÊÎÂ1
Êëþ÷åâûå ñëîâà: ðàñïîçíàâàíèå, áèîôèçè÷åñêèå ôèëüòðû, êàðòû êîíòàêòîâ,
áàéåñîâñêàÿ ïðîöåäóðà, öåïü Ìàðêîâà, ôîëäèíã áåëêà.
ÂÂÅÄÅÍÈÅ
Íà ñåãîäíÿøíèé äåíü ðàñøèôðîâàíû ãåíîìû ÷åëîâåêà, øèìïàíçå, ìûøè, êóðè-
öû, ðûáû Tetraodon è íåêîòîðûõ äðóãèõ æèâîòíûõ, íåñêîëüêèõ âèäîâ ðàñòåíèé
è ãðèáîâ, à òàêæå ñâûøå òûñÿ÷è áàêòåðèé. Îñíîâíîé âîïðîñ ñîâðåìåííîé ìîëå-
êóëÿðíîé áèîëîãèè: êàêóþ ôóíêöèþ âûïîëíÿåò îïðåäåëåííûé ãåí? Ãåí — ÷àñòü
ìîëåêóëû ÄÍÊ, êîòîðàÿ êîäèðóåò áåëîê. Çíàÿ íóêëåîòèäíóþ ïîñëåäîâàòåëüíîñòü
ãåíà, ìîæíî îäíîçíà÷íî îïðåäåëèòü àìèíîêèñëîòíóþ ïîñëåäîâàòåëüíîñòü áåëêà,
òàê êàê êàæäàÿ èç 20 àìèíîêèñëîò êîäèðóåòñÿ îïðåäåëåííûì òðèïëåòîì íóê-
ëåîòèäîâ (êîäîíîì). Ïîñëå òðàíñëÿöèè ïîñëåäîâàòåëüíîñòè àìèíîêèñëîò èç ìîëåêóëû
ÐÍÊ áåëîê ñðàçó íà÷èíàåò ñâîðà÷èâàòüñÿ â ïðîñòðàíñòâåííóþ êîíôèãóðàöèþ. Èìåí-
íî ïðîñòðàíñòâåííàÿ êîíôèãóðàöèÿ áåëêà îïðåäåëÿåò åãî ôóíêöèîíàëüíîñòü, ïîñêîëü-
êó áåëêè â æèâûõ îðãàíèçìàõ âçàèìîäåéñòâóþò êàê òðåõìåðíûå îáúåêòû â ïðîñòðà-
íñòâå. Ïîýòîìó â èññëåäîâàíèÿõ áåëêîâ è èõ ôóíêöèé ïðèäåðæèâàþòñÿ ïðèíöèïà
«ïîñëåäîâàòåëüíîñòü-ñòðóêòóðà-ôóíêöèîíàëüíîñòü» [1]. Ýòî îçíà÷àåò, ÷òî ôóíêöèî-
íàëüíîñòü áåëêà îïðåäåëÿåòñÿ åãî ïðîñòðàíñòâåííîé ñòðóêòóðîé, à ïðîñòðàíñòâåííàÿ
êîíôèãóðàöèÿ çàäàåòñÿ åãî àìèíîêèñëîòíîé ïîñëåäîâàòåëüíîñòüþ.
1. ÏÎÑÒÀÍÎÂÊÀ ÇÀÄÀ×È
Ñóùåñòâóåò ÷åòûðå óðîâíÿ ñòðóêòóðû áåëêà:
� ïåðâè÷íàÿ — ëèíåéíàÿ ïîñëåäîâàòåëüíîñòü àìèíîêèñëîòíûõ îñòàòêîâ â ìî-
ëåêóëå áåëêà;
� âòîðè÷íàÿ — ôîðìèðîâàíèå íà ëèíåéíîé ïîñëåäîâàòåëüíîñòè ëîêàëüíûõ ðå-
ãóëÿðíûõ ñòðóêòóð: �-ñïèðàëåé è �-ñëîåâ;
� òðåòè÷íàÿ — ðàñïîëîæåíèå ýëåìåíòîâ âòîðè÷íîé ñòðóêòóðû (�-ñïèðàëåé è
�-ñëîåâ) â ïðîñòðàíñòâå îòíîñèòåëüíî îäèí äðóãîãî;
� ÷åòâåðòè÷íàÿ — ôîðìèðîâàíèå áåëêîâîãî êîìïëåêñà èç îòäåëüíûõ áåëêîâ.
Ñòðóêòóðà áåëêà íà êàæäîì óðîâíå îêàçûâàåò ðåøàþùåå âëèÿíèå íà ôîðìèðî-
âàíèå ñòðóêòóðû íà ñëåäóþùåì óðîâíå, ò.å. ïåðâè÷íàÿ ñòðóêòóðà îïðåäåëÿåò âòî-
ðè÷íóþ, âòîðè÷íàÿ — òðåòè÷íóþ è ò.ä.
Ïåðâè÷íàÿ ñòðóêòóðà áåëêà, ò.å. åãî àìèíîêèñëîòíàÿ ïîñëåäîâàòåëüíîñòü, íà-
õîäèòñÿ ýêñïåðèìåíòàëüíûì ïóòåì îòíîñèòåëüíî ïðîñòî. Îïðåäåëåíèå âòîðè÷íîé
ñòðóêòóðû óæå ñâÿçàíî ñ áîëüøèìè ñëîæíîñòÿìè, ïîñêîëüêó òðåáóåò ïðèìåíåíèÿ
38 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
1 Ðàáîòà âûïîëíåíà â ðàìêàõ ïðîåêòà ÍÀÍ Óêðàèíû è Ðîññèéñêîãî ôîíäà ôóíäàìåíòàëüíûõ
èññëåäîâàíèé 2008–2009 ãã. ïðè ôèíàíñîâîé ïîääåðæêå Ïðåçèäèóìà ÍÀÍ Óêðàèíû.
© È.Â. Ñåðãèåíêî, Â.Â. Ðÿçàíîâ, Á.À. Áåëåöêèé, À.Â. Áûöü, À.Ì. Ãóïàë, Ñ.Ñ. Ðæåïåöêèé, 2010
äîðîãèõ ìåòîäîâ ðåíòãåíîñòðóêòóðíîãî àíàëèçà è ìàãíèòíî-ÿäåðíîãî ðåçîíàíñà. Âû-
ñîêàÿ ñòîèìîñòü ýêñïåðèìåíòàëüíîãî îïðåäåëåíèÿ ñòðóêòóðû áåëêà ñïîñîáñòâóåò ðàç-
âèòèþ ìàòåìàòè÷åñêèõ ìåòîäîâ åå ïðåäñêàçàíèÿ. Çàäà÷à ñòàâèòñÿ ñëåäóþùèì îáðàçîì:
èìååòñÿ ïåðâè÷íàÿ ñòðóêòóðà áåëêà (ò.å. ëèíåéíàÿ ïîñëåäîâàòåëüíîñòü àìèíîêèñëîò),
íåîáõîäèìî îïðåäåëèòü åãî òðåòè÷íóþ ñòðóêòóðó, èíûìè ñëîâàìè, îòûñêàòü ïðîñòðà-
íñòâåííûå êîîðäèíàòû âñåõ àìèíîêèñëîòíûõ îñòàòêîâ, âõîäÿùèõ â áåëîê.
2. ÌÅÒÎÄÛ ÌÈÍÈÌÈÇÀÖÈÈ ÝÍÅÐÃÈÈ
Ïîäõîäû ê ïðåäñêàçàíèþ ñòðóêòóðû áåëêîâ îñíîâàíû íà òåðìîäèíàìè÷åñêîé ãè-
ïîòåçå, êîòîðàÿ ïîñòóëèðóåò, ÷òî â åñòåñòâåííîì ñâåðíóòîì ñîñòîÿíèè áåëêà ñâî-
áîäíàÿ ýíåðãèÿ ñèñòåìû «áåëîê — ðàñòâîðèòåëü» ìèíèìàëüíà. Ýòà ñâîáîäíàÿ
ýíåðãèÿ ñîñòîèò èç ìåæìîëåêóëÿðíîãî âçàèìîäåéñòâèÿ ñàìîãî áåëêà è ñâîáîäíîé
ýíåðãèè ñîëüâàòàöèè (ñì. íèæå).
Èñõîäÿ èç òåðìîäèíàìè÷åñêîé ãèïîòåçû, ïðèìåíèòåëüíî ê çàäà÷å ðàñïîçíàâà-
íèÿ òðåòè÷íîé ñòðóêòóðû áåëêîâ, êàê ïðàâèëî, ïîëüçóþòñÿ íåêîé îïòèìàëüíîé
ôóíêöèåé ýíåðãèè. Ñóùåñòâóåò äâà ðàçëè÷íûõ ïîäõîäà ê ïîñòðîåíèþ èñïîëüçóå-
ìûõ ôóíêöèé ýíåðãèè. Ïåðâûé îñíîâûâàåòñÿ íà ôèçè÷åñêîé ôóíêöèè ýíåðãèè, êî-
òîðàÿ, â ïðèíöèïå, ìîæåò áûòü ïîëó÷åíà â ðåçóëüòàòå ðàññìîòðåíèÿ ðàçëè÷íûõ ôè-
çè÷åñêèõ ñèë âçàèìîäåéñòâèÿ ìåæäó ÷àñòèöàìè. Âòîðîé ñîñòîèò â ïîñòðîåíèè
ôóíêöèè ýíåðãèè ñèñòåìû «áåëîê — ðàñòâîðèòåëü» èñõîäÿ èç óæå èìåþùèõñÿ äàí-
íûõ î ñòðóêòóðå ðàíåå èññëåäîâàííûõ áåëêîâ (÷àñòî èññëåäóþò ñòàòèñòèêó ïàðíûõ
êîíòàêòîâ àìèíîêèñëîò áåëêà, à òàêæå ñòðóêòóðó åãî âíåøíåé ïîâåðõíîñòè, êîíòàê-
òèðóþùóþ ñ ðàñòâîðîì). Ïåðâûé òèï ôóíêöèé íàçîâåì ôèçè÷åñêè îïòèìàëüíûìè
ôóíêöèÿìè ýíåðãèè (ÔÎÔÝ), âòîðîé — ñòàòèñòè÷åñêè îïòèìàëüíûìè ôóíêöèÿìè
ýíåðãèè (ÑÎÔÝ).
ÔÎÔÝ îñíîâàíû íà ðåàëüíûõ ïðîöåññàõ, ïðîèñõîäÿùèõ â áåëêàõ, è òåîðåòè-
÷åñêè ñïîñîáíû ó÷èòûâàòü âñå âîçìîæíûå ýôôåêòû, âàæíûå äëÿ ïðåäñêàçàíèÿ èõ
òðåòè÷íîé ñòðóêòóðû. Îäíàêî ïðè ýòîì ÔÎÔÝ, êàê ïðàâèëî, ñëèøêîì ãðîìîçäêè
äëÿ âû÷èñëåíèé, à ðåàëüíûé ïðîôèëü ôóíêöèè ñâîáîäíîé ýíåðãèè èìååò ìíîæåñ-
òâî ëîêàëüíûõ ìèíèìóìîâ â îáëàñòè, áëèçêîé ê åñòåñòâåííîìó ñîñòîÿíèþ áåëêà
â ðàñòâîðå, ÷òî åùå áîëüøå çàòðóäíÿåò åãî âû÷èñëèòåëüíûé ïîèñê. Òåì íå ìåíåå
ïåðèîäè÷åñêè ïîÿâëÿþòñÿ íîâûå âû÷èñëèòåëüíûå ìåòîäû ñãëàæèâàíèÿ ýòîé ôóíê-
öèè â îáëàñòè ìèíèìóìà, ðåøàþùèå äàííóþ ïðîáëåìó. Èñïîëüçóåìûå íà ïðàêòèêå
ÔÎÔÝ ó÷èòûâàþò ìîëåêóëÿðíóþ ìåõàíèêó áåëêà è åãî âçàèìîäåéñòâèå ñ ðàñòâî-
ðîì. Ýòè ôóíêöèè ÿâëÿþòñÿ ýìïèðè÷åñêèìè è ïðèáëèæåííûìè. Èñõîäíûå äàííûå
äëÿ èõ ïîñòðîåíèÿ ïîëó÷åíû â ðåçóëüòàòå èññëåäîâàíèÿ âçàèìîäåéñòâèÿ ñ ðàñòâî-
ðèòåëåì ñèñòåì, áîëåå ïðîñòûõ, ÷åì áåëêè, è ïîñëåäóþùåé ïàðàìåòðèçàöèè. Êàê
ïðàâèëî, ÔÎÔÝ ó÷èòûâàþò âçàèìîäåéñòâèå Âàí-äåð-Âààëüñà, ýíåðãèþ âçàèìîäåé-
ñòâèÿ ñ ÿäðîì áåëêà, à òàêæå ñîäåðæàò ðÿä êîìïåíñèðóþùèõ ñëàãàåìûõ, íàïðèìåð
äëÿ ó÷åòà ýíåðãèè âîäîðîäíûõ ñâÿçåé è ïð.
ÑÎÔÝ îñíîâûâàþòñÿ íà ñòàòèñòèêå, ïîëó÷åííîé èç óæå èçâåñòíûõ áåëêîâûõ
ñòðóêòóð. ×àùå âñåãî èñïîëüçóþòñÿ ÷àñòîòíûå ðàñïðåäåëåíèÿ ïàð êîíòàêòèðóþùèõ
áåëêîâûõ îñòàòêîâ, à ñ óâåëè÷åíèåì êîëè÷åñòâà äàííûõ ñòàëî âîçìîæíûì èñïîëü-
çîâàíèå ÷àñòîòíûõ ðàñïðåäåëåíèé ïàð êîíòàêòèðóþùèõ àòîìîâ. Ñ÷èòàåòñÿ, ÷òî çà-
äàíèÿ ÷àñòîò ïàð äîñòàòî÷íî äëÿ ïîñòðîåíèÿ ýôôåêòèâíûõ ìîäåëåé ïðåäñêàçàíèÿ
ñòðóêòóðû áåëêîâ.  íåêîòîðûõ ñëó÷àÿõ ê ýòèì äàííûì äîáàâëÿþò è äðóãèå ñîñòàâ-
ëÿþùèå (÷àñòîòû ðàñïðåäåëåíèÿ êîíòàêòíûõ òðîåê è ÷åòâåðîê, âåðîÿòíîñòè äâó-
ãðàííûõ óãëîâ ãëàâíîé è ïîáî÷íîé öåïåé), ïîëåçíûå ïðè âû÷èñëåíèè ÑÎÔÝ. Òà-
êàÿ ñâîáîäà äåéñòâèé â ñîçäàíèè ÑÎÔÝ ÿâëÿåòñÿ îäíîâðåìåííî è ñëàáîé è ñèëüíîé
ñòîðîíîé ìåòîäà. Äî íàñòîÿùåãî âðåìåíè ïîäõîä ÑÎÔÝ, øèðîêî ïðèìåíÿåìûé íà
ïðàêòèêå, íå îáîñíîâàí òåîðåòè÷åñêè è íå èìååò êàêîé-ëèáî ìåòîäîëîãèè, îáùåé
ñòðóêòóðû è êëàññèôèêàöèè. Â öåëîì ê ìåòîäàì ÑÎÔÝ ìîæíî îòíåñòè ëþáîé ìå-
òîä ïîñòðîåíèÿ ôóíêöèè ýíåðãèè áåëêà, â êîòîðîì èñïîëüçóåòñÿ ñòàòèñòè÷åñêàÿ
èíôîðìàöèÿ î äðóãèõ áåëêàõ.
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 39
2.1. Ñòàòèñòè÷åñêèå ôóíêöèè ýíåðãèè áåëêà. Ñóòü îïðåäåëåíèÿ ÑÎÔÝ ñî-
ñòîèò â ïîñòðîåíèè ðàñïðåäåëåíèé âåðîÿòíîñòåé ïðîñòðàíñòâåííîãî ðàñïîëîæåíèÿ
÷àñòåé áåëêà â îïðåäåëåííûõ êîíôèãóðàöèÿõ. Íàïðèìåð, îòíîøåíèå òèïà «ñíàðó-
æè-âíóòðè» èñïîëüçóåòñÿ äëÿ ñòàòèñòè÷åñêîãî ìîäåëèðîâàíèÿ ñâîéñòâà ãèäðîôîá-
íîñòè. Ìîæíî òàêæå ñòðîèòü ÑÎÔÝ íà ëþáûõ ôèêñèðîâàííûõ ãåîìåòðè÷åñêèõ
êîíôèãóðàöèÿõ, ñîáèðàÿ ñòàòèñòèêó î òèïàõ ÷àñòèö è èõ ðàñïîëîæåíèè â ýòèõ êîí-
ôèãóðàöèÿõ. Íà îñíîâå âåðîÿòíîñòè íàõîæäåíèÿ ÷àñòèö â îïðåäåëåííûõ êîíôèãó-
ðàöèÿõ ìîæíî ïîñòðîèòü ôóíêöèþ ïîòåíöèàëüíîé ýíåðãèè, âîñïîëüçîâàâøèñü
óðàâíåíèåì Áîëüöìàíà
�G RT p p� � ln ( / )expobs ,
ãäå pobs — íàáëþäàåìàÿ âåðîÿòíîñòü îïðåäåëåííîé êîíôèãóðàöèè, pexp — îæè-
äàåìàÿ âåðîÿòíîñòü íàáëþäåíèÿ ýòîé êîíôèãóðàöèè [2, 3].
Òàêèì îáðàçîì, âîçìîæíî èñïîëüçîâàíèå öåëîãî ðÿäà ðàçëè÷íûõ ïðîñòðà-
íñòâåííûõ êîíôèãóðàöèé îäíîâðåìåííî è ïîñëåäóþùåå èõ ñóììèðîâàíèå ñ ýìïè-
ðè÷åñêè ïîäîáðàííûìè âåñîâûìè êîýôôèöèåíòàìè. Ýòîò ïîäõîä ÷àùå âñåãî
ïðèìåíÿåòñÿ ïàðàëëåëüíî ñ ìåòîäîì Ìîíòå-Êàðëî.
Ïðåèìóùåñòâîì ÑÎÔÝ íàä ÔÎÔÝ ÿâëÿåòñÿ èõ ìåíüøàÿ ÷óâñòâèòåëüíîñòü ê íå-
çíà÷èòåëüíûì ñìåùåíèÿì ÷àñòèö â ïðîñòðàíñòâåííîé ìîäåëè áåëêà. Åùå îäíî íå-
îñïîðèìîå äîñòîèíñòâî ÑÎÔÝ — èõ ñòàòèñòè÷åñêàÿ îñíîâà, ïîçâîëÿþùàÿ ó÷èòûâàòü
ëþáûå ôèçè÷åñêèå ÿâëåíèÿ è ýôôåêòû, âêëþ÷àÿ è íå èçâåñòíûå â íàñòîÿùåå âðåìÿ.
Ê íåäîñòàòêàì ÑÎÔÝ ñëåäóåò îòíåñòè ÷àñòîå âîçíèêíîâåíèå øóìîâ, âûçâàí-
íûõ íåòî÷íîñòÿìè êîíêðåòíûõ ìåòîäîâ. Íàïðèìåð, â ìîäåëè ÑÎÔÝ, èñïîëüçóþ-
ùåé ÷àñòîòû ïàð êîíòàêòèðóþùèõ àìèíîêèñëîò, áóäóò âîçíèêàòü ïîãðåøíîñòè,
åñëè ìåæäó ýòèìè àìèíîêèñëîòàìè íàõîäèòñÿ àòîì ìåòàëëà ÿäðà. Îäíàêî åñëè ïðè-
÷èíó øóìîâ óäàåòñÿ íàéòè, òî åå, êàê ïðàâèëî, ìîæíî ëåãêî óñòðàíèòü áåç ñóùåñò-
âåííûõ èçìåíåíèé ñàìîé ìîäåëè ÑÎÔÝ. Òàêèì îáðàçîì, ïðîáëåìà ñâîäèòñÿ ê âû-
ÿâëåíèþ âñåõ èñòî÷íèêîâ øóìîâ.
Îòäåëüíî ñëåäóåò îòìåòèòü, ÷òî ïðè ïîñòðîåíèè ÑÎÔÝ íå ó÷èòûâàþò âñå ÷àñòèöû
áåëêà, à èññëåäóþò âçàèìîäåéñòâèå ëèøü îòäåëüíûõ èõ ãðóïï, íàèáîëåå ñèëüíî âëèÿþ-
ùèõ íà ñòðóêòóðó áåëêà. Âûáîð ýòèõ ãðóïï òàêæå îïðåäåëÿåò ýôôåêòèâíîñòü ìåòîäà.
2.2. Ôèçè÷åñêèå ôóíêöèè ýíåðãèè áåëêà. Êàæäàÿ ãðóïïà èññëåäîâàòåëåé ðàç-
ðàáàòûâàåò ñâîé êîíêðåòíûé âèä ÔÎÔÝ. Ïðè ýòîì ÷ëåíû, âõîäÿùèå â ôîðìóëó
ÔÎÔÝ, ìîãóò ñóùåñòâåííî îòëè÷àòüñÿ ó êàæäîé íàó÷íîé ãðóïïû. Îïèøåì îáÿçà-
òåëüíûå ñîñòàâëÿþùèå ÷àñòè ÔÎÔÝ. ×ëåíû â ôóíêöèè ýíåðãèè ìîæíî ðàçäåëèòü
íà äâå ãðóïïû: ýíåðãèÿ ñâÿçè è îñòàëüíûå. Ê ýíåðãèè ñâÿçè îáû÷íî îòíîñÿò âçàèìî-
äåéñòâèå äâóõ èëè ÷åòûðåõ àòîìîâ, ñîåäèíåííûõ êîâàëåíòíîé ñâÿçüþ; èõ ðîëü çà-
êëþ÷àåòñÿ â îãðàíè÷åíèè äîïóñòèìîé îáëàñòè äëèí è óãëîâ ñâÿçåé âáëèçè ïîëîæå-
íèÿ ðàâíîâåñèÿ. Ê îñòàëüíûì ÷ëåíàì îòíîñÿò ïîòåíöèàë Ëåííàðäà–Äæîíñà (â âèäå
âçàèìîäåéñòâèÿ Âàí-äåð-Âààëüñà ìåæäó îòäåëüíûìè àòîìàìè) è çàêîí Êóëîíà. Ïà-
ðàìåòðû äëÿ ñâÿçàííûõ è íå ñâÿçàííûõ ÷ëåíîâ ïîëó÷àþò ñ ïîìîùüþ êâàíòîâûõ âû-
÷èñëåíèé íà îñíîâå òåðìîäèíàìè÷åñêèõ, êðèñòàëëîãðàôè÷åñêèõ è ñïåêòðîñêîïè-
÷åñêèõ ýêñïåðèìåíòîâ íà ðåàëüíûõ ìîëåêóëàõ.
Ðàññìîòðèì îòäåëüíûå ÷ëåíû, âõîäÿùèå â ÔÎÔÝ, óäåëÿÿ âíèìàíèå âîïðîñàì,
âîçíèêàþùèì ïðè ïîïûòêå èõ òî÷íîãî âû÷èñëåíèÿ [3].
Ýíåðãèÿ ñâÿçåé. Ýíåðãèè êîâàëåíòíûõ ñâÿçåé ãðóïï àòîìîâ âàðüèðóþòñÿ â øè-
ðîêîì äèàïàçîíå â çàâèñèìîñòè îò óãëà è ðàññòîÿíèÿ. Òàêèì îáðàçîì, ôóíêöèÿ ýíåð-
ãèè ñâÿçè íå íåñåò ñìûñëîâîé íàãðóçêè, ïîêà ñòðóêòóðà ìîëåêóëû íå îãðàíè÷åíà
ïðîñòðàíñòâåííûìè óãëàìè è íå çàäàíî õîòÿ áû ïðèìåðíîå ðàñïîëîæåíèå ÷àñòèö.
Ïîòåíöèàë Ëåííàðäà–Äæîíñà. Âçàèìîäåéñòâèå Âàí-äåð-Âààëüñà ìîäåëèðó-
åòñÿ ñ ïîìîùüþ ïîòåíöèàëà Ëåííàðäà–Äæîíñà:
V r
r r
( ) � �
�
�
� � �
�
�
�
�
�
�
�
�
�
�
4
12 6
�
� �
.
40 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
Ïåðâûé ÷ëåí â ñêîáêàõ óðàâíåíèÿ î÷åíü ÷óâñòâèòåëåí ê íåáîëüøèì ñìåùåíèÿì
÷àñòèö. Äèñêðåòíîå ìîäåëèðîâàíèå äåëàåò íåâîçìîæíûì òî÷íîå íàõîæäåíèå ìè-
íèìóìà ýòîãî ïîòåíöèàëà.
Âî âðåìÿ ìîäåëèðîâàíèÿ íåðåäêî âîçíèêàþò ïåðåêðûòèÿ è ÷àñòè÷íûå ñîâìå-
ùåíèÿ äâóõ ÷àñòèö, ÷òî ïðèâîäèò ê ñèëüíî çàâûøåííûì çíà÷åíèÿì ïîòåíöèàëà.
Ýòà ïðîáëåìà ðåøàåòñÿ ëèáî ëèíåàðèçàöèåé ôóíêöèè ýíåðãèè äëÿ ìàëûõ ðàññòîÿ-
íèé ìåæäó ÷àñòèöàìè, ëèáî ïîíèæåíèåì ñòåïåíè â óðàâíåíèè è ïîäáîðîì îïòè-
ìàëüíûõ êîýôôèöèåíòîâ â ôîðìóëå. Ñîâðåìåííûå âîçìîæíîñòè âû÷èñëèòåëüíîé
òåõíèêè íå ïîçâîëÿþò èñïîëüçîâàòü òî÷íóþ ôîðìóëó ðàñ÷åòà ïîòåíöèàëà Ëåííàð-
äà–Äæîíñà.
Ñîëüâàòàöèÿ. Ýíåðãèÿ ñîëüâàòàöèè ñîñòîèò èç äâóõ ñëàãàåìûõ: ýëåêòðîñòà-
òè÷åñêîãî âçàèìîäåéñòâèÿ ìåæäó àòîìàìè áåëêà è ðàñòâîðèòåëåì, ãèäðîôîáíîãî
ýôôåêòà âçàèìîäåéñòâèÿ êîíòàêòèðóþùèõ àòîìîâ áåëêà è ðàñòâîðèòåëÿ (ïîâåðõ-
íîñòíàÿ ýíåðãèÿ).
Òî÷íûé ðàñ÷åò ýíåðãèè ñîëüâàòàöèè ïîäðàçóìåâàåò ðàñ÷åò âçàèìîäåéñòâèÿ
àòîìîâ áåëêà ñ ìíîæåñòâîì åäèíè÷íûõ àòîìîâ ðàñòâîðèòåëÿ. Ýòà çàäà÷à èìååò
÷ðåçìåðíóþ âû÷èñëèòåëüíóþ ñëîæíîñòü, è íà ïðàêòèêå èñïîëüçóþòñÿ óïðîùåííûå
ìîäåëè. Êàê ïðèìåð, ðàñòâîðèòåëü çàìåíÿåòñÿ îäíîðîäíîé ñðåäîé ñ îïðåäåëåííûì
îäíîðîäíûì êîýôôèöèåíòîì ïîëÿðèçàöèè è ïîâåðõíîñòíûì íàòÿæåíèåì. Âñå ðàñ-
÷åòû, òàêèì îáðàçîì, îñíîâàíû äëÿ ïîëÿðèçàöèîííîãî ýôôåêòà íà çàêîíå Êóëîíà
è ïîòåíöèàëå Ëåííàðäà–Äæîíñà, à äëÿ ãèäðîôîáíîãî — íà ïëîùàäè ïîâåðõíîñòè
êîíòàêòà áåëêà ñ ðàñòâîðèòåëåì. Âàæíûì çäåñü ÿâëÿåòñÿ ïðèìåíèìîñòü ïðèíöèïà
ñóïåðïîçèöèè äëÿ ýòèõ çàêîíîâ, ïîçâîëÿþùàÿ ïðîñòî ñóììèðîâàòü ðàçëè÷íûå
âçàèìîäåéñòâèÿ äëÿ êàæäîãî îòäåëüíîãî àòîìà áåëêà.
Ìîäåëü äëÿ ðàñ÷åòà ñîëüâàòàöèè, ïðèâåäåííàÿ â êà÷åñòâå ïðèìåðà, ÿâëÿåòñÿ
÷ðåçìåðíî óïðîùåííîé è â íàñòîÿùåå âðåìÿ ïðèçíàíà íåïðèãîäíîé äëÿ òî÷íîãî
ïðåäñêàçàíèÿ ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêîâ.
Ãèäðîôîáíûé ýôôåêò. Ïðè ôîðìèðîâàíèè òðåòè÷íîé ñòðóêòóðû áåëêà âàæ-
íóþ ðîëü èãðàåò ïîëÿðíîñòü àìèíîêèñëîòíûõ îñòàòêîâ. Íåïîëÿðíûå àìèíîêèñëîòû
ôîðìèðóþò ÿäðî áåëêîâîé ãëîáóëû, èçáåãàþùåå êîíòàêòîâ ñ ìîëåêóëàìè âîäû. Ïî-
ëÿðíûå îñòàòêè ôîðìèðóþò îáîëî÷êó, êîíòàêòèðóþùóþ ñ ìîëåêóëàìè âîäû, îêðó-
æàþùèìè ãëîáóëó. Ïîìåñòèâ àìèíîêèñëîòíûå îñòàòêè ïåðâè÷íîé ñòðóêòóðû áåëêà
â óçëàõ òðåõìåðíîé ðåøåòêè ñ äëèíîé ðåáðà, ðàâíîé äëèíå ïåïòèäíîé ñâÿçè, ìîæíî
îöåíèòü êîëè÷åñòâî êîíòàêòîâ ìåæäó íåïîëÿðíûìè îñòàòêàìè (HH-êîíòàêòû). Çà-
äà÷à ñâîäèòñÿ ê íàõîæäåíèþ òàêîé êîíôèãóðàöèè �, êîòîðàÿ áû ìàêñèìèçèðîâàëà
êîëè÷åñòâî HH-êîíòàêòîâ. Ýíåðãèÿ êîíôèãóðàöèè � çàïèñûâàåòñÿ â âèäå
E n� � HH ( )� , ��� ,
ãäå nHH ( )� — êîëè÷åñòâî HH-êîíòàêòîâ â êîíôèãóðàöèè �, � — ìíîæåñòâî
âñåõ âîçìîæíûõ êîíôèãóðàöèé áåëêà ñ çàäàííîé ïåðâè÷íîé ñòðóêòóðîé. Äëÿ ìè-
íèìèçàöèè ýíåðãèè èñïîëüçóåòñÿ, êàê ïðàâèëî, âåñü àðñåíàë ñîâðåìåííûõ ìåòî-
äîâ îïòèìèçàöèè.
Ãèäðîôîáíûé ýôôåêò îáû÷íî ìîäåëèðóåòñÿ êàê íåêàÿ ôóíêöèÿ, ïðîïîðöèî-
íàëüíàÿ ïëîùàäè ïîâåðõíîñòè êîíòàêòà áåëêà ñ ðàñòâîðèòåëåì. Òåì íå ìåíåå ñó-
ùåñòâóåò ðÿä ýôôåêòîâ, çàìå÷åííûõ â ðåàëüíûõ áåëêàõ, äëÿ êîòîðûõ òàêàÿ ìîäåëü
íå ðàáîòàåò. Íàïðèìåð, â ñëó÷àå, êîãäà ðàçëè÷íûå ñëîè áåëêà ðàçäåëåíû ëèøü ìî-
íîìîëåêóëÿðíûì ñëîåì ðàñòâîðèòåëÿ, àòîìû áåëêà ïî îáå ÷àñòè ðàñòâîðèòåëÿ
âçàèìîäåéñòâóþò ìåæäó ñîáîé.
Ñóùåñòâóþùèå ìîäåëè ó÷åòà ïîäîáíûõ ýôôåêòîâ íåòî÷íû, ðåñóðñîåìêè è, áî-
ëåå òîãî, òðåáóþò äîïîëíèòåëüíîé àïïðîêñèìàöèè è îïòèìèçàöèè àëãîðèòìà.
Âîäà. Âîçìîæíû ñèòóàöèè, êîãäà îòäåëüíûå ìîëåêóëû âîäû ïëîòíî ñâÿçûâà-
þòñÿ ñ áåëêîì.  òàêîì ñëó÷àå ñòàíäàðòíàÿ ìîäåëü «áåëîê — ðàñòâîðèòåëü» íåïðè-
ìåíèìà. Íåîáõîäèìî ðàçðàáàòûâàòü ñïåöèàëüíûå àëãîðèòìû ïðåäñêàçàíèÿ òàêîãî
ðîäà ñâÿçûâàíèÿ è åãî ó÷åòà â ÔÎÔÝ.
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 41
Âîäîðîäíûå ñâÿçè.  êëàññè÷åñêîì ñëó÷àå âîäîðîäíûå ñâÿçè ìîäåëèðóþòñÿ
êàê ýëåêòðîñòàòè÷åñêîå âçàèìîäåéñòâèå ìåæäó äâóìÿ äèïîëÿìè (íàïðèìåð, C O�
è N H� ). Ïðè ýòîì âñå ÷åòûðå àòîìà â ìîäåëè îáû÷íî ïîìåùàþòñÿ íà îäíîé ïðÿ-
ìîé.  ðàáîòå [1] ïîêàçàíî, ÷òî â íåêîòîðûõ ñëó÷àÿõ ýòî äîïóùåíèå íåâåðíî, è ðàç-
ðàáîòàíà ìîäåëü ðàñ÷åòà äëÿ «èñêðèâëåííîé» ñâÿçè, à òàêæå ñòàòèñòè÷åñêèé ìåòîä
ïðåäñêàçàíèÿ ïîÿâëåíèÿ ïîäîáíîãî ðîäà «èñêðèâëåíèé».
Ïîëÿðèçàöèÿ ðàñòâîðèòåëÿ è êâàíòîâûå ýôôåêòû. Â îñíîâå ïîäàâëÿþùåãî
áîëüøèíñòâà ÔÎÔÝ ëåæàò ìîäåëè, ðàññìàòðèâàþùèå ôèêñèðîâàííûå çàðÿäû àòî-
ìîâ. Òåì íå ìåíåå ïðè âçàèìîäåéñòâèè ñ ðàñòâîðèòåëåì íà àòîìàõ âñëåäñòâèå êâàí-
òîâûõ ýôôåêòîâ âîçíèêàþò íàâåäåííûå äèïîëè, ÷òî â êîíå÷íîì ñ÷åòå âëèÿåò íà êà-
÷åñòâî ïðåäñêàçàíèÿ ñòðóêòóðû áåëêà.
Ïîñòðîåíèå òî÷íîé ìîäåëè ñ ó÷åòîì êâàíòîâûõ ýôôåêòîâ íåâîçìîæíî èç-çà
îãðîìíîé âû÷èñëèòåëüíîé ñëîæíîñòè.  êà÷åñòâå êîìïðîìèññà âîçìîæíî èñïîëü-
çîâàíèå êâàíòîâûõ ðàñ÷åòîâ äëÿ óòî÷íåíèÿ íàèáîëåå âàæíûõ ó÷àñòêîâ ñòðóêòóðû
áåëêà.
Òàêèì îáðàçîì, êàæäûé îòäåëüíûé ÷ëåí ôóíêöèè ýíåðãèè òðåáóåò îò èññëåäî-
âàòåëåé ðåøåíèÿ öåëîãî ðÿäà çàäà÷ è ïðèíÿòèÿ ñïåöèôè÷åñêèõ ðåøåíèé, ÷òî â èòî-
ãå ïðèâîäèò ê ñèòóàöèè, êîãäà êàæäàÿ ãðóïïà ðàçðàáîò÷èêîâ èñïîëüçóåò îïðåäåëåí-
íóþ ôóíêöèþ ýíåðãèè.
Îòäåëüíî ñëåäóåò áîëåå ïîäðîáíî îáñóäèòü, ïî ìíåíèþ áîëüøèíñòâà èññëåäî-
âàòåëåé, âàæíûé âîïðîñ âû÷èñëåíèÿ ýíåðãèè ñîëüâàòàöèè. Ïðåäïîëàãàåòñÿ, ÷òî,
îñíîâûâàÿñü òîëüêî íà âíóòðåííåì ìîëåêóëÿðíîì âçàèìîäåéñòâèè ìåæäó àòîìàìè
áåëêà, íåâîçìîæíî ïîñòðîèòü ïðîöåäóðó ðàñïîçíàâàíèÿ åãî ñòðóêòóðû. Äëÿ áîëåå
òî÷íîãî ïðåäñêàçàíèÿ ñòðóêòóðû íåîáõîäèìî ó÷èòûâàòü âçàèìîäåéñòâèå áåëêà
ñ ðàñòâîðèòåëåì. Ïðè ýòîì ãèäðîôîáíûé ýôôåêò, âñëåäñòâèå êîòîðîãî îòäåëüíûå
àìèíîêèñëîòû áåëêà ñòðåìÿòñÿ çàíÿòü ïîëîæåíèå áëèæå ê åãî ÿäðó, èãðàåò âòîðî-
ñòåïåííóþ ðîëü. Îñíîâíîé âêëàä â ôóíêöèþ ýíåðãèè äàåò íå ãèäðîôîáíûé ýôôåêò,
à ýíåðãèÿ, íåîáõîäèìàÿ äëÿ äåñîëüâàòàöèè áåëêà.
Âû÷èñëåíèå ýíåðãèè ñîëüâàòàöèè áåëêà ÿâëÿåòñÿ íàèáîëåå òðóäíûì â ïðî-
öåññå ïðèìåíåíèÿ ÔÎÔÝ. Îñíîâíûì óðàâíåíèåì, èñïîëüçóåìûì äëÿ íàõîæäåíèÿ
ñâîáîäíîé ýíåðãèè ñîëüâàòàöèè, ÿâëÿåòñÿ óðàâíåíèå Ïóàññîíà–Áîëüöìàíà (ÏÁ).
Ê ñîæàëåíèþ, ýòî óðàâíåíèå èç-çà åãî ñëîæíîñòè íåâîçìîæíî èñïîëüçîâàòü â óïðî-
ùåííîé ôîðìå â ìàøèííûõ âû÷èñëåíèÿõ.
Òàêèì îáðàçîì, áîëüøèíñòâî ïðèìåíÿåìûõ ÔÎÔÝ ñîñòîèò èõ òðåõ ñëàãàåìûõ:
ìåæìîëåêóëÿðíîãî âçàèìîäåéñòâèÿ, ÏÁ è ÷ëåíà, ó÷èòûâàþùåãî ãèäðîôîáíûé ýô-
ôåêò. Ïðè ýòîì íå ðàññìàòðèâàþòñÿ êîëåáàòåëüíûå ïðîöåññû â ìîëåêóëå áåëêà è
ëþáàÿ äðóãàÿ êèíåòèêà.
Ââèäó áîëüøîé âû÷èñëèòåëüíîé ñëîæíîñòè óðàâíåíèÿ ÏÁ ðàçðàáîòàíû äðóãèå
óïðîùåííûå ïîäõîäû. Íàèáîëåå ïåðñïåêòèâåí ïîäõîä, îñíîâàííûé íà îáîáùåííîé
ìîäåëè Áîðà (ÎÌÁ), â êîòîðîé äëÿ âû÷èñëåíèÿ áîðîâñêîãî ðàäèóñà âìåñòî óðàâíå-
íèÿ ÏÁ ïðèìåíÿåòñÿ óïðîùåííàÿ ìîäåëü ýëåêòðîñòàòè÷åñêîãî âçàèìîäåéñòâèÿ àòî-
ìîâ. Áîëüøèíñòâî ýôôåêòèâíûõ ÔÎÔÝ, îñíîâàííûõ íà ÎÌÁ, èñïîëüçóþò ôóíêöèè
CHARMM — íàèáîëåå èçâåñòíîé ïðîãðàììû ìîëåêóëÿðíîãî ìîäåëèðîâàíèÿ, ïðè-
ìåíÿåìîé äëÿ ñèñòåì ñ áîëüøèì êîëè÷åñòâîì ÷àñòèö è ñòàâøåé ñâîåãî ðîäà
ñòàíäàðòîì.
 êà÷åñòâå ïðèìåðà ïîäõîäà, íå èñïîëüçóþùåãî ÏÁ èëè ÎÌÁ, ìîæíî ïðèâåñòè
ìîäåëü ãàóññîâñêîãî èñêëþ÷åíèÿ ñîëüâàòàöèè. Åñëè ýòîò ìåòîä ñîâìåùàþò ñ ïðè-
ìåíåíèåì ôóíêöèè ýíåðãèè CHARMM, òî åãî íàçûâàþò EEF1. Â íàñòîÿùåå âðåìÿ
EEF1, à òàêæå ìåòîäû, èñïîëüçóþùèå ÎÌÁ, ïîëíîñòüþ ðåàëèçîâàíû â CHARMM.
2.3. Ïðèìåíåíèå áèîôèçè÷åñêèõ ôèëüòðîâ è êàðò Ðàìà÷àíäðàíà.  ìåòî-
äàõ ìèíèìèçàöèè ýíåðãèè ïî èçâåñòíîé ïåðâè÷íîé ñòðóêòóðå áåëêà ãåíåðèðóþò
òðåòè÷íóþ ñòðóêòóðó è ïðîâåðÿþò çíà÷åíèå åå ýíåðãèè. Çàòåì èçìåíÿþò â ýòîé òðå-
òè÷íîé ñòðóêòóðå êàêèå-òî ïàðàìåòðû è ïîäñ÷èòûâàþò ýíåðãèþ ó íîâîãî âàðèàíòà.
Åñëè åãî ýíåðãèÿ ìåíüøå, ÷åì ó ïðåäûäóùåãî, òî ðàáîòàþò ñ íîâûì âàðèàíòîì
ñòðóêòóðû, â ïðîòèâíîì ñëó÷àå âîçâðàùàþòñÿ ê ïðåäûäóùåìó âàðèàíòó. Çàòåì â òå-
êóùåì âàðèàíòå ñòðóêòóðû ñíîâà ïðoâîäÿò èçìåíåíèÿ è ò.ä.
42 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
Ïîñêîëüêó âû÷èñëåíèå ýíåðãèè âåñüìà çàòðóäíèòåëüíî, òî åùå äî ýòàïà åå
ïîäñ÷åòà èç ðàññìîòðåíèÿ èñêëþ÷àþò âàðèàíòû ñòðóêòóðû, íå èìåþùèå ôèçè÷åñ-
êîãî ñìûñëà. Òàêóþ ïðîâåðêó äåëàþò ñ ïîìîùüþ êàðò Ðàìà÷àíäðàíà è òàê íàçûâàå-
ìûõ áèîôèçè÷åñêèõ ôèëüòðîâ. Êàðòû Ðàìà÷àíäðàíà ïîêàçûâàþò ðàçðåøåííûå è çà-
ïðåùåííûå êîíôîðìàöèè (ðàçðåøåííûå è çàïðåùåííûå äâóãðàííûå óãëû
õèìè÷åñêèõ ñâÿçåé) äëÿ àìèíîêèñëîòíûõ îñòàòêîâ áåëêà.
Äâóãðàííûé (òîðñèîííûé) óãîë. Äëÿ îïèñàíèÿ âçàèìíîãî ðàñïîëîæåíèÿ
àòîìîâ ëèíåéíîé ÷åòûðåõàòîìíîé èíäèâèäóàëüíîé ìîëåêóëû (èëè âõîäÿùåãî
â ñîñòàâ áîëåå ñëîæíîé ìîëåêóëû ëèíåéíîãî ÷åòû-
ðåõàòîìíîãî ôðàãìåíòà) A––C–D èñïîëüçóåòñÿ òà-
êîé ãåîìåòðè÷åñêèé ïàðàìåòð, êàê äâóãðàííûé (íà-
çûâàåìûé òàêæå òîðñèîííûì) óãîë. Ýòî óãîë ìåæäó
ïëîñêîñòüþ, â êîòîðîé ëåæèò ôðàãìåíò A––C,
è ïëîñêîñòüþ, â êîòîðîé ëåæèò ôðàãìåíò –C–D, ò.å.
îí îòðàæàåò õàðàêòåð âçàèìíîãî ðàñïîëîæåíèÿ ýòèõ
òðåõàòîìíûõ ôðàãìåíòîâ. Íà ðèñ. 1 äâóãðàííûé óãîë
îáîçíà÷åí �, âåëè÷èíû âàëåíòíûõ óãëîâ òðåõàòîì-
íûõ ôðàãìåíòîâ A––C è –C–D — ñîîòâåòñòâåííî
�1 è � 2 .
Íàèáîëåå íàãëÿäíî äâóãðàííûé óãîë ìîæåò áûòü èçîáðàæåí ïðè ðàññìîòðå-
íèè A––C–D âäîëü íàïðàâëåíèÿ ñâÿçè –C. Òîãäà îí áóäåò âèäåí êàê óãîë ìåæ-
äó ñâÿçÿìè –A è C–D.
Òîðñèîííûå óãëû ñâÿçåé ïîëèïåïòèäíîé öåïî÷êè áåëêà.  ìîëåêóëå ëþáîãî
áåëêà ìîæíî âûäåëèòü ëèíåéíóþ ìíîãîàòîìíóþ öåïî÷êó, ïðîõîäÿùóþ ÷åðåç âñå
àìèíîêèñëîòû áåëêà.  ýòó öåïî÷êó èç êàæäîãî àìèíîêèñëîòíîãî îñòàòêà âõîäÿò ïî
òðè àòîìà (Ni , Ci
� , Ci , ãäå i — íîìåð àìèíîêèñëîòíîãî îñòàòêà â àìèíîêèñëîòíîé ïî-
ñëåäîâàòåëüíîñòè áåëêà). Ñâÿçè ìåæäó ýòèìè àòîìàìè îáîçíà÷àþòñÿ ñëåäóþùèì îá-
ðàçîì: N Ci i� � , C Ci i
�� , C Ni i� �1 , N Ci i� �
�1 1
� , C C
i i� ��
1 1
� , C Ni i� ��1 2 è ò.ä.
Òîðñèîííûé óãîë, îïèñûâàþùèé âðàùåíèå âîêðóã ñâÿçè N C� � , îáîçíà÷àþò ,
âîêðóã ñâÿçè C C�� — êàê � , à îïèñûâàþùèé âðàùåíèå âîêðóã ïåïòèäíîé ñâÿçè
C N� — êàê � . Ñèìâîëû i , � i , �i èñïîëüçóþòñÿ äëÿ îáîçíà÷åíèÿ òîðñèîííûõ
óãëîâ â ïðåäåëàõ i-ãî àìèíîêèñëîòíîãî îñòàòêà â ñëó÷àÿõ è � è ìåæäó i-ì è
( )i �1 -ì îñòàòêîì â ñëó÷àå �. Òîðñèîííûé óãîë i îïðåäåëÿåòñÿ ïîñëåäîâàòåëüíî-
ñòüþ àòîìîâ Ci�1, Ni , Ci
� , Ci , óãîë � i —
ïîñëåäîâàòåëüíîñòüþ Ni , Ci
� , Ci , Ni�1,
à óãîë �i — ïîñëåäîâàòåëüíîñòüþ Ci
� , Ci ,
Ni�1, C
i�1
� (ðèñ. 2). Òàê êàê ïåïòèäíàÿ
ñâÿçü C Ni i� �1 ÷àñòè÷íî äâîéíàÿ, óãîë �
îáû÷íî ìîæåò ïðèíèìàòü çíà÷åíèÿ òîëüêî
â îêðåñòíîñòÿõ 0� èëè 180�.
Íà ðèñ. 2 ïîêàçàí ó÷àñòîê ïîëèïåï-
òèäíîé öåïè ñ äâóìÿ ïåïòèäíûìè ñâÿçÿìè.
Ãðàíèöû ìåæäó àìèíîêèñëîòíûìè îñòàò-
êàìè îáîçíà÷åíû âîëíèñòûìè ëèíèÿìè.
(Öåïü ïîêàçàíà â íàèáîëåå ðàñòÿíóòîé
êîíôîðìàöèè: � �i i i� � � �180 ).
Ãðàôèê Ðàìà÷àíäðàíà (íàçûâàåìûé
òàêæå êàðòîé èëè äèàãðàììîé Ðàìà÷àíäðà-
íà, êîíôîðìàöèîííîé êàðòîé, �/ -êàð-
òîé). Ýòîò ãðàôèê ïîêàçûâàåò âûâåäåííûå
èç êâàíòîâî-õèìè÷åñêèõ ðàñ÷åòîâ ðàçðå-
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 43
A
B
C
D
�
�1
�2
Ðèñ. 1. Äâóãðàííûé (òîðñèîííûé)
óãîë
Ðèñ. 2. Òîðñèîííûå óãëû ìåæäó ñâÿçÿìè ïîëè-
ïåïòèäíîé (áåëêîâîé) öåïè
Ci�1
�
Ni�1 Hi�1
Oi
Ci
Hi
Ci�1
�
Ci�1
Oi�1
C
i
�
Ci
�
Hi
�
Ni
�i�1
i
� i
�i
øåííûå è çàïðåùåííûå çíà÷åíèÿ äâóãðàííûõ óãëîâ è � àìèíîêèñëîò èëè ïîëó-
÷åííûå ýêñïåðèìåíòàëüíî (ñ ïîìîùüþ ðåíòãåíîñòðóêòóðíîãî àíàëèçà ñóùåñòâóþ-
ùèõ áåëêîâ) ÷àñòîòû âñòðå÷àåìîñòè çíà÷åíèé ýòèõ óãëîâ. Íà îñè àáñöèññ ïîêàçûâà-
þòñÿ óãëû , íà îñè îðäèíàò — �.
Äëÿ òîðñèîííûõ óãëîâ òîãî èëè èíîãî âèäà âòîðè÷íîé ñòðóêòóðû áåëêà òàêæå
ìîãóò áûòü ïîñòðîåíû êàðòû Ðàìà÷àíäðàíà.
 ìåòîäàõ ìèíèìèçàöèè ýíåðãèè íà ýòàïå ãåíåðàöèè âàðèàíòîâ òðåòè÷íîé
ñòðóêòóðû òîðñèîííûå óãëû êàæäîé àìèíîêèñëîòû ãåíåðèðóþòñÿ ñ ó÷åòîì èõ ðàç-
ðåøåííûõ çíà÷åíèé íà êàðòå Ðàìà÷àíäðàíà. Êîíôîðìàöèè, èìåþùèå çàïðåùåííûå
òîðñèîííûå óãëû, íå ãåíåðèðóþòñÿ.
Áèîôèçè÷åñêèå ôèëüòðû. Ïîñëå ãåíåðàöèè êàæäîãî âàðèàíòà òðåòè÷íîé ñòðóê-
òóðû îí ìîæåò áûòü ïðîâåðåí áèîôèçè÷åñêèìè ôèëüòðàìè, ñ ïîìîùüþ êîòîðûõ
ó ïðîâåðÿåìîãî âàðèàíòà ìîæíî îáíàðóæèòü íåñâîéñòâåííûå ñóùåñòâóþùèì â ïðèðî-
äå íàòèâíûì ñòðóêòóðàì áåëêîâ îñîáåííîñòè. Åñëè òàêèå îñîáåííîñòè íàõîäÿòñÿ, òî
äàííûé âàðèàíò ñòðóêòóðû îòáðàñûâàåòñÿ è ïîäñ÷åò åãî ýíåðãèè íå ïðîèçâîäèòñÿ.
Ïðåäëîæåíû ðàçëè÷íûå áèîôèçè÷åñêèå ôèëüòðû: ïî äëèíå ïðîòÿæåííîñòè, ïî
ðàäèóñó èíåðöèè, ïî ïðîïîðöèè ãèäðîôîáíîñòè (Hydrophobicity ratio filter), ïî óïàêî-
âàííîé ôðàêöèè (Packing fraction filter) è äðóãèå, â êîòîðûõ èñïîëüçóþòñÿ ðàçëè÷íûå
áèîôèçè÷åñêèå õàðàêòåðèñòèêè. Ïî ñðàâíåíèþ ñ äðóãèìè áèîôèçè÷åñêèìè ôèëüòðà-
ìè íàèáîëåå ýôôåêòèâíû â âûÿâëåíèè ñòðóêòóð, íå ïîõîæèõ íà ïðèðîäíûå, ôèëüòðû
ïî äëèíå ïðîòÿæåííîñòè è ïî ðàäèóñó èíåðöèè [4]. Îíè êðàòêî îïèñàíû íèæå.
Äëèíà ïðîòÿæåííîñòè (Persistence length) — ìàêñèìàëüíàÿ äëèíà ïî ïðÿìîé
ëèíèè ìåæäó ó÷àñòêàìè íåïðåðûâíîé ïîëèïåïòèäíîé öåïè. Äëÿ ãëîáóëÿðíîãî áåë-
êà åå çíà÷åíèÿ âàðüèðóþò îò 15 � äî 60 � ñî ñðåäíèì çíà÷åíèåì îêîëî 40 � [4]. Ýòîò
èíòåðâàë èñïîëüçóåòñÿ êàê ïîðîã, ÷òîáû âûäåëèòü êîíôîðìàöèè, íå ñõîæèå ñ ïðè-
ðîäíûìè.
Ðàäèóñ èíåðöèè (Radius of gyration) áåëêà îïðåäåëÿåòñÿ êàê ñðåäíåå êâàäðàòè÷-
íîå ðàññòîÿíèé ìåæäó êàæäûì àòîìîì áåëêà è èõ îáùèì öåíòðîì ìàññ. Ðàäèóñ
èíåðöèè ãëîáóëÿðíîãî áåëêà ïðîïîðöèîíàëåí N 3 5/ (ãäå N — êîëè÷åñòâî àìèíî-
êèñëîò) è óäîâëåòâîðÿåò ñëåäóþùåìó ðàâåíñòâó:
R Ng � � �� �3 5/ .
Äëÿ òîãî ÷òîáû îòëè÷èòü ñõîæèå ñ íàòèâíûìè ñòðóêòóðû îò íåñõîæèõ, îáû÷íî
èñïîëüçóþò ôèêñèðîâàííîå çíà÷åíèå � � 0 359, è çíà÷åíèÿ � â ïðîìåæóòêå îò 4,257
äî 11,257 [4, 5].
2.4. Êàðòû êîíòàêòîâ. Êîíòàêòíàÿ êàðòà (èëè êàðòà êîíòàêòîâ) áåëêà — óïðî-
ùåííîå ïðåäñòàâëåíèå òðåõìåðíîé ñòðóêòóðû áåëêà. Îíî íåñåò èíôîðìàöèþ òîëü-
êî î ðàññòîÿíèÿõ ìåæäó àìèíîêèñëîòàìè â òðåõìåðíîì ïðîñòðàíñòâå è ïðåäñòàâëÿ-
åò ñîáîé áóëåâó ñèììåòðè÷íóþ êâàäðàòíóþ ìàòðèöó M ðàçìåðíîñòè N N� , â êîòî-
ðîé ýëåìåíò M i j( , ) �1, åñëè ðàññòîÿíèå ìåæäó i-ì è j-ì àìèíîêèñëîòíûìè
îñòàòêàìè áåëêà ìåíüøå íåêîòîðîãî ïîðîãîâîãî çíà÷å-
íèÿ, è M i j( , ) � 0 â ïðîòèâíîì ñëó÷àå, ãäå i N�1,... , è
j N�1,... , — ïîðÿäêîâûå íîìåðà àìèíîêèñëîò â ïåð-
âè÷íîé ñòðóêòóðå áåëêà, N — êîëè÷åñòâî àìèíîêèñëîò
â áåëêå.
Äëÿ ïîñòðîåíèÿ êîíòàêòíûõ êàðò ìîãóò èñïîëüçî-
âàòüñÿ ðàçëè÷íûå îïðåäåëåíèÿ è ïîðîãîâûå çíà÷åíèÿ
ðàññòîÿíèÿ ìåæäó àìèíîêèñëîòíûìè îñòàòêàìè: ðàñ-
ñòîÿíèå ìåæäó àòîìàìè C� ñ ïîðîãîì 6–12 � , ðàññòîÿ-
íèå ìåæäó àòîìàìè C� ñ ïîðîãîì 6–12 � (â ýòîì ñëó-
÷àå äëÿ ãëèöèíà èñïîëüçóåòñÿ àòîì C� ) èëè íàè-
ìåíüøåå ðàññòîÿíèå ìåæäó ëþáûìè àòîìàìè, íî ñ ìåíü-
øèì ïîðîãîì 4,5–6 � .
44 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
Ðèñ. 3. Ïðèìåð êîíòàêòíîé êàðòû
áåëêà
Íà ðèñ. 3 ïðèâåäåí ïðèìåð êîíòàêòíîé êàðòû. Êîíòàêòû (ýëåìåíòû ìàòðèöû,
ðàâíûå åäèíèöå) îòìå÷åíû òåìíûìè êâàäðàòàìè. Äëÿ óäîáñòâà ïîêàçàíû ýëåìåíòû
òîëüêî îäíîé èç äâóõ ïîëíîñòüþ ñèììåòðè÷íûõ ïîëîâèí ìàòðèöû, è òîëüêî òå, äëÿ
êîòîðûõ | |i j� � 3.
Âçàèìíîå ðàñïîëîæåíèå êîíòàêòîâ íà êîíòàêòíîé êàðòå ïîä÷èíÿåòñÿ ñëåäóþ-
ùèì çàêîíîìåðíîñòÿì:
— êîíòàêòû ìåæäó àìèíîêèñëîòàìè îäíîé �-ñïèðàëè ðàñïîëîæåíû íà ðàñ-
ñòîÿíèè íå áîëåå íåñêîëüêèõ ïîçèöèé îò ãëàâíîé äèàãîíàëè êàðòû;
— êîíòàêòû ìåæäó àìèíîêèñëîòàìè äâóõ ñîñåäíèõ òÿæåé àíòèïàðàëëåëüíîé
�-ñòðóêòóðû çàíèìàþò îáëàñòü òîëùèíîé â íåñêîëüêî ïîçèöèé, âûòÿíóòóþ ïåðïåí-
äèêóëÿðíî ãëàâíîé äèàãîíàëè êàðòû;
— êîíòàêòû ìåæäó àìèíîêèñëîòàìè äâóõ ñîñåäíèõ òÿæåé ïàðàëëåëüíîé
�-ñòðóêòóðû çàíèìàþò îáëàñòü òîëùèíîé â íåñêîëüêî ïîçèöèé, âûòÿíóòóþ ïàðàë-
ëåëüíî ãëàâíîé äèàãîíàëè êàðòû.
Êîíòàêòíûå êàðòû ìîãóò èñïîëüçîâàòüñÿ êàê ïðîìåæóòî÷íîå çâåíî äëÿ ïðåä-
ñêàçàíèÿ êîîðäèíàò àòîìîâ áåëêà â òðåõìåðíîì ïðîñòðàíñòâå. Ýòîò ïîäõîä ïåð-
ñïåêòèâåí, òàê êàê êîíòàêòû ïðåäñêàçûâàþòñÿ ìåòîäàìè ìàøèííîãî îáó÷åíèÿ ëåã-
÷å, ÷åì êîîðäèíàòû â òðåõìåðíîì ïðîñòðàíñòâå, à ïîñëåäíèå ïðè îïðåäåëåííûõ
óñëîâèÿõ ìîæíî ðåêîíñòðóèðîâàòü ïî èçâåñòíîé êîíòàêòíîé êàðòå [6].
Ðàçðàáîòàíî ìíîãî ðàçëè÷íûõ ìåòîäîâ äëÿ ïðåäñêàçàíèÿ êîíòàêòíîé êàðòû ïî
èçâåñòíîé ïåðâè÷íîé ñòðóêòóðå áåëêà. Èõ ìîæíî ðàçäåëèòü íà äâå âçàèìîíåèñêëþ-
÷àþùèå êàòåãîðèè:
1) ñòàòèñòè÷åñêèå ïîäõîäû, èñïîëüçóþùèå ìåòîä êîððåëèðóþùèõ ìóòàöèé;
2) ïîäõîäû, èñïîëüçóþùèå ìåòîäû ìàøèííîãî îáó÷åíèÿ.
Ïåðâûå äëÿ ïðåäñêàçàíèÿ êîíòàêòîâ èñïîëüçóþò èíôîðìàöèþ î êîððåëèðó-
þùèõ ìóòàöèÿõ ðàçíûõ àìèíîêèñëîòíûõ îñòàòêîâ, âòîðûå — ìåòîäû ìàøèííîãî
îáó÷åíèÿ, òàêèå êàê íåéðîííûå ñåòè, ñêðûòûå ìàðêîâñêèå ìîäåëè è ìåòîä îïîðíûõ
âåêòîðîâ [7]. Äëÿ ïðåäñêàçàíèÿ êîíòàêòíûõ êàðò ìîãóò ïðèìåíÿòüñÿ òàêæå êîìáè-
íàöèè íåñêîëüêèõ ìåòîäîâ.
Òî÷íîñòü ïðåäñêàçàíèÿ êîíòàêòíûõ êàðò â çàâèñèìîñòè îò èñïîëüçóåìîãî äëÿ
ïðåäñêàçàíèÿ ïîäõîäà ìîæåò áûòü ñâÿçàíà ñ êà÷åñòâîì ìíîæåñòâåííîãî âûðàâíèâà-
íèÿ ïîñëåäîâàòåëüíîñòåé è òî÷íîñòüþ ïðåäñêàçàíèÿ âòîðè÷íûõ ñòðóêòóð. Êðîìå
òîãî, îíà âñåãäà ñâÿçàíà ñ ïðîïîðöèåé �-ëèñòîâ â áåëêå — êîíòàêòû â �-ëèñòàõ
â �-áåëêàõ, � �� -áåëêàõ è � �/ -áåëêàõ ïðåäñêàçûâàþòñÿ ñ áîëüøåé òî÷íîñòüþ, ÷åì
êîíòàêòû ìåæäó �-ñïèðàëüþ è �-ëèñòîì èëè ìåæäó �-ñïèðàëÿìè [8].
Êîíòàêòû ñ ó÷àñòèåì àìèíîêèñëîòû, íå âõîäÿùåé âî âòîðè÷íûå ñòðóêòóðû,
ìåæäó äâóìÿ ðàçíûìè �-ñïèðàëÿìè, ìåæäó �-ñïèðàëüþ è �-ñòðóêòóðîé, è äàæå
ìåæäó äâóìÿ ðàçíûìè �-ñòðóêòóðàìè, íå ïàðàëëåëüíûìè è íå àíòèïàðàëëåëüíûìè
îäíà äðóãîé, êàê ïðàâèëî, ïðåäñêàçûâàþòñÿ çíà÷èòåëüíî õóæå, ÷åì êîíòàêòû ìåæ-
äó àìèíîêèñëîòàìè îäíîé âòîðè÷íîé ñòðóêòóðû. Èíòåðåñíî, ÷òî áîëüøèíñòâî íå-
âåðíî ïðåäñêàçàííûõ êîíòàêòîâ ðàñïîëîæåíû âáëèçè îò íàñòîÿùèõ êîíòàêòîâ.
Äëÿ âûÿâëåíèÿ íåïðàâèëüíî ïðåäñêàçàííûõ êîíòàêòîâ ìîãóò áûòü èñïîëüçîâà-
íû ïðàâèëà, îñíîâàííûå íà ãåîìåòðè÷åñêèõ çàêîíîìåðíîñòÿõ ñòðîåíèÿ �-ñïèðàëåé
è �-ñòðóêòóð.
Íàèáîëüøàÿ òî÷íîñòü ïðåäñêàçàíèÿ êîíòàêòîâ ïî èçâåñòíîé àìèíîêèñëîòíîé
ïîñëåäîâàòåëüíîñòè ñîñòàâèëà 32%; ïîëó÷åííàÿ îöåíêà ïðåâîñõîäèò òî÷íîñòü
ïðåäñêàçàíèÿ êîîðäèíàò â òðåõìåðíîì ïðîñòðàíñòâå ïî èçâåñòíîé àìèíîêèñëîòíîé
ïîñëåäîâàòåëüíîñòè.
Îáùàÿ çàäà÷à âû÷èñëåíèÿ êîîðäèíàò àòîìîâ áåëêà â òðåõìåðíîì ïðîñòðà-
íñòâå, ñîâìåñòèìûõ ñ äàííîé êîíòàêòíîé êàðòîé, èçâåñòíàÿ êàê çàäà÷à î ñóùåñòâî-
âàíèè ãðàôà äèñêîâ åäèíè÷íîãî ðàäèóñà, ÿâëÿåòñÿ NP -òðóäíîé çàäà÷åé.  íàñòîÿ-
ùåå âðåìÿ ðàçðàáîòàíî íåñêîëüêî ýìïèðè÷åñêèõ ìåòîäîâ äëÿ ïðåäñêàçàíèÿ êîîðäè-
íàò àòîìîâ áåëêà ïî èçâåñòíîé êàðòå êîíòàêòîâ. Äëÿ ïîñòðîåííûõ ïî ýìïèðè÷åñêèì
äàííûì êàðòàì êîíòàêòîâ êîîðäèíàòû àòîìîâ áåëêà ìîãóò áûòü âîññòàíîâëåíû ñî
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 45
ñðåäíèì êâàäðàòè÷íûì îòêëîíåíèåì 1–2 � , îäíàêî ïî ïðåäñêàçàííûì êàðòàì êîí-
òàêòîâ îíè ïðîãíîçèðóþòñÿ ñ âûñîêèì îòêëîíåíèåì áîëåå 3 � [6].
3. ÂÅÐÎßÒÍÎÑÒÍÛÅ ÌÎÄÅËÈ ÍÀ ÏÎÑËÅÄÎÂÀÒÅËÜÍÎÑÒßÕ
Ïðè ðåøåíèè çàäà÷è ïðåäñêàçàíèÿ ñòðóêòóðû áåëêà ïðèìåíÿþòñÿ âåðîÿòíîñòíûå
ìîäåëè íà ïîñëåäîâàòåëüíîñòÿõ. Ìîäåëè ñòðîÿòñÿ ïî èíôîðìàöèè èç îáó÷àþùèõ
âûáîðîê, â êà÷åñòâå êîòîðûõ èñïîëüçóþòñÿ îòêðûòûå áàíêè äàííûõ áåëêîâûõ
ñòðóêòóð. Äëÿ çàäàííîé ïîñëåäîâàòåëüíîñòè àìèíîêèñëîò, èëè íàáëþäåíèé, òðå-
áóåòñÿ íàéòè íàèáîëåå âåðîÿòíóþ ïîñëåäîâàòåëüíîñòü ñîñòîÿíèé. Ñîñòîÿíèÿìè
ìîãóò áûòü òèïû âòîðè÷íîé ñòðóêòóðû èëè òîðñèîííûå óãëû â çàâèñèìîñòè îò
êîíêðåòíîé çàäà÷è.
Îáîçíà÷èì ïîñëåäîâàòåëüíîñòü íàáëþäåíèé x x xn� ( ,... , )1 , x Ai X� , à ïîñëå-
äîâàòåëüíîñòü èñêîìûõ ñîñòîÿíèé y y yn� ( ,... , )1 , y Ai Y� . Çäåñü A X — êîíå÷íîå
ìíîæåñòâî çíà÷åíèé îäíîãî íàáëþäåíèÿ, AY — êîíå÷íîå ìíîæåñòâî çíà÷åíèé îä-
íîãî ñîñòîÿíèÿ. Êðîìå òîãî, îáîçíà÷èì X A
X
n� ìíîæåñòâî âñåõ âîçìîæíûõ çíà÷å-
íèé ïîñëåäîâàòåëüíîñòè íàáëþäåíèé äëèíû n , Y A
Y
n� — ìíîæåñòâî âñåõ âîçìîæ-
íûõ çíà÷åíèé ïîñëåäîâàòåëüíîñòè ñîñòîÿíèé äëèíû n .
Ïðåäïîëàãàåòñÿ, ÷òî ñóùåñòâóåò ñîâìåñòíîå ðàñïðåäåëåíèå âåðîÿòíîñòè íà
ìíîæåñòâå íàáëþäåíèé è ñîñòîÿíèé P x y( , ) , x X� , y Y� ; îáîçíà÷èì åãî P( )
,
�V, V X Y� � . Çàäà÷à ñòàâèòñÿ ñëåäóþùèì îáðàçîì: ñ ïîìîùüþ îáó÷àþùåé âû-
áîðêè íåîáõîäèìî íàéòè arg max ( | )
y Y
P y x
�
, x X� . Äëÿ ðåøåíèÿ ýòîé çàäà÷è èñïîëü-
çóþòñÿ ìîäåëè Ìàðêîâà ñî ñêðûòûìè ïàðàìåòðàìè (HMM — Hidden Markov
Models) è óñëîâíûå ñëó÷àéíûå ïîëÿ (CRF — Conditional Random Fields). Ýòè ïîä-
õîäû îñíîâàíû íà ïðåäñòàâëåíèè ìíîãîìåðíîãî ñîâìåñòíîãî ðàñïðåäåëåíèÿ P( )
,
�V, â âèäå ïðîèçâåäåíèÿ áîëåå ïðîñòûõ ðàñïðåäåëåíèé — ôàêòîðîâ, õàðàêòåðèñ-
òèêè êîòîðûõ, â îòëè÷èå îò èñõîäíîãî ðàñïðåäåëåíèÿ, ìîæíî óñòàíîâèòü èç èìåþ-
ùèõñÿ îáó÷àþùèõ âûáîðîê.
Ìîäåëè Ìàðêîâà ñî ñêðûòûìè ïàðàìåòðàìè (ÌÌÑÏ). Ïðåäïîëàãàåòñÿ,
÷òî ïîñëåäîâàòåëüíîñòü ñîñòîÿíèé y y yn� ( ,... , )1 îïèñûâàåòñÿ öåïüþ Ìàðêîâà, íà-
ïðèìåð, ïåðâîãî ïîðÿäêà. Çàäàíî íà÷àëüíîå ðàñïðåäåëåíèå âåðîÿòíîñòè ñîñòîÿíèé
P yi( ) è âåðîÿòíîñòè ïåðåõîäîâ ìåæäó ñîñòîÿíèÿìè P y yi i( | )�1 , y y Ai i Y, � �1 .
Êðîìå òîãî, ïðåäïîëàãàåòñÿ, ÷òî íàáëþäåíèÿ xi íåçàâèñèìû. Çàìåòèì, ÷òî ñ ïî-
ìîùüþ êðèòåðèÿ � 2 ãèïîòåçà î íåçàâèñèìîñòè àìèíîêèñëîòíîé ïîñëåäîâàòåëüíîñ-
òè xi ëåãêî îòâåðãàåòñÿ [9]. Òàêèì îáðàçîì, âîïðîñ îòíîñèòåëüíî àäåêâàòíîñòè îïè-
ñûâàåìîé íèæå ìîäåëè îñòàåòñÿ çà ñêîáêàìè. Âåðîÿòíîñòü çíà÷åíèÿ xi çàâèñèò
òîëüêî îò çíà÷åíèÿ òåêóùåãî ñîñòîÿíèÿ yi ñ çàäàííûì ðàñïðåäåëåíèåì P x yi i( | ) ,
y Ai Y� , x Ai X� . Ýòî ïîçâîëÿåò çàïèñàòü ñîâìåñòíîå ðàñïðåäåëåíèå âåðîÿòíîñòè
â âèäå
P p y p x y p y y p x y
i
n
i i i i( ) ( ) ( | ) ( | ) ( | )
�
�
��1 1 1
2
1 .
Íà îñíîâå ñîâìåñòíîãî ðàñïðåäåëåíèÿ ñ ïîìîùüþ ÌÌÑÏ ðåøàþòñÿ ñëåäóþ-
ùèå çàäà÷è.
� Çàäàíà ïîñëåäîâàòåëüíîñòü íàáëþäåíèé x x xn� ( ,... , )1 è ìîäåëü � . Íåîáõî-
äèìî íàéòè íàèáîëåå âåðîÿòíóþ, â îïðåäåëåííîì ñìûñëå, ïîñëåäîâàòåëüíîñòü ñî-
ñòîÿíèé y y yn� ( ,... , )1 .
� Äàíà îáó÷àþùàÿ âûáîðêà. Íåîáõîäèìî ïîäîáðàòü ìîäåëü � , êîòîðàÿ áû
ìàêñèìèçèðîâàëà ñîâìåñòíîå ïðàâäîïîäîáèå ïîñëåäîâàòåëüíîñòåé íàáëþäåíèé è
ñîñòîÿíèé.
46 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
Ýòè çàäà÷è ñâîäÿòñÿ ê íàõîæäåíèþ îïòèìàëüíûõ ïàðàìåòðîâ ìîäåëè � ïî îáó-
÷àþùåé âûáîðêå è îïðåäåëåíèþ ñ ïîìîùüþ ïîëó÷åííîé ìîäåëè íàèáîëåå âåðîÿòíîé
ñòðóêòóðû, êîòîðóþ èìååò çàäàííàÿ àìèíîêèñëîòíàÿ ïîñëåäîâàòåëüíîñòü áåëêà.
Ñóùåñòâóåò íåñêîëüêî ïîäõîäîâ ê ðåøåíèþ ïåðâîé çàäà÷è, êîòîðûå îòëè÷à-
þòñÿ îïðåäåëåíèåì «íàèáîëåå âåðîÿòíîé» ïîñëåäîâàòåëüíîñòè ñîñòîÿíèé
y y yn� ( ,... , )1 , ñîîòâåòñòâóþùèõ ïîñëåäîâàòåëüíîñòè íàáëþäåíèé x x xn� ( ,... , )1 .
Íàïðèìåð, ìîæíî âûáèðàòü ïîñëåäîâàòåëüíîñòü y òàêèì îáðàçîì, ÷òîáû êàæäîå
ñîñòîÿíèå yi èìåëî íàèáîëüøóþ âåðîÿòíîñòü ïðè çàäàííîì çíà÷åíèè íàáëþäå-
íèÿ xi . Îáû÷íî èñïîëüçóþò äðóãîé êðèòåðèé, êîòîðûé òðåáóåò íàõîæäåíèÿ íàèáî-
ëåå âåðîÿòíîé ïîñëåäîâàòåëüíîñòè y ïðè çàäàííîé âñåé ïîñëåäîâàòåëüíîñòè x, ò.å.
arg max ( | )
y Y
P y x
�
� , y Y� .
Ýòà çàäà÷à ýêâèâàëåíòíà ìàêñèìèçàöèè arg max ( , )
y Y
P x y
�
�
, ó÷èòûâàÿ, ÷òî ïîñëåäî-
âàòåëüíîñòü x çàäàíà. Ïîñëåäíÿÿ çàäà÷à ðåøàåòñÿ ñ ïîìîùüþ àëãîðèòìà Âèòåð-
áè [10], êîòîðûé çàêëþ÷àåòñÿ â ñëåäóþùåì.
Ôîðìóëà
t
y y y
t ty P y y y y x
t
( ) max ( ,... , , , ,...
, , ...,
� � � �
�
�
1 2 1
1 1 1 , )xt , � �y A y ,
îáîçíà÷àåò ìàêñèìàëüíîå çíà÷åíèå âåðîÿòíîñòè ïîñëåäîâàòåëüíîñòè ïåðâûõ t ñî-
ñòîÿíèé è íàáëþäåíèé ïðè çàäàííîì çíà÷åíèè ñîñòîÿíèÿ y yt � � â ìîìåíò âðå-
ìåíè t è çàäàííûõ çíà÷åíèÿõ íàáëþäåíèé x xt1 ,... , . Çíà÷åíèÿ
i , i n� 2,... , , íàõî-
äÿòñÿ ðåêóðñèâíî,
t
y A
t t t t t ty y P y y y P x y
t y
�
�
� � �� � � � �1 1 1 1( ) [ max ( ) ( | )] ( | �y ) ,
÷òî ïîçâîëÿåò íàéòè ïîñëåäîâàòåëüíîñòü ñîñòîÿíèé y y yn� ( ,... , )1 .
Âòîðàÿ êàíîíè÷åñêàÿ çàäà÷à ÌÌÑÏ — íàõîæäåíèå îïòèìàëüíîé ìîäåëè ïî
îáó÷àþùåé âûáîðêå — ðåøàåòñÿ ïóòåì ìàêñèìèçàöèè ñîâìåñòíîãî ïðàâäîïîäî-
áèÿ, ÷òî ýêâèâàëåíòíî ðåøåíèþ çàäà÷è ãëîáàëüíîé îïòèìèçàöèè. Îïòèìàëüíîé
ïðîöåäóðû íàõîæäåíèÿ ïàðàìåòðîâ ìîäåëè � â íàñòîÿùåå âðåìÿ íå ñóùåñòâóåò.
 êà÷åñòâå ïðèáëèæåííûõ ìåòîäîâ îáû÷íî èñïîëüçóþò ìåòîä Áàóìà–Óýëøà [11]
èëè ãðàäèåíòíûå ìåòîäû [12].
Ãðàôè÷åñêîå ïðåäñòàâëåíèå. Ïðåæäå ÷åì ïåðåéòè ê îïèñàíèþ ìåòîäîâ óñ-
ëîâíûõ ñëó÷àéíûõ ïîëåé (ÓÑÏ), ðàññìîòðèì ãðàôè÷åñêèå ìîäåëè, êîòîðûå ïðèìå-
íÿþòñÿ äëÿ îïèñàíèÿ ìíîãîìåðíûõ ðàñïðåäåëåíèé. Ñóòü ãðàôè÷åñêîãî ïîäõîäà çà-
êëþ÷àåòñÿ â ïðåäñòàâëåíèè ñîâìåñòíîãî ìíîãîìåðíîãî ðàñïðåäåëåíèÿ â âèäå ãðà-
ôîâ: ãðàôà çàâèñèìîñòåé è ãðàôà ôàêòîðîâ.
Ðàññìîòðèì ãðàô çàâèñèìîñòåé G V Ed d d� ( , ), ãäå Vd — ìíîæåñòâî âåðøèí,
êàæäàÿ èç êîòîðûõ ñîîòâåòñòâóåò ñëó÷àéíîé âåëè÷èíå
i , âõîäÿùåé â
�V; Ed —
ìíîæåñòâî ðåáåð ãðàôà. Ôàêò îòñóòñòâèÿ ðåáðà ( , )
i j â ìíîæåñòâå Ed âûðàæàåò
óñëîâíóþ íåçàâèñèìîñòü ñëó÷àéíûõ âåëè÷èí
i j, . Ñëó÷àéíûå âåëè÷èíû a è b íà-
çûâàþòñÿ óñëîâíî íåçàâèñèìûìè ïðè çàäàííîì çíà÷åíèè òðåòüåé ñëó÷àéíîé âåëè-
÷èíû c, åñëè ñïðàâåäëèâî ðàâåíñòâî P a b c P a c( | , ) ( | )� .
Ãðàô çàâèñèìîñòåé çàäàåò âíóòðåííþþ ñòðóêòóðó ñîâìåñòíîãî ðàñïðåäåëåíèÿ
P( )
,
�V, è íå íåñåò èíôîðìàöèè î êîëè÷åñòâåííûõ õàðàêòåðèñòèêàõ âçàèìîñâÿ-
çåé ìåæäó ñëó÷àéíûìè âåëè÷èíàìè
i . Ðåáðà â ãðàôå çàâèñèìîñòåé Gd ìîãóò áûòü
íàïðàâëåííûìè èëè íåíàïðàâëåííûìè.  çàâèñèìîñòè îò ýòîãî ðàçëè÷àþò äâà ðàç-
íûõ òèïà ãðàôè÷åñêèõ ìîäåëåé: ÌÌÑÏ îòíîñÿòñÿ ê íàïðàâëåííûì ìîäåëÿì,
à ÓÑÏ — ê íåíàïðàâëåííûì.
Äëÿ êîëè÷åñòâåííîãî îïèñàíèÿ çàâèñèìîñòåé ìåæäó ñëó÷àéíûìè âåëè÷èíàìè
i èñïîëüçóåòñÿ òàê íàçûâàåìûé ãðàô ôàêòîðîâ G V Ef f f� ( , ); V f ñîäåðæèò ïîìè-
ìî âåðøèí, ñîîòâåòñòâóþùèõ ñëó÷àéíûì âåëè÷èíàì
i , åùå âåðøèíû, ñîîòâåòñòâó-
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 47
þùèå ôàêòîðàì �
k k kN( , ( )) (ðèñ. 4). Â íàïðàâëåííûõ ìîäåëÿõ ôàêòîð �k ÿâëÿ-
åòñÿ óñëîâíûì ðàñïðåäåëåíèåì âåðîÿòíîñòè çíà÷åíèé
k ïðè çàäàííûõ çíà÷åíèÿõ
ìíîæåñòâà ðîäèòåëüñêèõ âåðøèí N k( )
. Âåðøèíà
i ïðèíàäëåæèò ìíîæåñòâó ðî-
äèòåëüñêèõ âåðøèí
k , åñëè ìíîæåñòâî ðåáåð Ed ñîäåðæèò íàïðàâëåííîå ðåáðî
( , )
i k , ò.å.
i k i k dN E� � � �( ) ( , ) .
Èñõîäíîå ðàñïðåäåëåíèå P( )
çàïèñûâàåòñÿ â âèäå ïðîèçâåäåíèÿ ôàêòîðîâ
P N
k
K
k k k( ) ( , ( ))
�
�
�
�
1
,
�V,
ãäå K — êîëè÷åñòâî âñåõ ôàêòîðîâ â ìîäåëè.
Ðàññìîòðèì äëÿ ïðèìåðà ÌÌÑÏ íà ïîñëåäîâàòåëüíîñòè èç òðåõ ñîñòîÿíèé
è òðåõ íàáëþäåíèé
� ( , , , , , )x x x y y y1 2 3 1 2 3 ; ñîîòâåòñòâóþùèå ãðàôû Gd è G f
èçîáðàæåíû íà ðèñ. 4, à,á.
Ñîâìåñòíîå ðàñïðåäåëåíèå âåðîÿòíîñòè
çàïèñûâàåòñÿ â âèäå
P P y P x y P y y P x y P y y P x y( ) ( ) ( | ) ( | ) ( | ) ( | ) ( | )
� 1 1 1 2 1 2 2 3 2 3 3 ,
èëè òî æå ñàìîå â òåðìèíàõ ôàêòîðîâ
P y x y y y x y y y( ) ( ) ( , ) ( , ) ( , ) ( , ) (
� � � � � �� 1 1 4 1 1 2 2 1 5 2 2 3 3 2 6 x y3 3, ) .
Óñëîâíûå ñëó÷àéíûå ïîëÿ
(ÓÑÏ). Ìîäåëè ÓÑÏ îòíîñÿòñÿ
ê íåíàïðàâëåííûì ìîäåëÿì, ÷òî
âëå÷åò íåêîòîðûå èçìåíåíèÿ ïðè
ïîäñ÷åòå ñîâìåñòíîé âåðîÿòíîñòè.
 íåíàïðàâëåííûõ ìîäåëÿõ ïîíÿ-
òèå ðîäèòåëüñêîé âåðøèíû òåðÿåò
ñâîé ñìûñë, ïîýòîìó ôàêòîðû
�c
cV( ) îïðåäåëÿþòñÿ íà ìàêñè-
ìàëüíûõ êëèêàõ c C� ãðàôà çàâèñèìîñòåé Gd , V c — ìíîæåñòâî âåðøèí, âõîäÿùèõ
â êëèêó c C� [13]. Óñëîâíîå ðàñïðåäåëåíèå çàäàåòñÿ ôîðìóëîé
P y x
Z x
V
c C
c
c( | )
( )
( )�
�
�
1
� .
Ôàêòîðû �c èìåþò âèä
� �c i i
c
i
m
x y f V( , ) exp ( )�
�
�
�
�
�
�
�
�
1
,
ãäå f Vi
c( ), i m�1,... , , — ïðîèçâîëüíûé íàáîð íåîòðèöàòåëüíûõ èíòåãðèðóåìûõ
ïî Ëåáåãó ôóíêöèé, êîòîðûå íå îáÿçàòåëüíî äîëæíû èìåòü âåðîÿòíîñòíóþ èí-
òåðïðåòàöèþ. Îòñóòñòâèå íàïðàâëåíèé äàåò âîçìîæíîñòü èñïîëüçîâàòü øèðîêèé
íàáîð ôóíêöèé â êà÷åñòâå ôàêòîðîâ è íå îãðàíè÷èâàòüñÿ òîëüêî óñëîâíûìè âå-
ðîÿòíîñòÿìè, êàê â ñëó÷àå ñ ÌÌÑÏ. Äëÿ òîãî ÷òîáû â êîíå÷íîì èòîãå ïîëó÷èòü
âåðîÿòíîñòíóþ ìåðó P y x( | ) , íåîáõîäèìî ïðîâîäèòü íîðìàëèçàöèþ. Íîðìàëèçó-
þùèé ìíîæèòåëü Z x( ) èìååò âèä
Z x x y
y Y c C
c
c c( ) ( , )�
� �
� � � .
Íàõîæäåíèå Z x( ) — ñëîæíàÿ âû÷èñëèòåëüíàÿ ïðîöåäóðà, êîòîðàÿ ñâîäèòñÿ ê âû-
÷èñëåíèþ ìíîãîìåðíîãî èíòåãðàëà. Ýòî ñâîåãî ðîäà ïëàòà çà ñâîáîäíûé âûáîð
ôóíêöèé fi , îïðåäåëÿþùèõ ôàêòîðû �c . Â íàïðàâëåííûõ ìîäåëÿõ òàêîé ïðîáëå-
ìû íå âîçíèêàåò, òàê êàê â êà÷åñòâå ôàêòîðîâ èñïîëüçóþòñÿ óñëîâíûå âåðîÿò-
íîñòè è íîðìàëèçàöèè íå òðåáóåòñÿ.
48 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
x1 x2 x3
y1 y2 y3
x1 x2 x3
y1 y2 y3�1 �2 �3
�4 �5 �6
Ðèñ. 4. Ãðàôû Gd è G f
à á
Ìîäåëè ìàêñèìàëüíîé ýíòðîïèè. Îáùèé âèä ôàêòîðîâ �c ÓÑÏ âûâîäèòñÿ
èç ïðèíöèïà ìàêñèìàëüíîé ýíòðîïèè. Ñîãëàñíî ýòîìó ïðèíöèïó ïðè íàëè÷èè íå-
ïîëíîé èíôîðìàöèè î ðàñïðåäåëåíèè ñëåäóåò âûáèðàòü ðàñïðåäåëåíèå, íàèáîëåå
ðàâíîìåðíîå îòíîñèòåëüíî èìåþùåéñÿ èíôîðìàöèè, ò.å. ìàêñèìèçèðóþùåå ýíòðî-
ïèþ. Èíûìè ñëîâàìè, ëþáîå äðóãîå ðàñïðåäåëåíèå (ñ ìåíüøåé ýíòðîïèåé) íåñåò
â ñåáå èíôîðìàöèþ, êîòîðîé íå áûëî â èñõîäíûõ äàííûõ î ðàñïðåäåëåíèè.
 ñëó÷àå óñëîâíîãî ðàñïðåäåëåíèÿ P y x( | ) èñïîëüçóåòñÿ óñëîâíàÿ ýíòðîïèÿ
H P y x P x y P y x
x y V
[ ( | )] ( , ) log ( | )
( , )
� �
�
� .
Íåîáõîäèìî íàéòè ðàñïðåäåëåíèå, êîòîðîå ìàêñèìèçèðóåò ýíòðîïèþ è «ñîãëà-
ñóåòñÿ» ñ îáó÷àþùåé âûáîðêîé T :
P y x H P y x
P y x
�
�
�( | ) arg max [ ( | )]
( | ) �
.
Çäåñü � — ìíîæåñòâî âñåõ ìîäåëåé. Äëÿ óäîáñòâà áóäåì ïîëàãàòü, ÷òî x, y —
çíà÷åíèÿ îäíîãî íàáëþäåíèÿ è îäíîãî ñîñòîÿíèÿ.
«Ñîãëàñîâàííîñòü» èñêîìîãî ðàñïðåäåëåíèÿ ñ îáó÷àþùåé âûáîðêîé ïðåäñòàâ-
ëÿåòñÿ ñ ïîìîùüþ íàáîðà íåîòðèöàòåëüíûõ èíòåãðèðóåìûõ ïî Ëåáåãó ôóíêöèé
f x yi ( , ) , i m�1,... , .
Ïåðâûå m îãðàíè÷åíèé íà ðàñïðåäåëåíèå P y x( | ) çàêëþ÷àþòñÿ â òîì, ÷òî ýì-
ïèðè÷åñêèå îæèäàíèÿ � ( , )Ef x yi äîëæíû ñîâïàäàòü ñ ïðîãíîçèðóåìûìè îæèäàíèÿ-
ìè Ef x yi ( , ) :
� ( , ) ( , )E f x y E f x yi i� , 1� �i m .
Ýìïèðè÷åñêîå îæèäàíèå çàïèñûâàåòñÿ â âèäå
� ( , ) ( , )
( , )
E f x y
N
f x yi
x y T
i�
�
�
1
,
ãäå T — ìíîæåñòâî îáó÷àþùèõ ïðèìåðîâ ìîùíîñòè | |T N� . Ïðîãíîçèðóåìîå
îæèäàíèå çàïèñûâàåòñÿ â âèäå
E f x y P x P y x f x y
i
x y V
i( , ) ( ) ( | ) ( , )
( , )
�
�
� .
Äëÿ òîãî ÷òîáû ýôôåêòèâíî âû÷èñëèòü E f x yi ( , ), âìåñòî P x( ) èñïîëüçóåòñÿ ýìïè-
ðè÷åñêîå ðàñïðåäåëåíèå � ( )P x . Òîãäà
E f x y
N
P y x f x yi i
y Yx T
( , ) ( | ) ( , )
��
��
1
. (1)
 ïðèëîæåíèÿõ ìíîæåñòâî âîçìîæíûõ ñîñòîÿíèé Y îáû÷íî íå òàê âåëèêî ïî
ñðàâíåíèþ ñ X , ÷òî ïîçâîëÿåò ýôôåêòèâíî ïðîâåñòè ñóììèðîâàíèå â (1). Íàïðè-
ìåð, â çàäà÷å ðàñïîçíàâàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêà êîëè÷åñòâî ñîñòîÿíèé —
òðè (�-ñïèðàëü, �-ñëîé, coil), òîãäà êàê êîëè÷åñòâî âîçìîæíûõ çíà÷åíèé íàáëþäå-
íèé — 20.
Åùå îäíî îãðàíè÷åíèå íà èñêîìóþ ìîäåëü P y x( | ) çàêëþ÷àåòñÿ â òîì, ÷òîáû
P y x( | ) ÿâëÿëàñü âåðîÿòíîñòíîé ìåðîé, ò.å. P y x( | ) � 0 ! �x X , y Y� è
P y x
y Y
( | )
�
� �1 ! �x X .
Íàõîæäåíèå P y x� ( | ) ïðè òàêèõ îãðàíè÷åíèÿõ ÿâëÿåòñÿ çàäà÷åé îïòèìèçàöèè
ñ îãðàíè÷åíèÿìè. Ôóíêöèÿ Ëàãðàíæà èìååò âèä
"( , ) [ ( | )] ( ( ) � ( )) ( | )P H P y x E f E f P y xi i i
i
m
m
y
� � �� � � �
�
��
1
1
�
� �
�
�
�
�
�
�
Y
1 ,
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 49
ãäå � � �� # #( )1 � n . Èñïîëüçóÿ ýìïèðè÷åñêîå ðàñïðåäåëåíèå � ( )P x ïðè âû÷èñëå-
íèè H P y x[ ( | )] , ïîëó÷àþò
P y x
Z x
f x yi i
i
m
�
�
��
�
�
�
�
�
�
�
��( | )
( )
exp ( , )
1
1
,
Z x f x yi i
i
m
y Y
� �( ) exp ( , )�
�
�
�
�
�
�
��
��
1
. (2)
ÓÑÏ íà ïîñëåäîâàòåëüíîñòÿõ.
Ðàññìîòðèì ÓÑÏ íà êîíêðåòíîì ïðè-
ìåðå. Ãðàô çàâèñèìîñòåé, èçîáðàæåí-
íûé íà ðèñ. 5, à, ñîñòîèò èç òðåõ âåð-
øèí, èìåþùèõ ñîñòîÿíèÿ y y y1 2 3, , ,
è îäíîé âåðøèíû, ñîîòâåòñòâóþùåé
âñåé ïîñëåäîâàòåëüíîñòè íàáëþäåíèé
( , , )x x x1 2 3 . Ëþáàÿ ïàðà ñîñåäíèõ ñî-
ñòîÿíèé y yi i, �1 âìåñòå ñ íàáëþäåíè-
ÿìè ( , , )x x x1 2 3 îáðàçóåò êëèêó, íà
êàæäîé èç êîòîðûõ îïðåäåëåí ôàêòîð � i x y( , ) . Ãðàô ôàêòîðîâ èçîáðàæåí íà
ðèñ. 5, á.
Óñëîâíàÿ âåðîÿòíîñòü P y x( | ) äëÿ ïîñëåäîâàòåëüíîñòåé y Y� , x X� äëèíû n
çàïèñûâàåòñÿ â âèäå
P y x
Z x
x y
j
n
j( | )
( )
( , )�
�
�
�
1
1
1
� , x X y Y� �, ,
ñ íîðìàëèçóþùåé êîíñòàíòîé
Z x x y
y Y j
n
j( ) ( , )�
� �
�
� �
1
1
�
è ôàêòîðàìè
� �j i i j j
i
m
x y f y y x j( , ) exp ( , , , )�
�
�
�
�
�
��
�
� 1
1
.
Èíäåêñ j â ôóíêöèÿõ fi , â îòëè÷èå îò ôîðìóëû (2), íåîáõîäèì, ïîñêîëüêó çäåñü
x — ïîñëåäîâàòåëüíîñòü ñëó÷àéíûõ âåëè÷èí. Ôóíêöèè fi íà ïðàêòèêå îïðåäåëÿ-
þòñÿ íå íà âñåõ ýëåìåíòàõ ïîñëåäîâàòåëüíîñòè x, à íà íåêîòîðîì ïîäìíîæåñòâå,
êîòîðîå îïðåäåëÿåòñÿ îòíîñèòåëüíî òåêóùåãî èíäåêñà j. Ôóíêöèè fi ìîãóò
èìåòü âèä èíäèêàòîðíûõ ôóíêöèé íåêîòîðûõ ñîáûòèé íà ìíîæåñòâå V X Y� � .
Íàïðèìåð, â êîíòåêñòå çàäà÷è ðàñïîçíàâàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêà ìîæíî
ïðåäñòàâèòü èíäèêàòîðíóþ ôóíêöèþ ñîáûòèÿ, ñîñòîÿùåãî â òîì, ÷òî ñîñòîÿíèå
y j ñîîòâåòñòâóåò �-ñïèðàëè, ñîñòîÿíèå y j�1 — coil, à íà ìåñòå x j íàõîäèòñÿ
àìèíîêèñëîòà ìåòèîíèí
Íåñìîòðÿ íà òî ÷òî ôóíêöèÿ fi îïðåäåëåíà íà âñåé ïîñëåäîâàòåëüíîñòè ñîñòî-
ÿíèé x, èñïîëüçóåòñÿ ëèøü íåáîëüøîå ïîäìíîæåñòâî èõ çíà÷åíèé, â äàííîì ïðèìå-
ðå — òîëüêî xj .
Îêîí÷àòåëüíûé âèä ìîäåëè ÓÑÏ íà ïîñëåäîâàòåëüíîñòè íàáëþäåíèé
x x xn� ( ,... , )1 è ñîñòîÿíèé y y yn� ( ,... , )1 äëèíû n çàïèñûâàåòñÿ ñëåäóþùèì îá-
ðàçîì:
P y x
Z x
f y y x j
j
n
i i j j
i
m
( | )
( )
exp ( , , , )�
�
�
�
�
�
�
�
�
� �
1
1
1
1
1
� �
�
.
50 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
x1 x2 x3
y1 y2 y3
x1 x2 x3
y1 y2 y3
�1 �2
Ðèñ. 5. Ãðàôû çàâèñèìîñòåé è ôàêòîðîâ
áa
$
%
& ���
� �
�
ñëó÷àå.ïðîòèâíîìâ0
,,,åñëè,1
),,,(
1
1
Mxcyy
jxyyf
jjj
jji
� Ì,
Äëÿ ÓÑÏ, êàê è äëÿ ÌÌÑÏ, ðåøàþòñÿ çàäà÷à íàõîæäåíèÿ îïòèìàëüíûõ ïàðà-
ìåòðîâ � � �� # #( )1 � n è çàäà÷à íàõîæäåíèÿ íàèáîëåå âåðîÿòíîé ïîñëåäîâàòåëüíîñ-
òè ñîñòîÿíèé ïðè çàäàííîé ïîñëåäîâàòåëüíîñòè íàáëþäåíèé.
Çàäà÷à íàõîæäåíèÿ îïòèìàëüíèõ ïàðàìåòðîâ � ìîäåëè P y x� ( | ) ðåøàåòñÿ ìåòî-
äîì ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ, ÷òî, êàê è â ñëó÷àå ñ ÌÌÑÏ, ñâîäèòñÿ ê ðåøå-
íèþ çàäà÷è ãëîáàëüíîé îïòèìèçàöèè. Îïòèìàëüíîé ïðîöåäóðû íàõîæäåíèÿ ïàðàìåò-
ðîâ ìîäåëè íå ñóùåñòâóåò, ïðèìåíÿþòñÿ ãðàäèåíòíûå ìåòîäû èëè ìîäèôèöèðîâàí-
íûé ìåòîä Áàóìà–Óýëøà.
Çàäà÷à ïîñòðîåíèÿ ïîñëåäîâàòåëüíîñòè ñîñòîÿíèé y y yn� ( ,... , )1 ïî ïîñëåäî-
âàòåëüíîñòè íàáëþäåíèé x x xn� ( ,... , )1 ðåøàåòñÿ ñ ïîìîùüþ ìîäèôèöèðîâàííîãî
ìåòîäà Âèòåðáè.
Ñõîäñòâî ÌÌÑÏ è ÓÑÏ ñîñòîèò â òîì, ÷òî ìíîãîìåðíîå ñîâìåñòíîå ðàñïðå-
äåëåíèå ïðåäñòàâëÿåòñÿ â âèäå ïðîèçâåäåíèÿ íåçàâèñèìûõ ôàêòîðîâ. Íà îñíîâå ïî-
ëó÷åííîãî ñîâìåñòíîãî ðàñïðåäåëåíèÿ ðåøàåòñÿ çàäà÷à îáó÷åíèÿ èëè íàõîæäåíèÿ
îïòèìàëüíûõ ïàðàìåòðîâ ìîäåëè è çàäà÷à íàõîæäåíèÿ ïîñëåäîâàòåëüíîñòè ñîñòîÿ-
íèé ïðè çàäàííîé ïîñëåäîâàòåëüíîñòè íàáëþäåíèé.
ÌÌÑÏ îòíîñèòñÿ ê íàïðàâëåííûì ìîäåëÿì — ôàêòîðû èìåþò âèä óñëîâ-
íûõ ðàñïðåäåëåíèé è îïðåäåëÿþòñÿ íà âåðøèíå
k è ìíîæåñòâå ðîäèòåëüñêèõ
âåðøèí
k — N k( )
.
ÓÑÏ îòíîñèòñÿ ê íåíàïðàâëåííûì ìîäåëÿì — ôàêòîðû îïðåäåëåíû íà ìàêñè-
ìàëüíûõ êëèêàõ ãðàôà çàâèñèìîñòè è â îáùåì ñëó÷àå íå èìåþò âåðîÿòíîñòíîãî
ñìûñëà, ÷òî îáóñëîâëèâàåò íåîáõîäèìîñòü íîðìàëèçàöèè. Îáùèé âèä ôàêòîðîâ âû-
âîäèòñÿ èç ïðèíöèïà ìàêñèìàëüíîé ýíòðîïèè.
4. ÇÀÊÎÍÎÌÅÐÍÎÑÒÈ ÇÀÏÈÑÈ ÃÅÍÅÒÈ×ÅÑÊÎÉ ÈÍÔÎÐÌÀÖÈÈ
 ÃÅÍÎÌÀÕ È ÁÅËÊÀÕ
Ãåíåòè÷åñêàÿ èíôîðìàöèÿ êëåòêè õðàíèòñÿ â õðîìîñîìàõ, ïðåäñòàâëÿþùèõ ñîáîé,
ñîãëàñíî èçâåñòíîé ìîäåëè Óîòñîíà–Êðèêà, äâîéíóþ öåïî÷êó ÄÍÊ. Êàæäàÿ öå-
ïî÷êà ñîñòîèò èç íóêëåîòèäíûõ çâåíüåâ (íóêëåîòèäîâ, îñíîâàíèé) ÷åòûðåõ òèïîâ:
A, T, C, G. Äâå öåïî÷êè ñïàðèâàþòñÿ ïî çàêîíó êîìïëåìåíòàðíîñòè (A ñîåäèíÿ-
åòñÿ ñ T, à C — ñ G) è îáðàçóþò õðîìîñîìó. Òàêèì îáðàçîì, îäíà öåïî÷êà ÄÍÊ
îäíîçíà÷íî îïðåäåëÿåò öåïî÷êó, êîìïëåìåíòàðíóþ ñåáå, è õðîìîñîìó â öåëîì.
Íåñìîòðÿ íà òî ÷òî ÄÍÊ îòíîñèòåëüíî ïðîñòà è õîðîøî èçó÷åíà õèìè÷åñêè,
ñòðóêòóðà ãåíîìà ÷åëîâåêà ÷ðåçâû÷àéíî ñëîæíà è íå âñå åãî ôóíêöèè èçâåñòíû.
Íà òåêóùèé ìîìåíò äëèíà çàêîí÷åííîé ãåíîìíîé ïîñëåäîâàòåëüíîñòè ñîñòàâëÿåò
2851 ìëí íóêëåîòèäîâ è ñîäåðæèò 341 ïðîáåë îáùèì ðàçìåðîì 225 ìëí îñíîâà-
íèé. Ãåíîì ÷åëîâåêà âêëþ÷àåò ïðèáëèçèòåëüíî 20–30 òûñÿ÷ áåëîê-êîäèðóþùèõ ãå-
íîâ.  ðàáîòå [14] ïðèâåäåíû ñâåäåíèÿ î çàêîí÷åííûõ ïîñëåäîâàòåëüíîñòÿõ è ðàç-
ìåðàõ ïðîáåëîâ äëÿ êàæäîé õðîìîñîìû â ãåíîìå ÷åëîâåêà. ×èñëîâûå ðàñ÷åòû ïðî-
âîäèëèñü íà ïîñëåäîâàòåëüíîñòÿõ õðîìîñîì, õàðàêòåðèñòèêè êîòîðûõ
ñîîòâåòñòâóþò äàííûì, óêàçàííûì â [14].
Ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè â çàïèñè îñíîâàíèé ïî îäíîé íèòè ÄÍÊ èñ-
ñëåäîâàëèñü â [15–17], â ðàáîòå [18] ñîäåðæèòñÿ ñïèñîê öèòèðóåìîé ëèòåðàòóðû ïî
äàííîìó âîïðîñó.
Êîìïëåìåíòàðíîñòü â çàïèñè îñíîâàíèé ïî îäíîé íèòè ÄÍÊ õðîìîñîìû îçíà-
÷àåò, ÷òî âûïîëíÿþòñÿ ïðèáëèæåííûå ñîîòíîøåíèÿ
n n( ) ( )A T , n n( ) ( )C G , (3)
ãäå n j( ) — êîëè÷åñòâî îñíîâàíèé j, j�{A, C, G, T}, âû÷èñëåííûõ íà îäíîé
íèòè.
Çàìåòèì, ÷òî èç êîìïëåìåíòàðíîñòè ïàð áóêâ ïî äâóì íèòÿì ÄÍÊ íå ñëåäóåò,
÷òî êîëè÷åñòâà áóêâ A è T, à òàêæå C è G, ïîäñ÷èòàííûå ïî îäíîé íèòè, ñîâïàäàþò
ìåæäó ñîáîé. Ïðîñòîé ïðèìåð: íà îäíîé íèòè ñîäåðæèòñÿ 4 ìëí áóêâ A, 3 ìëí
áóêâ C, 2 ìëí áóêâ G è 1 ìëí áóêâ T, òîãäà íà âòîðîé íèòè íàõîäèòñÿ ñîîòâåòñòâåí-
íî 4 ìëí áóêâ T, 3 ìëí áóêâ G, 2 ìëí áóêâ C è 1 ìëí áóêâ A. Òàêèì îáðàçîì, êîì-
ïëåìåíòàðíîñòü ïî äâóì íèòÿì âûïîëíÿåòñÿ, à ïî îäíîé íèòè íåò. Èç ñîîòíîøå-
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 51
íèé (3) âûòåêàåò, ÷òî ìîëåêóëÿðíûé âåñ îáåèõ íèòåé ïðèìåðíî îäèíàêîâ. Ýòîò ìî-
ìåíò ÿâëÿåòñÿ âàæíûì äëÿ óïàêîâêè ÄÍÊ, â ïðîòèâíîì ñëó÷àå èç-çà âîçíèêàþùèõ
íàïðÿæåíèé ìîëåêóëà ÄÍÊ ìîãëà áû ðàçîðâàòüñÿ.
Âû÷èñëåíèÿ ïîêàçàëè, ÷òî ÷àñòîòû êîìïëåìåíòàðíûõ îñíîâàíèé A è T, à òàê-
æå C è G, ïîäñ÷èòàííûå ïî îäíîé íèòè ÄÍÊ, ñîâïàäàþò íà âñåõ õðîìîñîìàõ (ãåíîì
÷åëîâåêà, øèìïàíçå, ìûøè, ðûáû Tetraodon, ðàñòåíèé, áàêòåðèé è ò.ä.) [15].
Äëÿ ïàð îñíîâàíèé âûïîëíÿþòñÿ ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè
n ij n ji( ) ( ) , (4)
ãäå i j, �{A, C, G, T}, A T� , C G� , T A� , G C� . Çàìåòèì, ÷òî ïàðû AT, TA, CG
è GC íå ïðåäñòàâëåíû â (4), ïîñêîëüêó îíè ñàìè ñåáå àíòèêîìïëåìåíòàð-
íû [15, 16].
Çàïèñü è ñ÷èòûâàíèå îñíîâàíèé ó ïåðâîé íèòè õðîìîñîìû ÄÍÊ âûïîëíÿåòñÿ
ñëåâà íàïðàâî â íàïðàâëåíèè 5 3' '' , à ó êîìïëåìåíòàðíîé âòîðîé íèòè — â íà-
ïðàâëåíèè 5 3' '' ñïðàâà íàëåâî (ðèñ. 6).
Èçâåñòíî, ÷òî ñîîòíîøåíèÿ
� ( )
( , )
( )
p ij
n i j
n i
� , (5)
ãäå n ij( ) — ÷èñëî ïàð ( )ij , i, j�{A, C, G, T}, n i( ) — ÷èñëî îñíîâàíèé i â öåïè
õðîìîñîìû, ïðåäñòàâëÿþò ñîáîé îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé äëÿ îäíîðîä-
íûõ öåïåé Ìàðêîâà. Â [18] ïîêàçàíî, ÷òî äëÿ äëèííûõ öåïåé îöåíêè (5) ñõîäÿò-
ñÿ ïî âåðîÿòíîñòè ê çíà÷åíèÿì ïåðåõîäíûõ âåðîÿòíîñòåé.
Èç ñîîòíîøåíèé êîìïëåìåíòàðíîñòè (3), (4) âûòåêàåò, ÷òî âòîðàÿ êîìïëåìåí-
òàðíàÿ íèòü â íàïðàâëåíèè 5 3' '' èìååò òàêèå æå îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé
� ( )p ij , ÷òî è èñõîäíàÿ ïåðâàÿ íèòü (íà ðèñ. 6 ïðåäñòàâëåíà ïàðà AC è àíòèêîìïëå-
ìåíòàðíàÿ åé ïàðà GT). Îòñþäà
ñëåäóåò, ÷òî âåðîÿòíîñòè äâóõ
ïðîòèâîïîëîæíûõ íèòåé õðîìî-
ñîìû, ïîäñ÷èòàííûå â ìîäåëè
îäíîðîäíîé öåïè Ìàðêîâà íà
îñíîâå îöåíîê ïåðåõîäíûõ âå-
ðîÿòíîñòåé (5), ñîâïàäàþò.
Ïóñòü x x x xn n1 2 1, ,... , ,� —
êîíå÷íàÿ ïîñëåäîâàòåëüíîñòü
îñíîâàíèé, çàïèñàííûõ íà ïåðâîé
íèòè, òîãäà x x x xn n, ,� # #1 2 1� —
êîìïëåìåíòàðíàÿ åé ïîñëåäîâà-
òåëüíîñòü îñíîâàíèé, çàïèñàí-
íûõ íà âòîðîé íèòè (ðèñ. 7).
Äëÿ îäíîðîäíîé öåïè Ìàð-
êîâà ïîðÿäêà 1 âûïîëíÿåòñÿ ñëå-
äóþùåå âàæíîå óòâåðæäåíèå.
Ëåììà. Îöåíêà âåðîÿòíîñòè ïîñëåäîâàòåëüíîñòè x x x xn n1 2 1, ,... , ,� ñîâïàäàåò
ñ îöåíêîé âåðîÿòíîñòè ïîñëåäîâàòåëüíîñòè x x x xn n, ,� # #1 2 1� , ò.å.
� ( , ,... , , ) � ( , , )p x x x x p x x x xn n n n1 2 1 1 2 1� �� # #� . (6)
Âåðîÿòíîñòü îäíîðîäíîé öåïè Ìàðêîâà îïðåäåëÿåòñÿ ñîîòíîøåíèåì
p x x x x p x p x x p x xn n n n( , ,... , , ) ( ) ( , )... ( , )1 2 1 1 1 2 1� �� , (7)
ãäå p x( )1 — âåðîÿòíîñòü íà÷àëüíîãî ñîñòîÿíèÿ, p x xi i( , )�1 — ïåðåõîäíûå âåðî-
ÿòíîñòè, i n�1 2, ,... , .
Çàìåíèâ âåðîÿòíîñòü íà÷àëüíîãî ñîñòîÿíèÿ ÷àñòîòîé, à ïåðåõîäíûå âåðîÿòíîñ-
òè p x xi i( , )�1 â (7) — èõ îöåíêàìè (5), ïîëó÷èì ñîîòíîøåíèå (6). Îòñþäà ñëåäóåò,
52 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
5' AC GT 3' 1-ÿ íèòü
…………………………..
3' TG CA 5' 2-ÿ íèòü
……………….
Ðèñ. 6. Óñëîâíàÿ çàïèñü äâóõ íèòåé õðîìîñîìû
5' x1, x2, (, xn�1, xn 3' 1-ÿ íèòü
3' 5' 2-ÿ íèòü
Ðèñ. 7. Êîìïëåìåíòàðíîñòü íóêëåîòèäíûõ ïîñëåäîâàòåëü-
íîñòåé
x x x xn n1 2 1, , , ,� �
÷òî âåðîÿòíîñòè äâóõ ïðîòèâîïîëîæíûõ íèòåé, ïîäñ÷èòàííûå äëÿ ìîäåëè îäíîðîä-
íîé öåïè Ìàðêîâà, ñîâïàäàþò.
Êîäîíû (òðîéêè îñíîâàíèé) ñâÿçàíû ñîîòíîøåíèÿìè êîìïëåìåíòàðíîñòè
n i j k n k j i( , , ) ( , , ) , (8)
ãäå n i j k( , , ) — ÷èñëî òðîåê îñíîâàíèé ( , , )i j k , à ( , , )k i j — àíòèêîäîí êîäîíà
( , , )i j k . Äëÿ 64 òðèïëåòîâ ïîëó÷àåì 32 ñîîòíîøåíèÿ (4) òèïà êîäîí–àíòèêîäîí.
Ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè âèäà (8) âûïîëíÿþòñÿ òàêæå äëÿ áîëåå äëèí-
íûõ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé [15, 16].
Îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé äëÿ öåïåé Ìàðêîâà ïîðÿäêà 2 îïðåäåëÿþòñÿ
ñîîòíîøåíèÿìè
� ( , , )
( , , )
( , )
p i j k
n i j k
n i j
� , (9)
ãäå n i j k( , , ) — êîëè÷åñòâî òðîåê îñíîâàíèé ( , , )i j k , à n i j( , ) — êîëè÷åñòâî ïàð
( , )i j , i j k, , �{A, C, G, T}.
Èç ñîîòíîøåíèé êîìïëåìåíòàðíîñòè (8) çàêëþ÷àåì, ÷òî îöåíêè ïåðåõîäíûõ
âåðîÿòíîñòåé (9) äëÿ îáåèõ íèòåé, ïîäñ÷èòàííûå â íàïðàâëåíèè 5 3' '' , ñîâïàäàþò.
Ëåãêî ïîêàçàòü, ÷òî ðåçóëüòàò ëåììû ñïðàâåäëèâ è äëÿ öåïåé Ìàðêîâà ïîðÿäêà 2.
Àìèíîêèñëîòíàÿ ïîñëåäîâàòåëüíîñòü áåëêà ïîëó÷àåòñÿ ïóòåì òðàíñëÿöèè ÷å-
òûðåõáóêâåííîãî àëôàâèòà îñíîâàíèé â äâàäöàòèáóêâåííûé àëôàâèò àìèíîêèñëîò-
íûõ îñòàòêîâ. Ãåíåòè÷åñêèé êîä îáðàçóåò ôóíêöèþ, êîòîðàÿ ïåðåâîäèò íåïåðåñåêà-
þùèåñÿ òðîéêè îñíîâàíèé â îäíó èç àìèíîêèñëîò. Ñèíòåç áåëêîâ âûïîëíÿåòñÿ ïî
äâóì íèòÿì â íàïðàâëåíèè 5 3' '' . Ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè âèäà (8) âû-
ïîëíÿþòñÿ òàêæå äëÿ íåïåðåñåêàþùèõñÿ òðîåê îñíîâàíèé è øåñòåðîê, ñîñòîÿùèõ
èç íåïåðåñåêàþùèõñÿ òðîåê. Ïîýòîìó, ðàññóæäàÿ ôîðìàëüíî, ìîæíî ñäåëàòü âû-
âîä, ÷òî àìèíîêèñëîòíûå ïîñëåäîâàòåëüíîñòè áåëêîâ, ñèíòåçèðîâàííûõ ïî ïåðâîé
íèòè, èìåþò òàêèå æå îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé (âèäà (5)), ÷òî è áåëêè, êî-
òîðûå ñèíòåçèðóþòñÿ ïî âòîðîé íèòè.
Ãåíîìû áàêòåðèé èìåþò ñðàâíèòåëüíî ïðîñòóþ ñòðóêòóðó: áåëîê-êîäèðóþùèå
ó÷àñòêè íå ïðåðûâàþòñÿ íåêîäèðóþùèìè âñòàâêàìè — èíòðîíàìè. Ýòà îñîáåí-
íîñòü áàêòåðèàëüíûõ ãåíîìîâ ïîçâîëÿåò âûäåëÿòü è îòäåëüíî àíàëèçèðîâàòü àìè-
íîêèñëîòíûå ïîñëåäîâàòåëüíîñòè áåëîê-êîäèðóþùèõ ó÷àñòêîâ. ×èñëåííûå ðàñ÷å-
òû, ïðîâåäåííûå íà ãåíîìàõ áàêòåðèé, ïîäòâåðäèëè ïðåäñòàâëåííûé âûøå âûâîä.
 òàáë. 1 ïðèâåäåíû ÷àñòîòû àìèíîêèñëîò è îòäåëüíûõ ïàð àìèíîêèñëîò â ÄÍÊ
áàêòåðèè.
Ïðîáëåìà ïðîãíîçèðîâàíèÿ ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêîâ îáñóæäàëàñü
â [19–21], òàì æå ïðèâåäåíà ïîñòàíîâêà çàäà÷è ïðåäñêàçàíèÿ âòîðè÷íîé ñòðóêòóðû
áåëêîâ íà îñíîâå ïðèìåíåíèÿ ýôôåêòèâíûõ áàéåñîâñêèõ ïðîöåäóð ðàñïîçíàâàíèÿ
íà öåïÿõ Ìàðêîâà. Èìååòñÿ ïåðâè÷íàÿ ïîñëåäîâàòåëüíîñòü àìèíîêèñëîò áåëêà, íå-
îáõîäèìî îïðåäåëèòü åå âòîðè÷íóþ ñòðóêòóðó: ïîñòàâèòü â ñîîòâåòñòâèå êàæäîé
àìèíîêèñëîòå îäèí èç äâóõ âîçìîæíûõ òèïîâ ðåãóëÿðíîé ñòðóêòóðû (�-ñïèðàëü,
�-ñëîé) èëè åå îòñóòñòâèå, ò.å. íåðåãóëÿðíîñòü (coil).
Áàéåñîâñêàÿ ïðîöåäóðà ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêîâà. Â ðàáîòàõ [19–21]
èññëåäîâàëàñü ïðîöåäóðà ïðåäñêàçàíèÿ âòîðè÷íîé ñòðóêòóðû îäèíî÷íîé àìèíîêèñ-
ëîòû íà îñíîâå èçâåñòíîé ôîðìóëû Áàéåñà
P f x x x
P x x x f P f
P x x
n
n( | , ,... , )
( , ,... , | ) ( )
( , ,...
1 2
1 2
1 2
�
, )xn
. (10)
Çäåñü f — ñîñòîÿíèå àìèíîêèñëîòû, ÷èñëî êëàññîâ f — 60, òàê êàê 20 — êîëè÷åñ-
òâî àìèíîêèñëîò, 3 — ÷èñëî âòîðè÷íûõ ñòðóêòóð. Òèï âòîðè÷íîé ñòðóêòóðû îïðå-
äåëÿëñÿ îêðóæåíèåì x x x xn n1 2 1, ,... , ,� èç ñîñåäíèõ àìèíîêèñëîò, ðàñïîëîæåííûõ
ñëåâà è ñïðàâà îò èññëåäóåìîé àìèíîêèñëîòû xs (ðèñ. 8). Âåðîÿòíîñòè ïîñëåäîâà-
òåëüíîñòè x x x xn n1 2 1, ,... , ,� îöåíèâàëèñü äëÿ ìîäåëåé íåñòàöèîíàðíûõ öåïåé
Ìàðêîâà ðàçëè÷íûõ ïîðÿäêîâ ïî ôîðìóëàì âèäà (5), (9).
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 53
Íà âûáîðêå èç 20 òûñÿ÷ áåëêîâ ñðåäíèé ïðîöåíò ðàñïîçíàâàíèÿ âòîðè÷íîé
ñòðóêòóðû áåëêîâ íà îñíîâå áàéåñîâñêèõ ïðîöåäóð ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêî-
âà ñîñòàâèë 85 %.
Çàìåòèì, ÷òî â ëèòåðàòóðå
äî ñèõ ïîð íå ïðèâåäåíî îáúÿñ-
íåíèÿ ôåíîìåíà âûïîëíåíèÿ
ñîîòíîøåíèé êîìïëåìåíòàð-
íîñòè â çàïèñè îñíîâàíèé ïî
îäíîé íèòè ÄÍÊ. Èçëîæåííûå
ðåçóëüòàòû ïîêàçàëè, ÷òî ýô-
ôåêòèâíîå ïðèìåíåíèå áàéå-
ñîâñêèõ ïðîöåäóð â ïðîöåññå
ïðåäñêàçàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêîâ, ïî ñóòè, ïîëó÷åíî íà îñíîâå âûïîëíå-
íèÿ ñîîòíîøåíèé êîìïëåìåíòàðíîñòè â ãåíîìàõ âûñøèõ îðãàíèçìîâ. Ñîîòíîøå-
íèÿ êîìïëåìåíòàðíîñòè èãðàþò âàæíåéøóþ ðîëü â ôîðìèðîâàíèè ïðîñòðàíñòâåí-
íîé ñòðóêòóðû áåëêîâûõ ìîëåêóë.
5. ÔÎËÄÈÍÃ ÁÅËÊÀ
Ôîëäèíã — ïðîöåññ ñâîðà÷èâàíèÿ ïîëèïåïòèäíîé öåïè â óíèêàëüíóþ («íàòèâ-
íóþ») ïðîñòðàíñòâåííóþ ñòðóêòóðó. Ýòîò ïðîöåññ âñåãäà âåäåò ê îäíîé è òîé æå
ïðîñòðàíñòâåííîé ñòðóêòóðå, äëÿ îäíîé è òîé æå öåïè è äëèòñÿ ìåíåå ñåêóíäû.
Ýòî íàáëþäåíèå â ñâîå âðåìÿ ïðèâåëî ê ãèïîòåçå îá óíèêàëüíîñòè ïðîñòðà-
íñòâåííîé ñòðóêòóðû áåëêà â çàâèñèìîñòè îò åãî àìèíîêèñëîòíîãî êîäà.
Çàäà÷åé ôîëäèíãà íàçûâàåòñÿ îïðåäåëåíèå ïî àìèíîêèñëîòíîé ïîñëåäîâàòåëü-
íîñòè áåëêà åãî ïðîñòðàíñòâåííîé ñòðóêòóðû, à èìåííî, ãäå ðàñïîëîæåíû �-ñïèðà-
ëè, �-ëèñòû è ó÷àñòêè coil; êàêèì îáðàçîì �-ñïèðàëè, �-ëèñòû è ó÷àñòêè coil îáðà-
çóþò ìîòèâû è äîìåíû.
Ìîòèâîì íàçûâàþò îïðåäåëåííóþ ïîñëåäîâàòåëüíîñòü ýëåìåíòîâ âòîðè÷íîé
ñòðóêòóðû áåëêà. Êàê ïðàâèëî, ýòî ïðîñòàÿ êîðîòêàÿ ïîñëåäîâàòåëüíîñòü, êîòîðàÿ
54 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
Ò à á ë è ö à 1
Àìèíîêèñëîòà
×àñòîòà Ïàðû
àìèíîêèñëîò
×àñòîòà
1-ÿ íèòü 2-ÿ íèòü 1-ÿ íèòü 2-ÿ íèòü
A 0,08477 0,08648 AC 0,01153 0,01103
R 0,05099 0,05322 RV 0,06283 0,06112
D 0,05160 0,05491 DW 0,01883 0,01861
N 0,03633 0,03794 NE 0,04040 0,03936
C 0,01096 0,01116 CF 0,04485 0,04403
E 0,06098 0,06341 ET 0,06204 0,06181
Q 0,05099 0,05099 QD 0,04539 0,04593
G 0,06824 0,06961 GM 0,02125 0,02003
H 0,02227 0,02281 HA 0,06360 0,06597
I 0,06021 0,06129 IR 0,04989 0,05084
L 0,11011 0,11502 LN 0,03972 0,03978
K 0,04121 0,04225 KQ 0,05944 0,06075
M 0,02023 0,02045 MG 0,08411 0,08025
F 0,03890 0,04036 FH 0,02033 0,02148
P 0,05122 0,05266 PI 0,06176 0,06045
S 0,06500 0,06754 SK 0,03861 0,03956
T 0,05804 0,05933 TL 0,12268 0,12478
W 0,01533 0,01590 WS 0,06275 0,06673
Y 0,02803 0,02952 YP 0,05443 0,05434
V 0,06573 0,06640 VY 0,02683 0,02668
x1 x2 xs xn�1 xn( ( ( (
Ðèñ. 8. Ñõåìà ïðåäñêàçàíèÿ âòîðè÷íîé ñòðóêòóðû îäèíî÷íîé
àìèíîêèñëîòû
âñòðå÷àåòñÿ â íåñêîëüêèõ áåëêàõ. Íàïðèìåð, ñïèðàëü-coil-ñïèðàëü. Ýòîò ìîòèâ
âñòðå÷àåòñÿ âî ìíîãèõ áåëêàõ äëÿ ñâÿçè ñ àòîìàìè êàëüöèÿ. Òàêèì îáðàçîì, ó íåãî
åñòü âïîëíå îïðåäåëåííàÿ ôóíêöèÿ.
Äîìåíîì íàçûâàþò áîëåå ñëîæíóþ, ÷åì ìîòèâ, êîìáèíàöèþ âòîðè÷íûõ ñòðóêòóð
ñ î÷åíü óçêîé ôóíêöèîíàëüíîñòüþ è èìåþùóþ àêòèâíûé öåíòð, êîòîðûé ìîæåò ó÷àñ-
òâîâàòü â ñâÿçè ñ âíåøíèìè ìîëåêóëàìè. Äîìåíîâ ìîæåò áûòü îäèí èëè íåñêîëüêî.
Ñóùåñòâóåò ìíîæåñòâî ïîäõîäîâ ê ðåøåíèþ çàäà÷è ôîëäèíãà, îäíèì èç êîòî-
ðûõ ÿâëÿåòñÿ òðåäèíã (threading). Îñíîâíàÿ èäåÿ òðåäèíãà çàêëþ÷àåòñÿ â òîì, ÷òî
áåëêè íå ñâîðà÷èâàþòñÿ â ñëó÷àéíûå ñòðóêòóðû ñ áåñêîíå÷íûì ðàçíîîáðàçèåì âà-
ðèàíòîâ. Íà ñàìîì äåëå, êîëè÷åñòâî ðàçëè÷íûõ ïðîñòðàíñòâåííûõ ñòðóêòóð áåëêîâ
êîíå÷íî, è ìîæíî äàæå âûäåëèòü öåëûé ðÿä îïðåäåëåííûõ ìîòèâîâ, ïðèñóòñòâóþ-
ùèõ âî ìíîãèõ áåëêàõ. Òàê, íàïðèìåð, òîëüêî 15 % áåëêîâ, äîáàâëåííûõ â Protein
Data Bank çà ïîñëåäíèå íåñêîëüêî ëåò, ìîæíî ñ÷èòàòü îáëàäàþùèìè íîâûìè âèäà-
ìè ïðîñòðàíñòâåííîé ñòðóêòóðû. Âñå ýòî ïîçâîëèëî ðàçðàáîòàòü ìåòîä òðåäèíãà,
ñîñòîÿùèé â âûðàâíèâàíèè áåëêîâîé ïîñëåäîâàòåëüíîñòè ñîãëàñíî òîé èëè èíîé
ïðåäïîëàãàåìîé ïðîñòðàíñòâåííîé ñòðóêòóðå.
Ñóùåñòâóåò ìíîæåñòâî àëãîðèòìîâ òðåäèíãà, íî ó íèõ ìîæíî âûäåëèòü îáùèå
÷åðòû. Íà íà÷àëüíîì ýòàïå òðåäèíãà ïðåäïîëàãàåòñÿ, ÷òî ó èññëåäîâàòåëÿ åñòü äëÿ
èçó÷åíèÿ àìèíîêèñëîòíàÿ ïîñëåäîâàòåëüíîñòü áåëêà ñ íåèçâåñòíîé ïðîñòðàíñòâåí-
íîé ñòðóêòóðîé è áàçà äàííûõ î áåëêàõ, àìèíîêèñëîòíàÿ ïîñëåäîâàòåëüíîñòü è ïðî-
ñòðàíñòâåííàÿ ñòðóêòóðà êîòîðûõ èçâåñòíû (íàïðèìåð, Protein Data Bank). Íà ñëåäó-
þùåì øàãå âûïîëíÿåòñÿ ïðîöåäóðà ñîïîñòàâëåíèÿ èññëåäóåìîé öåïî÷êè ñ èçâåñòíû-
ìè, ïîñëåäîâàòåëüíî, äëÿ âñåõ âîçìîæíûõ ñäâèãîâ öåïî÷åê îòíîñèòåëüíî îäíà
äðóãîé. Ïðè ýòîì èñïîëüçóåòñÿ íåêàÿ êâàçèýíåðãåòè÷åñêàÿ ôóíêöèÿ, ñ ïîìîùüþ êî-
òîðîé îöåíèâàþò êà÷åñòâî ñîâïàäåíèÿ è âûáèðàþò îäíîãî èëè íåñêîëüêî ëó÷øèõ
êàíäèäàòîâ. Çàòåì íà îñíîâå èíôîðìàöèè î ïðîñòðàíñòâåííîé ñòðóêòóðå áåëêîâ, âû-
áðàííûõ íà ïðåäûäóùåì øàãå, ñòðîèòñÿ íåêàÿ ïîñëåäîâàòåëüíîñòü âòîðè÷íûõ ñòðóê-
òóð, ñ çàäàííûì ðàñïîëîæåíèåì â ïðîñòðàíñòâå. Íà ïîñëåäíåì øàãå òðåäèíãà èññëå-
äóåìûé áåëîê âûðàâíèâàåòñÿ ïî ýòîé ïðîñòðàíñòâåííîé ñòðóêòóðå [22, 23].
Ïðèâåäåì ìàòåìàòè÷åñêóþ ôîðìóëèðîâêó âûðàâíèâàíèÿ ñòðóêòóðû ê ïîñëåäî-
âàòåëüíîñòè àìèíîêèñëîò (ðèñ. 9), â êîòîðîé îïðåäåëåíû:
� àìèíîêèñëîòíàÿ ïîñëåäîâà-
òåëüíîñòü áåëêà A, ñîñòîÿùàÿ èç n
àìèíîêèñëîò a a a an1 2 3 ... ;
� îöåíî÷íàÿ ôóíêöèÿ âûðàâ-
íèâàíèÿ f ; ìîäåëü ñòðóêòóðû áåë-
êà C , ñîñòîÿùåé èç m âòîðè÷íûõ
ñòðóêòóð, äëÿ êàæäîé èç êîòîðûõ
èçâåñòíû äëèíà ci âòîðè÷íîé
ñòðóêòóðû i, à òàêæå òî, ÷òî âòî-
ðè÷íûå ñòðóêòóðû i è i �1 ñîåäè-
íåíû ñïèðàëüþ, äëÿ êîòîðîé èç-
âåñòíû åå ìàêñèìàëüíî è ìèíèìàëüíî âîçìîæíûå äëèíû li
max è li
min .
Äëÿ ðåøåíèÿ çàäà÷è íåîáõîäèìî íàéòè òàêîå ìíîæåñòâî T t tm�{ }1 ,... , , ïðè
êîòîðîì çíà÷åíèå f áóäåò ìàêñèìàëüíî.  ìíîæåñòâå T t i óêàçûâàåò, êàêàÿ àìèíî-
êèñëîòà èç ïîñëåäîâàòåëüíîñòè A ÿâëÿåòñÿ ïåðâîé âõîäÿùåé â i-þ ñòðóêòóðó.
Åñëè èãíîðèðîâàòü âçàèìîäåéñòâèå ìåæäó ïàðàìè àìèíîêèñëîò, òî ñôîðìóëèðî-
âàííàÿ âûøå çàäà÷à ðåøàåòñÿ ìåòîäàìè äèíàìè÷åñêîãî ïðîãðàììèðîâàíèÿ, â ïðîòèâíîì
ñëó÷àå îíà ÿâëÿåòñÿ NP-ïîëíîé è ïîèñê ïðèáëèæåííîãî ðåøåíèÿ çàìåòíî óñëîæíÿåòñÿ.
Òàêèì îáðàçîì, ïîëíîñòüþ ïðîöåäóðà òðåäèíãà ñîñòîèò èç ñëåäóþùèõ øàãîâ:
� âûðàâíèâàíèå òèïà «öåïî÷êà»-«öåïî÷êà» è ïîèñê íàèáîëåå ïîäõîäÿùèõ êàí-
äèäàòîâ;
� ïîñòðîåíèå ïðåäïîëàãàåìîé ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêà íà îñíîâå
ïðîñòðàíñòâåííûõ ñòðóêòóð íàéäåííûõ êàíäèäàòîâ;
� âûðàâíèâàíèå òèïà «öåïî÷êà»-«ñòðóêòóðà».
Êàæäûé èç ýòèõ øàãîâ ñòàâèò ïåðåä èññëåäîâàòåëÿìè öåëûé ðÿä ñëîæíûõ âîïðî-
ñîâ, ÷òî ïðèâåëî ê ïîÿâëåíèþ ìíîæåñòâà ðàçëè÷íûõ àëãîðèòìîâ òðåäèíãà. Òðåäèíã
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 55
2 31
a1a2a3a4a5a6a7a8a9a10a11a12a13a14a15a16a17a18a19a20
T � {5, 8, 17}
Ðèñ. 9. Èëëþñòðàöèÿ ïðîöåññà âûðàâíèâàíèÿ àìèíîêèñ-
ëîòíîé ïîñëåäîâàòåëüíîñòè áåëêà è åãî ïðåäïîëàãàåìîé
ïðîñòðàíñòâåííîé ñòðóêòóðû
äàåò õîðîøèå ðåçóëüòàòû, íî äëÿ äåéñòâèòåëüíî ñëîæíûõ çàäà÷ èñïîëüçóåòñÿ â îñíîâ-
íîì êàê âñïîìîãàòåëüíûé ìåòîä äëÿ ïîñòðîåíèÿ ìîäåëè â ïåðâîì ïðèáëèæåíèè. Çàòåì
ðåçóëüòàòû òðåäèíãà óòî÷íÿþòñÿ ñ ïîìîùüþ äðóãèõ ìåòîäîâ è àëãîðèòìîâ.
6. ÎÖÅÍÊÀ ÊÀ×ÅÑÒÂÀ
Ñóùåñòâóåò äâà ãëîáàëüíûõ ýêñïåðèìåíòà ïî îöåíêå êà÷åñòâà ïðåäñêàçàíèÿ ïðî-
ñòðàíñòâåííîé ñòðóêòóðû áåëêîâ: CASP è EVA [24, 25].
CASP (Critical Assessment of Techniques for Protein Structure Prediction) — îò-
êðûòûé äëÿ âñåõ íàó÷íûõ ãðóïï ýêñïåðèìåíò, öåëüþ êîòîðîãî ÿâëÿåòñÿ èçó÷åíèå
òåêóùåãî ñîñòîÿíèÿ â îáëàñòè ïðåäñêàçàíèÿ ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêîâ, à
òàêæå îïðåäåëåíèå îñíîâíûõ ïðîáëåì è çàäà÷, êðèòè÷åñêè âàæíûõ äëÿ äîñòèæåíèÿ
óñïåõà â ýòîé îáëàñòè.  ðàìêàõ CASP òàêæå ïðîâîäèòñÿ ÷èñëåííàÿ îöåíêà êà÷åñ-
òâà ïðåäñêàçàíèé ýêñïåðèìåíòîâ êàæäîé íàó÷íîé ãðóïïû-ó÷àñòíèêà, ÷òî ïðåâðàòè-
ëî åãî â ïðåñòèæíîå ñîðåâíîâàíèå. Íà äàííûé ìîìåíò â CASP ïðèíèìàåò ó÷àñòèå
áîëåå 200 íàó÷íûõ ãðóïï ñî âñåãî ìèðà.
 îðãàíèçàöèîííîé ñòðóêòóðå ýêñïåðèìåíòà ìîæíî âûäåëèòü ñëåäóþùèå
ãðóïïû:
1) îðãàíèçàòîðû — îòâå÷àþò çà âñå òåõíè÷åñêèå è îðãàíèçàöèîííûå àñïåêòû, ñâÿ-
çàííûå ñ ïðîâåäåíèåì ýêñïåðèìåíòîâ è èõ îáñóæäåíèåì, íà÷èíàÿ îò âûáîðà öåëåé äëÿ
ïðîãíîçèðîâàíèÿ è çàêàí÷èâàÿ îðãàíèçàöèåé î÷íûõ âñòðå÷ ó÷àñòíèêîâ ýêñïåðèìåíòà;
2) íåçàâèñèìûå îöåíèâàþùèå ýêñïåðòû — ãðóïïû ïî äâà ÷åëîâåêà, â êàæäîé êàòå-
ãîðèè ïðåäñêàçàíèé, êîòîðûå îòâå÷àþò çà îöåíèâàíèå êà÷åñòâà ïðåäñêàçàíèé ó÷àñòíèêà-
ìè è âûÿâëåíèå îñíîâíûõ ñóùåñòâóþùèõ ïðîáëåì â îáëàñòè ïðîãíîçèðîâàíèÿ áåëêîâ;
äëÿ îöåíêè êà÷åñòâà ïðåäñêàçàíèé ýêñïåðòû ïîëüçóþòñÿ óòâåðæäåííûìè è ñîãëàñîâàí-
íûìè ðàíåå ìåòîäàìè, íî èìåþò ïðàâî äîáàâëÿòü ê íèì ñîáñòâåííûå ìåòîäèêè;
3) êîíñóëüòàíòû — ãðóïïû, ñîñòîÿùèå èç ïðåäûäóùèõ ó÷àñòíèêîâ ýêñïåðè-
ìåíòà (îêîëî äåñÿòè ÷åëîâåê íà êàæäóþ êàòåãîðèþ ïðåäñêàçàíèé), âëèÿþùèå íà
âûáîð ìåòîäîâ íåçàâèñèìûìè îöåíèâàþùèìè ýêñïåðòàìè, à òàêæå íà äðóãèå òåõ-
íè÷åñêèå àñïåêòû ýêñïåðèìåíòà;
4) îðãàíèçàöèîííîå ñîáðàíèå ó÷àñòíèêîâ — ïåðåä êàæäûì î÷åðåäíûì CASP
ïðîèñõîäèò î÷íîå ñîáðàíèå åãî ó÷àñòíèêîâ, íà êîòîðîì ïóòåì ãîëîñîâàíèÿ ðåøà-
þòñÿ îðãàíèçàöèîííûå è òåõíè÷åñêèå âîïðîñû ïðåäñòîÿùåãî ýêñïåðèìåíòà (äàòà
ïðîâåäåíèÿ, âûáîð êîíñóëüòàíòîâ è ýêñïåðòîâ), à òàêæå îáñóæäàþòñÿ ëþáûå ñó-
ùåñòâåííûå èçìåíåíèÿ â ñàìîé ïðîöåäóðå ýêñïåðèìåíòà;
5) «Öåíòð ïî ïðåäñêàçàíèþ ñòðóêòóðû áåëêîâ» â Ëàáîðàòîðèè Ëîðåíñà Ëèâåð-
ìîðà — îòâå÷àåò çà ñáîð, óïðàâëåíèå è õðàíåíèå âñåõ äàííûõ ýêñïåðèìåíòà (äàí-
íûå ïî öåëÿì ïðåäñêàçàíèé, ðåçóëüòàòû ïðåäñêàçàíèé ó÷àñòíèêîâ ýêñïåðèìåíòà,
ìåòîäû è ðåçóëüòàòû îöåíêè ïðåäñêàçàíèé è ò.ï.).
CASP ïðîâîäèòñÿ ðàç â äâà ãîäà.  êà÷åñòâå öåëåé äëÿ ïðåäñêàçàíèÿ âûáèðà-
þòñÿ áåëêè, òðåòè÷íàÿ ñòðóêòóðà êîòîðûõ åùå íå èçâåñòíà, íî áóäåò èññëåäîâàíà
ê îêîí÷àíèþ ýêñïåðèìåíòà, ëèáî èçâåñòíà, íî íèãäå ðàíåå íå îïèñûâàëàñü â îòêðû-
òîì äîñòóïå.  CASP ïðèíèìàþò ó÷àñòèå êàê ãðóïïû ýêñïåðòîâ, òàê è ïîëíîñòüþ
àâòîìàòèçèðîâàííûå ñåðâåðû.  ïåðâîì ñëó÷àå ìàøèííûå âû÷èñëåíèÿ òàêæå èñ-
ïîëüçóþòñÿ, íî íå â òàêèõ îáúåìàõ, êàê âî âòîðîì; îêîí÷àòåëüíàÿ ìîäåëü ïðîñòðà-
íñòâåííîé ñòðóêòóðû èññëåäóåìîãî áåëêà ïðîâåðÿåòñÿ è èñïðàâëÿåòñÿ ÷åëîâåêîì.
Âî âòîðîì ñëó÷àå âñÿ ðàáîòà ïî ïðåäñêàçàíèþ è ïîñòðîåíèþ òðåòè÷íîé ñòðóêòóðû
áåëêà ïðîâîäèòñÿ êîìïüþòåðîì. Ñëåäóåò îòìåòèòü, ÷òî íà÷èíàÿ ñ CASP-6 ðàçíèöà
â èòîãîâîì ðåçóëüòàòå ìåæäó êîìïüþòåðàìè è ëþäüìè î÷åíü íåçíà÷èòåëüíà, õîòÿ
ïðåèìóùåñòâî âñå åùå íà ñòîðîíå ýêñïåðèìåíòàòîðîâ.
Êîíêðåòíûå çàäà÷è, ðåøàåìûå â ðàìêàõ êàæäîãî ýêñïåðèìåíòà â CASP, ñëåäóþùèå:
— ïðåäñêàçàíèå òðåòè÷íîé ñòðóêòóðû áåëêîâûõ ìîëåêóë (âñå CASP-ýêñïåðè-
ìåíòû);
— ïðåäñêàçàíèå âòîðè÷íîé ñòðóêòóðû áåëêîâûõ ìîëåêóë (îòìåíåíî ïîñëå
CASP-5);
— ïðåäñêàçàíèå áåëêîâûõ êîìïëåêñîâ (òîëüêî â ðàìêàõ CASP-2, â íàñòîÿùåå
âðåìÿ ýòà çàäà÷à ðåøàåòñÿ â ðàìêàõ îòäåëüíîãî ýêñïåðèìåíòà CAPRI);
— ïðåäñêàçàíèå áèîëîãè÷åñêîé ôóíêöèè áåëêà (íà÷èíàÿ ñ CASP-6);
56 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
— ïðåäñêàçàíèå êîíòàêòà «àìèíîêèñëîòà-àìèíîêèñëîòà» â áåëêå (íà÷èíàÿ
ñ CASP-4);
— îöåíêà êà÷åñòâà ìîäåëèðîâàíèÿ (íà÷èíàÿ ñ CASP-7);
— ðàñïîçíàâàíèå ãðàíèö äîìåíîâ áåëêà (íà÷èíàÿ ñ CASP-6).
Çàäà÷è â ðàìêàõ ïðåäñêàçàíèÿ òðåòè÷íîé ñòðóêòóðû áåëêîâ, â ñâîþ î÷åðåäü,
òàêæå äåëÿòñÿ íà äâå êàòåãîðèè:
1) øàáëîííîå ìîäåëèðîâàíèå (Template Modeling) — ñàìûé ïðîñòîé êëàññ çà-
äà÷ ðàñïîçíàâàíèÿ, ê íåìó îòíîñÿò áåëêîâûå ìîëåêóëû, äëÿ êîòîðûõ ñóùåñòâóþò
áëèçêèå ðîäñòâåííûå áåëêè ñ èçâåñòíîé òðåòè÷íîé ñòðóêòóðîé;
2) íåøàáëîííîå ìîäåëèðîâàíèå (Template Free Modeling) — íàèáîëåå ñëîæíûå
äëÿ ðàñïîçíàâàíèÿ áåëêè, íå èìåþùèå èçó÷åííûõ ðàíåå ðîäñòâåííûõ àíàëîãîâ.
 íàñòîÿùåå âðåìÿ îòìå÷àåòñÿ ïðîãðåññ êà÷åñòâà CASP-ýêñïåðèìåíòîâ. Ïðàê-
òè÷åñêè âñå ó÷àñòíèêè ýêñïåðèìåíòà óêàçûâàëè íà îòñóòñòâèå çíà÷èìûõ ðåçóëüòà-
òîâ íà÷èíàÿ ñ CASP-5, ò.å. ñ 2002 ãîäà [26]. Ýòîò ôàêò ìîæåò ñâèäåòåëüñòâîâàòü
ëèáî î íåäîñòàòêàõ ñóùåñòâóþùèõ ìåòîäîâ ïðåäñêàçàíèÿ, ëèáî îá îãðàíè÷åíèÿõ ñî
ñòîðîíû âû÷èñëèòåëüíûõ ìîùíîñòåé, äîñòóïíûõ èññëåäîâàòåëÿì. Îäíàêî CASP-7
ïîêàçàë, ÷òî ïîñëåäíåå íå ÿâëÿåòñÿ îñíîâíûì îãðàíè÷èâàþùèì ôàêòîðîì â ïðåä-
ñêàçàíèè òðåòè÷íîé ñòðóêòóðû áåëêîâ, áîëåå òîãî, ãðóïïà, ïîáåäèâøàÿ â CASP-7,
èìåëà â ñâîåì ðàñïîðÿæåíèè âåñüìà ñêðîìíûå âû÷èñëèòåëüíûå ìîùíîñòè [27]. Òà-
êèì îáðàçîì, îñíîâíàÿ çàäà÷à íà äàííûé ìîìåíò ñîñòîèò â óñîâåðøåíñòâîâàíèè
óñòàðåâøèõ è ðàçðàáîòêå íîâûõ ìåòîäèê ïðåäñêàçàíèÿ. Ñóùåñòâóþò îòäåëüíûå êà-
òåãîðèè çàäà÷, êðîìå ðàñïîçíàâàíèÿ òðåòè÷íîé ñòðóêòóðû áåëêîâ, ÿâëÿþùèåñÿ ïîä-
çàäà÷àìè îñíîâíîé çàäà÷è, ïðîãðåññ â ðåøåíèè êîòîðûõ î÷åíü âàæåí äëÿ äàëüíåé-
øåãî ïðîäâèæåíèÿ â ýòîé îáëàñòè.
EVA — íåïðåðûâíûé âî âðåìåíè ýêñïåðèìåíò, îöåíèâàþùèé êà÷åñòâî ïðåä-
ñêàçàíèé ñòðóêòóð áåëêîâ îáùåäîñòóïíûìè ñåðâåðàìè äëÿ ñëåäóþùèõ çàäà÷ è ìå-
òîäîâ:
— ðàñïîçíàâàíèå âòîðè÷íîé ñòðóêòóðû áåëêîâ;
— ñðàâíèòåëüíîå ìîäåëèðîâàíèå (comparative modeling and homology
modeling);
— ìåòîä òðåäèíãà (protein threading).
 îòëè÷èå îò CASP â EVA íå ñòàâèòñÿ íèêàêèõ èññëåäîâàòåëüñêèõ çàäà÷.
Îñíîâíàÿ öåëü ýêñïåðèìåíòà — ïîñòîÿííîå èíôîðìèðîâàíèå î êà÷åñòâå ðàáîòû
ïóáëè÷íûõ ñåðâåðîâ, ïðåäñêàçûâàþùèõ ñòðóêòóðû áåëêîâ.  ïåðâóþ î÷åðåäü ýòîò
ïðîåêò âàæåí äëÿ òåõ, êòî íå ÿâëÿåòñÿ ýêñïåðòîì â îáëàñòè ïðåäñêàçàíèÿ ñòðóêòóð
áåëêîâ, íî èñïîëüçóåò èíôîðìàöèþ, ïîëó÷åííóþ îò îáùåäîñòóïíûõ ñåðâåðîâ,
â ñâîåé ðàáîòå èëè èññëåäîâàíèÿõ. Ïðîâåðêà ñåðâåðîâ-ó÷àñòíèêîâ EVA ïðîèçâî-
äèòñÿ â àâòîìàòè÷åñêîì ðåæèìå êàæäóþ íåäåëþ.  êà÷åñòâå öåëåé äëÿ ïðåäñêàçà-
íèÿ ñòðóêòóð áåëêîâ èñïîëüçóþòñÿ íîâûå ñòðóêòóðû, äîáàâëåííûå â Protein Data
Bank â òå÷åíèå òåêóùåé íåäåëè.
EVA èññëåäóåò êà÷åñòâî ðàáîòû ñåðâåðîâ òîëüêî äëÿ òåõ ñòðóêòóð áåëêîâ, êîòî-
ðûå ïîäïàäàþò ïîä êëàññ ñëîæíîñòè øàáëîííîãî ìîäåëèðîâàíèÿ â CASP. Ìåòîäû, èñ-
ïîëüçóþùèå øàáëîííîå ìîäåëèðîâàíèå â EVA, â íàñòîÿùåå âðåìÿ íå îöåíèâàþòñÿ.
ÇÀÊËÞ×ÅÍÈÅ
 ðàáîòå ïðèâåäåí îáçîð ñîâðåìåííûõ ïîäõîäîâ ïðåäñêàçàíèÿ ïðîñòðàíñòâåííîé
ñòðóêòóðû áåëêîâ.
Íàèáîëåå ïåðñïåêòèâíûìè, ïî ìíåíèþ àâòîðîâ, ÿâëÿþòñÿ ïîäõîäû, îñíîâàí-
íûå íà ïðèìåíåíèè âåðîÿòíîñòíûõ ìîäåëåé (ìîäåëè öåïåé Ìàðêîâà, óñëîâíûå ñëó-
÷àéíûå ïîëÿ è ò.ï.). Ìîäåëè ñòðîÿòñÿ ïî èíôîðìàöèè èç îáó÷àþùèõ âûáîðîê, â êà-
÷åñòâå êîòîðûõ èñïîëüçóþòñÿ îòêðûòûå áàíêè äàííûõ áåëêîâûõ ñòðóêòóð. Äëÿ çà-
äàííîé ïîñëåäîâàòåëüíîñòè àìèíîêèñëîò, èëè íàáëþäåíèé, òðåáóåòñÿ íàéòè
íàèáîëåå âåðîÿòíóþ ïîñëåäîâàòåëüíîñòü ñîñòîÿíèé. Ñîñòîÿíèÿìè ìîãóò áûòü òèïû
âòîðè÷íîé ñòðóêòóðû èëè òîðñèîííûå óãëû â çàâèñèìîñòè îò êîíêðåòíîé çàäà÷è.
Òàê, íàïðèìåð, áàéåñîâñêèå ïðîöåäóðû íà öåïÿõ Ìàðêîâà ðàçëè÷íûõ ïîðÿäêîâ äî-
âîëüíî óñïåøíî ïðåäñêàçûâàþò âòîðè÷íóþ ñòðóêòóðó áåëêîâ.
Îñîáåííîñòü áàêòåðèàëüíûõ ãåíîìîâ ïîçâîëÿåò âûäåëÿòü è îòäåëüíî àíàëèçèðîâàòü
àìèíîêèñëîòíûå ïîñëåäîâàòåëüíîñòè áåëîê-êîäèðóþùèõ ó÷àñòêîâ. Ïîëó÷åíû íîâûå
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 57
âàæíûå äàííûå î ñîâïàäåíèè îöåíîê ïåðåõîäíûõ âåðîÿòíîñòåé àìèíîêèñëîòíûõ ïîñëåäî-
âàòåëüíîñòåé áåëêîâ, ñèíòåçèðîâàííûõ íà äâóõ ïðîòèâîïîëîæíûõ íèòÿõ ÄÍÊ áàêòåðèé.
Ýòî íåëüçÿ îáúÿñíèòü ñëó÷àéíûì ñîâïàäåíèåì, ïîñêîëüêó ïðè ïîäñ÷åòå îöåíîê ïåðåõîä-
íûõ âåðîÿòíîñòåé ôèãóðèðóþò 399 íåçàâèñèìûõ ïàðàìåòðîâ. Ïîëó÷åííûé âûâîä ïîäòâåð-
æäåí ÷èñëåííûìè ðàñ÷åòàìè íà ãåíîìàõ áàêòåðèé. Äàííûé ðåçóëüòàò, ïî ñóòè, ïîçâîëèë
ïîäòâåðäèòü íå î÷åâèäíóþ äî ýòîãî ýôôåêòèâíîñòü èñïîëüçîâàíèÿ áàéåñîâñêèõ ïðîöåäóð
ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêîâà äëÿ ïðåäñêàçàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêîâ.
ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ
1. G i n a l s k i K . , G r i s h i n N . V . , G o d z i k A . , R y c h l e w s k i L . Practical lessons from protein
structure prediction // Nucleic Acids Res. — 2005. — 33. — P. 1874–1891.
2. L a z a r i d i s T . , K a r p l u s M . Effective energy functions for protein structure prediction // Current
Opinion in Structural Biology. — 2000. — 10. — P. 139–245.
3. B o a s F . , H a r b u r y P . Potential energy functions for protein design // Ibid. — 2007. — 17. —
P. 199–204.
4. N a r a n g P . , B h u s h a n K . , B o s e S . , J a y a r a m B . A computational pathway for bracketing na-
tive-like structures for small alpha helical globular proteins // Phys. Chem. Chem. Phys. — 2005. — 7. —
P. 2364–2375.
5. M a d h u S m i t h a , A b h i j i t M i t r a , H a r j i n d e r S i n g h . Real valued genetic algorithm based ap-
proach for protein structure prediction — role of biophysical filters for reduction of conformational search
space // Third IAPR Intern. Conf. on Pattern Recognition in Bioinformatics PRIB, Oct. 15–17 2008,
Novotel St Kilda. — Melbourne, Australia, 2008.
6. R e c o n s t r u c t i o n of 3D Structures from protein contact maps / M. Vassura, L. Margara, P. Di Lena et
al. // IEEE/ACM Trans. on Comput. Biology and Bioinformatics. — 2008. — 5(3). — P. 357–367.
7. P o l l a s t r i G . , B a l d i P . Prediction of contact maps by GIOHMMs and recurrent neural networks using lat-
eral propagation from all four cardinal corners // Bioinformatics. — 2002. — 18. — P. 62–70.
8. C h e n g J . , B a l d i P . Improved residue contact prediction using support vector machines and a large
feature set // BMC Bioinformatics. — 2007. — 8. — P. 1–9.
9. Ñ å ð ã è å í ê î È .  . , à ó ï à ë À . Ì . Ñòàòèñòè÷åñêèé àíàëèç ãåíîìà // Öèòîëîãèÿ è ãåíåòèêà. —
2004. — ¹ 4. — Ñ. 76–81.
10. V i t e r b i A . J . Error bounds for convolutional codes and an asymptotically optimal decoding algorithm //
IEEE Trans. Informat. Theory. — 1967. — IT-13. — P. 260–269.
11. B a u m L . E . , P e t r i e T . Statistical inference for probabilistic functions of finite state Markov chains //
Ann. Math. Statist. — 1966. — 37. — P. 1554–1563.
12. L e v i n s o n S . E . , R a b i n e r L . R . , S o n d h i M . M . An introduction to the application of the theory
of probabilistic functions of a Markov process to automatic speech recognition // Bell Syst. Tech. J. —
1983. — 62. — P. 1035–1074.
13. L a f f e r t y J . D . , M c C a l l u m A . , P e r e i r a F . C . N . Conditional random fields: probabilistic
models for segmenting and labelingsequence data // Proc. of the Eighteenth Intern. Conf. on Machine
Learning (ICML 2001). — New York: Morgan Kaufmann Publ., 2001. — P. 282–289.
14. T h e i n t e r n a t i o n a l human genom sequencing consortium // Nature. — 2004. — 431. — P. 931–945.
15. Ã ó ï à ë À . Ì . , Ñ å ð ã è å í ê î È . Â . Îïòèìàëüíûå ïðîöåäóðû ðàñïîçíàâàíèÿ. — Êèåâ: Íàóê. äóì-
êà, 2008. — 232 c.
16. Ã ó ï à ë À . Ì . , Â à ã è ñ À . À . Êîìïëåìåíòàðíîñòü îñíîâàíèé â õðîìîñîìàõ ÄÍÊ // Ïðîáëåìû óï-
ðàâëåíèÿ è èíôîðìàòèêè. — 2005. — ¹ 5. — Ñ. 153–157.
17. Ñ å ð ã è å í ê î È . Â . , Ã ó ï à ë À . Ì . , Â à ã è ñ À . À . Ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè â çàïèñè
îñíîâàíèé ïî îäíîé íèòè ÄÍÊ // Öèòîëîãèÿ è ãåíåòèêà. — 2005. — ¹ 6. — Ñ. 71–75.
18. A n d e r s o n T . W . , G o o d m a n L . A . Statistical inference about Markov chains // Ann. Math. Statis-
tics. — 1957. — 28. — P. 89–110.
19. Á å ë å ö ê è é Á . À . ,  à ñ è ë ü å â Ñ .  . , à ó ï à ë À . Ì . Ïðåäñêàçàíèå âòîðè÷íîé ñòðóêòóðû áåë-
êîâ íà îñíîâå áàéåñîâñêèõ ïðîöåäóð ðàñïîçíàâàíèÿ // Ïðîáëåìû óïðàâëåíèÿ è èíôîðìàòèêè. —
2007. — ¹ 1. — Ñ. 61–69.
20. Ñ å ð ã è å í ê î È . Â . , Á å ë å ö ê è é Á . À . , Â à ñ è ë ü å â Ñ . Â . , Ã ó ï à ë À . Ì . Ïðåäñêàçàíèå âòî-
ðè÷íîé ñòðóêòóðû áåëêîâ íà îñíîâå áàéåñîâñêèõ ïðîöåäóð ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêîâà // Êè-
áåðíåòèêà è ñèñòåìíûé àíàëèç. — 2007. — ¹ 2. — Ñ. 59–64.
21. Á å ë å ö ê è é Á . À . , Â à ã è ñ À . À . , Â à ñ è ë ü å â Ñ . Â . , Ã ó ï à ë À . Ì . Ïðîöåäóðû ðàñïîçíàâàíèÿ
âòîðè÷íîé ñòðóêòóðû áåëêîâ // Ïðîáëåìû óïðàâëåíèÿ è èíôîðìàòèêè. — 2007. — ¹ 4. — Ñ. 134–139.
22. T h o r d a A . Protein threading. — Hambourg: Univ. of Hambourg, 2003. (http://en.scientificcommons.org/
40891925)
23. M c G u f f i n L . J . Protein fold recognition and threading in computational structural biology // World
Scientific. — 2008. — P. 37–60.
24. http://predictioncenter.org/
25. http://cubic.bioc.columbia.edu/eva/
26. M o u l t J . , K r z y s z t o f F . , Z e m l a A . , H u b b a r d T . Critical assessment of methods of protein
structure prediction (CASP) — Round V // Proteins. — 2003. — 53. — P. 334–339.
27. K r y s h t a f o v y c h A . , K r z y s z t o f F . , M o u l t J . Progress from CASP6 to CASP7 // Ibid. —
2007. — 69. — P. 194–207.
Ïîñòóïèëà 02.06.2009
58 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1
|