Методы предсказания пространственной структуры белков

Наведено огляд сучасних методів передбачення просторової структури білків. Обговорюються результати чисельних розрахунків передбачення вторинної структури білків на основі байєсівських процедур розпізнавання на нестаціонарних ланцюгах Маркова. Наведено комплементарні закономірності щодо запису генет...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2010
Автори: Сергиенко, И.В., Рязанов, В.В., Белецкий, Б.А., Быць, А.В., Гупал, А.М., Ржепецкий, С.С.
Формат: Стаття
Мова:Russian
Опубліковано: Інститут кібернетики ім. В.М. Глушкова НАН України 2010
Назва видання:Кибернетика и системный анализ
Теми:
Онлайн доступ:http://dspace.nbuv.gov.ua/handle/123456789/45124
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Методы предсказания пространственной структуры белков / И.В. Сергиенко, В.В. Рязанов, Б.А. Белецкий, А.В. Быць, А.М. Гупал, С.С. Ржепецкий // Кибернетика и системный анализ. — 2010. — № 1. — С. 38–58. — Бібліогр.: 27 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-45124
record_format dspace
spelling irk-123456789-451242013-06-08T03:23:50Z Методы предсказания пространственной структуры белков Сергиенко, И.В. Рязанов, В.В. Белецкий, Б.А. Быць, А.В. Гупал, А.М. Ржепецкий, С.С. Системный анализ Наведено огляд сучасних методів передбачення просторової структури білків. Обговорюються результати чисельних розрахунків передбачення вторинної структури білків на основі байєсівських процедур розпізнавання на нестаціонарних ланцюгах Маркова. Наведено комплементарні закономірності щодо запису генетичної інформації в геномах та білках. A review of methods of prediction of the spatial protein structure is presented. The numerical results of predicting the secondary protein structure on the basis of Bayesian recognition procedures on non-stationary Markov chains are discussed. Complementary principles of encoding genetic information in DNA and proteins are presented. 2010 Article Методы предсказания пространственной структуры белков / И.В. Сергиенко, В.В. Рязанов, Б.А. Белецкий, А.В. Быць, А.М. Гупал, С.С. Ржепецкий // Кибернетика и системный анализ. — 2010. — № 1. — С. 38–58. — Бібліогр.: 27 назв. — рос. 0023-1274 http://dspace.nbuv.gov.ua/handle/123456789/45124 519.68 ru Кибернетика и системный анализ Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Системный анализ
Системный анализ
spellingShingle Системный анализ
Системный анализ
Сергиенко, И.В.
Рязанов, В.В.
Белецкий, Б.А.
Быць, А.В.
Гупал, А.М.
Ржепецкий, С.С.
Методы предсказания пространственной структуры белков
Кибернетика и системный анализ
description Наведено огляд сучасних методів передбачення просторової структури білків. Обговорюються результати чисельних розрахунків передбачення вторинної структури білків на основі байєсівських процедур розпізнавання на нестаціонарних ланцюгах Маркова. Наведено комплементарні закономірності щодо запису генетичної інформації в геномах та білках.
format Article
author Сергиенко, И.В.
Рязанов, В.В.
Белецкий, Б.А.
Быць, А.В.
Гупал, А.М.
Ржепецкий, С.С.
author_facet Сергиенко, И.В.
Рязанов, В.В.
Белецкий, Б.А.
Быць, А.В.
Гупал, А.М.
Ржепецкий, С.С.
author_sort Сергиенко, И.В.
title Методы предсказания пространственной структуры белков
title_short Методы предсказания пространственной структуры белков
title_full Методы предсказания пространственной структуры белков
title_fullStr Методы предсказания пространственной структуры белков
title_full_unstemmed Методы предсказания пространственной структуры белков
title_sort методы предсказания пространственной структуры белков
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2010
topic_facet Системный анализ
url http://dspace.nbuv.gov.ua/handle/123456789/45124
citation_txt Методы предсказания пространственной структуры белков / И.В. Сергиенко, В.В. Рязанов, Б.А. Белецкий, А.В. Быць, А.М. Гупал, С.С. Ржепецкий // Кибернетика и системный анализ. — 2010. — № 1. — С. 38–58. — Бібліогр.: 27 назв. — рос.
series Кибернетика и системный анализ
work_keys_str_mv AT sergienkoiv metodypredskazaniâprostranstvennojstrukturybelkov
AT râzanovvv metodypredskazaniâprostranstvennojstrukturybelkov
AT beleckijba metodypredskazaniâprostranstvennojstrukturybelkov
AT bycʹav metodypredskazaniâprostranstvennojstrukturybelkov
AT gupalam metodypredskazaniâprostranstvennojstrukturybelkov
AT ržepeckijss metodypredskazaniâprostranstvennojstrukturybelkov
first_indexed 2025-07-04T03:45:08Z
last_indexed 2025-07-04T03:45:08Z
_version_ 1836686476081889280
fulltext È.Â. ÑÅÐÃÈÅÍÊÎ, Â.Â. ÐßÇÀÍÎÂ, Á.À. ÁÅËÅÖÊÈÉ, À.Â. ÁÛÖÜ, À.Ì. ÃÓÏÀË, Ñ.Ñ. ÐÆÅÏÅÖÊÈÉ ÓÄÊ 519.68 ÌÅÒÎÄÛ ÏÐÅÄÑÊÀÇÀÍÈß ÏÐÎÑÒÐÀÍÑÒÂÅÍÍÎÉ ÑÒÐÓÊÒÓÐÛ ÁÅËÊÎÂ1 Êëþ÷åâûå ñëîâà: ðàñïîçíàâàíèå, áèîôèçè÷åñêèå ôèëüòðû, êàðòû êîíòàêòîâ, áàéåñîâñêàÿ ïðîöåäóðà, öåïü Ìàðêîâà, ôîëäèíã áåëêà. ÂÂÅÄÅÍÈÅ Íà ñåãîäíÿøíèé äåíü ðàñøèôðîâàíû ãåíîìû ÷åëîâåêà, øèìïàíçå, ìûøè, êóðè- öû, ðûáû Tetraodon è íåêîòîðûõ äðóãèõ æèâîòíûõ, íåñêîëüêèõ âèäîâ ðàñòåíèé è ãðèáîâ, à òàêæå ñâûøå òûñÿ÷è áàêòåðèé. Îñíîâíîé âîïðîñ ñîâðåìåííîé ìîëå- êóëÿðíîé áèîëîãèè: êàêóþ ôóíêöèþ âûïîëíÿåò îïðåäåëåííûé ãåí? Ãåí — ÷àñòü ìîëåêóëû ÄÍÊ, êîòîðàÿ êîäèðóåò áåëîê. Çíàÿ íóêëåîòèäíóþ ïîñëåäîâàòåëüíîñòü ãåíà, ìîæíî îäíîçíà÷íî îïðåäåëèòü àìèíîêèñëîòíóþ ïîñëåäîâàòåëüíîñòü áåëêà, òàê êàê êàæäàÿ èç 20 àìèíîêèñëîò êîäèðóåòñÿ îïðåäåëåííûì òðèïëåòîì íóê- ëåîòèäîâ (êîäîíîì). Ïîñëå òðàíñëÿöèè ïîñëåäîâàòåëüíîñòè àìèíîêèñëîò èç ìîëåêóëû ÐÍÊ áåëîê ñðàçó íà÷èíàåò ñâîðà÷èâàòüñÿ â ïðîñòðàíñòâåííóþ êîíôèãóðàöèþ. Èìåí- íî ïðîñòðàíñòâåííàÿ êîíôèãóðàöèÿ áåëêà îïðåäåëÿåò åãî ôóíêöèîíàëüíîñòü, ïîñêîëü- êó áåëêè â æèâûõ îðãàíèçìàõ âçàèìîäåéñòâóþò êàê òðåõìåðíûå îáúåêòû â ïðîñòðà- íñòâå. Ïîýòîìó â èññëåäîâàíèÿõ áåëêîâ è èõ ôóíêöèé ïðèäåðæèâàþòñÿ ïðèíöèïà «ïîñëåäîâàòåëüíîñòü-ñòðóêòóðà-ôóíêöèîíàëüíîñòü» [1]. Ýòî îçíà÷àåò, ÷òî ôóíêöèî- íàëüíîñòü áåëêà îïðåäåëÿåòñÿ åãî ïðîñòðàíñòâåííîé ñòðóêòóðîé, à ïðîñòðàíñòâåííàÿ êîíôèãóðàöèÿ çàäàåòñÿ åãî àìèíîêèñëîòíîé ïîñëåäîâàòåëüíîñòüþ. 1. ÏÎÑÒÀÍÎÂÊÀ ÇÀÄÀ×È Ñóùåñòâóåò ÷åòûðå óðîâíÿ ñòðóêòóðû áåëêà: � ïåðâè÷íàÿ — ëèíåéíàÿ ïîñëåäîâàòåëüíîñòü àìèíîêèñëîòíûõ îñòàòêîâ â ìî- ëåêóëå áåëêà; � âòîðè÷íàÿ — ôîðìèðîâàíèå íà ëèíåéíîé ïîñëåäîâàòåëüíîñòè ëîêàëüíûõ ðå- ãóëÿðíûõ ñòðóêòóð: �-ñïèðàëåé è �-ñëîåâ; � òðåòè÷íàÿ — ðàñïîëîæåíèå ýëåìåíòîâ âòîðè÷íîé ñòðóêòóðû (�-ñïèðàëåé è �-ñëîåâ) â ïðîñòðàíñòâå îòíîñèòåëüíî îäèí äðóãîãî; � ÷åòâåðòè÷íàÿ — ôîðìèðîâàíèå áåëêîâîãî êîìïëåêñà èç îòäåëüíûõ áåëêîâ. Ñòðóêòóðà áåëêà íà êàæäîì óðîâíå îêàçûâàåò ðåøàþùåå âëèÿíèå íà ôîðìèðî- âàíèå ñòðóêòóðû íà ñëåäóþùåì óðîâíå, ò.å. ïåðâè÷íàÿ ñòðóêòóðà îïðåäåëÿåò âòî- ðè÷íóþ, âòîðè÷íàÿ — òðåòè÷íóþ è ò.ä. Ïåðâè÷íàÿ ñòðóêòóðà áåëêà, ò.å. åãî àìèíîêèñëîòíàÿ ïîñëåäîâàòåëüíîñòü, íà- õîäèòñÿ ýêñïåðèìåíòàëüíûì ïóòåì îòíîñèòåëüíî ïðîñòî. Îïðåäåëåíèå âòîðè÷íîé ñòðóêòóðû óæå ñâÿçàíî ñ áîëüøèìè ñëîæíîñòÿìè, ïîñêîëüêó òðåáóåò ïðèìåíåíèÿ 38 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 1 Ðàáîòà âûïîëíåíà â ðàìêàõ ïðîåêòà ÍÀÍ Óêðàèíû è Ðîññèéñêîãî ôîíäà ôóíäàìåíòàëüíûõ èññëåäîâàíèé 2008–2009 ãã. ïðè ôèíàíñîâîé ïîääåðæêå Ïðåçèäèóìà ÍÀÍ Óêðàèíû. © È.Â. Ñåðãèåíêî, Â.Â. Ðÿçàíîâ, Á.À. Áåëåöêèé, À.Â. Áûöü, À.Ì. Ãóïàë, Ñ.Ñ. Ðæåïåöêèé, 2010 äîðîãèõ ìåòîäîâ ðåíòãåíîñòðóêòóðíîãî àíàëèçà è ìàãíèòíî-ÿäåðíîãî ðåçîíàíñà. Âû- ñîêàÿ ñòîèìîñòü ýêñïåðèìåíòàëüíîãî îïðåäåëåíèÿ ñòðóêòóðû áåëêà ñïîñîáñòâóåò ðàç- âèòèþ ìàòåìàòè÷åñêèõ ìåòîäîâ åå ïðåäñêàçàíèÿ. Çàäà÷à ñòàâèòñÿ ñëåäóþùèì îáðàçîì: èìååòñÿ ïåðâè÷íàÿ ñòðóêòóðà áåëêà (ò.å. ëèíåéíàÿ ïîñëåäîâàòåëüíîñòü àìèíîêèñëîò), íåîáõîäèìî îïðåäåëèòü åãî òðåòè÷íóþ ñòðóêòóðó, èíûìè ñëîâàìè, îòûñêàòü ïðîñòðà- íñòâåííûå êîîðäèíàòû âñåõ àìèíîêèñëîòíûõ îñòàòêîâ, âõîäÿùèõ â áåëîê. 2. ÌÅÒÎÄÛ ÌÈÍÈÌÈÇÀÖÈÈ ÝÍÅÐÃÈÈ Ïîäõîäû ê ïðåäñêàçàíèþ ñòðóêòóðû áåëêîâ îñíîâàíû íà òåðìîäèíàìè÷åñêîé ãè- ïîòåçå, êîòîðàÿ ïîñòóëèðóåò, ÷òî â åñòåñòâåííîì ñâåðíóòîì ñîñòîÿíèè áåëêà ñâî- áîäíàÿ ýíåðãèÿ ñèñòåìû «áåëîê — ðàñòâîðèòåëü» ìèíèìàëüíà. Ýòà ñâîáîäíàÿ ýíåðãèÿ ñîñòîèò èç ìåæìîëåêóëÿðíîãî âçàèìîäåéñòâèÿ ñàìîãî áåëêà è ñâîáîäíîé ýíåðãèè ñîëüâàòàöèè (ñì. íèæå). Èñõîäÿ èç òåðìîäèíàìè÷åñêîé ãèïîòåçû, ïðèìåíèòåëüíî ê çàäà÷å ðàñïîçíàâà- íèÿ òðåòè÷íîé ñòðóêòóðû áåëêîâ, êàê ïðàâèëî, ïîëüçóþòñÿ íåêîé îïòèìàëüíîé ôóíêöèåé ýíåðãèè. Ñóùåñòâóåò äâà ðàçëè÷íûõ ïîäõîäà ê ïîñòðîåíèþ èñïîëüçóå- ìûõ ôóíêöèé ýíåðãèè. Ïåðâûé îñíîâûâàåòñÿ íà ôèçè÷åñêîé ôóíêöèè ýíåðãèè, êî- òîðàÿ, â ïðèíöèïå, ìîæåò áûòü ïîëó÷åíà â ðåçóëüòàòå ðàññìîòðåíèÿ ðàçëè÷íûõ ôè- çè÷åñêèõ ñèë âçàèìîäåéñòâèÿ ìåæäó ÷àñòèöàìè. Âòîðîé ñîñòîèò â ïîñòðîåíèè ôóíêöèè ýíåðãèè ñèñòåìû «áåëîê — ðàñòâîðèòåëü» èñõîäÿ èç óæå èìåþùèõñÿ äàí- íûõ î ñòðóêòóðå ðàíåå èññëåäîâàííûõ áåëêîâ (÷àñòî èññëåäóþò ñòàòèñòèêó ïàðíûõ êîíòàêòîâ àìèíîêèñëîò áåëêà, à òàêæå ñòðóêòóðó åãî âíåøíåé ïîâåðõíîñòè, êîíòàê- òèðóþùóþ ñ ðàñòâîðîì). Ïåðâûé òèï ôóíêöèé íàçîâåì ôèçè÷åñêè îïòèìàëüíûìè ôóíêöèÿìè ýíåðãèè (ÔÎÔÝ), âòîðîé — ñòàòèñòè÷åñêè îïòèìàëüíûìè ôóíêöèÿìè ýíåðãèè (ÑÎÔÝ). ÔÎÔÝ îñíîâàíû íà ðåàëüíûõ ïðîöåññàõ, ïðîèñõîäÿùèõ â áåëêàõ, è òåîðåòè- ÷åñêè ñïîñîáíû ó÷èòûâàòü âñå âîçìîæíûå ýôôåêòû, âàæíûå äëÿ ïðåäñêàçàíèÿ èõ òðåòè÷íîé ñòðóêòóðû. Îäíàêî ïðè ýòîì ÔÎÔÝ, êàê ïðàâèëî, ñëèøêîì ãðîìîçäêè äëÿ âû÷èñëåíèé, à ðåàëüíûé ïðîôèëü ôóíêöèè ñâîáîäíîé ýíåðãèè èìååò ìíîæåñ- òâî ëîêàëüíûõ ìèíèìóìîâ â îáëàñòè, áëèçêîé ê åñòåñòâåííîìó ñîñòîÿíèþ áåëêà â ðàñòâîðå, ÷òî åùå áîëüøå çàòðóäíÿåò åãî âû÷èñëèòåëüíûé ïîèñê. Òåì íå ìåíåå ïåðèîäè÷åñêè ïîÿâëÿþòñÿ íîâûå âû÷èñëèòåëüíûå ìåòîäû ñãëàæèâàíèÿ ýòîé ôóíê- öèè â îáëàñòè ìèíèìóìà, ðåøàþùèå äàííóþ ïðîáëåìó. Èñïîëüçóåìûå íà ïðàêòèêå ÔÎÔÝ ó÷èòûâàþò ìîëåêóëÿðíóþ ìåõàíèêó áåëêà è åãî âçàèìîäåéñòâèå ñ ðàñòâî- ðîì. Ýòè ôóíêöèè ÿâëÿþòñÿ ýìïèðè÷åñêèìè è ïðèáëèæåííûìè. Èñõîäíûå äàííûå äëÿ èõ ïîñòðîåíèÿ ïîëó÷åíû â ðåçóëüòàòå èññëåäîâàíèÿ âçàèìîäåéñòâèÿ ñ ðàñòâî- ðèòåëåì ñèñòåì, áîëåå ïðîñòûõ, ÷åì áåëêè, è ïîñëåäóþùåé ïàðàìåòðèçàöèè. Êàê ïðàâèëî, ÔÎÔÝ ó÷èòûâàþò âçàèìîäåéñòâèå Âàí-äåð-Âààëüñà, ýíåðãèþ âçàèìîäåé- ñòâèÿ ñ ÿäðîì áåëêà, à òàêæå ñîäåðæàò ðÿä êîìïåíñèðóþùèõ ñëàãàåìûõ, íàïðèìåð äëÿ ó÷åòà ýíåðãèè âîäîðîäíûõ ñâÿçåé è ïð. ÑÎÔÝ îñíîâûâàþòñÿ íà ñòàòèñòèêå, ïîëó÷åííîé èç óæå èçâåñòíûõ áåëêîâûõ ñòðóêòóð. ×àùå âñåãî èñïîëüçóþòñÿ ÷àñòîòíûå ðàñïðåäåëåíèÿ ïàð êîíòàêòèðóþùèõ áåëêîâûõ îñòàòêîâ, à ñ óâåëè÷åíèåì êîëè÷åñòâà äàííûõ ñòàëî âîçìîæíûì èñïîëü- çîâàíèå ÷àñòîòíûõ ðàñïðåäåëåíèé ïàð êîíòàêòèðóþùèõ àòîìîâ. Ñ÷èòàåòñÿ, ÷òî çà- äàíèÿ ÷àñòîò ïàð äîñòàòî÷íî äëÿ ïîñòðîåíèÿ ýôôåêòèâíûõ ìîäåëåé ïðåäñêàçàíèÿ ñòðóêòóðû áåëêîâ.  íåêîòîðûõ ñëó÷àÿõ ê ýòèì äàííûì äîáàâëÿþò è äðóãèå ñîñòàâ- ëÿþùèå (÷àñòîòû ðàñïðåäåëåíèÿ êîíòàêòíûõ òðîåê è ÷åòâåðîê, âåðîÿòíîñòè äâó- ãðàííûõ óãëîâ ãëàâíîé è ïîáî÷íîé öåïåé), ïîëåçíûå ïðè âû÷èñëåíèè ÑÎÔÝ. Òà- êàÿ ñâîáîäà äåéñòâèé â ñîçäàíèè ÑÎÔÝ ÿâëÿåòñÿ îäíîâðåìåííî è ñëàáîé è ñèëüíîé ñòîðîíîé ìåòîäà. Äî íàñòîÿùåãî âðåìåíè ïîäõîä ÑÎÔÝ, øèðîêî ïðèìåíÿåìûé íà ïðàêòèêå, íå îáîñíîâàí òåîðåòè÷åñêè è íå èìååò êàêîé-ëèáî ìåòîäîëîãèè, îáùåé ñòðóêòóðû è êëàññèôèêàöèè.  öåëîì ê ìåòîäàì ÑÎÔÝ ìîæíî îòíåñòè ëþáîé ìå- òîä ïîñòðîåíèÿ ôóíêöèè ýíåðãèè áåëêà, â êîòîðîì èñïîëüçóåòñÿ ñòàòèñòè÷åñêàÿ èíôîðìàöèÿ î äðóãèõ áåëêàõ. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 39 2.1. Ñòàòèñòè÷åñêèå ôóíêöèè ýíåðãèè áåëêà. Ñóòü îïðåäåëåíèÿ ÑÎÔÝ ñî- ñòîèò â ïîñòðîåíèè ðàñïðåäåëåíèé âåðîÿòíîñòåé ïðîñòðàíñòâåííîãî ðàñïîëîæåíèÿ ÷àñòåé áåëêà â îïðåäåëåííûõ êîíôèãóðàöèÿõ. Íàïðèìåð, îòíîøåíèå òèïà «ñíàðó- æè-âíóòðè» èñïîëüçóåòñÿ äëÿ ñòàòèñòè÷åñêîãî ìîäåëèðîâàíèÿ ñâîéñòâà ãèäðîôîá- íîñòè. Ìîæíî òàêæå ñòðîèòü ÑÎÔÝ íà ëþáûõ ôèêñèðîâàííûõ ãåîìåòðè÷åñêèõ êîíôèãóðàöèÿõ, ñîáèðàÿ ñòàòèñòèêó î òèïàõ ÷àñòèö è èõ ðàñïîëîæåíèè â ýòèõ êîí- ôèãóðàöèÿõ. Íà îñíîâå âåðîÿòíîñòè íàõîæäåíèÿ ÷àñòèö â îïðåäåëåííûõ êîíôèãó- ðàöèÿõ ìîæíî ïîñòðîèòü ôóíêöèþ ïîòåíöèàëüíîé ýíåðãèè, âîñïîëüçîâàâøèñü óðàâíåíèåì Áîëüöìàíà �G RT p p� � ln ( / )expobs , ãäå pobs — íàáëþäàåìàÿ âåðîÿòíîñòü îïðåäåëåííîé êîíôèãóðàöèè, pexp — îæè- äàåìàÿ âåðîÿòíîñòü íàáëþäåíèÿ ýòîé êîíôèãóðàöèè [2, 3]. Òàêèì îáðàçîì, âîçìîæíî èñïîëüçîâàíèå öåëîãî ðÿäà ðàçëè÷íûõ ïðîñòðà- íñòâåííûõ êîíôèãóðàöèé îäíîâðåìåííî è ïîñëåäóþùåå èõ ñóììèðîâàíèå ñ ýìïè- ðè÷åñêè ïîäîáðàííûìè âåñîâûìè êîýôôèöèåíòàìè. Ýòîò ïîäõîä ÷àùå âñåãî ïðèìåíÿåòñÿ ïàðàëëåëüíî ñ ìåòîäîì Ìîíòå-Êàðëî. Ïðåèìóùåñòâîì ÑÎÔÝ íàä ÔÎÔÝ ÿâëÿåòñÿ èõ ìåíüøàÿ ÷óâñòâèòåëüíîñòü ê íå- çíà÷èòåëüíûì ñìåùåíèÿì ÷àñòèö â ïðîñòðàíñòâåííîé ìîäåëè áåëêà. Åùå îäíî íå- îñïîðèìîå äîñòîèíñòâî ÑÎÔÝ — èõ ñòàòèñòè÷åñêàÿ îñíîâà, ïîçâîëÿþùàÿ ó÷èòûâàòü ëþáûå ôèçè÷åñêèå ÿâëåíèÿ è ýôôåêòû, âêëþ÷àÿ è íå èçâåñòíûå â íàñòîÿùåå âðåìÿ. Ê íåäîñòàòêàì ÑÎÔÝ ñëåäóåò îòíåñòè ÷àñòîå âîçíèêíîâåíèå øóìîâ, âûçâàí- íûõ íåòî÷íîñòÿìè êîíêðåòíûõ ìåòîäîâ. Íàïðèìåð, â ìîäåëè ÑÎÔÝ, èñïîëüçóþ- ùåé ÷àñòîòû ïàð êîíòàêòèðóþùèõ àìèíîêèñëîò, áóäóò âîçíèêàòü ïîãðåøíîñòè, åñëè ìåæäó ýòèìè àìèíîêèñëîòàìè íàõîäèòñÿ àòîì ìåòàëëà ÿäðà. Îäíàêî åñëè ïðè- ÷èíó øóìîâ óäàåòñÿ íàéòè, òî åå, êàê ïðàâèëî, ìîæíî ëåãêî óñòðàíèòü áåç ñóùåñò- âåííûõ èçìåíåíèé ñàìîé ìîäåëè ÑÎÔÝ. Òàêèì îáðàçîì, ïðîáëåìà ñâîäèòñÿ ê âû- ÿâëåíèþ âñåõ èñòî÷íèêîâ øóìîâ. Îòäåëüíî ñëåäóåò îòìåòèòü, ÷òî ïðè ïîñòðîåíèè ÑÎÔÝ íå ó÷èòûâàþò âñå ÷àñòèöû áåëêà, à èññëåäóþò âçàèìîäåéñòâèå ëèøü îòäåëüíûõ èõ ãðóïï, íàèáîëåå ñèëüíî âëèÿþ- ùèõ íà ñòðóêòóðó áåëêà. Âûáîð ýòèõ ãðóïï òàêæå îïðåäåëÿåò ýôôåêòèâíîñòü ìåòîäà. 2.2. Ôèçè÷åñêèå ôóíêöèè ýíåðãèè áåëêà. Êàæäàÿ ãðóïïà èññëåäîâàòåëåé ðàç- ðàáàòûâàåò ñâîé êîíêðåòíûé âèä ÔÎÔÝ. Ïðè ýòîì ÷ëåíû, âõîäÿùèå â ôîðìóëó ÔÎÔÝ, ìîãóò ñóùåñòâåííî îòëè÷àòüñÿ ó êàæäîé íàó÷íîé ãðóïïû. Îïèøåì îáÿçà- òåëüíûå ñîñòàâëÿþùèå ÷àñòè ÔÎÔÝ. ×ëåíû â ôóíêöèè ýíåðãèè ìîæíî ðàçäåëèòü íà äâå ãðóïïû: ýíåðãèÿ ñâÿçè è îñòàëüíûå. Ê ýíåðãèè ñâÿçè îáû÷íî îòíîñÿò âçàèìî- äåéñòâèå äâóõ èëè ÷åòûðåõ àòîìîâ, ñîåäèíåííûõ êîâàëåíòíîé ñâÿçüþ; èõ ðîëü çà- êëþ÷àåòñÿ â îãðàíè÷åíèè äîïóñòèìîé îáëàñòè äëèí è óãëîâ ñâÿçåé âáëèçè ïîëîæå- íèÿ ðàâíîâåñèÿ. Ê îñòàëüíûì ÷ëåíàì îòíîñÿò ïîòåíöèàë Ëåííàðäà–Äæîíñà (â âèäå âçàèìîäåéñòâèÿ Âàí-äåð-Âààëüñà ìåæäó îòäåëüíûìè àòîìàìè) è çàêîí Êóëîíà. Ïà- ðàìåòðû äëÿ ñâÿçàííûõ è íå ñâÿçàííûõ ÷ëåíîâ ïîëó÷àþò ñ ïîìîùüþ êâàíòîâûõ âû- ÷èñëåíèé íà îñíîâå òåðìîäèíàìè÷åñêèõ, êðèñòàëëîãðàôè÷åñêèõ è ñïåêòðîñêîïè- ÷åñêèõ ýêñïåðèìåíòîâ íà ðåàëüíûõ ìîëåêóëàõ. Ðàññìîòðèì îòäåëüíûå ÷ëåíû, âõîäÿùèå â ÔÎÔÝ, óäåëÿÿ âíèìàíèå âîïðîñàì, âîçíèêàþùèì ïðè ïîïûòêå èõ òî÷íîãî âû÷èñëåíèÿ [3]. Ýíåðãèÿ ñâÿçåé. Ýíåðãèè êîâàëåíòíûõ ñâÿçåé ãðóïï àòîìîâ âàðüèðóþòñÿ â øè- ðîêîì äèàïàçîíå â çàâèñèìîñòè îò óãëà è ðàññòîÿíèÿ. Òàêèì îáðàçîì, ôóíêöèÿ ýíåð- ãèè ñâÿçè íå íåñåò ñìûñëîâîé íàãðóçêè, ïîêà ñòðóêòóðà ìîëåêóëû íå îãðàíè÷åíà ïðîñòðàíñòâåííûìè óãëàìè è íå çàäàíî õîòÿ áû ïðèìåðíîå ðàñïîëîæåíèå ÷àñòèö. Ïîòåíöèàë Ëåííàðäà–Äæîíñà. Âçàèìîäåéñòâèå Âàí-äåð-Âààëüñà ìîäåëèðó- åòñÿ ñ ïîìîùüþ ïîòåíöèàëà Ëåííàðäà–Äæîíñà: V r r r ( ) � � � � � � � � � � � � � � � � � 4 12 6 � � � . 40 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 Ïåðâûé ÷ëåí â ñêîáêàõ óðàâíåíèÿ î÷åíü ÷óâñòâèòåëåí ê íåáîëüøèì ñìåùåíèÿì ÷àñòèö. Äèñêðåòíîå ìîäåëèðîâàíèå äåëàåò íåâîçìîæíûì òî÷íîå íàõîæäåíèå ìè- íèìóìà ýòîãî ïîòåíöèàëà. Âî âðåìÿ ìîäåëèðîâàíèÿ íåðåäêî âîçíèêàþò ïåðåêðûòèÿ è ÷àñòè÷íûå ñîâìå- ùåíèÿ äâóõ ÷àñòèö, ÷òî ïðèâîäèò ê ñèëüíî çàâûøåííûì çíà÷åíèÿì ïîòåíöèàëà. Ýòà ïðîáëåìà ðåøàåòñÿ ëèáî ëèíåàðèçàöèåé ôóíêöèè ýíåðãèè äëÿ ìàëûõ ðàññòîÿ- íèé ìåæäó ÷àñòèöàìè, ëèáî ïîíèæåíèåì ñòåïåíè â óðàâíåíèè è ïîäáîðîì îïòè- ìàëüíûõ êîýôôèöèåíòîâ â ôîðìóëå. Ñîâðåìåííûå âîçìîæíîñòè âû÷èñëèòåëüíîé òåõíèêè íå ïîçâîëÿþò èñïîëüçîâàòü òî÷íóþ ôîðìóëó ðàñ÷åòà ïîòåíöèàëà Ëåííàð- äà–Äæîíñà. Ñîëüâàòàöèÿ. Ýíåðãèÿ ñîëüâàòàöèè ñîñòîèò èç äâóõ ñëàãàåìûõ: ýëåêòðîñòà- òè÷åñêîãî âçàèìîäåéñòâèÿ ìåæäó àòîìàìè áåëêà è ðàñòâîðèòåëåì, ãèäðîôîáíîãî ýôôåêòà âçàèìîäåéñòâèÿ êîíòàêòèðóþùèõ àòîìîâ áåëêà è ðàñòâîðèòåëÿ (ïîâåðõ- íîñòíàÿ ýíåðãèÿ). Òî÷íûé ðàñ÷åò ýíåðãèè ñîëüâàòàöèè ïîäðàçóìåâàåò ðàñ÷åò âçàèìîäåéñòâèÿ àòîìîâ áåëêà ñ ìíîæåñòâîì åäèíè÷íûõ àòîìîâ ðàñòâîðèòåëÿ. Ýòà çàäà÷à èìååò ÷ðåçìåðíóþ âû÷èñëèòåëüíóþ ñëîæíîñòü, è íà ïðàêòèêå èñïîëüçóþòñÿ óïðîùåííûå ìîäåëè. Êàê ïðèìåð, ðàñòâîðèòåëü çàìåíÿåòñÿ îäíîðîäíîé ñðåäîé ñ îïðåäåëåííûì îäíîðîäíûì êîýôôèöèåíòîì ïîëÿðèçàöèè è ïîâåðõíîñòíûì íàòÿæåíèåì. Âñå ðàñ- ÷åòû, òàêèì îáðàçîì, îñíîâàíû äëÿ ïîëÿðèçàöèîííîãî ýôôåêòà íà çàêîíå Êóëîíà è ïîòåíöèàëå Ëåííàðäà–Äæîíñà, à äëÿ ãèäðîôîáíîãî — íà ïëîùàäè ïîâåðõíîñòè êîíòàêòà áåëêà ñ ðàñòâîðèòåëåì. Âàæíûì çäåñü ÿâëÿåòñÿ ïðèìåíèìîñòü ïðèíöèïà ñóïåðïîçèöèè äëÿ ýòèõ çàêîíîâ, ïîçâîëÿþùàÿ ïðîñòî ñóììèðîâàòü ðàçëè÷íûå âçàèìîäåéñòâèÿ äëÿ êàæäîãî îòäåëüíîãî àòîìà áåëêà. Ìîäåëü äëÿ ðàñ÷åòà ñîëüâàòàöèè, ïðèâåäåííàÿ â êà÷åñòâå ïðèìåðà, ÿâëÿåòñÿ ÷ðåçìåðíî óïðîùåííîé è â íàñòîÿùåå âðåìÿ ïðèçíàíà íåïðèãîäíîé äëÿ òî÷íîãî ïðåäñêàçàíèÿ ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêîâ. Ãèäðîôîáíûé ýôôåêò. Ïðè ôîðìèðîâàíèè òðåòè÷íîé ñòðóêòóðû áåëêà âàæ- íóþ ðîëü èãðàåò ïîëÿðíîñòü àìèíîêèñëîòíûõ îñòàòêîâ. Íåïîëÿðíûå àìèíîêèñëîòû ôîðìèðóþò ÿäðî áåëêîâîé ãëîáóëû, èçáåãàþùåå êîíòàêòîâ ñ ìîëåêóëàìè âîäû. Ïî- ëÿðíûå îñòàòêè ôîðìèðóþò îáîëî÷êó, êîíòàêòèðóþùóþ ñ ìîëåêóëàìè âîäû, îêðó- æàþùèìè ãëîáóëó. Ïîìåñòèâ àìèíîêèñëîòíûå îñòàòêè ïåðâè÷íîé ñòðóêòóðû áåëêà â óçëàõ òðåõìåðíîé ðåøåòêè ñ äëèíîé ðåáðà, ðàâíîé äëèíå ïåïòèäíîé ñâÿçè, ìîæíî îöåíèòü êîëè÷åñòâî êîíòàêòîâ ìåæäó íåïîëÿðíûìè îñòàòêàìè (HH-êîíòàêòû). Çà- äà÷à ñâîäèòñÿ ê íàõîæäåíèþ òàêîé êîíôèãóðàöèè �, êîòîðàÿ áû ìàêñèìèçèðîâàëà êîëè÷åñòâî HH-êîíòàêòîâ. Ýíåðãèÿ êîíôèãóðàöèè � çàïèñûâàåòñÿ â âèäå E n� � HH ( )� , ��� , ãäå nHH ( )� — êîëè÷åñòâî HH-êîíòàêòîâ â êîíôèãóðàöèè �, � — ìíîæåñòâî âñåõ âîçìîæíûõ êîíôèãóðàöèé áåëêà ñ çàäàííîé ïåðâè÷íîé ñòðóêòóðîé. Äëÿ ìè- íèìèçàöèè ýíåðãèè èñïîëüçóåòñÿ, êàê ïðàâèëî, âåñü àðñåíàë ñîâðåìåííûõ ìåòî- äîâ îïòèìèçàöèè. Ãèäðîôîáíûé ýôôåêò îáû÷íî ìîäåëèðóåòñÿ êàê íåêàÿ ôóíêöèÿ, ïðîïîðöèî- íàëüíàÿ ïëîùàäè ïîâåðõíîñòè êîíòàêòà áåëêà ñ ðàñòâîðèòåëåì. Òåì íå ìåíåå ñó- ùåñòâóåò ðÿä ýôôåêòîâ, çàìå÷åííûõ â ðåàëüíûõ áåëêàõ, äëÿ êîòîðûõ òàêàÿ ìîäåëü íå ðàáîòàåò. Íàïðèìåð, â ñëó÷àå, êîãäà ðàçëè÷íûå ñëîè áåëêà ðàçäåëåíû ëèøü ìî- íîìîëåêóëÿðíûì ñëîåì ðàñòâîðèòåëÿ, àòîìû áåëêà ïî îáå ÷àñòè ðàñòâîðèòåëÿ âçàèìîäåéñòâóþò ìåæäó ñîáîé. Ñóùåñòâóþùèå ìîäåëè ó÷åòà ïîäîáíûõ ýôôåêòîâ íåòî÷íû, ðåñóðñîåìêè è, áî- ëåå òîãî, òðåáóþò äîïîëíèòåëüíîé àïïðîêñèìàöèè è îïòèìèçàöèè àëãîðèòìà. Âîäà. Âîçìîæíû ñèòóàöèè, êîãäà îòäåëüíûå ìîëåêóëû âîäû ïëîòíî ñâÿçûâà- þòñÿ ñ áåëêîì.  òàêîì ñëó÷àå ñòàíäàðòíàÿ ìîäåëü «áåëîê — ðàñòâîðèòåëü» íåïðè- ìåíèìà. Íåîáõîäèìî ðàçðàáàòûâàòü ñïåöèàëüíûå àëãîðèòìû ïðåäñêàçàíèÿ òàêîãî ðîäà ñâÿçûâàíèÿ è åãî ó÷åòà â ÔÎÔÝ. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 41 Âîäîðîäíûå ñâÿçè.  êëàññè÷åñêîì ñëó÷àå âîäîðîäíûå ñâÿçè ìîäåëèðóþòñÿ êàê ýëåêòðîñòàòè÷åñêîå âçàèìîäåéñòâèå ìåæäó äâóìÿ äèïîëÿìè (íàïðèìåð, C O� è N H� ). Ïðè ýòîì âñå ÷åòûðå àòîìà â ìîäåëè îáû÷íî ïîìåùàþòñÿ íà îäíîé ïðÿ- ìîé.  ðàáîòå [1] ïîêàçàíî, ÷òî â íåêîòîðûõ ñëó÷àÿõ ýòî äîïóùåíèå íåâåðíî, è ðàç- ðàáîòàíà ìîäåëü ðàñ÷åòà äëÿ «èñêðèâëåííîé» ñâÿçè, à òàêæå ñòàòèñòè÷åñêèé ìåòîä ïðåäñêàçàíèÿ ïîÿâëåíèÿ ïîäîáíîãî ðîäà «èñêðèâëåíèé». Ïîëÿðèçàöèÿ ðàñòâîðèòåëÿ è êâàíòîâûå ýôôåêòû.  îñíîâå ïîäàâëÿþùåãî áîëüøèíñòâà ÔÎÔÝ ëåæàò ìîäåëè, ðàññìàòðèâàþùèå ôèêñèðîâàííûå çàðÿäû àòî- ìîâ. Òåì íå ìåíåå ïðè âçàèìîäåéñòâèè ñ ðàñòâîðèòåëåì íà àòîìàõ âñëåäñòâèå êâàí- òîâûõ ýôôåêòîâ âîçíèêàþò íàâåäåííûå äèïîëè, ÷òî â êîíå÷íîì ñ÷åòå âëèÿåò íà êà- ÷åñòâî ïðåäñêàçàíèÿ ñòðóêòóðû áåëêà. Ïîñòðîåíèå òî÷íîé ìîäåëè ñ ó÷åòîì êâàíòîâûõ ýôôåêòîâ íåâîçìîæíî èç-çà îãðîìíîé âû÷èñëèòåëüíîé ñëîæíîñòè.  êà÷åñòâå êîìïðîìèññà âîçìîæíî èñïîëü- çîâàíèå êâàíòîâûõ ðàñ÷åòîâ äëÿ óòî÷íåíèÿ íàèáîëåå âàæíûõ ó÷àñòêîâ ñòðóêòóðû áåëêà. Òàêèì îáðàçîì, êàæäûé îòäåëüíûé ÷ëåí ôóíêöèè ýíåðãèè òðåáóåò îò èññëåäî- âàòåëåé ðåøåíèÿ öåëîãî ðÿäà çàäà÷ è ïðèíÿòèÿ ñïåöèôè÷åñêèõ ðåøåíèé, ÷òî â èòî- ãå ïðèâîäèò ê ñèòóàöèè, êîãäà êàæäàÿ ãðóïïà ðàçðàáîò÷èêîâ èñïîëüçóåò îïðåäåëåí- íóþ ôóíêöèþ ýíåðãèè. Îòäåëüíî ñëåäóåò áîëåå ïîäðîáíî îáñóäèòü, ïî ìíåíèþ áîëüøèíñòâà èññëåäî- âàòåëåé, âàæíûé âîïðîñ âû÷èñëåíèÿ ýíåðãèè ñîëüâàòàöèè. Ïðåäïîëàãàåòñÿ, ÷òî, îñíîâûâàÿñü òîëüêî íà âíóòðåííåì ìîëåêóëÿðíîì âçàèìîäåéñòâèè ìåæäó àòîìàìè áåëêà, íåâîçìîæíî ïîñòðîèòü ïðîöåäóðó ðàñïîçíàâàíèÿ åãî ñòðóêòóðû. Äëÿ áîëåå òî÷íîãî ïðåäñêàçàíèÿ ñòðóêòóðû íåîáõîäèìî ó÷èòûâàòü âçàèìîäåéñòâèå áåëêà ñ ðàñòâîðèòåëåì. Ïðè ýòîì ãèäðîôîáíûé ýôôåêò, âñëåäñòâèå êîòîðîãî îòäåëüíûå àìèíîêèñëîòû áåëêà ñòðåìÿòñÿ çàíÿòü ïîëîæåíèå áëèæå ê åãî ÿäðó, èãðàåò âòîðî- ñòåïåííóþ ðîëü. Îñíîâíîé âêëàä â ôóíêöèþ ýíåðãèè äàåò íå ãèäðîôîáíûé ýôôåêò, à ýíåðãèÿ, íåîáõîäèìàÿ äëÿ äåñîëüâàòàöèè áåëêà. Âû÷èñëåíèå ýíåðãèè ñîëüâàòàöèè áåëêà ÿâëÿåòñÿ íàèáîëåå òðóäíûì â ïðî- öåññå ïðèìåíåíèÿ ÔÎÔÝ. Îñíîâíûì óðàâíåíèåì, èñïîëüçóåìûì äëÿ íàõîæäåíèÿ ñâîáîäíîé ýíåðãèè ñîëüâàòàöèè, ÿâëÿåòñÿ óðàâíåíèå Ïóàññîíà–Áîëüöìàíà (ÏÁ). Ê ñîæàëåíèþ, ýòî óðàâíåíèå èç-çà åãî ñëîæíîñòè íåâîçìîæíî èñïîëüçîâàòü â óïðî- ùåííîé ôîðìå â ìàøèííûõ âû÷èñëåíèÿõ. Òàêèì îáðàçîì, áîëüøèíñòâî ïðèìåíÿåìûõ ÔÎÔÝ ñîñòîèò èõ òðåõ ñëàãàåìûõ: ìåæìîëåêóëÿðíîãî âçàèìîäåéñòâèÿ, ÏÁ è ÷ëåíà, ó÷èòûâàþùåãî ãèäðîôîáíûé ýô- ôåêò. Ïðè ýòîì íå ðàññìàòðèâàþòñÿ êîëåáàòåëüíûå ïðîöåññû â ìîëåêóëå áåëêà è ëþáàÿ äðóãàÿ êèíåòèêà. Ââèäó áîëüøîé âû÷èñëèòåëüíîé ñëîæíîñòè óðàâíåíèÿ ÏÁ ðàçðàáîòàíû äðóãèå óïðîùåííûå ïîäõîäû. Íàèáîëåå ïåðñïåêòèâåí ïîäõîä, îñíîâàííûé íà îáîáùåííîé ìîäåëè Áîðà (ÎÌÁ), â êîòîðîé äëÿ âû÷èñëåíèÿ áîðîâñêîãî ðàäèóñà âìåñòî óðàâíå- íèÿ ÏÁ ïðèìåíÿåòñÿ óïðîùåííàÿ ìîäåëü ýëåêòðîñòàòè÷åñêîãî âçàèìîäåéñòâèÿ àòî- ìîâ. Áîëüøèíñòâî ýôôåêòèâíûõ ÔÎÔÝ, îñíîâàííûõ íà ÎÌÁ, èñïîëüçóþò ôóíêöèè CHARMM — íàèáîëåå èçâåñòíîé ïðîãðàììû ìîëåêóëÿðíîãî ìîäåëèðîâàíèÿ, ïðè- ìåíÿåìîé äëÿ ñèñòåì ñ áîëüøèì êîëè÷åñòâîì ÷àñòèö è ñòàâøåé ñâîåãî ðîäà ñòàíäàðòîì.  êà÷åñòâå ïðèìåðà ïîäõîäà, íå èñïîëüçóþùåãî ÏÁ èëè ÎÌÁ, ìîæíî ïðèâåñòè ìîäåëü ãàóññîâñêîãî èñêëþ÷åíèÿ ñîëüâàòàöèè. Åñëè ýòîò ìåòîä ñîâìåùàþò ñ ïðè- ìåíåíèåì ôóíêöèè ýíåðãèè CHARMM, òî åãî íàçûâàþò EEF1.  íàñòîÿùåå âðåìÿ EEF1, à òàêæå ìåòîäû, èñïîëüçóþùèå ÎÌÁ, ïîëíîñòüþ ðåàëèçîâàíû â CHARMM. 2.3. Ïðèìåíåíèå áèîôèçè÷åñêèõ ôèëüòðîâ è êàðò Ðàìà÷àíäðàíà.  ìåòî- äàõ ìèíèìèçàöèè ýíåðãèè ïî èçâåñòíîé ïåðâè÷íîé ñòðóêòóðå áåëêà ãåíåðèðóþò òðåòè÷íóþ ñòðóêòóðó è ïðîâåðÿþò çíà÷åíèå åå ýíåðãèè. Çàòåì èçìåíÿþò â ýòîé òðå- òè÷íîé ñòðóêòóðå êàêèå-òî ïàðàìåòðû è ïîäñ÷èòûâàþò ýíåðãèþ ó íîâîãî âàðèàíòà. Åñëè åãî ýíåðãèÿ ìåíüøå, ÷åì ó ïðåäûäóùåãî, òî ðàáîòàþò ñ íîâûì âàðèàíòîì ñòðóêòóðû, â ïðîòèâíîì ñëó÷àå âîçâðàùàþòñÿ ê ïðåäûäóùåìó âàðèàíòó. Çàòåì â òå- êóùåì âàðèàíòå ñòðóêòóðû ñíîâà ïðoâîäÿò èçìåíåíèÿ è ò.ä. 42 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 Ïîñêîëüêó âû÷èñëåíèå ýíåðãèè âåñüìà çàòðóäíèòåëüíî, òî åùå äî ýòàïà åå ïîäñ÷åòà èç ðàññìîòðåíèÿ èñêëþ÷àþò âàðèàíòû ñòðóêòóðû, íå èìåþùèå ôèçè÷åñ- êîãî ñìûñëà. Òàêóþ ïðîâåðêó äåëàþò ñ ïîìîùüþ êàðò Ðàìà÷àíäðàíà è òàê íàçûâàå- ìûõ áèîôèçè÷åñêèõ ôèëüòðîâ. Êàðòû Ðàìà÷àíäðàíà ïîêàçûâàþò ðàçðåøåííûå è çà- ïðåùåííûå êîíôîðìàöèè (ðàçðåøåííûå è çàïðåùåííûå äâóãðàííûå óãëû õèìè÷åñêèõ ñâÿçåé) äëÿ àìèíîêèñëîòíûõ îñòàòêîâ áåëêà. Äâóãðàííûé (òîðñèîííûé) óãîë. Äëÿ îïèñàíèÿ âçàèìíîãî ðàñïîëîæåíèÿ àòîìîâ ëèíåéíîé ÷åòûðåõàòîìíîé èíäèâèäóàëüíîé ìîëåêóëû (èëè âõîäÿùåãî â ñîñòàâ áîëåå ñëîæíîé ìîëåêóëû ëèíåéíîãî ÷åòû- ðåõàòîìíîãî ôðàãìåíòà) A––C–D èñïîëüçóåòñÿ òà- êîé ãåîìåòðè÷åñêèé ïàðàìåòð, êàê äâóãðàííûé (íà- çûâàåìûé òàêæå òîðñèîííûì) óãîë. Ýòî óãîë ìåæäó ïëîñêîñòüþ, â êîòîðîé ëåæèò ôðàãìåíò A––C, è ïëîñêîñòüþ, â êîòîðîé ëåæèò ôðàãìåíò –C–D, ò.å. îí îòðàæàåò õàðàêòåð âçàèìíîãî ðàñïîëîæåíèÿ ýòèõ òðåõàòîìíûõ ôðàãìåíòîâ. Íà ðèñ. 1 äâóãðàííûé óãîë îáîçíà÷åí �, âåëè÷èíû âàëåíòíûõ óãëîâ òðåõàòîì- íûõ ôðàãìåíòîâ A––C è –C–D — ñîîòâåòñòâåííî �1 è � 2 . Íàèáîëåå íàãëÿäíî äâóãðàííûé óãîë ìîæåò áûòü èçîáðàæåí ïðè ðàññìîòðå- íèè A––C–D âäîëü íàïðàâëåíèÿ ñâÿçè –C. Òîãäà îí áóäåò âèäåí êàê óãîë ìåæ- äó ñâÿçÿìè –A è C–D. Òîðñèîííûå óãëû ñâÿçåé ïîëèïåïòèäíîé öåïî÷êè áåëêà.  ìîëåêóëå ëþáîãî áåëêà ìîæíî âûäåëèòü ëèíåéíóþ ìíîãîàòîìíóþ öåïî÷êó, ïðîõîäÿùóþ ÷åðåç âñå àìèíîêèñëîòû áåëêà.  ýòó öåïî÷êó èç êàæäîãî àìèíîêèñëîòíîãî îñòàòêà âõîäÿò ïî òðè àòîìà (Ni , Ci � , Ci , ãäå i — íîìåð àìèíîêèñëîòíîãî îñòàòêà â àìèíîêèñëîòíîé ïî- ñëåäîâàòåëüíîñòè áåëêà). Ñâÿçè ìåæäó ýòèìè àòîìàìè îáîçíà÷àþòñÿ ñëåäóþùèì îá- ðàçîì: N Ci i� � , C Ci i �� , C Ni i� �1 , N Ci i� � �1 1 � , C C i i� �� 1 1 � , C Ni i� ��1 2 è ò.ä. Òîðñèîííûé óãîë, îïèñûâàþùèé âðàùåíèå âîêðóã ñâÿçè N C� � , îáîçíà÷àþò , âîêðóã ñâÿçè C C�� — êàê � , à îïèñûâàþùèé âðàùåíèå âîêðóã ïåïòèäíîé ñâÿçè C N� — êàê � . Ñèìâîëû i , � i , �i èñïîëüçóþòñÿ äëÿ îáîçíà÷åíèÿ òîðñèîííûõ óãëîâ â ïðåäåëàõ i-ãî àìèíîêèñëîòíîãî îñòàòêà â ñëó÷àÿõ è � è ìåæäó i-ì è ( )i �1 -ì îñòàòêîì â ñëó÷àå �. Òîðñèîííûé óãîë i îïðåäåëÿåòñÿ ïîñëåäîâàòåëüíî- ñòüþ àòîìîâ Ci�1, Ni , Ci � , Ci , óãîë � i — ïîñëåäîâàòåëüíîñòüþ Ni , Ci � , Ci , Ni�1, à óãîë �i — ïîñëåäîâàòåëüíîñòüþ Ci � , Ci , Ni�1, C i�1 � (ðèñ. 2). Òàê êàê ïåïòèäíàÿ ñâÿçü C Ni i� �1 ÷àñòè÷íî äâîéíàÿ, óãîë � îáû÷íî ìîæåò ïðèíèìàòü çíà÷åíèÿ òîëüêî â îêðåñòíîñòÿõ 0� èëè 180�. Íà ðèñ. 2 ïîêàçàí ó÷àñòîê ïîëèïåï- òèäíîé öåïè ñ äâóìÿ ïåïòèäíûìè ñâÿçÿìè. Ãðàíèöû ìåæäó àìèíîêèñëîòíûìè îñòàò- êàìè îáîçíà÷åíû âîëíèñòûìè ëèíèÿìè. (Öåïü ïîêàçàíà â íàèáîëåå ðàñòÿíóòîé êîíôîðìàöèè: � �i i i� � � �180 ). Ãðàôèê Ðàìà÷àíäðàíà (íàçûâàåìûé òàêæå êàðòîé èëè äèàãðàììîé Ðàìà÷àíäðà- íà, êîíôîðìàöèîííîé êàðòîé, �/ -êàð- òîé). Ýòîò ãðàôèê ïîêàçûâàåò âûâåäåííûå èç êâàíòîâî-õèìè÷åñêèõ ðàñ÷åòîâ ðàçðå- ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 43 A B C D � �1 �2 Ðèñ. 1. Äâóãðàííûé (òîðñèîííûé) óãîë Ðèñ. 2. Òîðñèîííûå óãëû ìåæäó ñâÿçÿìè ïîëè- ïåïòèäíîé (áåëêîâîé) öåïè Ci�1 � Ni�1 Hi�1 Oi Ci Hi Ci�1 � Ci�1 Oi�1 C i � Ci � Hi � Ni �i�1 i � i �i øåííûå è çàïðåùåííûå çíà÷åíèÿ äâóãðàííûõ óãëîâ è � àìèíîêèñëîò èëè ïîëó- ÷åííûå ýêñïåðèìåíòàëüíî (ñ ïîìîùüþ ðåíòãåíîñòðóêòóðíîãî àíàëèçà ñóùåñòâóþ- ùèõ áåëêîâ) ÷àñòîòû âñòðå÷àåìîñòè çíà÷åíèé ýòèõ óãëîâ. Íà îñè àáñöèññ ïîêàçûâà- þòñÿ óãëû , íà îñè îðäèíàò — �. Äëÿ òîðñèîííûõ óãëîâ òîãî èëè èíîãî âèäà âòîðè÷íîé ñòðóêòóðû áåëêà òàêæå ìîãóò áûòü ïîñòðîåíû êàðòû Ðàìà÷àíäðàíà.  ìåòîäàõ ìèíèìèçàöèè ýíåðãèè íà ýòàïå ãåíåðàöèè âàðèàíòîâ òðåòè÷íîé ñòðóêòóðû òîðñèîííûå óãëû êàæäîé àìèíîêèñëîòû ãåíåðèðóþòñÿ ñ ó÷åòîì èõ ðàç- ðåøåííûõ çíà÷åíèé íà êàðòå Ðàìà÷àíäðàíà. Êîíôîðìàöèè, èìåþùèå çàïðåùåííûå òîðñèîííûå óãëû, íå ãåíåðèðóþòñÿ. Áèîôèçè÷åñêèå ôèëüòðû. Ïîñëå ãåíåðàöèè êàæäîãî âàðèàíòà òðåòè÷íîé ñòðóê- òóðû îí ìîæåò áûòü ïðîâåðåí áèîôèçè÷åñêèìè ôèëüòðàìè, ñ ïîìîùüþ êîòîðûõ ó ïðîâåðÿåìîãî âàðèàíòà ìîæíî îáíàðóæèòü íåñâîéñòâåííûå ñóùåñòâóþùèì â ïðèðî- äå íàòèâíûì ñòðóêòóðàì áåëêîâ îñîáåííîñòè. Åñëè òàêèå îñîáåííîñòè íàõîäÿòñÿ, òî äàííûé âàðèàíò ñòðóêòóðû îòáðàñûâàåòñÿ è ïîäñ÷åò åãî ýíåðãèè íå ïðîèçâîäèòñÿ. Ïðåäëîæåíû ðàçëè÷íûå áèîôèçè÷åñêèå ôèëüòðû: ïî äëèíå ïðîòÿæåííîñòè, ïî ðàäèóñó èíåðöèè, ïî ïðîïîðöèè ãèäðîôîáíîñòè (Hydrophobicity ratio filter), ïî óïàêî- âàííîé ôðàêöèè (Packing fraction filter) è äðóãèå, â êîòîðûõ èñïîëüçóþòñÿ ðàçëè÷íûå áèîôèçè÷åñêèå õàðàêòåðèñòèêè. Ïî ñðàâíåíèþ ñ äðóãèìè áèîôèçè÷åñêèìè ôèëüòðà- ìè íàèáîëåå ýôôåêòèâíû â âûÿâëåíèè ñòðóêòóð, íå ïîõîæèõ íà ïðèðîäíûå, ôèëüòðû ïî äëèíå ïðîòÿæåííîñòè è ïî ðàäèóñó èíåðöèè [4]. Îíè êðàòêî îïèñàíû íèæå. Äëèíà ïðîòÿæåííîñòè (Persistence length) — ìàêñèìàëüíàÿ äëèíà ïî ïðÿìîé ëèíèè ìåæäó ó÷àñòêàìè íåïðåðûâíîé ïîëèïåïòèäíîé öåïè. Äëÿ ãëîáóëÿðíîãî áåë- êà åå çíà÷åíèÿ âàðüèðóþò îò 15 � äî 60 � ñî ñðåäíèì çíà÷åíèåì îêîëî 40 � [4]. Ýòîò èíòåðâàë èñïîëüçóåòñÿ êàê ïîðîã, ÷òîáû âûäåëèòü êîíôîðìàöèè, íå ñõîæèå ñ ïðè- ðîäíûìè. Ðàäèóñ èíåðöèè (Radius of gyration) áåëêà îïðåäåëÿåòñÿ êàê ñðåäíåå êâàäðàòè÷- íîå ðàññòîÿíèé ìåæäó êàæäûì àòîìîì áåëêà è èõ îáùèì öåíòðîì ìàññ. Ðàäèóñ èíåðöèè ãëîáóëÿðíîãî áåëêà ïðîïîðöèîíàëåí N 3 5/ (ãäå N — êîëè÷åñòâî àìèíî- êèñëîò) è óäîâëåòâîðÿåò ñëåäóþùåìó ðàâåíñòâó: R Ng � � �� �3 5/ . Äëÿ òîãî ÷òîáû îòëè÷èòü ñõîæèå ñ íàòèâíûìè ñòðóêòóðû îò íåñõîæèõ, îáû÷íî èñïîëüçóþò ôèêñèðîâàííîå çíà÷åíèå � � 0 359, è çíà÷åíèÿ � â ïðîìåæóòêå îò 4,257 äî 11,257 [4, 5]. 2.4. Êàðòû êîíòàêòîâ. Êîíòàêòíàÿ êàðòà (èëè êàðòà êîíòàêòîâ) áåëêà — óïðî- ùåííîå ïðåäñòàâëåíèå òðåõìåðíîé ñòðóêòóðû áåëêà. Îíî íåñåò èíôîðìàöèþ òîëü- êî î ðàññòîÿíèÿõ ìåæäó àìèíîêèñëîòàìè â òðåõìåðíîì ïðîñòðàíñòâå è ïðåäñòàâëÿ- åò ñîáîé áóëåâó ñèììåòðè÷íóþ êâàäðàòíóþ ìàòðèöó M ðàçìåðíîñòè N N� , â êîòî- ðîé ýëåìåíò M i j( , ) �1, åñëè ðàññòîÿíèå ìåæäó i-ì è j-ì àìèíîêèñëîòíûìè îñòàòêàìè áåëêà ìåíüøå íåêîòîðîãî ïîðîãîâîãî çíà÷å- íèÿ, è M i j( , ) � 0 â ïðîòèâíîì ñëó÷àå, ãäå i N�1,... , è j N�1,... , — ïîðÿäêîâûå íîìåðà àìèíîêèñëîò â ïåð- âè÷íîé ñòðóêòóðå áåëêà, N — êîëè÷åñòâî àìèíîêèñëîò â áåëêå. Äëÿ ïîñòðîåíèÿ êîíòàêòíûõ êàðò ìîãóò èñïîëüçî- âàòüñÿ ðàçëè÷íûå îïðåäåëåíèÿ è ïîðîãîâûå çíà÷åíèÿ ðàññòîÿíèÿ ìåæäó àìèíîêèñëîòíûìè îñòàòêàìè: ðàñ- ñòîÿíèå ìåæäó àòîìàìè C� ñ ïîðîãîì 6–12 � , ðàññòîÿ- íèå ìåæäó àòîìàìè C� ñ ïîðîãîì 6–12 � (â ýòîì ñëó- ÷àå äëÿ ãëèöèíà èñïîëüçóåòñÿ àòîì C� ) èëè íàè- ìåíüøåå ðàññòîÿíèå ìåæäó ëþáûìè àòîìàìè, íî ñ ìåíü- øèì ïîðîãîì 4,5–6 � . 44 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 Ðèñ. 3. Ïðèìåð êîíòàêòíîé êàðòû áåëêà Íà ðèñ. 3 ïðèâåäåí ïðèìåð êîíòàêòíîé êàðòû. Êîíòàêòû (ýëåìåíòû ìàòðèöû, ðàâíûå åäèíèöå) îòìå÷åíû òåìíûìè êâàäðàòàìè. Äëÿ óäîáñòâà ïîêàçàíû ýëåìåíòû òîëüêî îäíîé èç äâóõ ïîëíîñòüþ ñèììåòðè÷íûõ ïîëîâèí ìàòðèöû, è òîëüêî òå, äëÿ êîòîðûõ | |i j� � 3. Âçàèìíîå ðàñïîëîæåíèå êîíòàêòîâ íà êîíòàêòíîé êàðòå ïîä÷èíÿåòñÿ ñëåäóþ- ùèì çàêîíîìåðíîñòÿì: — êîíòàêòû ìåæäó àìèíîêèñëîòàìè îäíîé �-ñïèðàëè ðàñïîëîæåíû íà ðàñ- ñòîÿíèè íå áîëåå íåñêîëüêèõ ïîçèöèé îò ãëàâíîé äèàãîíàëè êàðòû; — êîíòàêòû ìåæäó àìèíîêèñëîòàìè äâóõ ñîñåäíèõ òÿæåé àíòèïàðàëëåëüíîé �-ñòðóêòóðû çàíèìàþò îáëàñòü òîëùèíîé â íåñêîëüêî ïîçèöèé, âûòÿíóòóþ ïåðïåí- äèêóëÿðíî ãëàâíîé äèàãîíàëè êàðòû; — êîíòàêòû ìåæäó àìèíîêèñëîòàìè äâóõ ñîñåäíèõ òÿæåé ïàðàëëåëüíîé �-ñòðóêòóðû çàíèìàþò îáëàñòü òîëùèíîé â íåñêîëüêî ïîçèöèé, âûòÿíóòóþ ïàðàë- ëåëüíî ãëàâíîé äèàãîíàëè êàðòû. Êîíòàêòíûå êàðòû ìîãóò èñïîëüçîâàòüñÿ êàê ïðîìåæóòî÷íîå çâåíî äëÿ ïðåä- ñêàçàíèÿ êîîðäèíàò àòîìîâ áåëêà â òðåõìåðíîì ïðîñòðàíñòâå. Ýòîò ïîäõîä ïåð- ñïåêòèâåí, òàê êàê êîíòàêòû ïðåäñêàçûâàþòñÿ ìåòîäàìè ìàøèííîãî îáó÷åíèÿ ëåã- ÷å, ÷åì êîîðäèíàòû â òðåõìåðíîì ïðîñòðàíñòâå, à ïîñëåäíèå ïðè îïðåäåëåííûõ óñëîâèÿõ ìîæíî ðåêîíñòðóèðîâàòü ïî èçâåñòíîé êîíòàêòíîé êàðòå [6]. Ðàçðàáîòàíî ìíîãî ðàçëè÷íûõ ìåòîäîâ äëÿ ïðåäñêàçàíèÿ êîíòàêòíîé êàðòû ïî èçâåñòíîé ïåðâè÷íîé ñòðóêòóðå áåëêà. Èõ ìîæíî ðàçäåëèòü íà äâå âçàèìîíåèñêëþ- ÷àþùèå êàòåãîðèè: 1) ñòàòèñòè÷åñêèå ïîäõîäû, èñïîëüçóþùèå ìåòîä êîððåëèðóþùèõ ìóòàöèé; 2) ïîäõîäû, èñïîëüçóþùèå ìåòîäû ìàøèííîãî îáó÷åíèÿ. Ïåðâûå äëÿ ïðåäñêàçàíèÿ êîíòàêòîâ èñïîëüçóþò èíôîðìàöèþ î êîððåëèðó- þùèõ ìóòàöèÿõ ðàçíûõ àìèíîêèñëîòíûõ îñòàòêîâ, âòîðûå — ìåòîäû ìàøèííîãî îáó÷åíèÿ, òàêèå êàê íåéðîííûå ñåòè, ñêðûòûå ìàðêîâñêèå ìîäåëè è ìåòîä îïîðíûõ âåêòîðîâ [7]. Äëÿ ïðåäñêàçàíèÿ êîíòàêòíûõ êàðò ìîãóò ïðèìåíÿòüñÿ òàêæå êîìáè- íàöèè íåñêîëüêèõ ìåòîäîâ. Òî÷íîñòü ïðåäñêàçàíèÿ êîíòàêòíûõ êàðò â çàâèñèìîñòè îò èñïîëüçóåìîãî äëÿ ïðåäñêàçàíèÿ ïîäõîäà ìîæåò áûòü ñâÿçàíà ñ êà÷åñòâîì ìíîæåñòâåííîãî âûðàâíèâà- íèÿ ïîñëåäîâàòåëüíîñòåé è òî÷íîñòüþ ïðåäñêàçàíèÿ âòîðè÷íûõ ñòðóêòóð. Êðîìå òîãî, îíà âñåãäà ñâÿçàíà ñ ïðîïîðöèåé �-ëèñòîâ â áåëêå — êîíòàêòû â �-ëèñòàõ â �-áåëêàõ, � �� -áåëêàõ è � �/ -áåëêàõ ïðåäñêàçûâàþòñÿ ñ áîëüøåé òî÷íîñòüþ, ÷åì êîíòàêòû ìåæäó �-ñïèðàëüþ è �-ëèñòîì èëè ìåæäó �-ñïèðàëÿìè [8]. Êîíòàêòû ñ ó÷àñòèåì àìèíîêèñëîòû, íå âõîäÿùåé âî âòîðè÷íûå ñòðóêòóðû, ìåæäó äâóìÿ ðàçíûìè �-ñïèðàëÿìè, ìåæäó �-ñïèðàëüþ è �-ñòðóêòóðîé, è äàæå ìåæäó äâóìÿ ðàçíûìè �-ñòðóêòóðàìè, íå ïàðàëëåëüíûìè è íå àíòèïàðàëëåëüíûìè îäíà äðóãîé, êàê ïðàâèëî, ïðåäñêàçûâàþòñÿ çíà÷èòåëüíî õóæå, ÷åì êîíòàêòû ìåæ- äó àìèíîêèñëîòàìè îäíîé âòîðè÷íîé ñòðóêòóðû. Èíòåðåñíî, ÷òî áîëüøèíñòâî íå- âåðíî ïðåäñêàçàííûõ êîíòàêòîâ ðàñïîëîæåíû âáëèçè îò íàñòîÿùèõ êîíòàêòîâ. Äëÿ âûÿâëåíèÿ íåïðàâèëüíî ïðåäñêàçàííûõ êîíòàêòîâ ìîãóò áûòü èñïîëüçîâà- íû ïðàâèëà, îñíîâàííûå íà ãåîìåòðè÷åñêèõ çàêîíîìåðíîñòÿõ ñòðîåíèÿ �-ñïèðàëåé è �-ñòðóêòóð. Íàèáîëüøàÿ òî÷íîñòü ïðåäñêàçàíèÿ êîíòàêòîâ ïî èçâåñòíîé àìèíîêèñëîòíîé ïîñëåäîâàòåëüíîñòè ñîñòàâèëà 32%; ïîëó÷åííàÿ îöåíêà ïðåâîñõîäèò òî÷íîñòü ïðåäñêàçàíèÿ êîîðäèíàò â òðåõìåðíîì ïðîñòðàíñòâå ïî èçâåñòíîé àìèíîêèñëîòíîé ïîñëåäîâàòåëüíîñòè. Îáùàÿ çàäà÷à âû÷èñëåíèÿ êîîðäèíàò àòîìîâ áåëêà â òðåõìåðíîì ïðîñòðà- íñòâå, ñîâìåñòèìûõ ñ äàííîé êîíòàêòíîé êàðòîé, èçâåñòíàÿ êàê çàäà÷à î ñóùåñòâî- âàíèè ãðàôà äèñêîâ åäèíè÷íîãî ðàäèóñà, ÿâëÿåòñÿ NP -òðóäíîé çàäà÷åé.  íàñòîÿ- ùåå âðåìÿ ðàçðàáîòàíî íåñêîëüêî ýìïèðè÷åñêèõ ìåòîäîâ äëÿ ïðåäñêàçàíèÿ êîîðäè- íàò àòîìîâ áåëêà ïî èçâåñòíîé êàðòå êîíòàêòîâ. Äëÿ ïîñòðîåííûõ ïî ýìïèðè÷åñêèì äàííûì êàðòàì êîíòàêòîâ êîîðäèíàòû àòîìîâ áåëêà ìîãóò áûòü âîññòàíîâëåíû ñî ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 45 ñðåäíèì êâàäðàòè÷íûì îòêëîíåíèåì 1–2 � , îäíàêî ïî ïðåäñêàçàííûì êàðòàì êîí- òàêòîâ îíè ïðîãíîçèðóþòñÿ ñ âûñîêèì îòêëîíåíèåì áîëåå 3 � [6]. 3. ÂÅÐÎßÒÍÎÑÒÍÛÅ ÌÎÄÅËÈ ÍÀ ÏÎÑËÅÄÎÂÀÒÅËÜÍÎÑÒßÕ Ïðè ðåøåíèè çàäà÷è ïðåäñêàçàíèÿ ñòðóêòóðû áåëêà ïðèìåíÿþòñÿ âåðîÿòíîñòíûå ìîäåëè íà ïîñëåäîâàòåëüíîñòÿõ. Ìîäåëè ñòðîÿòñÿ ïî èíôîðìàöèè èç îáó÷àþùèõ âûáîðîê, â êà÷åñòâå êîòîðûõ èñïîëüçóþòñÿ îòêðûòûå áàíêè äàííûõ áåëêîâûõ ñòðóêòóð. Äëÿ çàäàííîé ïîñëåäîâàòåëüíîñòè àìèíîêèñëîò, èëè íàáëþäåíèé, òðå- áóåòñÿ íàéòè íàèáîëåå âåðîÿòíóþ ïîñëåäîâàòåëüíîñòü ñîñòîÿíèé. Ñîñòîÿíèÿìè ìîãóò áûòü òèïû âòîðè÷íîé ñòðóêòóðû èëè òîðñèîííûå óãëû â çàâèñèìîñòè îò êîíêðåòíîé çàäà÷è. Îáîçíà÷èì ïîñëåäîâàòåëüíîñòü íàáëþäåíèé x x xn� ( ,... , )1 , x Ai X� , à ïîñëå- äîâàòåëüíîñòü èñêîìûõ ñîñòîÿíèé y y yn� ( ,... , )1 , y Ai Y� . Çäåñü A X — êîíå÷íîå ìíîæåñòâî çíà÷åíèé îäíîãî íàáëþäåíèÿ, AY — êîíå÷íîå ìíîæåñòâî çíà÷åíèé îä- íîãî ñîñòîÿíèÿ. Êðîìå òîãî, îáîçíà÷èì X A X n� ìíîæåñòâî âñåõ âîçìîæíûõ çíà÷å- íèé ïîñëåäîâàòåëüíîñòè íàáëþäåíèé äëèíû n , Y A Y n� — ìíîæåñòâî âñåõ âîçìîæ- íûõ çíà÷åíèé ïîñëåäîâàòåëüíîñòè ñîñòîÿíèé äëèíû n . Ïðåäïîëàãàåòñÿ, ÷òî ñóùåñòâóåò ñîâìåñòíîå ðàñïðåäåëåíèå âåðîÿòíîñòè íà ìíîæåñòâå íàáëþäåíèé è ñîñòîÿíèé P x y( , ) , x X� , y Y� ; îáîçíà÷èì åãî P( ) , �V, V X Y� � . Çàäà÷à ñòàâèòñÿ ñëåäóþùèì îáðàçîì: ñ ïîìîùüþ îáó÷àþùåé âû- áîðêè íåîáõîäèìî íàéòè arg max ( | ) y Y P y x � , x X� . Äëÿ ðåøåíèÿ ýòîé çàäà÷è èñïîëü- çóþòñÿ ìîäåëè Ìàðêîâà ñî ñêðûòûìè ïàðàìåòðàìè (HMM — Hidden Markov Models) è óñëîâíûå ñëó÷àéíûå ïîëÿ (CRF — Conditional Random Fields). Ýòè ïîä- õîäû îñíîâàíû íà ïðåäñòàâëåíèè ìíîãîìåðíîãî ñîâìåñòíîãî ðàñïðåäåëåíèÿ P( ) , �V, â âèäå ïðîèçâåäåíèÿ áîëåå ïðîñòûõ ðàñïðåäåëåíèé — ôàêòîðîâ, õàðàêòåðèñ- òèêè êîòîðûõ, â îòëè÷èå îò èñõîäíîãî ðàñïðåäåëåíèÿ, ìîæíî óñòàíîâèòü èç èìåþ- ùèõñÿ îáó÷àþùèõ âûáîðîê. Ìîäåëè Ìàðêîâà ñî ñêðûòûìè ïàðàìåòðàìè (ÌÌÑÏ). Ïðåäïîëàãàåòñÿ, ÷òî ïîñëåäîâàòåëüíîñòü ñîñòîÿíèé y y yn� ( ,... , )1 îïèñûâàåòñÿ öåïüþ Ìàðêîâà, íà- ïðèìåð, ïåðâîãî ïîðÿäêà. Çàäàíî íà÷àëüíîå ðàñïðåäåëåíèå âåðîÿòíîñòè ñîñòîÿíèé P yi( ) è âåðîÿòíîñòè ïåðåõîäîâ ìåæäó ñîñòîÿíèÿìè P y yi i( | )�1 , y y Ai i Y, � �1 . Êðîìå òîãî, ïðåäïîëàãàåòñÿ, ÷òî íàáëþäåíèÿ xi íåçàâèñèìû. Çàìåòèì, ÷òî ñ ïî- ìîùüþ êðèòåðèÿ � 2 ãèïîòåçà î íåçàâèñèìîñòè àìèíîêèñëîòíîé ïîñëåäîâàòåëüíîñ- òè xi ëåãêî îòâåðãàåòñÿ [9]. Òàêèì îáðàçîì, âîïðîñ îòíîñèòåëüíî àäåêâàòíîñòè îïè- ñûâàåìîé íèæå ìîäåëè îñòàåòñÿ çà ñêîáêàìè. Âåðîÿòíîñòü çíà÷åíèÿ xi çàâèñèò òîëüêî îò çíà÷åíèÿ òåêóùåãî ñîñòîÿíèÿ yi ñ çàäàííûì ðàñïðåäåëåíèåì P x yi i( | ) , y Ai Y� , x Ai X� . Ýòî ïîçâîëÿåò çàïèñàòü ñîâìåñòíîå ðàñïðåäåëåíèå âåðîÿòíîñòè â âèäå P p y p x y p y y p x y i n i i i i( ) ( ) ( | ) ( | ) ( | ) � � ��1 1 1 2 1 . Íà îñíîâå ñîâìåñòíîãî ðàñïðåäåëåíèÿ ñ ïîìîùüþ ÌÌÑÏ ðåøàþòñÿ ñëåäóþ- ùèå çàäà÷è. � Çàäàíà ïîñëåäîâàòåëüíîñòü íàáëþäåíèé x x xn� ( ,... , )1 è ìîäåëü � . Íåîáõî- äèìî íàéòè íàèáîëåå âåðîÿòíóþ, â îïðåäåëåííîì ñìûñëå, ïîñëåäîâàòåëüíîñòü ñî- ñòîÿíèé y y yn� ( ,... , )1 . � Äàíà îáó÷àþùàÿ âûáîðêà. Íåîáõîäèìî ïîäîáðàòü ìîäåëü � , êîòîðàÿ áû ìàêñèìèçèðîâàëà ñîâìåñòíîå ïðàâäîïîäîáèå ïîñëåäîâàòåëüíîñòåé íàáëþäåíèé è ñîñòîÿíèé. 46 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 Ýòè çàäà÷è ñâîäÿòñÿ ê íàõîæäåíèþ îïòèìàëüíûõ ïàðàìåòðîâ ìîäåëè � ïî îáó- ÷àþùåé âûáîðêå è îïðåäåëåíèþ ñ ïîìîùüþ ïîëó÷åííîé ìîäåëè íàèáîëåå âåðîÿòíîé ñòðóêòóðû, êîòîðóþ èìååò çàäàííàÿ àìèíîêèñëîòíàÿ ïîñëåäîâàòåëüíîñòü áåëêà. Ñóùåñòâóåò íåñêîëüêî ïîäõîäîâ ê ðåøåíèþ ïåðâîé çàäà÷è, êîòîðûå îòëè÷à- þòñÿ îïðåäåëåíèåì «íàèáîëåå âåðîÿòíîé» ïîñëåäîâàòåëüíîñòè ñîñòîÿíèé y y yn� ( ,... , )1 , ñîîòâåòñòâóþùèõ ïîñëåäîâàòåëüíîñòè íàáëþäåíèé x x xn� ( ,... , )1 . Íàïðèìåð, ìîæíî âûáèðàòü ïîñëåäîâàòåëüíîñòü y òàêèì îáðàçîì, ÷òîáû êàæäîå ñîñòîÿíèå yi èìåëî íàèáîëüøóþ âåðîÿòíîñòü ïðè çàäàííîì çíà÷åíèè íàáëþäå- íèÿ xi . Îáû÷íî èñïîëüçóþò äðóãîé êðèòåðèé, êîòîðûé òðåáóåò íàõîæäåíèÿ íàèáî- ëåå âåðîÿòíîé ïîñëåäîâàòåëüíîñòè y ïðè çàäàííîé âñåé ïîñëåäîâàòåëüíîñòè x, ò.å. arg max ( | ) y Y P y x � � , y Y� . Ýòà çàäà÷à ýêâèâàëåíòíà ìàêñèìèçàöèè arg max ( , ) y Y P x y � � , ó÷èòûâàÿ, ÷òî ïîñëåäî- âàòåëüíîñòü x çàäàíà. Ïîñëåäíÿÿ çàäà÷à ðåøàåòñÿ ñ ïîìîùüþ àëãîðèòìà Âèòåð- áè [10], êîòîðûé çàêëþ÷àåòñÿ â ñëåäóþùåì. Ôîðìóëà t y y y t ty P y y y y x t ( ) max ( ,... , , , ,... , , ..., � � � � � � 1 2 1 1 1 1 , )xt , � �y A y , îáîçíà÷àåò ìàêñèìàëüíîå çíà÷åíèå âåðîÿòíîñòè ïîñëåäîâàòåëüíîñòè ïåðâûõ t ñî- ñòîÿíèé è íàáëþäåíèé ïðè çàäàííîì çíà÷åíèè ñîñòîÿíèÿ y yt � � â ìîìåíò âðå- ìåíè t è çàäàííûõ çíà÷åíèÿõ íàáëþäåíèé x xt1 ,... , . Çíà÷åíèÿ i , i n� 2,... , , íàõî- äÿòñÿ ðåêóðñèâíî, t y A t t t t t ty y P y y y P x y t y � � � � �� � � � �1 1 1 1( ) [ max ( ) ( | )] ( | �y ) , ÷òî ïîçâîëÿåò íàéòè ïîñëåäîâàòåëüíîñòü ñîñòîÿíèé y y yn� ( ,... , )1 . Âòîðàÿ êàíîíè÷åñêàÿ çàäà÷à ÌÌÑÏ — íàõîæäåíèå îïòèìàëüíîé ìîäåëè ïî îáó÷àþùåé âûáîðêå — ðåøàåòñÿ ïóòåì ìàêñèìèçàöèè ñîâìåñòíîãî ïðàâäîïîäî- áèÿ, ÷òî ýêâèâàëåíòíî ðåøåíèþ çàäà÷è ãëîáàëüíîé îïòèìèçàöèè. Îïòèìàëüíîé ïðîöåäóðû íàõîæäåíèÿ ïàðàìåòðîâ ìîäåëè � â íàñòîÿùåå âðåìÿ íå ñóùåñòâóåò.  êà÷åñòâå ïðèáëèæåííûõ ìåòîäîâ îáû÷íî èñïîëüçóþò ìåòîä Áàóìà–Óýëøà [11] èëè ãðàäèåíòíûå ìåòîäû [12]. Ãðàôè÷åñêîå ïðåäñòàâëåíèå. Ïðåæäå ÷åì ïåðåéòè ê îïèñàíèþ ìåòîäîâ óñ- ëîâíûõ ñëó÷àéíûõ ïîëåé (ÓÑÏ), ðàññìîòðèì ãðàôè÷åñêèå ìîäåëè, êîòîðûå ïðèìå- íÿþòñÿ äëÿ îïèñàíèÿ ìíîãîìåðíûõ ðàñïðåäåëåíèé. Ñóòü ãðàôè÷åñêîãî ïîäõîäà çà- êëþ÷àåòñÿ â ïðåäñòàâëåíèè ñîâìåñòíîãî ìíîãîìåðíîãî ðàñïðåäåëåíèÿ â âèäå ãðà- ôîâ: ãðàôà çàâèñèìîñòåé è ãðàôà ôàêòîðîâ. Ðàññìîòðèì ãðàô çàâèñèìîñòåé G V Ed d d� ( , ), ãäå Vd — ìíîæåñòâî âåðøèí, êàæäàÿ èç êîòîðûõ ñîîòâåòñòâóåò ñëó÷àéíîé âåëè÷èíå i , âõîäÿùåé â �V; Ed — ìíîæåñòâî ðåáåð ãðàôà. Ôàêò îòñóòñòâèÿ ðåáðà ( , ) i j â ìíîæåñòâå Ed âûðàæàåò óñëîâíóþ íåçàâèñèìîñòü ñëó÷àéíûõ âåëè÷èí i j, . Ñëó÷àéíûå âåëè÷èíû a è b íà- çûâàþòñÿ óñëîâíî íåçàâèñèìûìè ïðè çàäàííîì çíà÷åíèè òðåòüåé ñëó÷àéíîé âåëè- ÷èíû c, åñëè ñïðàâåäëèâî ðàâåíñòâî P a b c P a c( | , ) ( | )� . Ãðàô çàâèñèìîñòåé çàäàåò âíóòðåííþþ ñòðóêòóðó ñîâìåñòíîãî ðàñïðåäåëåíèÿ P( ) , �V, è íå íåñåò èíôîðìàöèè î êîëè÷åñòâåííûõ õàðàêòåðèñòèêàõ âçàèìîñâÿ- çåé ìåæäó ñëó÷àéíûìè âåëè÷èíàìè i . Ðåáðà â ãðàôå çàâèñèìîñòåé Gd ìîãóò áûòü íàïðàâëåííûìè èëè íåíàïðàâëåííûìè.  çàâèñèìîñòè îò ýòîãî ðàçëè÷àþò äâà ðàç- íûõ òèïà ãðàôè÷åñêèõ ìîäåëåé: ÌÌÑÏ îòíîñÿòñÿ ê íàïðàâëåííûì ìîäåëÿì, à ÓÑÏ — ê íåíàïðàâëåííûì. Äëÿ êîëè÷åñòâåííîãî îïèñàíèÿ çàâèñèìîñòåé ìåæäó ñëó÷àéíûìè âåëè÷èíàìè i èñïîëüçóåòñÿ òàê íàçûâàåìûé ãðàô ôàêòîðîâ G V Ef f f� ( , ); V f ñîäåðæèò ïîìè- ìî âåðøèí, ñîîòâåòñòâóþùèõ ñëó÷àéíûì âåëè÷èíàì i , åùå âåðøèíû, ñîîòâåòñòâó- ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 47 þùèå ôàêòîðàì � k k kN( , ( )) (ðèñ. 4).  íàïðàâëåííûõ ìîäåëÿõ ôàêòîð �k ÿâëÿ- åòñÿ óñëîâíûì ðàñïðåäåëåíèåì âåðîÿòíîñòè çíà÷åíèé k ïðè çàäàííûõ çíà÷åíèÿõ ìíîæåñòâà ðîäèòåëüñêèõ âåðøèí N k( ) . Âåðøèíà i ïðèíàäëåæèò ìíîæåñòâó ðî- äèòåëüñêèõ âåðøèí k , åñëè ìíîæåñòâî ðåáåð Ed ñîäåðæèò íàïðàâëåííîå ðåáðî ( , ) i k , ò.å. i k i k dN E� � � �( ) ( , ) . Èñõîäíîå ðàñïðåäåëåíèå P( ) çàïèñûâàåòñÿ â âèäå ïðîèçâåäåíèÿ ôàêòîðîâ P N k K k k k( ) ( , ( )) � � � � 1 , �V, ãäå K — êîëè÷åñòâî âñåõ ôàêòîðîâ â ìîäåëè. Ðàññìîòðèì äëÿ ïðèìåðà ÌÌÑÏ íà ïîñëåäîâàòåëüíîñòè èç òðåõ ñîñòîÿíèé è òðåõ íàáëþäåíèé � ( , , , , , )x x x y y y1 2 3 1 2 3 ; ñîîòâåòñòâóþùèå ãðàôû Gd è G f èçîáðàæåíû íà ðèñ. 4, à,á. Ñîâìåñòíîå ðàñïðåäåëåíèå âåðîÿòíîñòè çàïèñûâàåòñÿ â âèäå P P y P x y P y y P x y P y y P x y( ) ( ) ( | ) ( | ) ( | ) ( | ) ( | ) � 1 1 1 2 1 2 2 3 2 3 3 , èëè òî æå ñàìîå â òåðìèíàõ ôàêòîðîâ P y x y y y x y y y( ) ( ) ( , ) ( , ) ( , ) ( , ) ( � � � � � �� 1 1 4 1 1 2 2 1 5 2 2 3 3 2 6 x y3 3, ) . Óñëîâíûå ñëó÷àéíûå ïîëÿ (ÓÑÏ). Ìîäåëè ÓÑÏ îòíîñÿòñÿ ê íåíàïðàâëåííûì ìîäåëÿì, ÷òî âëå÷åò íåêîòîðûå èçìåíåíèÿ ïðè ïîäñ÷åòå ñîâìåñòíîé âåðîÿòíîñòè.  íåíàïðàâëåííûõ ìîäåëÿõ ïîíÿ- òèå ðîäèòåëüñêîé âåðøèíû òåðÿåò ñâîé ñìûñë, ïîýòîìó ôàêòîðû �c cV( ) îïðåäåëÿþòñÿ íà ìàêñè- ìàëüíûõ êëèêàõ c C� ãðàôà çàâèñèìîñòåé Gd , V c — ìíîæåñòâî âåðøèí, âõîäÿùèõ â êëèêó c C� [13]. Óñëîâíîå ðàñïðåäåëåíèå çàäàåòñÿ ôîðìóëîé P y x Z x V c C c c( | ) ( ) ( )� � � 1 � . Ôàêòîðû �c èìåþò âèä � �c i i c i m x y f V( , ) exp ( )� � � � � � � � � 1 , ãäå f Vi c( ), i m�1,... , , — ïðîèçâîëüíûé íàáîð íåîòðèöàòåëüíûõ èíòåãðèðóåìûõ ïî Ëåáåãó ôóíêöèé, êîòîðûå íå îáÿçàòåëüíî äîëæíû èìåòü âåðîÿòíîñòíóþ èí- òåðïðåòàöèþ. Îòñóòñòâèå íàïðàâëåíèé äàåò âîçìîæíîñòü èñïîëüçîâàòü øèðîêèé íàáîð ôóíêöèé â êà÷åñòâå ôàêòîðîâ è íå îãðàíè÷èâàòüñÿ òîëüêî óñëîâíûìè âå- ðîÿòíîñòÿìè, êàê â ñëó÷àå ñ ÌÌÑÏ. Äëÿ òîãî ÷òîáû â êîíå÷íîì èòîãå ïîëó÷èòü âåðîÿòíîñòíóþ ìåðó P y x( | ) , íåîáõîäèìî ïðîâîäèòü íîðìàëèçàöèþ. Íîðìàëèçó- þùèé ìíîæèòåëü Z x( ) èìååò âèä Z x x y y Y c C c c c( ) ( , )� � � � � � . Íàõîæäåíèå Z x( ) — ñëîæíàÿ âû÷èñëèòåëüíàÿ ïðîöåäóðà, êîòîðàÿ ñâîäèòñÿ ê âû- ÷èñëåíèþ ìíîãîìåðíîãî èíòåãðàëà. Ýòî ñâîåãî ðîäà ïëàòà çà ñâîáîäíûé âûáîð ôóíêöèé fi , îïðåäåëÿþùèõ ôàêòîðû �c .  íàïðàâëåííûõ ìîäåëÿõ òàêîé ïðîáëå- ìû íå âîçíèêàåò, òàê êàê â êà÷åñòâå ôàêòîðîâ èñïîëüçóþòñÿ óñëîâíûå âåðîÿò- íîñòè è íîðìàëèçàöèè íå òðåáóåòñÿ. 48 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 x1 x2 x3 y1 y2 y3 x1 x2 x3 y1 y2 y3�1 �2 �3 �4 �5 �6 Ðèñ. 4. Ãðàôû Gd è G f à á Ìîäåëè ìàêñèìàëüíîé ýíòðîïèè. Îáùèé âèä ôàêòîðîâ �c ÓÑÏ âûâîäèòñÿ èç ïðèíöèïà ìàêñèìàëüíîé ýíòðîïèè. Ñîãëàñíî ýòîìó ïðèíöèïó ïðè íàëè÷èè íå- ïîëíîé èíôîðìàöèè î ðàñïðåäåëåíèè ñëåäóåò âûáèðàòü ðàñïðåäåëåíèå, íàèáîëåå ðàâíîìåðíîå îòíîñèòåëüíî èìåþùåéñÿ èíôîðìàöèè, ò.å. ìàêñèìèçèðóþùåå ýíòðî- ïèþ. Èíûìè ñëîâàìè, ëþáîå äðóãîå ðàñïðåäåëåíèå (ñ ìåíüøåé ýíòðîïèåé) íåñåò â ñåáå èíôîðìàöèþ, êîòîðîé íå áûëî â èñõîäíûõ äàííûõ î ðàñïðåäåëåíèè.  ñëó÷àå óñëîâíîãî ðàñïðåäåëåíèÿ P y x( | ) èñïîëüçóåòñÿ óñëîâíàÿ ýíòðîïèÿ H P y x P x y P y x x y V [ ( | )] ( , ) log ( | ) ( , ) � � � � . Íåîáõîäèìî íàéòè ðàñïðåäåëåíèå, êîòîðîå ìàêñèìèçèðóåò ýíòðîïèþ è «ñîãëà- ñóåòñÿ» ñ îáó÷àþùåé âûáîðêîé T : P y x H P y x P y x � � �( | ) arg max [ ( | )] ( | ) � . Çäåñü � — ìíîæåñòâî âñåõ ìîäåëåé. Äëÿ óäîáñòâà áóäåì ïîëàãàòü, ÷òî x, y — çíà÷åíèÿ îäíîãî íàáëþäåíèÿ è îäíîãî ñîñòîÿíèÿ. «Ñîãëàñîâàííîñòü» èñêîìîãî ðàñïðåäåëåíèÿ ñ îáó÷àþùåé âûáîðêîé ïðåäñòàâ- ëÿåòñÿ ñ ïîìîùüþ íàáîðà íåîòðèöàòåëüíûõ èíòåãðèðóåìûõ ïî Ëåáåãó ôóíêöèé f x yi ( , ) , i m�1,... , . Ïåðâûå m îãðàíè÷åíèé íà ðàñïðåäåëåíèå P y x( | ) çàêëþ÷àþòñÿ â òîì, ÷òî ýì- ïèðè÷åñêèå îæèäàíèÿ � ( , )Ef x yi äîëæíû ñîâïàäàòü ñ ïðîãíîçèðóåìûìè îæèäàíèÿ- ìè Ef x yi ( , ) : � ( , ) ( , )E f x y E f x yi i� , 1� �i m . Ýìïèðè÷åñêîå îæèäàíèå çàïèñûâàåòñÿ â âèäå � ( , ) ( , ) ( , ) E f x y N f x yi x y T i� � � 1 , ãäå T — ìíîæåñòâî îáó÷àþùèõ ïðèìåðîâ ìîùíîñòè | |T N� . Ïðîãíîçèðóåìîå îæèäàíèå çàïèñûâàåòñÿ â âèäå E f x y P x P y x f x y i x y V i( , ) ( ) ( | ) ( , ) ( , ) � � � . Äëÿ òîãî ÷òîáû ýôôåêòèâíî âû÷èñëèòü E f x yi ( , ), âìåñòî P x( ) èñïîëüçóåòñÿ ýìïè- ðè÷åñêîå ðàñïðåäåëåíèå � ( )P x . Òîãäà E f x y N P y x f x yi i y Yx T ( , ) ( | ) ( , ) �� �� 1 . (1)  ïðèëîæåíèÿõ ìíîæåñòâî âîçìîæíûõ ñîñòîÿíèé Y îáû÷íî íå òàê âåëèêî ïî ñðàâíåíèþ ñ X , ÷òî ïîçâîëÿåò ýôôåêòèâíî ïðîâåñòè ñóììèðîâàíèå â (1). Íàïðè- ìåð, â çàäà÷å ðàñïîçíàâàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêà êîëè÷åñòâî ñîñòîÿíèé — òðè (�-ñïèðàëü, �-ñëîé, coil), òîãäà êàê êîëè÷åñòâî âîçìîæíûõ çíà÷åíèé íàáëþäå- íèé — 20. Åùå îäíî îãðàíè÷åíèå íà èñêîìóþ ìîäåëü P y x( | ) çàêëþ÷àåòñÿ â òîì, ÷òîáû P y x( | ) ÿâëÿëàñü âåðîÿòíîñòíîé ìåðîé, ò.å. P y x( | ) � 0 ! �x X , y Y� è P y x y Y ( | ) � � �1 ! �x X . Íàõîæäåíèå P y x� ( | ) ïðè òàêèõ îãðàíè÷åíèÿõ ÿâëÿåòñÿ çàäà÷åé îïòèìèçàöèè ñ îãðàíè÷åíèÿìè. Ôóíêöèÿ Ëàãðàíæà èìååò âèä "( , ) [ ( | )] ( ( ) � ( )) ( | )P H P y x E f E f P y xi i i i m m y � � �� � � � � �� 1 1 � � � � � � � � � Y 1 , ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 49 ãäå � � �� # #( )1 � n . Èñïîëüçóÿ ýìïèðè÷åñêîå ðàñïðåäåëåíèå � ( )P x ïðè âû÷èñëå- íèè H P y x[ ( | )] , ïîëó÷àþò P y x Z x f x yi i i m � � �� � � � � � � � ��( | ) ( ) exp ( , ) 1 1 , Z x f x yi i i m y Y � �( ) exp ( , )� � � � � � � �� �� 1 . (2) ÓÑÏ íà ïîñëåäîâàòåëüíîñòÿõ. Ðàññìîòðèì ÓÑÏ íà êîíêðåòíîì ïðè- ìåðå. Ãðàô çàâèñèìîñòåé, èçîáðàæåí- íûé íà ðèñ. 5, à, ñîñòîèò èç òðåõ âåð- øèí, èìåþùèõ ñîñòîÿíèÿ y y y1 2 3, , , è îäíîé âåðøèíû, ñîîòâåòñòâóþùåé âñåé ïîñëåäîâàòåëüíîñòè íàáëþäåíèé ( , , )x x x1 2 3 . Ëþáàÿ ïàðà ñîñåäíèõ ñî- ñòîÿíèé y yi i, �1 âìåñòå ñ íàáëþäåíè- ÿìè ( , , )x x x1 2 3 îáðàçóåò êëèêó, íà êàæäîé èç êîòîðûõ îïðåäåëåí ôàêòîð � i x y( , ) . Ãðàô ôàêòîðîâ èçîáðàæåí íà ðèñ. 5, á. Óñëîâíàÿ âåðîÿòíîñòü P y x( | ) äëÿ ïîñëåäîâàòåëüíîñòåé y Y� , x X� äëèíû n çàïèñûâàåòñÿ â âèäå P y x Z x x y j n j( | ) ( ) ( , )� � � � 1 1 1 � , x X y Y� �, , ñ íîðìàëèçóþùåé êîíñòàíòîé Z x x y y Y j n j( ) ( , )� � � � � � 1 1 � è ôàêòîðàìè � �j i i j j i m x y f y y x j( , ) exp ( , , , )� � � � � � �� � � 1 1 . Èíäåêñ j â ôóíêöèÿõ fi , â îòëè÷èå îò ôîðìóëû (2), íåîáõîäèì, ïîñêîëüêó çäåñü x — ïîñëåäîâàòåëüíîñòü ñëó÷àéíûõ âåëè÷èí. Ôóíêöèè fi íà ïðàêòèêå îïðåäåëÿ- þòñÿ íå íà âñåõ ýëåìåíòàõ ïîñëåäîâàòåëüíîñòè x, à íà íåêîòîðîì ïîäìíîæåñòâå, êîòîðîå îïðåäåëÿåòñÿ îòíîñèòåëüíî òåêóùåãî èíäåêñà j. Ôóíêöèè fi ìîãóò èìåòü âèä èíäèêàòîðíûõ ôóíêöèé íåêîòîðûõ ñîáûòèé íà ìíîæåñòâå V X Y� � . Íàïðèìåð, â êîíòåêñòå çàäà÷è ðàñïîçíàâàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêà ìîæíî ïðåäñòàâèòü èíäèêàòîðíóþ ôóíêöèþ ñîáûòèÿ, ñîñòîÿùåãî â òîì, ÷òî ñîñòîÿíèå y j ñîîòâåòñòâóåò �-ñïèðàëè, ñîñòîÿíèå y j�1 — coil, à íà ìåñòå x j íàõîäèòñÿ àìèíîêèñëîòà ìåòèîíèí Íåñìîòðÿ íà òî ÷òî ôóíêöèÿ fi îïðåäåëåíà íà âñåé ïîñëåäîâàòåëüíîñòè ñîñòî- ÿíèé x, èñïîëüçóåòñÿ ëèøü íåáîëüøîå ïîäìíîæåñòâî èõ çíà÷åíèé, â äàííîì ïðèìå- ðå — òîëüêî xj . Îêîí÷àòåëüíûé âèä ìîäåëè ÓÑÏ íà ïîñëåäîâàòåëüíîñòè íàáëþäåíèé x x xn� ( ,... , )1 è ñîñòîÿíèé y y yn� ( ,... , )1 äëèíû n çàïèñûâàåòñÿ ñëåäóþùèì îá- ðàçîì: P y x Z x f y y x j j n i i j j i m ( | ) ( ) exp ( , , , )� � � � � � � � � � � 1 1 1 1 1 � � � . 50 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 x1 x2 x3 y1 y2 y3 x1 x2 x3 y1 y2 y3 �1 �2 Ðèñ. 5. Ãðàôû çàâèñèìîñòåé è ôàêòîðîâ áa $ % & ��� � � � ñëó÷àå.ïðîòèâíîìâ0 ,,,åñëè,1 ),,,( 1 1 Mxcyy jxyyf jjj jji � Ì, Äëÿ ÓÑÏ, êàê è äëÿ ÌÌÑÏ, ðåøàþòñÿ çàäà÷à íàõîæäåíèÿ îïòèìàëüíûõ ïàðà- ìåòðîâ � � �� # #( )1 � n è çàäà÷à íàõîæäåíèÿ íàèáîëåå âåðîÿòíîé ïîñëåäîâàòåëüíîñ- òè ñîñòîÿíèé ïðè çàäàííîé ïîñëåäîâàòåëüíîñòè íàáëþäåíèé. Çàäà÷à íàõîæäåíèÿ îïòèìàëüíèõ ïàðàìåòðîâ � ìîäåëè P y x� ( | ) ðåøàåòñÿ ìåòî- äîì ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ, ÷òî, êàê è â ñëó÷àå ñ ÌÌÑÏ, ñâîäèòñÿ ê ðåøå- íèþ çàäà÷è ãëîáàëüíîé îïòèìèçàöèè. Îïòèìàëüíîé ïðîöåäóðû íàõîæäåíèÿ ïàðàìåò- ðîâ ìîäåëè íå ñóùåñòâóåò, ïðèìåíÿþòñÿ ãðàäèåíòíûå ìåòîäû èëè ìîäèôèöèðîâàí- íûé ìåòîä Áàóìà–Óýëøà. Çàäà÷à ïîñòðîåíèÿ ïîñëåäîâàòåëüíîñòè ñîñòîÿíèé y y yn� ( ,... , )1 ïî ïîñëåäî- âàòåëüíîñòè íàáëþäåíèé x x xn� ( ,... , )1 ðåøàåòñÿ ñ ïîìîùüþ ìîäèôèöèðîâàííîãî ìåòîäà Âèòåðáè. Ñõîäñòâî ÌÌÑÏ è ÓÑÏ ñîñòîèò â òîì, ÷òî ìíîãîìåðíîå ñîâìåñòíîå ðàñïðå- äåëåíèå ïðåäñòàâëÿåòñÿ â âèäå ïðîèçâåäåíèÿ íåçàâèñèìûõ ôàêòîðîâ. Íà îñíîâå ïî- ëó÷åííîãî ñîâìåñòíîãî ðàñïðåäåëåíèÿ ðåøàåòñÿ çàäà÷à îáó÷åíèÿ èëè íàõîæäåíèÿ îïòèìàëüíûõ ïàðàìåòðîâ ìîäåëè è çàäà÷à íàõîæäåíèÿ ïîñëåäîâàòåëüíîñòè ñîñòîÿ- íèé ïðè çàäàííîé ïîñëåäîâàòåëüíîñòè íàáëþäåíèé. ÌÌÑÏ îòíîñèòñÿ ê íàïðàâëåííûì ìîäåëÿì — ôàêòîðû èìåþò âèä óñëîâ- íûõ ðàñïðåäåëåíèé è îïðåäåëÿþòñÿ íà âåðøèíå k è ìíîæåñòâå ðîäèòåëüñêèõ âåðøèí k — N k( ) . ÓÑÏ îòíîñèòñÿ ê íåíàïðàâëåííûì ìîäåëÿì — ôàêòîðû îïðåäåëåíû íà ìàêñè- ìàëüíûõ êëèêàõ ãðàôà çàâèñèìîñòè è â îáùåì ñëó÷àå íå èìåþò âåðîÿòíîñòíîãî ñìûñëà, ÷òî îáóñëîâëèâàåò íåîáõîäèìîñòü íîðìàëèçàöèè. Îáùèé âèä ôàêòîðîâ âû- âîäèòñÿ èç ïðèíöèïà ìàêñèìàëüíîé ýíòðîïèè. 4. ÇÀÊÎÍÎÌÅÐÍÎÑÒÈ ÇÀÏÈÑÈ ÃÅÍÅÒÈ×ÅÑÊÎÉ ÈÍÔÎÐÌÀÖÈÈ Â ÃÅÍÎÌÀÕ È ÁÅËÊÀÕ Ãåíåòè÷åñêàÿ èíôîðìàöèÿ êëåòêè õðàíèòñÿ â õðîìîñîìàõ, ïðåäñòàâëÿþùèõ ñîáîé, ñîãëàñíî èçâåñòíîé ìîäåëè Óîòñîíà–Êðèêà, äâîéíóþ öåïî÷êó ÄÍÊ. Êàæäàÿ öå- ïî÷êà ñîñòîèò èç íóêëåîòèäíûõ çâåíüåâ (íóêëåîòèäîâ, îñíîâàíèé) ÷åòûðåõ òèïîâ: A, T, C, G. Äâå öåïî÷êè ñïàðèâàþòñÿ ïî çàêîíó êîìïëåìåíòàðíîñòè (A ñîåäèíÿ- åòñÿ ñ T, à C — ñ G) è îáðàçóþò õðîìîñîìó. Òàêèì îáðàçîì, îäíà öåïî÷êà ÄÍÊ îäíîçíà÷íî îïðåäåëÿåò öåïî÷êó, êîìïëåìåíòàðíóþ ñåáå, è õðîìîñîìó â öåëîì. Íåñìîòðÿ íà òî ÷òî ÄÍÊ îòíîñèòåëüíî ïðîñòà è õîðîøî èçó÷åíà õèìè÷åñêè, ñòðóêòóðà ãåíîìà ÷åëîâåêà ÷ðåçâû÷àéíî ñëîæíà è íå âñå åãî ôóíêöèè èçâåñòíû. Íà òåêóùèé ìîìåíò äëèíà çàêîí÷åííîé ãåíîìíîé ïîñëåäîâàòåëüíîñòè ñîñòàâëÿåò 2851 ìëí íóêëåîòèäîâ è ñîäåðæèò 341 ïðîáåë îáùèì ðàçìåðîì 225 ìëí îñíîâà- íèé. Ãåíîì ÷åëîâåêà âêëþ÷àåò ïðèáëèçèòåëüíî 20–30 òûñÿ÷ áåëîê-êîäèðóþùèõ ãå- íîâ.  ðàáîòå [14] ïðèâåäåíû ñâåäåíèÿ î çàêîí÷åííûõ ïîñëåäîâàòåëüíîñòÿõ è ðàç- ìåðàõ ïðîáåëîâ äëÿ êàæäîé õðîìîñîìû â ãåíîìå ÷åëîâåêà. ×èñëîâûå ðàñ÷åòû ïðî- âîäèëèñü íà ïîñëåäîâàòåëüíîñòÿõ õðîìîñîì, õàðàêòåðèñòèêè êîòîðûõ ñîîòâåòñòâóþò äàííûì, óêàçàííûì â [14]. Ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè â çàïèñè îñíîâàíèé ïî îäíîé íèòè ÄÍÊ èñ- ñëåäîâàëèñü â [15–17], â ðàáîòå [18] ñîäåðæèòñÿ ñïèñîê öèòèðóåìîé ëèòåðàòóðû ïî äàííîìó âîïðîñó. Êîìïëåìåíòàðíîñòü â çàïèñè îñíîâàíèé ïî îäíîé íèòè ÄÍÊ õðîìîñîìû îçíà- ÷àåò, ÷òî âûïîëíÿþòñÿ ïðèáëèæåííûå ñîîòíîøåíèÿ n n( ) ( )A T , n n( ) ( )C G , (3) ãäå n j( ) — êîëè÷åñòâî îñíîâàíèé j, j�{A, C, G, T}, âû÷èñëåííûõ íà îäíîé íèòè. Çàìåòèì, ÷òî èç êîìïëåìåíòàðíîñòè ïàð áóêâ ïî äâóì íèòÿì ÄÍÊ íå ñëåäóåò, ÷òî êîëè÷åñòâà áóêâ A è T, à òàêæå C è G, ïîäñ÷èòàííûå ïî îäíîé íèòè, ñîâïàäàþò ìåæäó ñîáîé. Ïðîñòîé ïðèìåð: íà îäíîé íèòè ñîäåðæèòñÿ 4 ìëí áóêâ A, 3 ìëí áóêâ C, 2 ìëí áóêâ G è 1 ìëí áóêâ T, òîãäà íà âòîðîé íèòè íàõîäèòñÿ ñîîòâåòñòâåí- íî 4 ìëí áóêâ T, 3 ìëí áóêâ G, 2 ìëí áóêâ C è 1 ìëí áóêâ A. Òàêèì îáðàçîì, êîì- ïëåìåíòàðíîñòü ïî äâóì íèòÿì âûïîëíÿåòñÿ, à ïî îäíîé íèòè íåò. Èç ñîîòíîøå- ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 51 íèé (3) âûòåêàåò, ÷òî ìîëåêóëÿðíûé âåñ îáåèõ íèòåé ïðèìåðíî îäèíàêîâ. Ýòîò ìî- ìåíò ÿâëÿåòñÿ âàæíûì äëÿ óïàêîâêè ÄÍÊ, â ïðîòèâíîì ñëó÷àå èç-çà âîçíèêàþùèõ íàïðÿæåíèé ìîëåêóëà ÄÍÊ ìîãëà áû ðàçîðâàòüñÿ. Âû÷èñëåíèÿ ïîêàçàëè, ÷òî ÷àñòîòû êîìïëåìåíòàðíûõ îñíîâàíèé A è T, à òàê- æå C è G, ïîäñ÷èòàííûå ïî îäíîé íèòè ÄÍÊ, ñîâïàäàþò íà âñåõ õðîìîñîìàõ (ãåíîì ÷åëîâåêà, øèìïàíçå, ìûøè, ðûáû Tetraodon, ðàñòåíèé, áàêòåðèé è ò.ä.) [15]. Äëÿ ïàð îñíîâàíèé âûïîëíÿþòñÿ ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè n ij n ji( ) ( ) , (4) ãäå i j, �{A, C, G, T}, A T� , C G� , T A� , G C� . Çàìåòèì, ÷òî ïàðû AT, TA, CG è GC íå ïðåäñòàâëåíû â (4), ïîñêîëüêó îíè ñàìè ñåáå àíòèêîìïëåìåíòàð- íû [15, 16]. Çàïèñü è ñ÷èòûâàíèå îñíîâàíèé ó ïåðâîé íèòè õðîìîñîìû ÄÍÊ âûïîëíÿåòñÿ ñëåâà íàïðàâî â íàïðàâëåíèè 5 3' '' , à ó êîìïëåìåíòàðíîé âòîðîé íèòè — â íà- ïðàâëåíèè 5 3' '' ñïðàâà íàëåâî (ðèñ. 6). Èçâåñòíî, ÷òî ñîîòíîøåíèÿ � ( ) ( , ) ( ) p ij n i j n i � , (5) ãäå n ij( ) — ÷èñëî ïàð ( )ij , i, j�{A, C, G, T}, n i( ) — ÷èñëî îñíîâàíèé i â öåïè õðîìîñîìû, ïðåäñòàâëÿþò ñîáîé îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé äëÿ îäíîðîä- íûõ öåïåé Ìàðêîâà.  [18] ïîêàçàíî, ÷òî äëÿ äëèííûõ öåïåé îöåíêè (5) ñõîäÿò- ñÿ ïî âåðîÿòíîñòè ê çíà÷åíèÿì ïåðåõîäíûõ âåðîÿòíîñòåé. Èç ñîîòíîøåíèé êîìïëåìåíòàðíîñòè (3), (4) âûòåêàåò, ÷òî âòîðàÿ êîìïëåìåí- òàðíàÿ íèòü â íàïðàâëåíèè 5 3' '' èìååò òàêèå æå îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé � ( )p ij , ÷òî è èñõîäíàÿ ïåðâàÿ íèòü (íà ðèñ. 6 ïðåäñòàâëåíà ïàðà AC è àíòèêîìïëå- ìåíòàðíàÿ åé ïàðà GT). Îòñþäà ñëåäóåò, ÷òî âåðîÿòíîñòè äâóõ ïðîòèâîïîëîæíûõ íèòåé õðîìî- ñîìû, ïîäñ÷èòàííûå â ìîäåëè îäíîðîäíîé öåïè Ìàðêîâà íà îñíîâå îöåíîê ïåðåõîäíûõ âå- ðîÿòíîñòåé (5), ñîâïàäàþò. Ïóñòü x x x xn n1 2 1, ,... , ,� — êîíå÷íàÿ ïîñëåäîâàòåëüíîñòü îñíîâàíèé, çàïèñàííûõ íà ïåðâîé íèòè, òîãäà x x x xn n, ,� # #1 2 1� — êîìïëåìåíòàðíàÿ åé ïîñëåäîâà- òåëüíîñòü îñíîâàíèé, çàïèñàí- íûõ íà âòîðîé íèòè (ðèñ. 7). Äëÿ îäíîðîäíîé öåïè Ìàð- êîâà ïîðÿäêà 1 âûïîëíÿåòñÿ ñëå- äóþùåå âàæíîå óòâåðæäåíèå. Ëåììà. Îöåíêà âåðîÿòíîñòè ïîñëåäîâàòåëüíîñòè x x x xn n1 2 1, ,... , ,� ñîâïàäàåò ñ îöåíêîé âåðîÿòíîñòè ïîñëåäîâàòåëüíîñòè x x x xn n, ,� # #1 2 1� , ò.å. � ( , ,... , , ) � ( , , )p x x x x p x x x xn n n n1 2 1 1 2 1� �� # #� . (6) Âåðîÿòíîñòü îäíîðîäíîé öåïè Ìàðêîâà îïðåäåëÿåòñÿ ñîîòíîøåíèåì p x x x x p x p x x p x xn n n n( , ,... , , ) ( ) ( , )... ( , )1 2 1 1 1 2 1� �� , (7) ãäå p x( )1 — âåðîÿòíîñòü íà÷àëüíîãî ñîñòîÿíèÿ, p x xi i( , )�1 — ïåðåõîäíûå âåðî- ÿòíîñòè, i n�1 2, ,... , . Çàìåíèâ âåðîÿòíîñòü íà÷àëüíîãî ñîñòîÿíèÿ ÷àñòîòîé, à ïåðåõîäíûå âåðîÿòíîñ- òè p x xi i( , )�1 â (7) — èõ îöåíêàìè (5), ïîëó÷èì ñîîòíîøåíèå (6). Îòñþäà ñëåäóåò, 52 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 5' AC GT 3' 1-ÿ íèòü ………………………….. 3' TG CA 5' 2-ÿ íèòü ………………. Ðèñ. 6. Óñëîâíàÿ çàïèñü äâóõ íèòåé õðîìîñîìû 5' x1, x2, (, xn�1, xn 3' 1-ÿ íèòü 3' 5' 2-ÿ íèòü Ðèñ. 7. Êîìïëåìåíòàðíîñòü íóêëåîòèäíûõ ïîñëåäîâàòåëü- íîñòåé x x x xn n1 2 1, , , ,� � ÷òî âåðîÿòíîñòè äâóõ ïðîòèâîïîëîæíûõ íèòåé, ïîäñ÷èòàííûå äëÿ ìîäåëè îäíîðîä- íîé öåïè Ìàðêîâà, ñîâïàäàþò. Êîäîíû (òðîéêè îñíîâàíèé) ñâÿçàíû ñîîòíîøåíèÿìè êîìïëåìåíòàðíîñòè n i j k n k j i( , , ) ( , , ) , (8) ãäå n i j k( , , ) — ÷èñëî òðîåê îñíîâàíèé ( , , )i j k , à ( , , )k i j — àíòèêîäîí êîäîíà ( , , )i j k . Äëÿ 64 òðèïëåòîâ ïîëó÷àåì 32 ñîîòíîøåíèÿ (4) òèïà êîäîí–àíòèêîäîí. Ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè âèäà (8) âûïîëíÿþòñÿ òàêæå äëÿ áîëåå äëèí- íûõ ïîñëåäîâàòåëüíîñòåé îñíîâàíèé [15, 16]. Îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé äëÿ öåïåé Ìàðêîâà ïîðÿäêà 2 îïðåäåëÿþòñÿ ñîîòíîøåíèÿìè � ( , , ) ( , , ) ( , ) p i j k n i j k n i j � , (9) ãäå n i j k( , , ) — êîëè÷åñòâî òðîåê îñíîâàíèé ( , , )i j k , à n i j( , ) — êîëè÷åñòâî ïàð ( , )i j , i j k, , �{A, C, G, T}. Èç ñîîòíîøåíèé êîìïëåìåíòàðíîñòè (8) çàêëþ÷àåì, ÷òî îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé (9) äëÿ îáåèõ íèòåé, ïîäñ÷èòàííûå â íàïðàâëåíèè 5 3' '' , ñîâïàäàþò. Ëåãêî ïîêàçàòü, ÷òî ðåçóëüòàò ëåììû ñïðàâåäëèâ è äëÿ öåïåé Ìàðêîâà ïîðÿäêà 2. Àìèíîêèñëîòíàÿ ïîñëåäîâàòåëüíîñòü áåëêà ïîëó÷àåòñÿ ïóòåì òðàíñëÿöèè ÷å- òûðåõáóêâåííîãî àëôàâèòà îñíîâàíèé â äâàäöàòèáóêâåííûé àëôàâèò àìèíîêèñëîò- íûõ îñòàòêîâ. Ãåíåòè÷åñêèé êîä îáðàçóåò ôóíêöèþ, êîòîðàÿ ïåðåâîäèò íåïåðåñåêà- þùèåñÿ òðîéêè îñíîâàíèé â îäíó èç àìèíîêèñëîò. Ñèíòåç áåëêîâ âûïîëíÿåòñÿ ïî äâóì íèòÿì â íàïðàâëåíèè 5 3' '' . Ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè âèäà (8) âû- ïîëíÿþòñÿ òàêæå äëÿ íåïåðåñåêàþùèõñÿ òðîåê îñíîâàíèé è øåñòåðîê, ñîñòîÿùèõ èç íåïåðåñåêàþùèõñÿ òðîåê. Ïîýòîìó, ðàññóæäàÿ ôîðìàëüíî, ìîæíî ñäåëàòü âû- âîä, ÷òî àìèíîêèñëîòíûå ïîñëåäîâàòåëüíîñòè áåëêîâ, ñèíòåçèðîâàííûõ ïî ïåðâîé íèòè, èìåþò òàêèå æå îöåíêè ïåðåõîäíûõ âåðîÿòíîñòåé (âèäà (5)), ÷òî è áåëêè, êî- òîðûå ñèíòåçèðóþòñÿ ïî âòîðîé íèòè. Ãåíîìû áàêòåðèé èìåþò ñðàâíèòåëüíî ïðîñòóþ ñòðóêòóðó: áåëîê-êîäèðóþùèå ó÷àñòêè íå ïðåðûâàþòñÿ íåêîäèðóþùèìè âñòàâêàìè — èíòðîíàìè. Ýòà îñîáåí- íîñòü áàêòåðèàëüíûõ ãåíîìîâ ïîçâîëÿåò âûäåëÿòü è îòäåëüíî àíàëèçèðîâàòü àìè- íîêèñëîòíûå ïîñëåäîâàòåëüíîñòè áåëîê-êîäèðóþùèõ ó÷àñòêîâ. ×èñëåííûå ðàñ÷å- òû, ïðîâåäåííûå íà ãåíîìàõ áàêòåðèé, ïîäòâåðäèëè ïðåäñòàâëåííûé âûøå âûâîä.  òàáë. 1 ïðèâåäåíû ÷àñòîòû àìèíîêèñëîò è îòäåëüíûõ ïàð àìèíîêèñëîò â ÄÍÊ áàêòåðèè. Ïðîáëåìà ïðîãíîçèðîâàíèÿ ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêîâ îáñóæäàëàñü â [19–21], òàì æå ïðèâåäåíà ïîñòàíîâêà çàäà÷è ïðåäñêàçàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêîâ íà îñíîâå ïðèìåíåíèÿ ýôôåêòèâíûõ áàéåñîâñêèõ ïðîöåäóð ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêîâà. Èìååòñÿ ïåðâè÷íàÿ ïîñëåäîâàòåëüíîñòü àìèíîêèñëîò áåëêà, íå- îáõîäèìî îïðåäåëèòü åå âòîðè÷íóþ ñòðóêòóðó: ïîñòàâèòü â ñîîòâåòñòâèå êàæäîé àìèíîêèñëîòå îäèí èç äâóõ âîçìîæíûõ òèïîâ ðåãóëÿðíîé ñòðóêòóðû (�-ñïèðàëü, �-ñëîé) èëè åå îòñóòñòâèå, ò.å. íåðåãóëÿðíîñòü (coil). Áàéåñîâñêàÿ ïðîöåäóðà ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêîâà.  ðàáîòàõ [19–21] èññëåäîâàëàñü ïðîöåäóðà ïðåäñêàçàíèÿ âòîðè÷íîé ñòðóêòóðû îäèíî÷íîé àìèíîêèñ- ëîòû íà îñíîâå èçâåñòíîé ôîðìóëû Áàéåñà P f x x x P x x x f P f P x x n n( | , ,... , ) ( , ,... , | ) ( ) ( , ,... 1 2 1 2 1 2 � , )xn . (10) Çäåñü f — ñîñòîÿíèå àìèíîêèñëîòû, ÷èñëî êëàññîâ f — 60, òàê êàê 20 — êîëè÷åñ- òâî àìèíîêèñëîò, 3 — ÷èñëî âòîðè÷íûõ ñòðóêòóð. Òèï âòîðè÷íîé ñòðóêòóðû îïðå- äåëÿëñÿ îêðóæåíèåì x x x xn n1 2 1, ,... , ,� èç ñîñåäíèõ àìèíîêèñëîò, ðàñïîëîæåííûõ ñëåâà è ñïðàâà îò èññëåäóåìîé àìèíîêèñëîòû xs (ðèñ. 8). Âåðîÿòíîñòè ïîñëåäîâà- òåëüíîñòè x x x xn n1 2 1, ,... , ,� îöåíèâàëèñü äëÿ ìîäåëåé íåñòàöèîíàðíûõ öåïåé Ìàðêîâà ðàçëè÷íûõ ïîðÿäêîâ ïî ôîðìóëàì âèäà (5), (9). ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 53 Íà âûáîðêå èç 20 òûñÿ÷ áåëêîâ ñðåäíèé ïðîöåíò ðàñïîçíàâàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêîâ íà îñíîâå áàéåñîâñêèõ ïðîöåäóð ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêî- âà ñîñòàâèë 85 %. Çàìåòèì, ÷òî â ëèòåðàòóðå äî ñèõ ïîð íå ïðèâåäåíî îáúÿñ- íåíèÿ ôåíîìåíà âûïîëíåíèÿ ñîîòíîøåíèé êîìïëåìåíòàð- íîñòè â çàïèñè îñíîâàíèé ïî îäíîé íèòè ÄÍÊ. Èçëîæåííûå ðåçóëüòàòû ïîêàçàëè, ÷òî ýô- ôåêòèâíîå ïðèìåíåíèå áàéå- ñîâñêèõ ïðîöåäóð â ïðîöåññå ïðåäñêàçàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêîâ, ïî ñóòè, ïîëó÷åíî íà îñíîâå âûïîëíå- íèÿ ñîîòíîøåíèé êîìïëåìåíòàðíîñòè â ãåíîìàõ âûñøèõ îðãàíèçìîâ. Ñîîòíîøå- íèÿ êîìïëåìåíòàðíîñòè èãðàþò âàæíåéøóþ ðîëü â ôîðìèðîâàíèè ïðîñòðàíñòâåí- íîé ñòðóêòóðû áåëêîâûõ ìîëåêóë. 5. ÔÎËÄÈÍà ÁÅËÊÀ Ôîëäèíã — ïðîöåññ ñâîðà÷èâàíèÿ ïîëèïåïòèäíîé öåïè â óíèêàëüíóþ («íàòèâ- íóþ») ïðîñòðàíñòâåííóþ ñòðóêòóðó. Ýòîò ïðîöåññ âñåãäà âåäåò ê îäíîé è òîé æå ïðîñòðàíñòâåííîé ñòðóêòóðå, äëÿ îäíîé è òîé æå öåïè è äëèòñÿ ìåíåå ñåêóíäû. Ýòî íàáëþäåíèå â ñâîå âðåìÿ ïðèâåëî ê ãèïîòåçå îá óíèêàëüíîñòè ïðîñòðà- íñòâåííîé ñòðóêòóðû áåëêà â çàâèñèìîñòè îò åãî àìèíîêèñëîòíîãî êîäà. Çàäà÷åé ôîëäèíãà íàçûâàåòñÿ îïðåäåëåíèå ïî àìèíîêèñëîòíîé ïîñëåäîâàòåëü- íîñòè áåëêà åãî ïðîñòðàíñòâåííîé ñòðóêòóðû, à èìåííî, ãäå ðàñïîëîæåíû �-ñïèðà- ëè, �-ëèñòû è ó÷àñòêè coil; êàêèì îáðàçîì �-ñïèðàëè, �-ëèñòû è ó÷àñòêè coil îáðà- çóþò ìîòèâû è äîìåíû. Ìîòèâîì íàçûâàþò îïðåäåëåííóþ ïîñëåäîâàòåëüíîñòü ýëåìåíòîâ âòîðè÷íîé ñòðóêòóðû áåëêà. Êàê ïðàâèëî, ýòî ïðîñòàÿ êîðîòêàÿ ïîñëåäîâàòåëüíîñòü, êîòîðàÿ 54 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 Ò à á ë è ö à 1 Àìèíîêèñëîòà ×àñòîòà Ïàðû àìèíîêèñëîò ×àñòîòà 1-ÿ íèòü 2-ÿ íèòü 1-ÿ íèòü 2-ÿ íèòü A 0,08477 0,08648 AC 0,01153 0,01103 R 0,05099 0,05322 RV 0,06283 0,06112 D 0,05160 0,05491 DW 0,01883 0,01861 N 0,03633 0,03794 NE 0,04040 0,03936 C 0,01096 0,01116 CF 0,04485 0,04403 E 0,06098 0,06341 ET 0,06204 0,06181 Q 0,05099 0,05099 QD 0,04539 0,04593 G 0,06824 0,06961 GM 0,02125 0,02003 H 0,02227 0,02281 HA 0,06360 0,06597 I 0,06021 0,06129 IR 0,04989 0,05084 L 0,11011 0,11502 LN 0,03972 0,03978 K 0,04121 0,04225 KQ 0,05944 0,06075 M 0,02023 0,02045 MG 0,08411 0,08025 F 0,03890 0,04036 FH 0,02033 0,02148 P 0,05122 0,05266 PI 0,06176 0,06045 S 0,06500 0,06754 SK 0,03861 0,03956 T 0,05804 0,05933 TL 0,12268 0,12478 W 0,01533 0,01590 WS 0,06275 0,06673 Y 0,02803 0,02952 YP 0,05443 0,05434 V 0,06573 0,06640 VY 0,02683 0,02668 x1 x2 xs xn�1 xn( ( ( ( Ðèñ. 8. Ñõåìà ïðåäñêàçàíèÿ âòîðè÷íîé ñòðóêòóðû îäèíî÷íîé àìèíîêèñëîòû âñòðå÷àåòñÿ â íåñêîëüêèõ áåëêàõ. Íàïðèìåð, ñïèðàëü-coil-ñïèðàëü. Ýòîò ìîòèâ âñòðå÷àåòñÿ âî ìíîãèõ áåëêàõ äëÿ ñâÿçè ñ àòîìàìè êàëüöèÿ. Òàêèì îáðàçîì, ó íåãî åñòü âïîëíå îïðåäåëåííàÿ ôóíêöèÿ. Äîìåíîì íàçûâàþò áîëåå ñëîæíóþ, ÷åì ìîòèâ, êîìáèíàöèþ âòîðè÷íûõ ñòðóêòóð ñ î÷åíü óçêîé ôóíêöèîíàëüíîñòüþ è èìåþùóþ àêòèâíûé öåíòð, êîòîðûé ìîæåò ó÷àñ- òâîâàòü â ñâÿçè ñ âíåøíèìè ìîëåêóëàìè. Äîìåíîâ ìîæåò áûòü îäèí èëè íåñêîëüêî. Ñóùåñòâóåò ìíîæåñòâî ïîäõîäîâ ê ðåøåíèþ çàäà÷è ôîëäèíãà, îäíèì èç êîòî- ðûõ ÿâëÿåòñÿ òðåäèíã (threading). Îñíîâíàÿ èäåÿ òðåäèíãà çàêëþ÷àåòñÿ â òîì, ÷òî áåëêè íå ñâîðà÷èâàþòñÿ â ñëó÷àéíûå ñòðóêòóðû ñ áåñêîíå÷íûì ðàçíîîáðàçèåì âà- ðèàíòîâ. Íà ñàìîì äåëå, êîëè÷åñòâî ðàçëè÷íûõ ïðîñòðàíñòâåííûõ ñòðóêòóð áåëêîâ êîíå÷íî, è ìîæíî äàæå âûäåëèòü öåëûé ðÿä îïðåäåëåííûõ ìîòèâîâ, ïðèñóòñòâóþ- ùèõ âî ìíîãèõ áåëêàõ. Òàê, íàïðèìåð, òîëüêî 15 % áåëêîâ, äîáàâëåííûõ â Protein Data Bank çà ïîñëåäíèå íåñêîëüêî ëåò, ìîæíî ñ÷èòàòü îáëàäàþùèìè íîâûìè âèäà- ìè ïðîñòðàíñòâåííîé ñòðóêòóðû. Âñå ýòî ïîçâîëèëî ðàçðàáîòàòü ìåòîä òðåäèíãà, ñîñòîÿùèé â âûðàâíèâàíèè áåëêîâîé ïîñëåäîâàòåëüíîñòè ñîãëàñíî òîé èëè èíîé ïðåäïîëàãàåìîé ïðîñòðàíñòâåííîé ñòðóêòóðå. Ñóùåñòâóåò ìíîæåñòâî àëãîðèòìîâ òðåäèíãà, íî ó íèõ ìîæíî âûäåëèòü îáùèå ÷åðòû. Íà íà÷àëüíîì ýòàïå òðåäèíãà ïðåäïîëàãàåòñÿ, ÷òî ó èññëåäîâàòåëÿ åñòü äëÿ èçó÷åíèÿ àìèíîêèñëîòíàÿ ïîñëåäîâàòåëüíîñòü áåëêà ñ íåèçâåñòíîé ïðîñòðàíñòâåí- íîé ñòðóêòóðîé è áàçà äàííûõ î áåëêàõ, àìèíîêèñëîòíàÿ ïîñëåäîâàòåëüíîñòü è ïðî- ñòðàíñòâåííàÿ ñòðóêòóðà êîòîðûõ èçâåñòíû (íàïðèìåð, Protein Data Bank). Íà ñëåäó- þùåì øàãå âûïîëíÿåòñÿ ïðîöåäóðà ñîïîñòàâëåíèÿ èññëåäóåìîé öåïî÷êè ñ èçâåñòíû- ìè, ïîñëåäîâàòåëüíî, äëÿ âñåõ âîçìîæíûõ ñäâèãîâ öåïî÷åê îòíîñèòåëüíî îäíà äðóãîé. Ïðè ýòîì èñïîëüçóåòñÿ íåêàÿ êâàçèýíåðãåòè÷åñêàÿ ôóíêöèÿ, ñ ïîìîùüþ êî- òîðîé îöåíèâàþò êà÷åñòâî ñîâïàäåíèÿ è âûáèðàþò îäíîãî èëè íåñêîëüêî ëó÷øèõ êàíäèäàòîâ. Çàòåì íà îñíîâå èíôîðìàöèè î ïðîñòðàíñòâåííîé ñòðóêòóðå áåëêîâ, âû- áðàííûõ íà ïðåäûäóùåì øàãå, ñòðîèòñÿ íåêàÿ ïîñëåäîâàòåëüíîñòü âòîðè÷íûõ ñòðóê- òóð, ñ çàäàííûì ðàñïîëîæåíèåì â ïðîñòðàíñòâå. Íà ïîñëåäíåì øàãå òðåäèíãà èññëå- äóåìûé áåëîê âûðàâíèâàåòñÿ ïî ýòîé ïðîñòðàíñòâåííîé ñòðóêòóðå [22, 23]. Ïðèâåäåì ìàòåìàòè÷åñêóþ ôîðìóëèðîâêó âûðàâíèâàíèÿ ñòðóêòóðû ê ïîñëåäî- âàòåëüíîñòè àìèíîêèñëîò (ðèñ. 9), â êîòîðîé îïðåäåëåíû: � àìèíîêèñëîòíàÿ ïîñëåäîâà- òåëüíîñòü áåëêà A, ñîñòîÿùàÿ èç n àìèíîêèñëîò a a a an1 2 3 ... ; � îöåíî÷íàÿ ôóíêöèÿ âûðàâ- íèâàíèÿ f ; ìîäåëü ñòðóêòóðû áåë- êà C , ñîñòîÿùåé èç m âòîðè÷íûõ ñòðóêòóð, äëÿ êàæäîé èç êîòîðûõ èçâåñòíû äëèíà ci âòîðè÷íîé ñòðóêòóðû i, à òàêæå òî, ÷òî âòî- ðè÷íûå ñòðóêòóðû i è i �1 ñîåäè- íåíû ñïèðàëüþ, äëÿ êîòîðîé èç- âåñòíû åå ìàêñèìàëüíî è ìèíèìàëüíî âîçìîæíûå äëèíû li max è li min . Äëÿ ðåøåíèÿ çàäà÷è íåîáõîäèìî íàéòè òàêîå ìíîæåñòâî T t tm�{ }1 ,... , , ïðè êîòîðîì çíà÷åíèå f áóäåò ìàêñèìàëüíî.  ìíîæåñòâå T t i óêàçûâàåò, êàêàÿ àìèíî- êèñëîòà èç ïîñëåäîâàòåëüíîñòè A ÿâëÿåòñÿ ïåðâîé âõîäÿùåé â i-þ ñòðóêòóðó. Åñëè èãíîðèðîâàòü âçàèìîäåéñòâèå ìåæäó ïàðàìè àìèíîêèñëîò, òî ñôîðìóëèðî- âàííàÿ âûøå çàäà÷à ðåøàåòñÿ ìåòîäàìè äèíàìè÷åñêîãî ïðîãðàììèðîâàíèÿ, â ïðîòèâíîì ñëó÷àå îíà ÿâëÿåòñÿ NP-ïîëíîé è ïîèñê ïðèáëèæåííîãî ðåøåíèÿ çàìåòíî óñëîæíÿåòñÿ. Òàêèì îáðàçîì, ïîëíîñòüþ ïðîöåäóðà òðåäèíãà ñîñòîèò èç ñëåäóþùèõ øàãîâ: � âûðàâíèâàíèå òèïà «öåïî÷êà»-«öåïî÷êà» è ïîèñê íàèáîëåå ïîäõîäÿùèõ êàí- äèäàòîâ; � ïîñòðîåíèå ïðåäïîëàãàåìîé ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêà íà îñíîâå ïðîñòðàíñòâåííûõ ñòðóêòóð íàéäåííûõ êàíäèäàòîâ; � âûðàâíèâàíèå òèïà «öåïî÷êà»-«ñòðóêòóðà». Êàæäûé èç ýòèõ øàãîâ ñòàâèò ïåðåä èññëåäîâàòåëÿìè öåëûé ðÿä ñëîæíûõ âîïðî- ñîâ, ÷òî ïðèâåëî ê ïîÿâëåíèþ ìíîæåñòâà ðàçëè÷íûõ àëãîðèòìîâ òðåäèíãà. Òðåäèíã ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 55 2 31 a1a2a3a4a5a6a7a8a9a10a11a12a13a14a15a16a17a18a19a20 T � {5, 8, 17} Ðèñ. 9. Èëëþñòðàöèÿ ïðîöåññà âûðàâíèâàíèÿ àìèíîêèñ- ëîòíîé ïîñëåäîâàòåëüíîñòè áåëêà è åãî ïðåäïîëàãàåìîé ïðîñòðàíñòâåííîé ñòðóêòóðû äàåò õîðîøèå ðåçóëüòàòû, íî äëÿ äåéñòâèòåëüíî ñëîæíûõ çàäà÷ èñïîëüçóåòñÿ â îñíîâ- íîì êàê âñïîìîãàòåëüíûé ìåòîä äëÿ ïîñòðîåíèÿ ìîäåëè â ïåðâîì ïðèáëèæåíèè. Çàòåì ðåçóëüòàòû òðåäèíãà óòî÷íÿþòñÿ ñ ïîìîùüþ äðóãèõ ìåòîäîâ è àëãîðèòìîâ. 6. ÎÖÅÍÊÀ ÊÀ×ÅÑÒÂÀ Ñóùåñòâóåò äâà ãëîáàëüíûõ ýêñïåðèìåíòà ïî îöåíêå êà÷åñòâà ïðåäñêàçàíèÿ ïðî- ñòðàíñòâåííîé ñòðóêòóðû áåëêîâ: CASP è EVA [24, 25]. CASP (Critical Assessment of Techniques for Protein Structure Prediction) — îò- êðûòûé äëÿ âñåõ íàó÷íûõ ãðóïï ýêñïåðèìåíò, öåëüþ êîòîðîãî ÿâëÿåòñÿ èçó÷åíèå òåêóùåãî ñîñòîÿíèÿ â îáëàñòè ïðåäñêàçàíèÿ ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêîâ, à òàêæå îïðåäåëåíèå îñíîâíûõ ïðîáëåì è çàäà÷, êðèòè÷åñêè âàæíûõ äëÿ äîñòèæåíèÿ óñïåõà â ýòîé îáëàñòè.  ðàìêàõ CASP òàêæå ïðîâîäèòñÿ ÷èñëåííàÿ îöåíêà êà÷åñ- òâà ïðåäñêàçàíèé ýêñïåðèìåíòîâ êàæäîé íàó÷íîé ãðóïïû-ó÷àñòíèêà, ÷òî ïðåâðàòè- ëî åãî â ïðåñòèæíîå ñîðåâíîâàíèå. Íà äàííûé ìîìåíò â CASP ïðèíèìàåò ó÷àñòèå áîëåå 200 íàó÷íûõ ãðóïï ñî âñåãî ìèðà.  îðãàíèçàöèîííîé ñòðóêòóðå ýêñïåðèìåíòà ìîæíî âûäåëèòü ñëåäóþùèå ãðóïïû: 1) îðãàíèçàòîðû — îòâå÷àþò çà âñå òåõíè÷åñêèå è îðãàíèçàöèîííûå àñïåêòû, ñâÿ- çàííûå ñ ïðîâåäåíèåì ýêñïåðèìåíòîâ è èõ îáñóæäåíèåì, íà÷èíàÿ îò âûáîðà öåëåé äëÿ ïðîãíîçèðîâàíèÿ è çàêàí÷èâàÿ îðãàíèçàöèåé î÷íûõ âñòðå÷ ó÷àñòíèêîâ ýêñïåðèìåíòà; 2) íåçàâèñèìûå îöåíèâàþùèå ýêñïåðòû — ãðóïïû ïî äâà ÷åëîâåêà, â êàæäîé êàòå- ãîðèè ïðåäñêàçàíèé, êîòîðûå îòâå÷àþò çà îöåíèâàíèå êà÷åñòâà ïðåäñêàçàíèé ó÷àñòíèêà- ìè è âûÿâëåíèå îñíîâíûõ ñóùåñòâóþùèõ ïðîáëåì â îáëàñòè ïðîãíîçèðîâàíèÿ áåëêîâ; äëÿ îöåíêè êà÷åñòâà ïðåäñêàçàíèé ýêñïåðòû ïîëüçóþòñÿ óòâåðæäåííûìè è ñîãëàñîâàí- íûìè ðàíåå ìåòîäàìè, íî èìåþò ïðàâî äîáàâëÿòü ê íèì ñîáñòâåííûå ìåòîäèêè; 3) êîíñóëüòàíòû — ãðóïïû, ñîñòîÿùèå èç ïðåäûäóùèõ ó÷àñòíèêîâ ýêñïåðè- ìåíòà (îêîëî äåñÿòè ÷åëîâåê íà êàæäóþ êàòåãîðèþ ïðåäñêàçàíèé), âëèÿþùèå íà âûáîð ìåòîäîâ íåçàâèñèìûìè îöåíèâàþùèìè ýêñïåðòàìè, à òàêæå íà äðóãèå òåõ- íè÷åñêèå àñïåêòû ýêñïåðèìåíòà; 4) îðãàíèçàöèîííîå ñîáðàíèå ó÷àñòíèêîâ — ïåðåä êàæäûì î÷åðåäíûì CASP ïðîèñõîäèò î÷íîå ñîáðàíèå åãî ó÷àñòíèêîâ, íà êîòîðîì ïóòåì ãîëîñîâàíèÿ ðåøà- þòñÿ îðãàíèçàöèîííûå è òåõíè÷åñêèå âîïðîñû ïðåäñòîÿùåãî ýêñïåðèìåíòà (äàòà ïðîâåäåíèÿ, âûáîð êîíñóëüòàíòîâ è ýêñïåðòîâ), à òàêæå îáñóæäàþòñÿ ëþáûå ñó- ùåñòâåííûå èçìåíåíèÿ â ñàìîé ïðîöåäóðå ýêñïåðèìåíòà; 5) «Öåíòð ïî ïðåäñêàçàíèþ ñòðóêòóðû áåëêîâ» â Ëàáîðàòîðèè Ëîðåíñà Ëèâåð- ìîðà — îòâå÷àåò çà ñáîð, óïðàâëåíèå è õðàíåíèå âñåõ äàííûõ ýêñïåðèìåíòà (äàí- íûå ïî öåëÿì ïðåäñêàçàíèé, ðåçóëüòàòû ïðåäñêàçàíèé ó÷àñòíèêîâ ýêñïåðèìåíòà, ìåòîäû è ðåçóëüòàòû îöåíêè ïðåäñêàçàíèé è ò.ï.). CASP ïðîâîäèòñÿ ðàç â äâà ãîäà.  êà÷åñòâå öåëåé äëÿ ïðåäñêàçàíèÿ âûáèðà- þòñÿ áåëêè, òðåòè÷íàÿ ñòðóêòóðà êîòîðûõ åùå íå èçâåñòíà, íî áóäåò èññëåäîâàíà ê îêîí÷àíèþ ýêñïåðèìåíòà, ëèáî èçâåñòíà, íî íèãäå ðàíåå íå îïèñûâàëàñü â îòêðû- òîì äîñòóïå.  CASP ïðèíèìàþò ó÷àñòèå êàê ãðóïïû ýêñïåðòîâ, òàê è ïîëíîñòüþ àâòîìàòèçèðîâàííûå ñåðâåðû.  ïåðâîì ñëó÷àå ìàøèííûå âû÷èñëåíèÿ òàêæå èñ- ïîëüçóþòñÿ, íî íå â òàêèõ îáúåìàõ, êàê âî âòîðîì; îêîí÷àòåëüíàÿ ìîäåëü ïðîñòðà- íñòâåííîé ñòðóêòóðû èññëåäóåìîãî áåëêà ïðîâåðÿåòñÿ è èñïðàâëÿåòñÿ ÷åëîâåêîì. Âî âòîðîì ñëó÷àå âñÿ ðàáîòà ïî ïðåäñêàçàíèþ è ïîñòðîåíèþ òðåòè÷íîé ñòðóêòóðû áåëêà ïðîâîäèòñÿ êîìïüþòåðîì. Ñëåäóåò îòìåòèòü, ÷òî íà÷èíàÿ ñ CASP-6 ðàçíèöà â èòîãîâîì ðåçóëüòàòå ìåæäó êîìïüþòåðàìè è ëþäüìè î÷åíü íåçíà÷èòåëüíà, õîòÿ ïðåèìóùåñòâî âñå åùå íà ñòîðîíå ýêñïåðèìåíòàòîðîâ. Êîíêðåòíûå çàäà÷è, ðåøàåìûå â ðàìêàõ êàæäîãî ýêñïåðèìåíòà â CASP, ñëåäóþùèå: — ïðåäñêàçàíèå òðåòè÷íîé ñòðóêòóðû áåëêîâûõ ìîëåêóë (âñå CASP-ýêñïåðè- ìåíòû); — ïðåäñêàçàíèå âòîðè÷íîé ñòðóêòóðû áåëêîâûõ ìîëåêóë (îòìåíåíî ïîñëå CASP-5); — ïðåäñêàçàíèå áåëêîâûõ êîìïëåêñîâ (òîëüêî â ðàìêàõ CASP-2, â íàñòîÿùåå âðåìÿ ýòà çàäà÷à ðåøàåòñÿ â ðàìêàõ îòäåëüíîãî ýêñïåðèìåíòà CAPRI); — ïðåäñêàçàíèå áèîëîãè÷åñêîé ôóíêöèè áåëêà (íà÷èíàÿ ñ CASP-6); 56 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 — ïðåäñêàçàíèå êîíòàêòà «àìèíîêèñëîòà-àìèíîêèñëîòà» â áåëêå (íà÷èíàÿ ñ CASP-4); — îöåíêà êà÷åñòâà ìîäåëèðîâàíèÿ (íà÷èíàÿ ñ CASP-7); — ðàñïîçíàâàíèå ãðàíèö äîìåíîâ áåëêà (íà÷èíàÿ ñ CASP-6). Çàäà÷è â ðàìêàõ ïðåäñêàçàíèÿ òðåòè÷íîé ñòðóêòóðû áåëêîâ, â ñâîþ î÷åðåäü, òàêæå äåëÿòñÿ íà äâå êàòåãîðèè: 1) øàáëîííîå ìîäåëèðîâàíèå (Template Modeling) — ñàìûé ïðîñòîé êëàññ çà- äà÷ ðàñïîçíàâàíèÿ, ê íåìó îòíîñÿò áåëêîâûå ìîëåêóëû, äëÿ êîòîðûõ ñóùåñòâóþò áëèçêèå ðîäñòâåííûå áåëêè ñ èçâåñòíîé òðåòè÷íîé ñòðóêòóðîé; 2) íåøàáëîííîå ìîäåëèðîâàíèå (Template Free Modeling) — íàèáîëåå ñëîæíûå äëÿ ðàñïîçíàâàíèÿ áåëêè, íå èìåþùèå èçó÷åííûõ ðàíåå ðîäñòâåííûõ àíàëîãîâ.  íàñòîÿùåå âðåìÿ îòìå÷àåòñÿ ïðîãðåññ êà÷åñòâà CASP-ýêñïåðèìåíòîâ. Ïðàê- òè÷åñêè âñå ó÷àñòíèêè ýêñïåðèìåíòà óêàçûâàëè íà îòñóòñòâèå çíà÷èìûõ ðåçóëüòà- òîâ íà÷èíàÿ ñ CASP-5, ò.å. ñ 2002 ãîäà [26]. Ýòîò ôàêò ìîæåò ñâèäåòåëüñòâîâàòü ëèáî î íåäîñòàòêàõ ñóùåñòâóþùèõ ìåòîäîâ ïðåäñêàçàíèÿ, ëèáî îá îãðàíè÷åíèÿõ ñî ñòîðîíû âû÷èñëèòåëüíûõ ìîùíîñòåé, äîñòóïíûõ èññëåäîâàòåëÿì. Îäíàêî CASP-7 ïîêàçàë, ÷òî ïîñëåäíåå íå ÿâëÿåòñÿ îñíîâíûì îãðàíè÷èâàþùèì ôàêòîðîì â ïðåä- ñêàçàíèè òðåòè÷íîé ñòðóêòóðû áåëêîâ, áîëåå òîãî, ãðóïïà, ïîáåäèâøàÿ â CASP-7, èìåëà â ñâîåì ðàñïîðÿæåíèè âåñüìà ñêðîìíûå âû÷èñëèòåëüíûå ìîùíîñòè [27]. Òà- êèì îáðàçîì, îñíîâíàÿ çàäà÷à íà äàííûé ìîìåíò ñîñòîèò â óñîâåðøåíñòâîâàíèè óñòàðåâøèõ è ðàçðàáîòêå íîâûõ ìåòîäèê ïðåäñêàçàíèÿ. Ñóùåñòâóþò îòäåëüíûå êà- òåãîðèè çàäà÷, êðîìå ðàñïîçíàâàíèÿ òðåòè÷íîé ñòðóêòóðû áåëêîâ, ÿâëÿþùèåñÿ ïîä- çàäà÷àìè îñíîâíîé çàäà÷è, ïðîãðåññ â ðåøåíèè êîòîðûõ î÷åíü âàæåí äëÿ äàëüíåé- øåãî ïðîäâèæåíèÿ â ýòîé îáëàñòè. EVA — íåïðåðûâíûé âî âðåìåíè ýêñïåðèìåíò, îöåíèâàþùèé êà÷åñòâî ïðåä- ñêàçàíèé ñòðóêòóð áåëêîâ îáùåäîñòóïíûìè ñåðâåðàìè äëÿ ñëåäóþùèõ çàäà÷ è ìå- òîäîâ: — ðàñïîçíàâàíèå âòîðè÷íîé ñòðóêòóðû áåëêîâ; — ñðàâíèòåëüíîå ìîäåëèðîâàíèå (comparative modeling and homology modeling); — ìåòîä òðåäèíãà (protein threading).  îòëè÷èå îò CASP â EVA íå ñòàâèòñÿ íèêàêèõ èññëåäîâàòåëüñêèõ çàäà÷. Îñíîâíàÿ öåëü ýêñïåðèìåíòà — ïîñòîÿííîå èíôîðìèðîâàíèå î êà÷åñòâå ðàáîòû ïóáëè÷íûõ ñåðâåðîâ, ïðåäñêàçûâàþùèõ ñòðóêòóðû áåëêîâ.  ïåðâóþ î÷åðåäü ýòîò ïðîåêò âàæåí äëÿ òåõ, êòî íå ÿâëÿåòñÿ ýêñïåðòîì â îáëàñòè ïðåäñêàçàíèÿ ñòðóêòóð áåëêîâ, íî èñïîëüçóåò èíôîðìàöèþ, ïîëó÷åííóþ îò îáùåäîñòóïíûõ ñåðâåðîâ, â ñâîåé ðàáîòå èëè èññëåäîâàíèÿõ. Ïðîâåðêà ñåðâåðîâ-ó÷àñòíèêîâ EVA ïðîèçâî- äèòñÿ â àâòîìàòè÷åñêîì ðåæèìå êàæäóþ íåäåëþ.  êà÷åñòâå öåëåé äëÿ ïðåäñêàçà- íèÿ ñòðóêòóð áåëêîâ èñïîëüçóþòñÿ íîâûå ñòðóêòóðû, äîáàâëåííûå â Protein Data Bank â òå÷åíèå òåêóùåé íåäåëè. EVA èññëåäóåò êà÷åñòâî ðàáîòû ñåðâåðîâ òîëüêî äëÿ òåõ ñòðóêòóð áåëêîâ, êîòî- ðûå ïîäïàäàþò ïîä êëàññ ñëîæíîñòè øàáëîííîãî ìîäåëèðîâàíèÿ â CASP. Ìåòîäû, èñ- ïîëüçóþùèå øàáëîííîå ìîäåëèðîâàíèå â EVA, â íàñòîÿùåå âðåìÿ íå îöåíèâàþòñÿ. ÇÀÊËÞ×ÅÍÈÅ Â ðàáîòå ïðèâåäåí îáçîð ñîâðåìåííûõ ïîäõîäîâ ïðåäñêàçàíèÿ ïðîñòðàíñòâåííîé ñòðóêòóðû áåëêîâ. Íàèáîëåå ïåðñïåêòèâíûìè, ïî ìíåíèþ àâòîðîâ, ÿâëÿþòñÿ ïîäõîäû, îñíîâàí- íûå íà ïðèìåíåíèè âåðîÿòíîñòíûõ ìîäåëåé (ìîäåëè öåïåé Ìàðêîâà, óñëîâíûå ñëó- ÷àéíûå ïîëÿ è ò.ï.). Ìîäåëè ñòðîÿòñÿ ïî èíôîðìàöèè èç îáó÷àþùèõ âûáîðîê, â êà- ÷åñòâå êîòîðûõ èñïîëüçóþòñÿ îòêðûòûå áàíêè äàííûõ áåëêîâûõ ñòðóêòóð. Äëÿ çà- äàííîé ïîñëåäîâàòåëüíîñòè àìèíîêèñëîò, èëè íàáëþäåíèé, òðåáóåòñÿ íàéòè íàèáîëåå âåðîÿòíóþ ïîñëåäîâàòåëüíîñòü ñîñòîÿíèé. Ñîñòîÿíèÿìè ìîãóò áûòü òèïû âòîðè÷íîé ñòðóêòóðû èëè òîðñèîííûå óãëû â çàâèñèìîñòè îò êîíêðåòíîé çàäà÷è. Òàê, íàïðèìåð, áàéåñîâñêèå ïðîöåäóðû íà öåïÿõ Ìàðêîâà ðàçëè÷íûõ ïîðÿäêîâ äî- âîëüíî óñïåøíî ïðåäñêàçûâàþò âòîðè÷íóþ ñòðóêòóðó áåëêîâ. Îñîáåííîñòü áàêòåðèàëüíûõ ãåíîìîâ ïîçâîëÿåò âûäåëÿòü è îòäåëüíî àíàëèçèðîâàòü àìèíîêèñëîòíûå ïîñëåäîâàòåëüíîñòè áåëîê-êîäèðóþùèõ ó÷àñòêîâ. Ïîëó÷åíû íîâûå ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1 57 âàæíûå äàííûå î ñîâïàäåíèè îöåíîê ïåðåõîäíûõ âåðîÿòíîñòåé àìèíîêèñëîòíûõ ïîñëåäî- âàòåëüíîñòåé áåëêîâ, ñèíòåçèðîâàííûõ íà äâóõ ïðîòèâîïîëîæíûõ íèòÿõ ÄÍÊ áàêòåðèé. Ýòî íåëüçÿ îáúÿñíèòü ñëó÷àéíûì ñîâïàäåíèåì, ïîñêîëüêó ïðè ïîäñ÷åòå îöåíîê ïåðåõîä- íûõ âåðîÿòíîñòåé ôèãóðèðóþò 399 íåçàâèñèìûõ ïàðàìåòðîâ. Ïîëó÷åííûé âûâîä ïîäòâåð- æäåí ÷èñëåííûìè ðàñ÷åòàìè íà ãåíîìàõ áàêòåðèé. Äàííûé ðåçóëüòàò, ïî ñóòè, ïîçâîëèë ïîäòâåðäèòü íå î÷åâèäíóþ äî ýòîãî ýôôåêòèâíîñòü èñïîëüçîâàíèÿ áàéåñîâñêèõ ïðîöåäóð ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêîâà äëÿ ïðåäñêàçàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêîâ. ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1. G i n a l s k i K . , G r i s h i n N . V . , G o d z i k A . , R y c h l e w s k i L . Practical lessons from protein structure prediction // Nucleic Acids Res. — 2005. — 33. — P. 1874–1891. 2. L a z a r i d i s T . , K a r p l u s M . Effective energy functions for protein structure prediction // Current Opinion in Structural Biology. — 2000. — 10. — P. 139–245. 3. B o a s F . , H a r b u r y P . Potential energy functions for protein design // Ibid. — 2007. — 17. — P. 199–204. 4. N a r a n g P . , B h u s h a n K . , B o s e S . , J a y a r a m B . A computational pathway for bracketing na- tive-like structures for small alpha helical globular proteins // Phys. Chem. Chem. Phys. — 2005. — 7. — P. 2364–2375. 5. M a d h u S m i t h a , A b h i j i t M i t r a , H a r j i n d e r S i n g h . Real valued genetic algorithm based ap- proach for protein structure prediction — role of biophysical filters for reduction of conformational search space // Third IAPR Intern. Conf. on Pattern Recognition in Bioinformatics PRIB, Oct. 15–17 2008, Novotel St Kilda. — Melbourne, Australia, 2008. 6. R e c o n s t r u c t i o n of 3D Structures from protein contact maps / M. Vassura, L. Margara, P. Di Lena et al. // IEEE/ACM Trans. on Comput. Biology and Bioinformatics. — 2008. — 5(3). — P. 357–367. 7. P o l l a s t r i G . , B a l d i P . Prediction of contact maps by GIOHMMs and recurrent neural networks using lat- eral propagation from all four cardinal corners // Bioinformatics. — 2002. — 18. — P. 62–70. 8. C h e n g J . , B a l d i P . Improved residue contact prediction using support vector machines and a large feature set // BMC Bioinformatics. — 2007. — 8. — P. 1–9. 9. Ñ å ð ã è å í ê î È .  . , à ó ï à ë À . Ì . Ñòàòèñòè÷åñêèé àíàëèç ãåíîìà // Öèòîëîãèÿ è ãåíåòèêà. — 2004. — ¹ 4. — Ñ. 76–81. 10. V i t e r b i A . J . Error bounds for convolutional codes and an asymptotically optimal decoding algorithm // IEEE Trans. Informat. Theory. — 1967. — IT-13. — P. 260–269. 11. B a u m L . E . , P e t r i e T . Statistical inference for probabilistic functions of finite state Markov chains // Ann. Math. Statist. — 1966. — 37. — P. 1554–1563. 12. L e v i n s o n S . E . , R a b i n e r L . R . , S o n d h i M . M . An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition // Bell Syst. Tech. J. — 1983. — 62. — P. 1035–1074. 13. L a f f e r t y J . D . , M c C a l l u m A . , P e r e i r a F . C . N . Conditional random fields: probabilistic models for segmenting and labelingsequence data // Proc. of the Eighteenth Intern. Conf. on Machine Learning (ICML 2001). — New York: Morgan Kaufmann Publ., 2001. — P. 282–289. 14. T h e i n t e r n a t i o n a l human genom sequencing consortium // Nature. — 2004. — 431. — P. 931–945. 15. à ó ï à ë À . Ì . , Ñ å ð ã è å í ê î È .  . Îïòèìàëüíûå ïðîöåäóðû ðàñïîçíàâàíèÿ. — Êèåâ: Íàóê. äóì- êà, 2008. — 232 c. 16. à ó ï à ë À . Ì . ,  à ã è ñ À . À . Êîìïëåìåíòàðíîñòü îñíîâàíèé â õðîìîñîìàõ ÄÍÊ // Ïðîáëåìû óï- ðàâëåíèÿ è èíôîðìàòèêè. — 2005. — ¹ 5. — Ñ. 153–157. 17. Ñ å ð ã è å í ê î È .  . , à ó ï à ë À . Ì . ,  à ã è ñ À . À . Ñîîòíîøåíèÿ êîìïëåìåíòàðíîñòè â çàïèñè îñíîâàíèé ïî îäíîé íèòè ÄÍÊ // Öèòîëîãèÿ è ãåíåòèêà. — 2005. — ¹ 6. — Ñ. 71–75. 18. A n d e r s o n T . W . , G o o d m a n L . A . Statistical inference about Markov chains // Ann. Math. Statis- tics. — 1957. — 28. — P. 89–110. 19. Á å ë å ö ê è é Á . À . ,  à ñ è ë ü å â Ñ .  . , à ó ï à ë À . Ì . Ïðåäñêàçàíèå âòîðè÷íîé ñòðóêòóðû áåë- êîâ íà îñíîâå áàéåñîâñêèõ ïðîöåäóð ðàñïîçíàâàíèÿ // Ïðîáëåìû óïðàâëåíèÿ è èíôîðìàòèêè. — 2007. — ¹ 1. — Ñ. 61–69. 20. Ñ å ð ã è å í ê î È .  . , Á å ë å ö ê è é Á . À . ,  à ñ è ë ü å â Ñ .  . , à ó ï à ë À . Ì . Ïðåäñêàçàíèå âòî- ðè÷íîé ñòðóêòóðû áåëêîâ íà îñíîâå áàéåñîâñêèõ ïðîöåäóð ðàñïîçíàâàíèÿ íà öåïÿõ Ìàðêîâà // Êè- áåðíåòèêà è ñèñòåìíûé àíàëèç. — 2007. — ¹ 2. — Ñ. 59–64. 21. Á å ë å ö ê è é Á . À . ,  à ã è ñ À . À . ,  à ñ è ë ü å â Ñ .  . , à ó ï à ë À . Ì . Ïðîöåäóðû ðàñïîçíàâàíèÿ âòîðè÷íîé ñòðóêòóðû áåëêîâ // Ïðîáëåìû óïðàâëåíèÿ è èíôîðìàòèêè. — 2007. — ¹ 4. — Ñ. 134–139. 22. T h o r d a A . Protein threading. — Hambourg: Univ. of Hambourg, 2003. (http://en.scientificcommons.org/ 40891925) 23. M c G u f f i n L . J . Protein fold recognition and threading in computational structural biology // World Scientific. — 2008. — P. 37–60. 24. http://predictioncenter.org/ 25. http://cubic.bioc.columbia.edu/eva/ 26. M o u l t J . , K r z y s z t o f F . , Z e m l a A . , H u b b a r d T . Critical assessment of methods of protein structure prediction (CASP) — Round V // Proteins. — 2003. — 53. — P. 334–339. 27. K r y s h t a f o v y c h A . , K r z y s z t o f F . , M o u l t J . Progress from CASP6 to CASP7 // Ibid. — 2007. — 69. — P. 194–207. Ïîñòóïèëà 02.06.2009 58 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2010, ¹ 1