Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов
Рассматривается гидрофобно-полярная модель сворачивания протеина, предлагается и исследуется алгоритм прогнозирования третичной структуры белка, построенный на базе метода ОМК. Строится модель молекулы протеинов в трехмерной треугольной решетке. Разработаны методы априорной оценки позиции в решетке...
Збережено в:
Дата: | 2012 |
---|---|
Формат: | Стаття |
Мова: | Russian |
Опубліковано: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2012
|
Назва видання: | Теорія оптимальних рішень |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/85018 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов / В.А. Рудык // Теорія оптимальних рішень: Зб. наук. пр. — 2012. — № 11. — С. 66-72. — Бібліогр.: 7 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-85018 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-850182015-07-19T03:02:11Z Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов Рассматривается гидрофобно-полярная модель сворачивания протеина, предлагается и исследуется алгоритм прогнозирования третичной структуры белка, построенный на базе метода ОМК. Строится модель молекулы протеинов в трехмерной треугольной решетке. Разработаны методы априорной оценки позиции в решетке и обновления матрицы феромонных путей, их эффективность подтверждена вычислительным экспериментом. Розглядається гідрофобно-полярна модель згортання протеїну, пропонується та досліджується алгоритм прогнозування третинної структури білка, розроблений на базі методу ОМК. Будується модель молекули протеїну в тривимірній трикутній решітці. Запропоновані методи апріорної оцінки позиції в решітці та поновлення матриці феромонних шляхів, їх ефективність підтверджена обчислювальним експериментом. The Hydrophobic-Hydrophilic protein folding model is examined, the algorithm based on ACO optimization method is proposed and analyzed for protein tertiary structure prediction. The molecule model is considered to be a chain whose monomers are placed on the vertices of 3D triangular lattice. The a priori position estimation method and pheromone trails updating method are deviced, computational experiment confirms their appropriateness. 2012 Article Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов / В.А. Рудык // Теорія оптимальних рішень: Зб. наук. пр. — 2012. — № 11. — С. 66-72. — Бібліогр.: 7 назв. — рос. XXXX-0013 http://dspace.nbuv.gov.ua/handle/123456789/85018 519.21 ru Теорія оптимальних рішень Інститут кібернетики ім. В.М. Глушкова НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
description |
Рассматривается гидрофобно-полярная модель сворачивания протеина, предлагается и исследуется алгоритм прогнозирования третичной структуры белка, построенный на базе метода ОМК. Строится модель молекулы протеинов в трехмерной треугольной решетке. Разработаны методы априорной оценки позиции в решетке и обновления матрицы феромонных путей, их эффективность подтверждена вычислительным экспериментом. |
format |
Article |
title |
Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов |
spellingShingle |
Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов Теорія оптимальних рішень |
title_short |
Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов |
title_full |
Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов |
title_fullStr |
Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов |
title_full_unstemmed |
Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов |
title_sort |
анализ эффективности алгоритмов омк для решения задачи о сворачивании протеинов |
publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
publishDate |
2012 |
url |
http://dspace.nbuv.gov.ua/handle/123456789/85018 |
citation_txt |
Анализ эффективности алгоритмов ОМК для решения задачи о сворачивании протеинов / В.А. Рудык // Теорія оптимальних рішень: Зб. наук. пр. — 2012. — № 11. — С. 66-72. — Бібліогр.: 7 назв. — рос. |
series |
Теорія оптимальних рішень |
first_indexed |
2025-07-06T12:10:38Z |
last_indexed |
2025-07-06T12:10:38Z |
_version_ |
1836899466861346816 |
fulltext |
66 Теорія оптимальних рішень. 2012
ÒÅÎвß
ÎÏÒÈÌÀËÜÍÈÕ
вØÅÍÜ
Рассматривается гидрофобно-по-
лярная модель сворачивания про-
теина, предлагается и иссле-
дуется алгоритм прогнозирования
третичной структуры белка,
построенный на базе метода
ОМК. Строится модель молекулы
протеинов в трехмерной треу-
гольной решетке. Разработаны
методы априорной оценки позиции
в решетке и обновления матрицы
феромонных путей, их эффектив-
ность подтверждена вычисли-
тельным экспериментом.
В.А. Рудык, 2012
ÓÄÊ 519.21
Â.À. ÐÓÄÛÊ
ÀÍÀËÈÇ ÝÔÔÅÊÒÈÂÍÎÑÒÈ
ÀËÃÎÐÈÒÌÎÂ ÎÌÊ ÄËß ÐÅØÅÍÈß
ÇÀÄÀ×È Î ÑÂÎÐÀ×ÈÂÀÍÈÈ
ÏÐÎÒÅÈÍÎÂ
Введение. В современном мире в разных
отраслях науки с открытием неизвестных
ранее объектов возрастает необходимость
разработки новых методов для их изучения.
Важным становится обмен информации ме-
жду различными науками для применения
идей из одной сферы в другой. Так, напри-
мер, в прикладной математике оказалось
эффективным использование генетических
алгоритмов и искусственных нейронных се-
тей, которые имитируют процесс эволюции
и процессы, протекающие в мозге, соответ-
ственно. В то же время в биологии для по-
нимания различных механизмов и процессов
часто недостаточно исключительно экспе-
риментальных данных. Это привело к появ-
лению различных междисциплинарных ис-
следований на стыке прикладной математи-
ки, информатики, биологии и химии, таких
как биоинформатика, математическая био-
логия, вычислительная биология, биокибер-
нетика, структурная геномика, биоинжене-
рия. В настоящее время эти области являют-
ся одними из наиболее перспективных и
развивающихся.
Среди открытых задач вычислительной
биологии – определение третичной структу-
ры протеина [1,2]. Разнообразие белковых
молекул делает невозможным решение про-
блемы путем проведения экспериментов, но
построив на основе наблюдений математи-
ческую модель сворачивания молекулы
можно спрогнозировать ее форму. Ниже ис-
пользуется одна из таких моделей – дис-
кретная НР-модель Дилла [1].
АНАЛИЗ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ ОМК ДЛЯ РЕШЕНЯ ЗАДАЧИ О СВОРАЧИВАНИИ…
Теорія оптимальних рішень. 2012 67
1. Прогнозирование структуры протеина как задача комбинаторной
оптимизации. Исходными данными для определения третичной структуры бел-
ка – формы, которую принимает молекула в трехмерном пространстве – являет-
ся его первичная структура, которая представляет собой линейную последова-
тельность аминокислот. Одна из важных характеристик аминокислотных остат-
ков – гидрофобность – выражает, насколько он предпочитает неполярное окру-
жение (например, этанол в качестве растворителя или внутренность белка) по-
лярному (например, воде). В зависимости от этой характеристики все аминокис-
лоты делятся на два класса – гидрофобные и полярные (или гидрофильные). По-
падая в воду белок, являя собой цепочку аминокислот, принимает ту форму, в
которой площадь поверхности контакта воды с полярными аминокислотами
максимизируется, а с гидрофобными минимизируется. Поскольку в результате
взаимодействия образуется шарообразная структура, такие белки называют гло-
булярными.
Дискретной моделью формы молекулы протеина является путь без самопе-
ресечений в некоторой дискретной решетке. В исследованиях чаще всего встре-
чаются двумерная квадратная [2], треугольная [3] и трехмерная кубическая [2, 4]
решетки, рассматриваются и другие виды решеток, а также дискретных нереше-
точных структур [3,5]. Соседние в цепочке аминокислотные остатки располага-
ются в соседних узлах решетки, таким образом соблюдается условие неразрыв-
ности молекулы. Между гидрофобными остатками, которые располагаются в
соседних узлах решетки, но не являются соседями в цепочке, образуются гидро-
фобные связи. В модели Дилла в качестве значения свободной энергии структу-
ры принято считать количество таких связей в ней со знаком минус. Соответст-
вуя законам термодинамики, молекула образует структуру с минимальной сво-
бодной энергией. Это дает возможность формализовать проблему как задачу
комбинаторной оптимизации.
Для представления пути в дискретной решетке можно использовать один из
трех методов: последовательность координат узлов аминокислотных остатков,
абсолютное и относительное кодирование [6]. Мы будем рассматривать послед-
ние два представления, поскольку первое требует постоянных проверок нераз-
рывности молекулы, а второе и третье обеспечивают связность автоматически.
2. Метод оптимизации муравьиными колониями (ОМК). Исследование
дискретных моделей естественных процессов часто приводит к NP-сложным
задачам; на практике это значит, что в общем случае найти решение за допусти-
мое (полиномиальное) время невозможно (согласно гипотезе о том, что классы P
и NP не равны). Одной из таких задач является сформулированная выше на ос-
нове НР-модели задача комбинаторной оптимизации. Парадокс заключается в
том, что прообразы в природе таких моделей часто решают ту же задачу практи-
чески мгновенно – некоторые белки сворачиваются за миллионную долю секун-
ды. Этот факт побуждает исследователей строить цепочку решения задачи по
аналогии с некоторыми естесственными процессами. Кроме уже упомянутых
генетических алгоритмов и нейронных сетей к алгоритмам, имеющим аналоги в
В.А. РУДЫК
68 Теорія оптимальних рішень. 2012
природе, относятся метод имитации отжига, иммунные алгоритмы, алгоритм
ОМК. Рассмотрим последний подробнее.
В поисках пищи муравьи постоянно решают оптимизационную задачу – по-
иск кратчайшего пути от муравейника до еды. Для этого они используют феро-
моны, помечая ими свой путь. Выбирая направление движения, муравей ориен-
тируется на феромонную дорожку, и чем она сильнее, тем вероятнее, что мура-
вей последует по ней. В конечном итоге в большинстве случаев все рабочие му-
равьи движутся по одному субоптимальному пути от муравейника до еды и об-
ратно. В контексте задачи комбинаторной оптимизации это сводится к популя-
ционному алгоритму, на каждой итерации которого все элементы популяции –
агенты – пошагово строят решения задачи. Информация об оптимальности зна-
чения целевой функции на этих решениях записывается в феромонную матрицу,
которую учитывают агенты на следующей итерации.
Алгоритмы метода ОМК целесообразно применять для поиска приближен-
ных решений NP-сложных задач, в том числе и задачи о сворачивании протеина.
Так, в [2] с его помощью строится структура молекулы в квадратной и кубиче-
ской решетке, предложена процедура локального поиска для повышения показа-
телей эффективности алгоритма. В [4] описано решение, использующее двухша-
говое обновление феромонных путей на каждой итерации, рассматривается
трехмерная кубическая решетка.
Ниже предложен алгоритм для решения задачи в трехмерной кубической
решетке. Разработан отличный от ранее описанных подход к обновлению феро-
монной матрицы и подсчета априорных оценок.
3. Описание алгоритма. На вход задачи подается первичная структура про-
теина, которая в терминах изложенной модели принимает вид
1 2... No o o ,
{ , }io H P∈ , 1,i N= , где N обозначает количество аминокислот в молекуле, а H
и P – гидрофобный и полярный остаток в цепочке соответственно. Для иссле-
дования предлагается использовать трехмерную треугольную решетку [6]. У
каждого узла такой решетки 12 соседей. В разработанном алгоритме можно
применять как абсолютную, так и относительную кодировку. Закодированное
решение имеет вид последовательности векторов
1 2 1... Nr r r −
,
ir A∈ , 1, 1i N= − ,
где A – множество значений элементов кода [6], зависящее от вида решетки и
типа кодировки. Без ограничения общности можно рассматривать только коди-
ровки
−= 2 3 1... Nv r r r (без первого элемента), поскольку
1r определяет поворот
структуры, а форма молекулы задается путем в решетке с точностью до поворо-
та. Количество элементов множества A обозначим символом n , а сами элемен-
ты –
1 2, ,..., ndir dir dir (от слова «direction» – направление).
Обозначим феромонную матрицу символом Φ – в нашей формулировке за-
дачи она будет иметь размер ( 2)n N× − . Схема алгоритма ОМК, разработанного
и исследованного для нашей задачи, приведена на рис.1. В нем параметр PN за-
дает размер популяции, а
LSN – количество элементов, для которых использует-
АНАЛИЗ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ ОМК ДЛЯ РЕШЕНЯ ЗАДАЧИ О СВОРАЧИВАНИИ…
Теорія оптимальних рішень. 2012 69
ся локальный поиск. Первый шаг – ИнициализироватьФеромоннуюМатрицу( Φ )
– инициализация матрицы случайными значениями в диапазоне от 0 до 1.
procedure ACO()
fold : ;=
rec
null
ИнициализироватьФеромоннуюМатрицу( Φ );
while (not УсловиеЗавершения()) do
for i = 1,…,
PN do
fold
i
:=ДопустимоеРешение( Φ );
end for;
Отсортировать( fold
i
);
for i = 1,…,
LSN do
fold
i
:=Локальный поиск( fold
i
);
end for;
fold
rec
:=ОптимальноеЗначение( fold
rec
, 1fold ,…, fold
LSN );
ИспаритьФеромоннуюМатрицу( Φ );
for i = 1,…, PN do
ОбновитьФеромоннуюМатрицу( Φ , fold
i
);
end for
end while;
return fold
rec
;
end procedure.
Рис. 1. Схема алгоритма ОМК для задачи определения структуры протеина
Процедура ДопустимоеРешение( Φ ), используя феромонную матрицу строит
путь без самопересечений, пошагово добавляя к кодировке элементы с вероят-
ностью:
2 3 1
2 3 1
1
[j,i-1] *Est( ... , )
( )
[j,i-1] *Est( ... , )
−
−
=
Φ
= =
Φ∑
i j
i j n
i j
j
r r r dir
P r dir
r r r dir
α β
α β
,
где α и β – параметры алгоритма, а 2 3 1Est( ... , )i jr r r dir− – априорная оценка. Для
ее вычисления предполагается, что следующая аминокислота располагается по
направлению jdir и подсчитывается количество гидрофобных ( Hn ) и полярных
( Pn ) остатков в соседних с ней узлах. Чтобы образовывались новые связи, гид-
рофобные остатки целесообразно располагать рядом с гидрофобными или со
свободными узлами (есть шанс заполнить их гидрофобными остатками при
дальнейшем построении молекулы), а полярные не ставить рядом с гидрофоб-
ными (оставляя место для возможных новых соединений). Такая интерпретация
В.А. РУДЫК
70 Теорія оптимальних рішень. 2012
аналогична естественному поведению молекулы: полярные остатки стремятся к
соседству с полярным окружением – водой или другими полярными остатками.
Введем параметры 00 HP H HHest est est≤ < < , 0 1HP H HHest est est+ + = ,
00 PH P PPest est est≤ < ≤ , 0 1PH P PPest est est+ + = , и определим оценку
2 3 1Est( ... , )i jr r r dir− следующим образом:
+
−
+
+ + − − =
=
+ + − − =
0 1
2 3 1
0 1
* * ( ) * , ,
Est( ... , )
* * ( ) * , .
P HP H HH P H H i
i j
P PP H PH P H P i
n est n est n n n est o H
r r r dir
n est n est n n n est o P
Приведенная оценка является обобщением известных ранее – в литературе
часто встречается комбинация 0 1/ 3PH P PPest est est= = = , 0 0H HPest est= = ,
1HHest = . Ниже для вычислительного эксперимента были выбраны значения
0.2PHest = , 0 0.4P PPest est= = , 0.15HPest = , 0 0.25Hest = , 0.6HHest = .
Чтобы новые данные учитывались как более актуальными, используется
процедура ИспаритьФеромоннуюМатрицу( Φ ), в которой каждый элемент мат-
рицы умножается на параметр 0 1≤ ≤ρ , задающий степень испарения феромо-
нов. Процедура ОбновитьФеромоннуюМатрицу( Φ , v ) в ее часто встречающей-
ся реализации добавляет к каждому элементу, который соответствует направле-
нию, содержащемся в структуре 2 3 1... −=
N
v r r r , значение, пропорциональное
энергии v :
1 1[ , ] [ , ] ( ( )) , 1, 2,+ +Φ = Φ + − = −
i i
k i k i E v i N
γ
где
i
k определяется условием =
ik i
dir r , а 0>γ – параметр алгоритма.
С учетом особенностей задачи предлагается альтернативный вариант об-
новления феромонной матрицы. Его идея состоит в том, чтобы усиливать только
те феромонные дорожки, которые влияют на энергию заданной молекулы. Для
этого используется следующая процедура: введем массив φ длиной 2−N и
заполним его нулями. Пусть l , m – номера остатков, образующих гидрофобную
связь, <l m . В образовании этой связи принимают участие элементы
1 1, ,...,+ −l l m
r r r . Подкорректируем массив φ для этой связи так:
[ ] [ ] 1, max{1, 1},i i i l mφ φ= + = −
и повторим эту операцию для всех гидрофобных связей в структуре
2 3 1... −=
N
v r r r , после чего обновим феромонную матрицу:
1 1[ , ] [ , ] [ ] , 1, 2+ +Φ = Φ + = −
i i
k i k i i i N
γφ .
Такая схема позволяет более точно учитывать приемлемость той или иной
части структуры молекулы.
4. Вычислительный эксперимент. Для сравнения и проверки эффективно-
сти разработанных алгоритмов был проведен вычислительный эксперимент. Из
базы данных протеинов с известной структурой [7] было выбрано 11 примеров
АНАЛИЗ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ ОМК ДЛЯ РЕШЕНЯ ЗАДАЧИ О СВОРАЧИВАНИИ…
Теорія оптимальних рішень. 2012 71
размерностью от 52 до 302 аминокислот. Рассматривалось 8 вариантов алгорит-
ма – с абсолютным и относительным кодированием структуры, без априорных
оценок и с использованием вышеизложенного метода для их подсчета, с каждым
из двух описанных способов обновления феромонной матрицы. Локальный по-
иск не применялся. Учитывая стохастичность алгоритма, для каждой задачи бы-
ло выполнено три рестарта. Предложенные модификации алгоритма доказали
свою целесообразность как в случае с абсолютной кодировкой, так и с относи-
тельной. Сравнительные результаты работы четырех вариантов алгоритма на
базе относительной кодировки показаны на рис. 2.
Рис. 2. Результаты вычислительного эксперимента
На диаграмме модификации а и б не используют априорных оценок на этапе
построения структуры, в отличие от в и г. Модификации б и г обновляют феро-
монную матрицу первым из вышеописанных способов, а и в – вторым. По оси Х
отложено количество аминокислот в исследуемой молекуле, по оси Y – усред-
ненная (по трем запускам алгоритма) энергия оптимальной свертки, которая яв-
ляется целевой функцией задачи.
Выводы. Экспериментальные исследования подтверждают, что использо-
вание априорных оценок и обновление феромонной матрицы по частям сущест-
венно улучшают эффективность алгоритма метода ОМК по сравнению с вариан-
тами без использования этих процедур. Открытыми остаются вопросы эффек-
тивной настройки параметров алгоритма и схема внедрения процедуры локаль-
ного поиска для нахождения более оптимальных решений.
В.О. Рудик
В.А. РУДЫК
72 Теорія оптимальних рішень. 2012
АНАЛІЗ ЕФЕКТИВНОСТІ АЛГОРИТМІВ ОМК ДЛЯ РОЗВ’ЯЗАННЯ ЗАДАЧІ ПРО
ЗГОРТАННЯ ПРОТЕЇНУ
Розглядається гідрофобно-полярна модель згортання протеїну, пропонується та
досліджується алгоритм прогнозування третинної структури білка, розроблений на базі
методу ОМК. Будується модель молекули протеїну в тривимірній трикутній решітці.
Запропоновані методи апріорної оцінки позиції в решітці та поновлення матриці феромонних
шляхів, їх ефективність підтверджена обчислювальним експериментом.
V.O. Rudyk
ANT COLONY OPTIMIZATION ALGORITHMS FOR PROTEIN FOLDING PROBLEM
ANALYSIS
The Hydrophobic-Hydrophilic protein folding model is examined, the algorithm based on ACO
optimization method is proposed and analyzed for protein tertiary structure prediction. The mole-
cule model is considered to be a chain whose monomers are placed on the vertices of 3D triangular
lattice. The a priori position estimation method and pheromone trails updating method are deviced,
computational experiment confirms their appropriateness.
1. Dill K., Bromberg S., Yue K., Fiebig K., Yee D., Thomas P., Chan H. Principles of protein
folding – a perspective from simple exact models // Protein Science..– 1995. – N 4. –
P.561–602.
2. Shmygelska A, Hoos H. An ant colony optimisation algorithm for the 2D and 3D hydrophobic
polar protein folding problem // BMC Bioinformatics. – 2005. – N 6(30). – Р.30–52.
3. Local rules for protein folding on a triangular lattice and generalized hydrophobicity in the HP
model / Agarwala R., Batzoglou S., Dancik V et al. // J. of Computational Biology. – 1997. –
N 4. – P. 275–296.
4. Fidanova S., Lirkov I. Ant Colony System Approach for Protein Folding // Int. Conf.
Multiconference on Computer Science and Information Technology. – 2008. – P.887–891.
5. Hart W., Istrail S. Lattice and Off-Lattice Side Chain Models of Protein Folding: Linear Time
Structure Prediction Better Than 86% of Optimal // J. of Computational Biology.– 1997. –
N 4. – P.241-259.
6. Рудык В. Представление структуры белка в трехмерных дискретных решетках произ-
вольного типа // Теорія оптимальних рішень. − 2011. – №10. – С. 38–47.
7. Information Portal to Biological Macromolecular Structures: http://www.rcsb.org/
Получено 03.04.2012
|