Определение вторичной структуры белков с помощью моделей Маркова

Запропоновано підхід до розв’язання задач загального виду з відновлення послідовності прихованих станів у моделях Маркова. Алгоритм застосовується для визначення вторинної структури білків....

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2013
Автор:	Островский, А.В.
Формат:	Стаття
Мова:	Russian
Опубліковано:	Інститут кібернетики ім. В.М. Глушкова НАН України 2013
Назва видання:	Проблемы управления и информатики
Теми:	Управление в биологических и природных системах
Онлайн доступ:	https://nasplib.isofts.kiev.ua/handle/123456789/207608
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:	Определение вторичной структуры белков с помощью моделей Маркова / А.В. Островский // Проблемы управления и информатики. — 2013. — № 2. — С. 140–147. — Бібліогр.: 4 назви. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine

id	irk-123456789-207608
record_format	dspace
spelling	irk-123456789-2076082025-10-12T00:06:42Z Определение вторичной структуры белков с помощью моделей Маркова Визначення вторинної структури білків за допомогою моделей Маркова Detecting Secondary Structure of Proteins Using Markov Models Островский, А.В. Управление в биологических и природных системах Запропоновано підхід до розв’язання задач загального виду з відновлення послідовності прихованих станів у моделях Маркова. Алгоритм застосовується для визначення вторинної структури білків. An approach to solving generic problems, which concern the recovery of sequences of hidden states in Markov models, is introduced. The introduced algorithm is applied to determine the secondary structure of proteins. 2013 Article Определение вторичной структуры белков с помощью моделей Маркова / А.В. Островский // Проблемы управления и информатики. — 2013. — № 2. — С. 140–147. — Бібліогр.: 4 назви. — рос. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/207608 519.217.2 10.1615/JAutomatInfScien.v45.i3.70 ru Проблемы управления и информатики application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection	DSpace DC
language	Russian
topic	Управление в биологических и природных системах Управление в биологических и природных системах
spellingShingle	Управление в биологических и природных системах Управление в биологических и природных системах Островский, А.В. Определение вторичной структуры белков с помощью моделей Маркова Проблемы управления и информатики
description	Запропоновано підхід до розв’язання задач загального виду з відновлення послідовності прихованих станів у моделях Маркова. Алгоритм застосовується для визначення вторинної структури білків.
format	Article
author	Островский, А.В.
author_facet	Островский, А.В.
author_sort	Островский, А.В.
title	Определение вторичной структуры белков с помощью моделей Маркова
title_short	Определение вторичной структуры белков с помощью моделей Маркова
title_full	Определение вторичной структуры белков с помощью моделей Маркова
title_fullStr	Определение вторичной структуры белков с помощью моделей Маркова
title_full_unstemmed	Определение вторичной структуры белков с помощью моделей Маркова
title_sort	определение вторичной структуры белков с помощью моделей маркова
publisher	Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate	2013
topic_facet	Управление в биологических и природных системах
url	https://nasplib.isofts.kiev.ua/handle/123456789/207608
citation_txt	Определение вторичной структуры белков с помощью моделей Маркова / А.В. Островский // Проблемы управления и информатики. — 2013. — № 2. — С. 140–147. — Бібліогр.: 4 назви. — рос.
series	Проблемы управления и информатики
work_keys_str_mv	AT ostrovskijav opredelenievtoričnojstrukturybelkovspomoŝʹûmodelejmarkova AT ostrovskijav viznačennâvtorinnoístrukturibílkívzadopomogoûmodelejmarkova AT ostrovskijav detectingsecondarystructureofproteinsusingmarkovmodels
first_indexed	2025-10-12T01:11:37Z
last_indexed	2025-10-13T01:10:00Z
_version_	1845826997916270592
fulltext	© А.В. ОСТРОВСКИЙ, 2013 140 ISSN 0572-2691 УПРАВЛЕНИЕ В БИОЛОГИЧЕСКИХ И ПРИРОДНЫХ СИСТЕМАХ УДК 519.217.2 А.В. Островский ОПРЕДЕЛЕНИЕ ВТОРИЧНОЙ СТРУКТУРЫ БЕЛКОВ С ПОМОЩЬЮ МОДЕЛЕЙ МАРКОВА Введение Изучение белков человека и других живых организмов относится к приоритет- ным направлениям исследований в биоинформатике. Это связано с тем, что инфор- мация о пространственной структуре белков является крайне востребованной во многих областях медицины и, прежде всего, в фармакологии. Данные подобного рода широко используются при производстве новых медикаментов. Зная располо- жение отдельных аминокислот белка в пространстве, сравнительно легко можно выделить его функционально активные участки и предсказать поведение и метабо- лизм белка в организме человека. В настоящее время непосредственное определение пространственной структу- ры белка основывается на дорогих и трудоемких методах магнитно-ядерного резо- нанса и рентгеноструктурного анализа. Это стимулирует развитие непрямых спосо- бов получения информации о белках, которые позволяют предсказывать неизвест- ную структуру белка на основе ранее полученных данных о других белках; большая часть этих способов основывается на математической статистике и машинном обу- чении [1]. В данной статье рассматривается задача определения вторичной структуры белка, т.е. определения локальных регулярностей в расположении последователь- ности его аминокислот: -спиралей и -слоев. Существующие методы машинного обучения, применяемые для решения этой задачи, можно разбить на три основные группы по мере возрастания сложности [2]. 1. Алгоритмы, основанные на предположении о независимости аминокислот одна от другой. Для определения вторичной структуры используются статистики, собранные для отдельных аминокислот. 2. Алгоритмы, постулирующие для каждой аминокислоты зависимость вторич- ной структуры от определенного количества соседних аминокислот. В таких методах применяются модели Маркова, нейронные сети, генетические алгоритмы и т.п. 3. Алгоритмы, где учитывается эволюционная близость между некоторыми группами белков. Помимо упомянутых выше технологий машинного обучения, эти алгоритмы используют методы выравнивания последовательностей по типу BLAST. Предлагаемый в данной статье подход основан на моделях Маркова со скрыты- ми параметрами и, с формальной точки зрения, принадлежит к методам второго рода. Однако, в отличие от большинства этих методов, алгоритм хорошо обоснован теоре- тически и легко обобщается для решения других задач биоинформатики, в частности задачи определения функциональных участков генов (экзонов и интронов) [3]. Международный научно-технический журнал «Проблемы управления и информатики», 2013, № 2 141 Работа состоит из четырех разделов. В первом ставится задача достаточно общего характера по определению скрытых параметров на основе обучающих выборок и приводится алгоритм ее решения. Во втором разделе обсуждаются возможные эвристики и модификации алгоритма. В третьем описывается вычис- лительный эксперимент и некоторые особенности применения сформулированно- го метода для определения вторичной структуры белков. В четвертом, заключи- тельном, разделе подводится итог выполненной работы и определяются возмож- ные направления для дальнейших исследований. 1. Постановка задачи Пусть задана последовательность символов (наблюдаемых состояний) ,21 nsssS  отдельные символы которой принадлежат конечному алфавиту .sR Каждому символу Ssi  соответствует единственный символ (скрытое состояние) ih из конечного алфавита .hR Задача. Найти алгоритм ,: n h n s RRA  сопоставляющий произвольной по- следовательности S определенную последовательность nhhhH 21 в соответ- ствии с обучающей выборкой, т.е. набором последовательностей, для которых из- вестны как наблюдаемые, так и скрытые состояния. Пару из наблюдаемого и соответствующего скрытого состояния будем называть полным состоянием: ).,( iii hsx  Для любой последовательности lxxxX 21 определим проекции ,)(: l s l hss RRR  :)(: l h l hsh RRR  ,)( 1 ls ssX  .)( 1 lh hhX  Для того чтобы применить к задаче аппарат ма- тематической статистики, логично сделать следующее предположение относи- тельно последовательности. Гипотеза 1. Вероятность появления в последовательности X состояния ix зави- сит исключительно от m предыдущих состояний последовательности .1 imi xx  Приведем эквивалентную формулировку в терминах наблюдаемых и скры- тых состояний системы. Гипотеза 1. Вероятность появления в последовательности H состояния ih зависит исключительно от скрытых состояний 1 imi hh  и наблюдаемых .imi ss  Для нахождения оптимальной строки H воспользуемся принципом максиму- ма правдоподобия: будем максимизировать выражение  )(log)(log 11 mm sshhPSHP  ).(log)(log 111   nmnnmm xxhPxxhP  Введем обозначение ),,(logmax),( 11 StxxhhPtiM imii    где макси- мум берется по всем последовательностям скрытых состояний длины i. Тогда, как несложно видеть, ),,(max)(logmax tnMSHP t  где последовательности t, по ко- торым производится максимизация, удовлетворяют требованию .)( 1 nmn sst  Для ),( tiM справедливо рекуррентное соотношение )},(),1({max),( 1111   mmm u tuttPtutiMtiM  .)( is su  В качестве граничных равенств для функции M можно использовать       случае. противном в ,)( если),)(( ),( 11 msmh sstsstP tmM  (1) 142 ISSN 0572-2691 Запоминая при поиске M оптимальное состояние u, можно легко определить не только максимальную вероятность ),( SHP но и саму последовательность скрытых состояний .21 nhhh  Предложенный ниже соответствующий алгоритм фактически является несколько модифицированным алгоритмом Витерби. Алгоритм (обобщение алгоритма Витерби). Дано: последовательность ;1 nssS  вероятности вида )( 1 mssHP  для всевозможных m hRH  и )( XxP для всех ,hs RRx  .)( m hs RRX  Определить: последовательность ,1 nhhH  на которой достигается мак- симум условной вероятности ).( SHP 1. Для всех последовательностей полных состояний x длины m инициализи- ровать ),( xmM по формуле (1). 2. для nmmi ,,2,1  : 3. для всех m hs RRx )(  4. положить ;:),( xiM 5. если ,)( 1 imis ssx  то 6. для всех ,hs RRu  имеющих is su  )( 7. ;: 11  mxuxtail  8. если ),,1()(log),( tailiMtailxPxiM m  то 9. );(:),( yxiptr h 10. );,1()(log:),( tailiMtailxPxiM m  11. )).,(max(arg:1 xnMhh x hnmn   12. Восстановить последовательность скрытых состояний с помощью масси- ва :ptr 13. для 1,,1,  mnni  14. );,(),(: 11 iimimi hshsx  15. ).,(: xiptrh mi  Сложность алгоритма ключевым образом зависит от эффективности реализа- ции шагов 7–10, расположенных внутри двух вложенных циклов. Если определе- ние tail по u и x, а также определение вероятности )( tailxP m производится за время ),1(O то сложность алгоритма будет составлять ).( m hRnO Следует отметить, что в алгоритме полагаются заданными начальные и пере- ходные вероятности. Для их нахождения можно воспользоваться несмещенными оценками, полученными на обучающей выборке:  )( 11 mm sshhP  можно считать как отношение количества последова- тельностей полных состояний, которые начинаются с ),,(),( 11 mm hshs  к числу наблюдаемых цепочек, начинающихся с ;1 mss   вероятности вида )( XxP можно оценить по формуле , )( )( )( Xn Xxn XxP  где )(Xn и )(Xxn — количество вхождений соответствующих последовательно- стей в цепочки скрытых состояний обучающей выборки. 2. Эвристики и модификации Для того чтобы реализовать на практике упомянутую в предыдущем разделе оценку сложности алгоритма )( m hRnO или близкую к ней, следует ответственно подойти к выбору структур для хранения данных. В частности, одним из наиболее Международный научно-технический журнал «Проблемы управления и информатики», 2013, № 2 143 эффективных способов хранения цепочек скрытых состояний длины l является их представление в виде единственного натурального числа ]1,0[)( 1  l hl Rhh  — порядкового номера среди всех цепочек этой длины (с отсчетом от нуля). По анало- гии для наблюдаемых состояний можно ввести функцию ].1,0[:  l s l s RR При таком методе хранения циклы на третьем и шестом шагах алгоритма произво- дятся по целым числам в диапазонах ]1,0[  m hR и ]1,0[ hR соответственно, а седьмой шаг сводится к вычислению .]/)([)()( 1 h m h RxRutail   Еще одна проблема имплементации алгоритма заключается в необходимости хранения большого объема статистики о переходных вероятностях вида ).( XxP Наиболее очевидный способ их организации — четырехмерный массив действитель- ных чисел, в котором первая размерность соответствует )),(( Xh вторая — )),(( Xs третья и четвертая — ))(( xh и ))(( xs соответственно. Доступ к эле- ментам такого массива требует )1(O операций, однако его объем, ,)( 1 m hs RR недопустимо завышен для большинства применений. Более того, как показывает практика, для реальных задач в последовательностях полных состояний встреча- ется сравнительно небольшая доля возможных цепочек X. Поэтому более обосно- ванным является хранение вероятностей в виде ассоциативного массива, в кото- ром ключами служат наборы ,))(()),((  XX sh а элементами — массивы длины .hs RR  Вероятность )( XxP при таком способе хранения данных по- лучим в два этапа: 1) в массиве производится поиск по ключу, при этом результат представляет собой вектор v; 2) искомая вероятность является компонентой вектора v с индексом ))(())(( xRx ssh  (нумерация компонент производится с нуля). Скорость доступа зависит от способа имплементации ассоциативных массивов. Для большинства современных языков программирования доступны реализации со временем доступа ),(log NO где N — число ключей в массиве; соответственно для данной задачи это время будет составлять ).())((log 11 mORRO m h m s   Таким образом, скорректированная оценка сложности алгоритма Витерби при использо- вании ассоциативных массивов будет равна ).( m hRnmO  В этом алгоритме одна из основных возможных проблем при достаточно больших значений m — нехватка статистики о переходных вероятностях )( XxP в обучающей выборке, т.е. отсутствие сведений о переходах из набора состояний X в какие-либо полные состояния. Из-за этого возможен случай, когда на шаге 11 алгоритма ),(max xnM x и восстановление последовательности H невоз- можно. Ниже изложены два способа выхода из такой ситуации: 1) голосование по старшинству среди нескольких алгоритмов, упорядочен- ных по убыванию параметра m — для каждой последовательности S ответом бу- дет удачный результат работы алгоритма с как можно большим m; 2) применение подобного подхода в рамках вычисления каждой вероятности — в случае, если для обучающей выборки ,0)( Xn в качестве оценки следует ис- пользовать . )( )( )()( 2 2 1 m m m xxn xxxn xxxPXxP     144 ISSN 0572-2691 Если и ,0)( 2 mxxn  то для вычисления вероятности вместо последова- тельности X можно использовать ее фрагмент, начинающийся с ,3x и т.д. На практике этот подход дает более высокие показатели качества классификации, чем первый, поэтому в вычислительном эксперименте использовался именно он. 3. Вычислительный эксперимент Описанный в разд. 1 алгоритм может применяться для достаточно широкого круга задач, в частности, для определения вторичной структуры белка. Как из- вестно из молекулярной биологии, все белки являются последовательностями, со- стоящими из двадцати возможных аминокислот — аланин, цистеин, аспарагино- вая кислота, глутаминовая кислота, фенилаланин, глицин, гистидин, изолейцин, лизин, лейцин, метионин, аспарагин, пролин, глутамин, аргинин, серин, треонин, валин, триптофан и тирозин. Цепочка аминокислот образует сложную простран- ственную структуру, в которой каждый элемент входит в состав одного из следу- ющих объектов трех основных типов:  103 -, α- и π-спирали;  β-листы;  повороты, области высокой кривизны, которые, как и оставшиеся амино- кислоты, обычно называют нерегулярными структурами. Таким образом, задача восстановления вторичной структуры белка по извест- ной последовательности его аминокислот соответствует формулировке, приведен- ной в разд. 1, с количеством наблюдаемых состояний 21sR (20 аминокислот и специальное состояние для неидентифицированных участков белка) и тремя скры- тыми состояниями },,{ oRh  ( соответствует спиралям,  — слоям, o — нере- гулярным структурам). В качестве источника информации о вторичной структуре белков использо- валась база данных Центра молекулярной и биомолекулярной информатики (Нидерланды) [4]. Из нее была получена вторичная структура для 76907 белков суммарной длиной 46293781 аминокислот (таким образом, средняя длина белка составила 60,2). Из всех аминокислот в состав нерегулярных состояний входит 41,54 %, спиралей — 36,01 %, слоев — 22,45 %. Из-за наличия в выборке дублирующихся последовательностей, а также аль- тернативных вариантов вторичной структуры для одного и того же белка для про- верки качества классификации использовалось два несколько модифицированных варианта исходной выборки: 1) выборка, из которой были удалены повторяющиеся последовательности (62119 белков суммарной длиной 38141027 аминокислот); 2) выборка, из которой были удалены белки с одинаковыми именами (26108 бел- ков общей длиной 14070736 аминокислот). Применялась десятикратная кроссвалидация — выборка случайным образом разбивалась на десять приблизительно равных частей, каждая по очереди высту- пала в роли контроля, а оставшиеся девять частей — в качестве обучения. Затем показатели качества усреднялись по всем разбиениям. Для определения работо- способности алгоритма использовались следующие метрики:  доля правильно классифицированных скрытых состояний C;  специфичность и чувствительность по отдельным состояниям для каждого из трех классов скрытых состояний :},,{ oh  , )()( )( )( hFPhTP hTP hSSp   , )()( )( )( hFNhTP hTP hSSn   Международный научно-технический журнал «Проблемы управления и информатики», 2013, № 2 145 где введены обозначения: )(hTP — число правильно распознанных состояний ти- па h, )(hFN — количество нераспознанных состояний этого типа, )(hFP — чис- ло нераспознанных состояний других типов;  коэффициент корреляции для каждого класса ))()())(()())(()())(()(( )()()()( )( hFNhTNhFPhTNhFPhTPhFNhTP hFNhFPhTNhTP hCC    (в формуле, помимо введенных выше обозначений, используется )(hTN — число корректно распознанных состояний типов );\ hRh  средняя условная вероятность ; )()( )( )()( )( )()( )( )()( )( 4 1 )(               hFNhTN hTN hFPhTN hTN hFPhTP hTP hFNhTP hTP hACP  специфичность и чувствительность по участкам состояний каждого из классов: ),(/)()( hPRhTRhRSp  ).(/)()( hARhTRhRSn  Здесь )(hTR — количество правильно распознанных алгоритмом участков, состо- ящих из состояний h (для которых корректно предсказаны начало и конец), )(hAR — полное число участков типа h в выборке, )(hPR — число таких участ- ков в выводе алгоритма. Результаты работы исходного алгоритма приведены в табл. 1 и 2. Главным недостатком алгоритма при ,3m как видно, является большое количество бел- ков, для которых классификация невозможна из-за отсутствия сведений об опре- деленных переходных вероятностях. Поэтому сведения о качестве распознавания вторичной структуры для контрольных выборок по этой причине приведены только для той части белков, которая была успешно классифицирована. Таблица 1 Выборка С, % Структура SSp, % SSn, % CC, % ACP, % RSp, % RSn, % 2m обучающая 62,84 — 71,11 55,59 41,84 70,95 17,34 8,64 спираль 57,35 84,02 46,74 73,38 9,28 5,58 слой 64,53 42,05 41,71 71,14 22,79 9,47 контрольная 62,34 — 70,63 55,15 41,14 70,60 16,55 8,19 спираль 56,94 83,66 45,97 73,00 8,70 5,21 слой 63,75 41,22 40,74 70,66 21,77 8,95 3m обучающая 85,65 — 86,58 83,40 74,77 87,39 53,20 52,10 спираль 85,26 89,78 80,12 90,06 48,11 48,78 слой 84,66 83,12 79,26 89,63 59,02 57,90 контрольная (22,02 % пропусков) 83,42 — 84,00 81,84 71,22 85,61 49,12 47,61 спираль 83,31 87,49 76,76 88,38 44,11 44,43 слой 82,56 79,78 75,78 87,89 55,10 53,14 Избавиться от проблемы с пропусками отдельных последовательностей из контрольной выборки позволяет описанная в разд. 2 эвристика по оценке недостающих переходных вероятностей. Результаты работы модифицирован- ного с ее помощью алгоритма для диапазонов значений 32  m и 42  m приведены в табл. 3 и 4 (уже при 4m количество возможных последова- тельностей полных состояний X для переходных вероятностей )( XxP со- ставляет ,107,15)321( 64  что сравнимо с полным объемом выборки, так что использование больших значений m не представляется разумным). Как видно, 146 ISSN 0572-2691 возможность классифицировать вторичную структуру всех белков достигается ценой ощутимого снижения качества предсказания на контрольной выборке (по- рядка 10–15 % для отдельных метрик). В целом показатели качества алгоритма сравнимы с другими методами пред- сказания вторичной структуры белков, основанными на предположении о зависи- мости структуры каждой аминокислоты от соседних аминокислот (названные во введении методами второго поколения). В то же время алгоритм явно уступает методам третьего поколения, использующим сведения о родственных белках. Таблица 2 Выборка С, % Структура SSp, % SSn, % CC, % ACP, % RSp, % RSn, % 2m обучающая 62,84 — 70,62 53,59 40,44 70,25 16,23 7,77 спираль 55,67 84,64 45,39 72,71 7,65 4,43 слой 64,86 40,57 40,71 70,69 21,85 8,66 контрольная 60,35 — 69,30 52,42 38,55 69,31 14,35 6,76 спираль 54,67 83,71 43,31 71,67 6,25 3,60 слой 62,79 38,24 38,08 69,39 19,42 7,46 3m обучающая 87,00 — 87,95 84,51 76,95 88,48 56,34 55,24 спираль 86,34 91,13 82,15 91,08 50,77 51,51 слой 86,45 85,03 81,49 90,75 61,69 60,76 контрольная (59,51 % пропусков) 81,59 — 81,82 80,13 68,06 84,03 45,62 43,73 спираль 81,12 85,69 73,91 86,96 39,07 39,35 слой 81,97 78,00 73,92 86,97 51,98 49,40 Таблица 3 Выборка С, % Структура SSp, % SSn, % CC, % ACP, % RSp, % RSn, % 32  m обучающая 80,01 — 83,12 76,32 66,41 83,21 42,54 45,52 спираль 81,10 84,29 72,56 86,28 38,95 42,85 слой 73,49 79,86 69,46 84,74 45,04 51,59 контрольная 74,67 — 78,05 71,58 58,31 79,16 34,25 36,82 спираль 76,38 79,05 64,70 82,35 31,01 34,07 слой 66,88 73,27 60,78 80,40 36,22 41,85 42 m обучающая 94,25 — 94,58 92,36 88,97 94,49 69,58 76,33 спираль 95,15 94,91 92,21 96,11 65,70 73,13 слой 92,31 96,65 92,81 96,41 74,54 83,04 контрольная 83,78 — 84,27 83,29 72,50 86,25 49,01 56,06 спираль 87,48 83,05 77,20 88,60 46,50 51,93 слой 77,84 85,86 76,14 88,09 51,91 62,42 Таблица 4 Выборка С, % Структура SSp, % SSn, % CC, % ACP, % RSp, % RSn, % 32  m обучающая 79,54 — 83,02 75,17 65,63 82,82 42,09 45,53 спираль 80,73 84,00 72,19 86,10 38,27 42,38 слой 72,75 80,39 68,96 84,50 44,07 51,40 контрольная 64,58 — 68,93 61,62 43,15 71,58 20,20 22,02 спираль 67,06 69,34 49,96 74,98 16,91 18,48 слой 55,00 62,47 45,14 72,59 21,35 25,40 42 m обучающая 96,03 — 96,12 94,63 92,20 96,10 76,96 82,06 спираль 96,56 96,50 94,59 97,30 73,31 79,66 слой 95,05 97,77 95,30 97,65 81,51 87,51 контрольная 69,50 — 70,39 72,51 51,05 75,53 28,69 33,34 спираль 75,86 65,47 55,85 77,95 26,68 28,55 слой 60,78 70,42 54,03 77,05 29,94 37,98 Международный научно-технический журнал «Проблемы управления и информатики», 2013, № 2 147 Заключение Рассмотрена задача достаточно общего вида по восстановлению последова- тельностей скрытых состояний в моделях Маркова. Предложен алгоритм решения этой задачи, а также несколько возможных модификаций, направленных на уве- личение скорости его работы и повышения обобщающей способности. На основа- нии вычислительного эксперимента сделан вывод о применимости алгоритма для задачи определения вторичной структуры белка. В качестве направлений для дальнейших исследований можно предложить исследование применимости алгоритма для других задач биоинформатики, а так- же расширение метода на более сложные виды зависимостей (в частности, когда скрытое состояние зависит не только от предшествующих состояний, но и от сле- дующих за ним). О.В. Островський ВИЗНАЧЕННЯ ВТОРИННОЇ СТРУКТУРИ БІЛКІВ ЗА ДОПОМОГОЮ МОДЕЛЕЙ МАРКОВА Запропоновано підхід до розв’язання задач загального виду з відновлення по- слідовності прихованих станів у моделях Маркова. Алгоритм застосовується для визначення вторинної структури білків. A.V. Ostrovskiy DETECTING SECONDARY STRUCTURE OF PROTEINS USING MARKOV MODELS An approach to solving generic problems, which concern the recovery of sequences of hidden states in Markov models, is introduced. The introduced algorithm is ap- plied to determine the secondary structure of proteins. 1. Baldi P., Brunak S. Bioinformatics: machine learning approach. — Cambridge : MIT Press, 2001. — 452 p. 2. Rost B. Rising accuracy of protein secondary structure prediction // Protein structure determination, analysis, and modeling for drug discovery / ed. D. Chasman. — New York : Dekker, 2003. — P. 207–249. 3. Сергиенко И.В., Гупал А.М., Островский А.В. Распознавание фрагментов генов в ДНК с применением моделей Маркова со скрытыми переменными // Кибернетика и системный анализ. — 2012. — № 3. — С. 58–67. 4. База данных белков Центра молекулярной и биомолекулярной информатики. — ftp://ftp. cmbi.ru.nl/pub/molbio/data/dssp/. Получено 10.07.2012 Статья представлена к публикации чл.-корр. НАН Украины А.М. Гупалом. ftp://ftp.�cmbi.ru.nl/pub/molbio/data/dssp/ ftp://ftp.�cmbi.ru.nl/pub/molbio/data/dssp/

Определение вторичной структуры белков с помощью моделей Маркова

Репозитарії

Схожі ресурси