Определение вторичной структуры белков с помощью моделей Маркова
Запропоновано підхід до розв’язання задач загального виду з відновлення послідовності прихованих станів у моделях Маркова. Алгоритм застосовується для визначення вторинної структури білків....
Збережено в:
| Дата: | 2013 |
|---|---|
| Автор: | |
| Формат: | Стаття |
| Мова: | Russian |
| Опубліковано: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2013
|
| Назва видання: | Проблемы управления и информатики |
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/207608 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Определение вторичной структуры белков с помощью моделей Маркова / А.В. Островский // Проблемы управления и информатики. — 2013. — № 2. — С. 140–147. — Бібліогр.: 4 назви. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
irk-123456789-207608 |
|---|---|
| record_format |
dspace |
| spelling |
irk-123456789-2076082025-10-12T00:06:42Z Определение вторичной структуры белков с помощью моделей Маркова Визначення вторинної структури білків за допомогою моделей Маркова Detecting Secondary Structure of Proteins Using Markov Models Островский, А.В. Управление в биологических и природных системах Запропоновано підхід до розв’язання задач загального виду з відновлення послідовності прихованих станів у моделях Маркова. Алгоритм застосовується для визначення вторинної структури білків. An approach to solving generic problems, which concern the recovery of sequences of hidden states in Markov models, is introduced. The introduced algorithm is applied to determine the secondary structure of proteins. 2013 Article Определение вторичной структуры белков с помощью моделей Маркова / А.В. Островский // Проблемы управления и информатики. — 2013. — № 2. — С. 140–147. — Бібліогр.: 4 назви. — рос. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/207608 519.217.2 10.1615/JAutomatInfScien.v45.i3.70 ru Проблемы управления и информатики application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| language |
Russian |
| topic |
Управление в биологических и природных системах Управление в биологических и природных системах |
| spellingShingle |
Управление в биологических и природных системах Управление в биологических и природных системах Островский, А.В. Определение вторичной структуры белков с помощью моделей Маркова Проблемы управления и информатики |
| description |
Запропоновано підхід до розв’язання задач загального виду з відновлення послідовності прихованих станів у моделях Маркова. Алгоритм застосовується для визначення вторинної структури білків. |
| format |
Article |
| author |
Островский, А.В. |
| author_facet |
Островский, А.В. |
| author_sort |
Островский, А.В. |
| title |
Определение вторичной структуры белков с помощью моделей Маркова |
| title_short |
Определение вторичной структуры белков с помощью моделей Маркова |
| title_full |
Определение вторичной структуры белков с помощью моделей Маркова |
| title_fullStr |
Определение вторичной структуры белков с помощью моделей Маркова |
| title_full_unstemmed |
Определение вторичной структуры белков с помощью моделей Маркова |
| title_sort |
определение вторичной структуры белков с помощью моделей маркова |
| publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
| publishDate |
2013 |
| topic_facet |
Управление в биологических и природных системах |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/207608 |
| citation_txt |
Определение вторичной структуры белков с помощью моделей Маркова / А.В. Островский // Проблемы управления и информатики. — 2013. — № 2. — С. 140–147. — Бібліогр.: 4 назви. — рос. |
| series |
Проблемы управления и информатики |
| work_keys_str_mv |
AT ostrovskijav opredelenievtoričnojstrukturybelkovspomoŝʹûmodelejmarkova AT ostrovskijav viznačennâvtorinnoístrukturibílkívzadopomogoûmodelejmarkova AT ostrovskijav detectingsecondarystructureofproteinsusingmarkovmodels |
| first_indexed |
2025-10-12T01:11:37Z |
| last_indexed |
2025-10-13T01:10:00Z |
| _version_ |
1845826997916270592 |
| fulltext |
© А.В. ОСТРОВСКИЙ, 2013
140 ISSN 0572-2691
УПРАВЛЕНИЕ В БИОЛОГИЧЕСКИХ
И ПРИРОДНЫХ СИСТЕМАХ
УДК 519.217.2
А.В. Островский
ОПРЕДЕЛЕНИЕ ВТОРИЧНОЙ
СТРУКТУРЫ БЕЛКОВ С ПОМОЩЬЮ
МОДЕЛЕЙ МАРКОВА
Введение
Изучение белков человека и других живых организмов относится к приоритет-
ным направлениям исследований в биоинформатике. Это связано с тем, что инфор-
мация о пространственной структуре белков является крайне востребованной во
многих областях медицины и, прежде всего, в фармакологии. Данные подобного
рода широко используются при производстве новых медикаментов. Зная располо-
жение отдельных аминокислот белка в пространстве, сравнительно легко можно
выделить его функционально активные участки и предсказать поведение и метабо-
лизм белка в организме человека.
В настоящее время непосредственное определение пространственной структу-
ры белка основывается на дорогих и трудоемких методах магнитно-ядерного резо-
нанса и рентгеноструктурного анализа. Это стимулирует развитие непрямых спосо-
бов получения информации о белках, которые позволяют предсказывать неизвест-
ную структуру белка на основе ранее полученных данных о других белках; большая
часть этих способов основывается на математической статистике и машинном обу-
чении [1].
В данной статье рассматривается задача определения вторичной структуры
белка, т.е. определения локальных регулярностей в расположении последователь-
ности его аминокислот: -спиралей и -слоев. Существующие методы машинного
обучения, применяемые для решения этой задачи, можно разбить на три основные
группы по мере возрастания сложности [2].
1. Алгоритмы, основанные на предположении о независимости аминокислот
одна от другой. Для определения вторичной структуры используются статистики,
собранные для отдельных аминокислот.
2. Алгоритмы, постулирующие для каждой аминокислоты зависимость вторич-
ной структуры от определенного количества соседних аминокислот. В таких методах
применяются модели Маркова, нейронные сети, генетические алгоритмы и т.п.
3. Алгоритмы, где учитывается эволюционная близость между некоторыми
группами белков. Помимо упомянутых выше технологий машинного обучения, эти
алгоритмы используют методы выравнивания последовательностей по типу BLAST.
Предлагаемый в данной статье подход основан на моделях Маркова со скрыты-
ми параметрами и, с формальной точки зрения, принадлежит к методам второго рода.
Однако, в отличие от большинства этих методов, алгоритм хорошо обоснован теоре-
тически и легко обобщается для решения других задач биоинформатики, в частности
задачи определения функциональных участков генов (экзонов и интронов) [3].
Международный научно-технический журнал
«Проблемы управления и информатики», 2013, № 2 141
Работа состоит из четырех разделов. В первом ставится задача достаточно
общего характера по определению скрытых параметров на основе обучающих
выборок и приводится алгоритм ее решения. Во втором разделе обсуждаются
возможные эвристики и модификации алгоритма. В третьем описывается вычис-
лительный эксперимент и некоторые особенности применения сформулированно-
го метода для определения вторичной структуры белков. В четвертом, заключи-
тельном, разделе подводится итог выполненной работы и определяются возмож-
ные направления для дальнейших исследований.
1. Постановка задачи
Пусть задана последовательность символов (наблюдаемых состояний)
,21 nsssS отдельные символы которой принадлежат конечному
алфавиту .sR Каждому символу Ssi соответствует единственный символ
(скрытое состояние) ih из конечного алфавита .hR
Задача. Найти алгоритм ,: n
h
n
s RRA сопоставляющий произвольной по-
следовательности S определенную последовательность nhhhH 21 в соответ-
ствии с обучающей выборкой, т.е. набором последовательностей, для которых из-
вестны как наблюдаемые, так и скрытые состояния.
Пару из наблюдаемого и соответствующего скрытого состояния будем называть
полным состоянием: ).,( iii hsx Для любой последовательности lxxxX 21
определим проекции ,)(: l
s
l
hss RRR :)(: l
h
l
hsh RRR
,)( 1 ls ssX .)( 1 lh hhX Для того чтобы применить к задаче аппарат ма-
тематической статистики, логично сделать следующее предположение относи-
тельно последовательности.
Гипотеза 1. Вероятность появления в последовательности X состояния ix зави-
сит исключительно от m предыдущих состояний последовательности .1 imi xx
Приведем эквивалентную формулировку в терминах наблюдаемых и скры-
тых состояний системы.
Гипотеза 1. Вероятность появления в последовательности H состояния ih
зависит исключительно от скрытых состояний 1 imi hh и наблюдаемых .imi ss
Для нахождения оптимальной строки H воспользуемся принципом максиму-
ма правдоподобия: будем максимизировать выражение
)(log)(log 11 mm sshhPSHP
).(log)(log 111 nmnnmm xxhPxxhP
Введем обозначение ),,(logmax),( 11 StxxhhPtiM imii где макси-
мум берется по всем последовательностям скрытых состояний длины i. Тогда, как
несложно видеть, ),,(max)(logmax tnMSHP
t
где последовательности t, по ко-
торым производится максимизация, удовлетворяют требованию .)( 1 nmn sst
Для ),( tiM справедливо рекуррентное соотношение
)},(),1({max),( 1111 mmm
u
tuttPtutiMtiM .)( is su
В качестве граничных равенств для функции M можно использовать
случае. противном в
,)( если),)((
),( 11 msmh sstsstP
tmM
(1)
142 ISSN 0572-2691
Запоминая при поиске M оптимальное состояние u, можно легко определить
не только максимальную вероятность ),( SHP но и саму последовательность
скрытых состояний .21 nhhh Предложенный ниже соответствующий алгоритм
фактически является несколько модифицированным алгоритмом Витерби.
Алгоритм (обобщение алгоритма Витерби).
Дано: последовательность ;1 nssS вероятности вида )( 1 mssHP для
всевозможных m
hRH и )( XxP для всех ,hs RRx .)( m
hs RRX
Определить: последовательность ,1 nhhH на которой достигается мак-
симум условной вероятности ).( SHP
1. Для всех последовательностей полных состояний x длины m инициализи-
ровать ),( xmM по формуле (1).
2. для nmmi ,,2,1 :
3. для всех m
hs RRx )(
4. положить ;:),( xiM
5. если ,)( 1 imis ssx то
6. для всех ,hs RRu имеющих is su )(
7. ;: 11 mxuxtail
8. если ),,1()(log),( tailiMtailxPxiM m то
9. );(:),( yxiptr h
10. );,1()(log:),( tailiMtailxPxiM m
11. )).,(max(arg:1 xnMhh
x
hnmn
12. Восстановить последовательность скрытых состояний с помощью масси-
ва :ptr
13. для 1,,1, mnni
14. );,(),(: 11 iimimi hshsx
15. ).,(: xiptrh mi
Сложность алгоритма ключевым образом зависит от эффективности реализа-
ции шагов 7–10, расположенных внутри двух вложенных циклов. Если определе-
ние tail по u и x, а также определение вероятности )( tailxP m производится за
время ),1(O то сложность алгоритма будет составлять ).(
m
hRnO
Следует отметить, что в алгоритме полагаются заданными начальные и пере-
ходные вероятности. Для их нахождения можно воспользоваться несмещенными
оценками, полученными на обучающей выборке:
)( 11 mm sshhP можно считать как отношение количества последова-
тельностей полных состояний, которые начинаются с ),,(),( 11 mm hshs к числу
наблюдаемых цепочек, начинающихся с ;1 mss
вероятности вида )( XxP можно оценить по формуле ,
)(
)(
)(
Xn
Xxn
XxP
где )(Xn и )(Xxn — количество вхождений соответствующих последовательно-
стей в цепочки скрытых состояний обучающей выборки.
2. Эвристики и модификации
Для того чтобы реализовать на практике упомянутую в предыдущем разделе
оценку сложности алгоритма )(
m
hRnO или близкую к ней, следует ответственно
подойти к выбору структур для хранения данных. В частности, одним из наиболее
Международный научно-технический журнал
«Проблемы управления и информатики», 2013, № 2 143
эффективных способов хранения цепочек скрытых состояний длины l является их
представление в виде единственного натурального числа ]1,0[)( 1
l
hl Rhh —
порядкового номера среди всех цепочек этой длины (с отсчетом от нуля). По анало-
гии для наблюдаемых состояний можно ввести функцию ].1,0[:
l
s
l
s RR
При таком методе хранения циклы на третьем и шестом шагах алгоритма произво-
дятся по целым числам в диапазонах ]1,0[
m
hR и ]1,0[ hR соответственно,
а седьмой шаг сводится к вычислению
.]/)([)()(
1
h
m
h RxRutail
Еще одна проблема имплементации алгоритма заключается в необходимости
хранения большого объема статистики о переходных вероятностях вида ).( XxP
Наиболее очевидный способ их организации — четырехмерный массив действитель-
ных чисел, в котором первая размерность соответствует )),(( Xh вторая —
)),(( Xs третья и четвертая — ))(( xh и ))(( xs соответственно. Доступ к эле-
ментам такого массива требует )1(O операций, однако его объем, ,)( 1 m
hs RR
недопустимо завышен для большинства применений. Более того, как показывает
практика, для реальных задач в последовательностях полных состояний встреча-
ется сравнительно небольшая доля возможных цепочек X. Поэтому более обосно-
ванным является хранение вероятностей в виде ассоциативного массива, в кото-
ром ключами служат наборы ,))(()),(( XX sh а элементами — массивы
длины .hs RR Вероятность )( XxP при таком способе хранения данных по-
лучим в два этапа:
1) в массиве производится поиск по ключу, при этом результат представляет
собой вектор v;
2) искомая вероятность является компонентой вектора v с индексом
))(())(( xRx ssh (нумерация компонент производится с нуля).
Скорость доступа зависит от способа имплементации ассоциативных массивов.
Для большинства современных языков программирования доступны реализации со
временем доступа ),(log NO где N — число ключей в массиве; соответственно для
данной задачи это время будет составлять ).())((log
11
mORRO
m
h
m
s
Таким
образом, скорректированная оценка сложности алгоритма Витерби при использо-
вании ассоциативных массивов будет равна ).(
m
hRnmO
В этом алгоритме одна из основных возможных проблем при достаточно
больших значений m — нехватка статистики о переходных вероятностях )( XxP
в обучающей выборке, т.е. отсутствие сведений о переходах из набора состояний
X в какие-либо полные состояния. Из-за этого возможен случай, когда на шаге 11
алгоритма ),(max xnM
x
и восстановление последовательности H невоз-
можно. Ниже изложены два способа выхода из такой ситуации:
1) голосование по старшинству среди нескольких алгоритмов, упорядочен-
ных по убыванию параметра m — для каждой последовательности S ответом бу-
дет удачный результат работы алгоритма с как можно большим m;
2) применение подобного подхода в рамках вычисления каждой вероятности —
в случае, если для обучающей выборки ,0)( Xn в качестве оценки следует ис-
пользовать .
)(
)(
)()(
2
2
1
m
m
m
xxn
xxxn
xxxPXxP
144 ISSN 0572-2691
Если и ,0)( 2 mxxn то для вычисления вероятности вместо последова-
тельности X можно использовать ее фрагмент, начинающийся с ,3x и т.д. На
практике этот подход дает более высокие показатели качества классификации,
чем первый, поэтому в вычислительном эксперименте использовался именно он.
3. Вычислительный эксперимент
Описанный в разд. 1 алгоритм может применяться для достаточно широкого
круга задач, в частности, для определения вторичной структуры белка. Как из-
вестно из молекулярной биологии, все белки являются последовательностями, со-
стоящими из двадцати возможных аминокислот — аланин, цистеин, аспарагино-
вая кислота, глутаминовая кислота, фенилаланин, глицин, гистидин, изолейцин,
лизин, лейцин, метионин, аспарагин, пролин, глутамин, аргинин, серин, треонин,
валин, триптофан и тирозин. Цепочка аминокислот образует сложную простран-
ственную структуру, в которой каждый элемент входит в состав одного из следу-
ющих объектов трех основных типов:
103 -, α- и π-спирали;
β-листы;
повороты, области высокой кривизны, которые, как и оставшиеся амино-
кислоты, обычно называют нерегулярными структурами.
Таким образом, задача восстановления вторичной структуры белка по извест-
ной последовательности его аминокислот соответствует формулировке, приведен-
ной в разд. 1, с количеством наблюдаемых состояний 21sR (20 аминокислот и
специальное состояние для неидентифицированных участков белка) и тремя скры-
тыми состояниями },,{ oRh ( соответствует спиралям, — слоям, o — нере-
гулярным структурам).
В качестве источника информации о вторичной структуре белков использо-
валась база данных Центра молекулярной и биомолекулярной информатики
(Нидерланды) [4]. Из нее была получена вторичная структура для 76907 белков
суммарной длиной 46293781 аминокислот (таким образом, средняя длина белка
составила 60,2). Из всех аминокислот в состав нерегулярных состояний входит
41,54 %, спиралей — 36,01 %, слоев — 22,45 %.
Из-за наличия в выборке дублирующихся последовательностей, а также аль-
тернативных вариантов вторичной структуры для одного и того же белка для про-
верки качества классификации использовалось два несколько модифицированных
варианта исходной выборки:
1) выборка, из которой были удалены повторяющиеся последовательности
(62119 белков суммарной длиной 38141027 аминокислот);
2) выборка, из которой были удалены белки с одинаковыми именами (26108 бел-
ков общей длиной 14070736 аминокислот).
Применялась десятикратная кроссвалидация — выборка случайным образом
разбивалась на десять приблизительно равных частей, каждая по очереди высту-
пала в роли контроля, а оставшиеся девять частей — в качестве обучения. Затем
показатели качества усреднялись по всем разбиениям. Для определения работо-
способности алгоритма использовались следующие метрики:
доля правильно классифицированных скрытых состояний C;
специфичность и чувствительность по отдельным состояниям для каждого
из трех классов скрытых состояний :},,{ oh
,
)()(
)(
)(
hFPhTP
hTP
hSSp
,
)()(
)(
)(
hFNhTP
hTP
hSSn
Международный научно-технический журнал
«Проблемы управления и информатики», 2013, № 2 145
где введены обозначения: )(hTP — число правильно распознанных состояний ти-
па h, )(hFN — количество нераспознанных состояний этого типа, )(hFP — чис-
ло нераспознанных состояний других типов;
коэффициент корреляции для каждого класса
))()())(()())(()())(()((
)()()()(
)(
hFNhTNhFPhTNhFPhTPhFNhTP
hFNhFPhTNhTP
hCC
(в формуле, помимо введенных выше обозначений, используется )(hTN — число
корректно распознанных состояний типов );\ hRh
средняя условная вероятность
;
)()(
)(
)()(
)(
)()(
)(
)()(
)(
4
1
)(
hFNhTN
hTN
hFPhTN
hTN
hFPhTP
hTP
hFNhTP
hTP
hACP
специфичность и чувствительность по участкам состояний каждого из
классов:
),(/)()( hPRhTRhRSp ).(/)()( hARhTRhRSn
Здесь )(hTR — количество правильно распознанных алгоритмом участков, состо-
ящих из состояний h (для которых корректно предсказаны начало и конец),
)(hAR — полное число участков типа h в выборке, )(hPR — число таких участ-
ков в выводе алгоритма.
Результаты работы исходного алгоритма приведены в табл. 1 и 2. Главным
недостатком алгоритма при ,3m как видно, является большое количество бел-
ков, для которых классификация невозможна из-за отсутствия сведений об опре-
деленных переходных вероятностях. Поэтому сведения о качестве распознавания
вторичной структуры для контрольных выборок по этой причине приведены
только для той части белков, которая была успешно классифицирована.
Таблица 1
Выборка С, % Структура SSp, % SSn, % CC, % ACP, % RSp, % RSn, %
2m
обучающая 62,84
— 71,11 55,59 41,84 70,95 17,34 8,64
спираль 57,35 84,02 46,74 73,38 9,28 5,58
слой 64,53 42,05 41,71 71,14 22,79 9,47
контрольная 62,34
— 70,63 55,15 41,14 70,60 16,55 8,19
спираль 56,94 83,66 45,97 73,00 8,70 5,21
слой 63,75 41,22 40,74 70,66 21,77 8,95
3m
обучающая 85,65
— 86,58 83,40 74,77 87,39 53,20 52,10
спираль 85,26 89,78 80,12 90,06 48,11 48,78
слой 84,66 83,12 79,26 89,63 59,02 57,90
контрольная
(22,02 % пропусков)
83,42
— 84,00 81,84 71,22 85,61 49,12 47,61
спираль 83,31 87,49 76,76 88,38 44,11 44,43
слой 82,56 79,78 75,78 87,89 55,10 53,14
Избавиться от проблемы с пропусками отдельных последовательностей из
контрольной выборки позволяет описанная в разд. 2 эвристика по оценке
недостающих переходных вероятностей. Результаты работы модифицирован-
ного с ее помощью алгоритма для диапазонов значений 32 m и 42 m
приведены в табл. 3 и 4 (уже при 4m количество возможных последова-
тельностей полных состояний X для переходных вероятностей )( XxP со-
ставляет ,107,15)321( 64 что сравнимо с полным объемом выборки, так что
использование больших значений m не представляется разумным). Как видно,
146 ISSN 0572-2691
возможность классифицировать вторичную структуру всех белков достигается
ценой ощутимого снижения качества предсказания на контрольной выборке (по-
рядка 10–15 % для отдельных метрик).
В целом показатели качества алгоритма сравнимы с другими методами пред-
сказания вторичной структуры белков, основанными на предположении о зависи-
мости структуры каждой аминокислоты от соседних аминокислот (названные во
введении методами второго поколения). В то же время алгоритм явно уступает
методам третьего поколения, использующим сведения о родственных белках.
Таблица 2
Выборка С, % Структура SSp, % SSn, % CC, % ACP, % RSp, % RSn, %
2m
обучающая 62,84
— 70,62 53,59 40,44 70,25 16,23 7,77
спираль 55,67 84,64 45,39 72,71 7,65 4,43
слой 64,86 40,57 40,71 70,69 21,85 8,66
контрольная 60,35
— 69,30 52,42 38,55 69,31 14,35 6,76
спираль 54,67 83,71 43,31 71,67 6,25 3,60
слой 62,79 38,24 38,08 69,39 19,42 7,46
3m
обучающая 87,00
— 87,95 84,51 76,95 88,48 56,34 55,24
спираль 86,34 91,13 82,15 91,08 50,77 51,51
слой 86,45 85,03 81,49 90,75 61,69 60,76
контрольная (59,51 %
пропусков)
81,59
— 81,82 80,13 68,06 84,03 45,62 43,73
спираль 81,12 85,69 73,91 86,96 39,07 39,35
слой 81,97 78,00 73,92 86,97 51,98 49,40
Таблица 3
Выборка С, % Структура SSp, % SSn, % CC, %
ACP,
%
RSp, % RSn, %
32 m
обучающая 80,01
— 83,12 76,32 66,41 83,21 42,54 45,52
спираль 81,10 84,29 72,56 86,28 38,95 42,85
слой 73,49 79,86 69,46 84,74 45,04 51,59
контрольная 74,67
— 78,05 71,58 58,31 79,16 34,25 36,82
спираль 76,38 79,05 64,70 82,35 31,01 34,07
слой 66,88 73,27 60,78 80,40 36,22 41,85
42 m
обучающая 94,25
— 94,58 92,36 88,97 94,49 69,58 76,33
спираль 95,15 94,91 92,21 96,11 65,70 73,13
слой 92,31 96,65 92,81 96,41 74,54 83,04
контрольная 83,78
— 84,27 83,29 72,50 86,25 49,01 56,06
спираль 87,48 83,05 77,20 88,60 46,50 51,93
слой 77,84 85,86 76,14 88,09 51,91 62,42
Таблица 4
Выборка С, % Структура SSp, % SSn, % CC, %
ACP,
%
RSp, % RSn, %
32 m
обучающая 79,54
— 83,02 75,17 65,63 82,82 42,09 45,53
спираль 80,73 84,00 72,19 86,10 38,27 42,38
слой 72,75 80,39 68,96 84,50 44,07 51,40
контрольная 64,58
— 68,93 61,62 43,15 71,58 20,20 22,02
спираль 67,06 69,34 49,96 74,98 16,91 18,48
слой 55,00 62,47 45,14 72,59 21,35 25,40
42 m
обучающая 96,03
— 96,12 94,63 92,20 96,10 76,96 82,06
спираль 96,56 96,50 94,59 97,30 73,31 79,66
слой 95,05 97,77 95,30 97,65 81,51 87,51
контрольная 69,50
— 70,39 72,51 51,05 75,53 28,69 33,34
спираль 75,86 65,47 55,85 77,95 26,68 28,55
слой 60,78 70,42 54,03 77,05 29,94 37,98
Международный научно-технический журнал
«Проблемы управления и информатики», 2013, № 2 147
Заключение
Рассмотрена задача достаточно общего вида по восстановлению последова-
тельностей скрытых состояний в моделях Маркова. Предложен алгоритм решения
этой задачи, а также несколько возможных модификаций, направленных на уве-
личение скорости его работы и повышения обобщающей способности. На основа-
нии вычислительного эксперимента сделан вывод о применимости алгоритма для
задачи определения вторичной структуры белка.
В качестве направлений для дальнейших исследований можно предложить
исследование применимости алгоритма для других задач биоинформатики, а так-
же расширение метода на более сложные виды зависимостей (в частности, когда
скрытое состояние зависит не только от предшествующих состояний, но и от сле-
дующих за ним).
О.В. Островський
ВИЗНАЧЕННЯ ВТОРИННОЇ СТРУКТУРИ БІЛКІВ
ЗА ДОПОМОГОЮ МОДЕЛЕЙ МАРКОВА
Запропоновано підхід до розв’язання задач загального виду з відновлення по-
слідовності прихованих станів у моделях Маркова. Алгоритм застосовується
для визначення вторинної структури білків.
A.V. Ostrovskiy
DETECTING SECONDARY STRUCTURE
OF PROTEINS USING MARKOV MODELS
An approach to solving generic problems, which concern the recovery of sequences
of hidden states in Markov models, is introduced. The introduced algorithm is ap-
plied to determine the secondary structure of proteins.
1. Baldi P., Brunak S. Bioinformatics: machine learning approach. — Cambridge : MIT Press, 2001.
— 452 p.
2. Rost B. Rising accuracy of protein secondary structure prediction // Protein structure determination,
analysis, and modeling for drug discovery / ed. D. Chasman. — New York : Dekker, 2003. —
P. 207–249.
3. Сергиенко И.В., Гупал А.М., Островский А.В. Распознавание фрагментов генов в ДНК с
применением моделей Маркова со скрытыми переменными // Кибернетика и системный
анализ. — 2012. — № 3. — С. 58–67.
4. База данных белков Центра молекулярной и биомолекулярной информатики. — ftp://ftp.
cmbi.ru.nl/pub/molbio/data/dssp/.
Получено 10.07.2012
Статья представлена к публикации чл.-корр. НАН Украины А.М. Гупалом.
ftp://ftp.�cmbi.ru.nl/pub/molbio/data/dssp/
ftp://ftp.�cmbi.ru.nl/pub/molbio/data/dssp/
|