Применение метода LOGIS для предсказания вторичной структуры белк

В работе для предсказания вторичной структуры белка используется новый метод распознавания образов, известный под названием LOGIS. Обучение и предсказание базируется на данных о вторичной структуре 108 белков (около 20000 аминокислотных остатков) с рентгеноструктурным разрешением менее 0,2 нм. Средн...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:1998
Автори: Братусь, А.В., Чащин, Н.А.
Формат: Стаття
Мова:Russian
Опубліковано: Інститут молекулярної біології і генетики НАН України 1998
Назва видання:Биополимеры и клетка
Теми:
Онлайн доступ:http://dspace.nbuv.gov.ua/handle/123456789/154991
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Применение метода LOGIS для предсказания вторичной структуры белк / А.В. Братусь, Η.А. Чащин // Биополимеры и клетка. — 1998. — Т. 14, № 2. — С. 156-162. — Бібліогр.: 5 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-154991
record_format dspace
spelling irk-123456789-1549912019-06-17T01:31:52Z Применение метода LOGIS для предсказания вторичной структуры белк Братусь, А.В. Чащин, Н.А. Методы В работе для предсказания вторичной структуры белка используется новый метод распознавания образов, известный под названием LOGIS. Обучение и предсказание базируется на данных о вторичной структуре 108 белков (около 20000 аминокислотных остатков) с рентгеноструктурным разрешением менее 0,2 нм. Средняя точность предсказания на имеющихся данных составила 71 % У роботі для прогнозування вторинної структури білків запропоновано новий метод розпізнавання образів, відомий як метод LOGIS. Навчання та передбачення грунтуються на даних про вторинну структуру 108 білків (біля 20000 амінокислотних залишків) з рентгеноструктурним розділенням менше 0,2 нм. Середня точність передбачення складає 71 %. A new method for protein secondary structure prediction is described in the present article. This method based on LOGIS-method. Information for secondary structure of 108 proteins (20000 AAs) with X-ray resolution less than 0.2 nm was used for learning and prediction of protein secondary structure. Average accuracy of successful prediction is 71 %. 1998 Article Применение метода LOGIS для предсказания вторичной структуры белк / А.В. Братусь, Η.А. Чащин // Биополимеры и клетка. — 1998. — Т. 14, № 2. — С. 156-162. — Бібліогр.: 5 назв. — рос. 0233-7657 DOI: http://dx.doi.org/10.7124/bc.0004C9 http://dspace.nbuv.gov.ua/handle/123456789/154991 ru Биополимеры и клетка Інститут молекулярної біології і генетики НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Методы
Методы
spellingShingle Методы
Методы
Братусь, А.В.
Чащин, Н.А.
Применение метода LOGIS для предсказания вторичной структуры белк
Биополимеры и клетка
description В работе для предсказания вторичной структуры белка используется новый метод распознавания образов, известный под названием LOGIS. Обучение и предсказание базируется на данных о вторичной структуре 108 белков (около 20000 аминокислотных остатков) с рентгеноструктурным разрешением менее 0,2 нм. Средняя точность предсказания на имеющихся данных составила 71 %
format Article
author Братусь, А.В.
Чащин, Н.А.
author_facet Братусь, А.В.
Чащин, Н.А.
author_sort Братусь, А.В.
title Применение метода LOGIS для предсказания вторичной структуры белк
title_short Применение метода LOGIS для предсказания вторичной структуры белк
title_full Применение метода LOGIS для предсказания вторичной структуры белк
title_fullStr Применение метода LOGIS для предсказания вторичной структуры белк
title_full_unstemmed Применение метода LOGIS для предсказания вторичной структуры белк
title_sort применение метода logis для предсказания вторичной структуры белк
publisher Інститут молекулярної біології і генетики НАН України
publishDate 1998
topic_facet Методы
url http://dspace.nbuv.gov.ua/handle/123456789/154991
citation_txt Применение метода LOGIS для предсказания вторичной структуры белк / А.В. Братусь, Η.А. Чащин // Биополимеры и клетка. — 1998. — Т. 14, № 2. — С. 156-162. — Бібліогр.: 5 назв. — рос.
series Биополимеры и клетка
work_keys_str_mv AT bratusʹav primeneniemetodalogisdlâpredskazaniâvtoričnojstrukturybelk
AT čaŝinna primeneniemetodalogisdlâpredskazaniâvtoričnojstrukturybelk
first_indexed 2025-07-14T07:01:35Z
last_indexed 2025-07-14T07:01:35Z
_version_ 1837604793990774784
fulltext ISSN 0233-7657. Биополимеры и клетка. 1998. Т. 14. № 2 МЕТОДЫ Применение метода LOGIS для предсказания вторичной структуры белка А. В. Братусь, Η. А. Чащин Институт молекулярной биологии и генетики HAH Украины 252143, Киев, ул. Академика Заболотного, 150 В работе для предсказания вторичной структуры белка используется новый метод распознавания образов, известный под названием LOGIS. Обучение и предсказание базируется на данных о вторичной структуре 108 белков (около 20000 аминокислотных остатков) с рентгеноструктур- ным разрешением менее 0,2 нм. Средняя точность предсказания на имеющихся данных составила 71 %. Введение. Увеличение точности предсказания вто- ричной структуры белка дает возможность полу- чить его довольно близкую к реальной пространст- венную модель [1 ]. Существующие в настоящее время методы не всегда позволяют достичь необходимой точности, поэтому не прекращается поиск новых подходов в этом направлении, в частности, привлекаются но- вейшие способы распознавания образов. В данной работе для предсказания вторичной структуры бел- ка используется метод распознавания образов LO- GIS, предложенный в [2). Материалы и методы. Обучающую выборку образует банк данных, содержащий информацию о вторичной структуре 108 белков (около 20000 ами- нокислотных остатков, AA) с рентгеноструктурным разрешением менее 0,2 нм. Данные получены из Брукхейвенского банка данных белков с известной пространственной структурой. Вторичная структу- ра классифицирована по трем конформациям: спи- раль (Л), складка (е), нерегулярная (с). Каждому аминокислотному остатку приписывается одно из трех состояний вторичной структуры. Основу метода LOGIS составляет точный кри- терий проверки на независимость двух признаков (критерий Фишера). Суть критерия: пусть в неко- торой выборке каждый объект характеризуется двумя признаками (А и В) и пусть ( с ) А В. БРАТУСЬ, Η. А. ЧАШИН, 1998 156 s — число объектов, имеющих и признак А и признак В; r — число объектов, имеющих признак А; k — число объектов, имеющих признак В; m — общее число объектов. Тогда обладание признаком А взаимосвязано с обладанием признака В, если min(r, к) Fish(vl, В) = J q(i, r, k, т) < а , І = S где q(і, г, к, m) = r \ к \ (т-г) ! (т-к) ! / / т ! і! (к-і) ! ( r - і ) ! (m + ί - r - k ) ! ; 0 < а < 0,5 — уровень принятия гипотезы о зависимости. Пусть дан участок белка длиной I с неизвест- ной вторичной структурой (AA(I), ..., AA(l)) и пусть AA(J) есть S. Надо определить, встраивается ли S в спираль в данном контексте или нет? Выберем из банка данных белков с известной вторичной структурой все последовательности дли- ной I, содержащие на j-м месте аминокислотный остаток S. На этой выборке по критерию Фишера можно проверить, например, такую гипотезу: «Имеется ли связь между тем, что S встроена в спираль и AA(I) есть Q?» Аналогично можно про- верить гипотезы о взаимосвязи встраивания S в спираль и значениями AA(I), ..., AA(I), взятых по П Р И М Е Н Е Н И Е МЕТОДА LOG IS Д Л Я П Р Е Д С К А З А Н И Я С Т Р У К Т У Р Ы БЕЛКА одному. Однако интерес представляют не только одиночные АА, но и их комбинации по два, по три и т. д. В этом случае для образования комбинаци­ онного признака используются формулировочные возможности логики. Например, комбинационный признак двух аминокислотных остатков (признак длины два) есть высказывание: «АА(/-2) есть Q и АА(/' + 3) есть Р». В итоге для получения всех знаний о встраивании S в спираль генерируются и проверя­ ются все гипотезы с признаком длины один, с признаком длины два и т. д. Все принятые гипоте­ зы имеют свое точное значение критерия. Приня­ тие гипотез ограничено сверху значением, выбран­ ным из интервала (0; 0,5). Множество гипотез о встраивании S в спираль обозначим S(h). Анало­ гично получается множество гипотез о невстраива­ нии S в спираль (множество S(h)). Далее на основе S(h) и S{h) надо принять решение о встраивании S в спираль. Необходимо определить некоторую ин­ тегральную оценку множеств S(h) и S(h) и по сравнению оценок сделать выбор. В математической статистике рассматривается проблема одновременного выполнения множества гипотез, каждая из которых имеет свое значение критерия [3]. Вводится коэффициент ошибок мно­ жества гипотез е. е. г. * число ошибочных гипотез/общее чис­ ло гипотез. Доказывается, что математическое ожидание е. е. г . не превосходит максимального значения всех критериев этого множества^гипотез. Тогда решаю­ щее правило для S(h) и S(h) гласит: «.S встроена в спираль, если оценка S(h) меньше оценки S(h). Иначе S не встроена в спираль». Состав S(h) и S(h) зависит от выбора граничного значения дове­ рительного уровня из интервала (0; 0,5) и, как следствие, достоверность прогноза зависит от дан­ ного выбора. Метод LOGIS позволяет определить оптималь­ ное значение доверительного уровня, обеспечиваю­ щего максимально возможную достоверность про­ гноза: пусть, как и выше, дан участок белка длиной / с неизвестной вторичной структурой (АА(1), АА(/)) и пусть ААф есть 5. Надо определить, встраивается ли в данном контексте S в спираль или нет? Выберем из банка данных белков с известной вторичной структурой все по­ следовательности длиной /, содержащие на у-м месте аминокислотный остаток .S'. Выберем макси­ мально возможное значение доверительного уров­ ня, а именно: 0,5. Пусть для данного граничного значения сформированы множества S(h) и S(h), состоящие из значений критериев соответствующих гипотез. Расположим элементы множеств S(h) и S(h) в одном массиве ALFA в порядке возрастания значений элементов. Каждый ALFA(0, взятый в качестве граничного значения, определяет подмно­ жества S(h)i и S(Jt)t и, следовательно, исход срав­ нения оценок этих подмножеств. Если оценка S(h)^ не превышает оценки S(h)iy то S встроена в спи­ раль. Иначе S не встроена в спираль. Таким образом, каждый элемент ALFA определяет либо исход «S встроена в спираль», либо исход «.S не встроена в спираль». Объединив все соседние элементы ALFA с оди­ наковыми исходами в один интервал, получим систему интервалов известных исходов. Если вы­ брать любое граничное значение из (0; 0,5), то на основе системы интервалов можно узнать, какой исход соответствует данному выбору. Предположим известно, встраивается S в спираль или нет. Тогда, пометив интервалы, получим систему интервалов истинных и ложных исходов. Такого рода система интервалов есть знание поведения оценки при про­ гнозе встраивания S в спираль в данном окружении аминокислотных остатков (элементарное знание). Совокупность элементарных знаний, полученных для разных последовательностей длиной /, образует более общее знание о поведении оценки при про­ гнозе встраивания в спираль у-го аминокислотного остатка. Каким образом, располагая банком данных белков с известной вторичной структурой, полу­ чить такого рода знание по конкретному аминокис­ лотному остатку, например £? Для этого выбирает­ ся первая последовательность длиной /, содержа­ щая на у-м месте S, и удаляется из банка данных. Для этой последовательности строится элементар­ ное знание. Затем выбирается другая последова­ тельность, строится элементарное знание и т. д. до получения последнего элементарного знания. В каждом элементарном знании представлены значения доверительного уровня, дающие истин­ ный либо ложный исход прогноза. Перебрав все значения границ интервалов элементарных знаний, получим значение, дающее истинный прогноз для максимального числа элементарных знаний, и зна­ чение, дающее ложный прогноз для максимального числа элементарных знаний. Из двух значений выбирается значение, распознающее максимальное число элементарных знаний. Поскольку осуществ­ ляется дихотомический прогноз (либо встроен в спираль, либо не встроен в спираль), интерес представляет и значение, дающее ложный прогноз. Тогда решающее правило гласит: «Принять реше­ ние, обратное полученному решению». Для повышения достоверности прогноза в дан- 157 Б Р А Т У С Ь А. В. , ЧАІЦИН Н. А. Таблица J Оптимальные значения доверительного уровня для классификации «с не с» Таблица 2 Оптимальные значени доверительного уровня для классификации «h не h » ной работе предлагается процедура страхования. Суть ее состоит в следующем. Пусть дана последо­ вательность длиной / с неизвестной вторичной структурой, содержащая на у-м месте аминокислот­ ный остаток S. Выше рассматривалась задача: «Встраивается ли S в спираль в данном аминокис­ лотном окружении или нет?» Видоизменим задачу: «Если S стоит на у-м месте, то встраивается ли аминокислотный остаток на у + 1 месте в спираль или нет»? В этом случае мы исследуем влияние S на соседнее место справа. Эта задача решается точно так же, как и первая, с поправкой на прогнозируемое место. Аналогично ставится и решается задача влия­ ния S на соседнее место слева, то есть у - 1. Таким образом, для каждого аминокислотного остатка оп­ ределяются три значения оптимального довери­ тельного уровня. Первое значение дает максималь­ ную достоверность прогноза встраивания S в спи­ раль. Второе значение дает максимальную досто­ верность прогноза встраивания в спираль правого соседа 5. Третье значение дает максимальную до­ стоверность прогноза встраивания в спираль левого соседа S. Тогда для последовательности длиной /, содержащей, например, с у - 1 места последова­ тельность аминокислотных остатков ASD, при про­ гнозировании встраивания S осуществляются три прогноза: — прогноз встраивания S; — прогноз встраивания правого соседа А; — прогноз встраивания левого соседа D. Последние два прогноза являются страховоч­ ными и введены для повышения точности общего прогноза. Все приведенные выше рассуждения касались прогноза встраивания в спираль (класс /г). Они 158 П Р И М Е Н Е Н И Е М Е Т О Д А 1,0GIS Д Л Я П Р Е Д С К А З А Н И Я С Т Р У К Т У Р Ы БЕЛКА Таблица 3 Сопоставление вторичной структуры белков, спрогнозированной по методу LOGJS, с фактическими результатами из Брукхейвенского банка данных Таблица 4 Точность предсказания вторичной структуры белков по методу LOGIS 159 Б Р А Т У С Ь А. В., Ч А Ш И Н Н. А. Продолжение табл. 4 160 П Р И М Е Н Е Н И Е М Е Т О Д А LOGIS Д Л Я П Р Е Д С К А З А Н И Я С Т Р У К Т У Р Ы БЕЛКА Окончание табл. 4 Имя файла в базе данных П р и м е ч а н и е . N — число аминокислотных остатков в белке; % N — точность предсказания вторичной структуры белка. 161 Б Р А Т У С Ь А. В. , Ч А Ш И Н Н. А. остаются верными и для класса е (складчатый лист) и для класса с (нерегулярная структура). Результаты и обсуждение. Эксперименталь­ ным путем была выбрана следующая последова­ тельность прогнозирования вторичной структуры белка: 1) для каждого аминокислотного остатка осу­ ществить прогноз встраивания в класс с; 2) для каждого аминокислотного остатка, не отнесенного к классу с, осуществить прогноз встра­ ивания в класс Л; 3) для каждого аминокислотного остатка, не отнесенного ни к классу с, ни к классу А, припи­ сать класс е. Эмпирическим путем были определены пара­ метры метода: 1) длина последовательности 1 = 9; 2) расположение прогнозируемого аминокис­ лотного остатка / = 5; В результате применения процедуры настраи­ вания были определены оптимальные значения до­ верительного уровня для прогнозирования встраи­ вания каждого из 20 аминокислотных остатков, приведенные в табл. 1 и табл. 2. В итоге было осуществлено прогнозирование вторичной структуры каждого из 108 белков, со­ ставляющих обучающую выборку. При этом про­ гнозируемый белок удаляли из обучающей выбор­ ки. Сравнительные результаты прогнозирования вторичной структуры белков приведены в табл. 3; общие результаты прогнозирования — в табл. 4. Достоверность прогнозирования вторичной струк­ туры белков составила 71 %. Расчет производили по формуле Q = (77Л0 • 100 %, где Т — число верно спрогнозированных остатков; N — общее число ос­ татков белка. По сравнению со средней величиной предсказания вторичной структуры белка (72,1 %) одним из наиболее удачных методов — PHD [5 ] результаты работы метода LOGIS примерно одина­ ковы. Полученные результаты были использованы при написании программной системы предсказания вторичной структуры белка. О. В. Братусь, М. О. Чащин Застосування методу LOGIS для передбачення вторинної структури білка Резюме У роботі для прогнозування вторинної структури білків запропоновано новий метод розпізнавання образів, відомий як метод LOGIS. Навчання та передбачення грунтуються на даних про вторинну структуру 108 білків (біля 20000 амін­ окислотних залишків) з рентгеноструктурним розділенням менше 0,2 нм. Середня точність передбачення складає 71 %. А. V. Bratus, N. A. Chashchin A method for protein secondary structure prediction Summary A new method for protein secondary structure prediction is de­ scribed in the present article. This method based on LOGIS-method. Information for secondary structure of 108 proteins (20000 AAs) with X-ray resolution less than 0.2 nm was used for learning and prediction of protein secondary structure. Average accuracy of successful prediction is 71 %. СПИСОК ЛИТЕРАТУРЫ 1. Sternberg M. J. E., Islam S. A. Local protein sequence similarity does not imply a structural relationship / / Prot. Eng .—1990 .—4, N 2 .—P. 1 2 5 — 1 3 1 . 2. Сергиенко И. В., Гупал А. М., Братусь А. В. LOG1S- система, реализующая статистический абдуктивный вывод на эмпирических данных / / Кибернетика. — 1 9 9 5 . — № 3 . — С. 160—173. 3. Кендал М., Стьюарт А. Многомерный статистический анализ и временные ряды.—М.: Наука, 1976.—С. 65—68. 4. Братусь А. В., Мальченко С. 3., Чащин Я. А. Пред­ сказание вторичной структуры белка modGUHА-методом / / Биополимеры и клетка.—1993.—№ 5 .—С. 61—66. 5. Rost, Burkhard, Sander, Chris Combining evolutionary and neural networks to predict protein secondary structure / / Prote ins .—1994.—19.—P. 5 5 — 7 2 . Поступила в редакцию 05.05.97 162