Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии
В статье рассматривается алгоритм ранжирования генов, полученных с использованием технологии микрочипов. Вектор рангов рассчитывается путем проведения классификаций случайных выборок из анализируемого набора данных. На каждой последующей итерации алгоритма ранг генов, участвующих в успешной класс...
Збережено в:
| Дата: | 2013 |
|---|---|
| Автори: | , |
| Формат: | Стаття |
| Мова: | Russian |
| Опубліковано: |
Інститут проблем штучного інтелекту МОН України та НАН України
2013
|
| Назва видання: | Искусственный интеллект |
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/84980 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии / Н.А. Новоселова, И.Э. Том // Искусственный интеллект. — 2013. — № 3. — С. 58–68. — Бібліогр.: 20 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-84980 |
|---|---|
| record_format |
dspace |
| spelling |
nasplib_isofts_kiev_ua-123456789-849802025-02-10T01:22:32Z Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии Алгоритм ранжирування атрибутів для виявлення біомаркерів у даних генної експресії Algorithm of feature ranking for biomarker discovery in gene expression data Новоселова, Н.А. Том, И.Э. Алгоритмическое и программное обеспечение параллельных вычислительных интеллектуальных систем В статье рассматривается алгоритм ранжирования генов, полученных с использованием технологии микрочипов. Вектор рангов рассчитывается путем проведения классификаций случайных выборок из анализируемого набора данных. На каждой последующей итерации алгоритма ранг генов, участвующих в успешной классификации, повышается. В отличие от ранее используемых подходов, алгоритм позволяет повысить обобщающие свойства классификационных моделей за счет построения сбалансированных обучающих выборок, а также учесть информативность комбинации генов путем оценки их подмножеств. У статті розглядається алгоритм ранжирування генів, отриманих з використанням технології мікрочіпів. Вектор рангів розраховується шляхом проведення класифікацій випадкових вибірок з аналізованого набору даних. На кожній подальшій ітерації алгоритму ранг генів, що беруть участь в успішній класифікації, підвищується. На відміну від раніше використовуваних підходів алгоритм дозволяє підвищити уза- гальнювальні властивості класифікаційних моделей за рахунок побудови збалансованих навчальних вибірок, а також врахувати інформативність комбінації генів шляхом оцінки їх підмножин. The article considers the gene ranking algorithm for the microarray data. The rank vector is estimated by classifications of the random data samples. At each iteration the ranks of genes participating in the successful classification become higher. Unlike other methods of feature selection the proposed algorithm allows to increase the generality of the classification models by the construction of the balanced training samples and to take into account the descriptiveness of the gene combinations by the subsets estimation. 2013 Article Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии / Н.А. Новоселова, И.Э. Том // Искусственный интеллект. — 2013. — № 3. — С. 58–68. — Бібліогр.: 20 назв. — рос. 1561-5359 https://nasplib.isofts.kiev.ua/handle/123456789/84980 004.8 ru Искусственный интеллект application/pdf Інститут проблем штучного інтелекту МОН України та НАН України |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| language |
Russian |
| topic |
Алгоритмическое и программное обеспечение параллельных вычислительных интеллектуальных систем Алгоритмическое и программное обеспечение параллельных вычислительных интеллектуальных систем |
| spellingShingle |
Алгоритмическое и программное обеспечение параллельных вычислительных интеллектуальных систем Алгоритмическое и программное обеспечение параллельных вычислительных интеллектуальных систем Новоселова, Н.А. Том, И.Э. Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии Искусственный интеллект |
| description |
В статье рассматривается алгоритм ранжирования генов, полученных с использованием технологии
микрочипов. Вектор рангов рассчитывается путем проведения классификаций случайных выборок из
анализируемого набора данных. На каждой последующей итерации алгоритма ранг генов, участвующих в
успешной классификации, повышается. В отличие от ранее используемых подходов, алгоритм позволяет
повысить обобщающие свойства классификационных моделей за счет построения сбалансированных
обучающих выборок, а также учесть информативность комбинации генов путем оценки их подмножеств. |
| format |
Article |
| author |
Новоселова, Н.А. Том, И.Э. |
| author_facet |
Новоселова, Н.А. Том, И.Э. |
| author_sort |
Новоселова, Н.А. |
| title |
Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии |
| title_short |
Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии |
| title_full |
Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии |
| title_fullStr |
Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии |
| title_full_unstemmed |
Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии |
| title_sort |
алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии |
| publisher |
Інститут проблем штучного інтелекту МОН України та НАН України |
| publishDate |
2013 |
| topic_facet |
Алгоритмическое и программное обеспечение параллельных вычислительных интеллектуальных систем |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/84980 |
| citation_txt |
Алгоритм ранжирования признаков для обнаружения биомаркеров в данных генной экспрессии / Н.А. Новоселова, И.Э. Том // Искусственный интеллект. — 2013. — № 3. — С. 58–68. — Бібліогр.: 20 назв. — рос. |
| series |
Искусственный интеллект |
| work_keys_str_mv |
AT novoselovana algoritmranžirovaniâpriznakovdlâobnaruženiâbiomarkerovvdannyhgennoiékspressii AT tomié algoritmranžirovaniâpriznakovdlâobnaruženiâbiomarkerovvdannyhgennoiékspressii AT novoselovana algoritmranžiruvannâatributívdlâviâvlennâbíomarkerívudanihgennoíekspresíí AT tomié algoritmranžiruvannâatributívdlâviâvlennâbíomarkerívudanihgennoíekspresíí AT novoselovana algorithmoffeaturerankingforbiomarkerdiscoveryingeneexpressiondata AT tomié algorithmoffeaturerankingforbiomarkerdiscoveryingeneexpressiondata |
| first_indexed |
2025-12-02T11:24:22Z |
| last_indexed |
2025-12-02T11:24:22Z |
| _version_ |
1850395499419402240 |
| fulltext |
ISSN 1561-5359 «Штучний інтелект» 2013 № 3 58
2Н
УДК 004.8
Н.А. Новоселова, И.Э. Том
Объединенный институт проблем информатики НАН Беларуси, г. Минск
Беларусь, 220012, г. Минск, ул. Сурганова, 6, novosel@newman.bas-net.by
Алгоритм ранжирования признаков
для обнаружения биомаркеров
в данных генной экспрессии
N. Novoselova, I. Tom
United Institute of Informatics Problems National Academy of Sciences of Belarus, Minsk
Belarus, 220012, Minsk, Surganova 6, novosel@newman.bas-net.by
Algorithm of Feature Ranking for Biomarker Discovery
in Gene Expression Data
Н.А. Новоселова, І.Е. Том
Об’єднаний інститут проблем інформатики НАН Білорусі, м. Мінськ
Білорусь, 220012, м. Мінськ, вул. Сурганова, 6, novosel@newman.bas-net.by
Алгоритм ранжирування атрибутів для виявлення
біомаркерів у даних генної експресії
В статье рассматривается алгоритм ранжирования генов, полученных с использованием технологии
микрочипов. Вектор рангов рассчитывается путем проведения классификаций случайных выборок из
анализируемого набора данных. На каждой последующей итерации алгоритма ранг генов, участвующих в
успешной классификации, повышается. В отличие от ранее используемых подходов, алгоритм позволяет
повысить обобщающие свойства классификационных моделей за счет построения сбалансированных
обучающих выборок, а также учесть информативность комбинации генов путем оценки их подмножеств.
Ключевые слова: ранжирование признаков, биомаркер, классификация, генная экспрессия.
The article considers the gene ranking algorithm for the microarray data. The rank vector is estimated by
classifications of the random data samples. At each iteration the ranks of genes participating in the successful
classification become higher. Unlike other methods of feature selection the proposed algorithm allows to increase the
generality of the classification models by the construction of the balanced training samples and to take into account
the descriptiveness of the gene combinations by the subsets estimation.
Ключевые слова: feature ranking, biomarker, classification, gene expression.
У статті розглядається алгоритм ранжирування генів, отриманих з використанням технології мікрочіпів.
Вектор рангів розраховується шляхом проведення класифікацій випадкових вибірок з аналізованого
набору даних. На кожній подальшій ітерації алгоритму ранг генів, що беруть участь в успішній класифікації,
підвищується. На відміну від раніше використовуваних підходів алгоритм дозволяє підвищити уза-
гальнювальні властивості класифікаційних моделей за рахунок побудови збалансованих навчальних
вибірок, а також врахувати інформативність комбінації генів шляхом оцінки їх підмножин.
Ключові слова: ранжирування атрибутів, біомаркер, класифікація, експресія генів.
Введение
Улучшение диагностики онкологических заболеваний является одной из перво-
степенных задач, решаемых в области здравоохранения. Поставленный диагноз яв-
Алгоритм ранжирования признаков для обнаружения биомаркеров…
«Штучний інтелект» 2013 № 3 59
2Н
ляется основой для проведения и разработки курса терапии с целью достижения
максимальной эффективности лечения с одновременной минимизацией токсичности.
В последнее время большое внимание уделяется исследованиям генетической инфор-
мации раковых клеток для уточнения существующих и выявления новых подтипов
(классов) онкологических заболеваний на молекулярном уровне, что будет способ-
ствовать эффективности последующего лечения. Технология микрочипов представляет
собой новый класс биотехнологий, она позволяет измерять одновременно уровни
экспрессии тысяч генов, что дает богатый материал для более полного понимания
различий между подтипами опухолей на молекулярном уровне и, следовательно, для
осуществления более достоверной их классификации. Данные, полученные с помощью
технологии микрочипов, используются для определения генов с повышенной или
пониженной экспрессией подтипов онкологических заболеваний, а также с целью
выявления новых биомаркеров для клинической диагностики и прогноза [1], [2]. К со-
жалению, извлечение зависимостей из такого рода данных затрудняется наличием
несоответствия между количеством случаев (обычно менее ста) и количеством генов
(обычно десятки тысяч), что приводит к переобучению, т.е. построению классифика-
ционной модели с низкими обобщающими свойствами (низкая точность на незави-
симой тестовой выборке) [3]. Кроме того, полученные данные, как правило, содержат
как ошибки измерений, так и систематические ошибки, что может значительно повлиять
на точность классификации. Поэтому классификации, так же как и кластеризации,
должна предшествовать предобработка признакового пространства, а именно осуществ-
ление отбора признаков (генов) путем ранжирования или сокращения их количества [4].
Методы отбора признаков для задачи диагностики онкологических заболеваний,
как и в общем для всех задач классификации, можно разделить, в первую очередь, на
две группы: фильтровочные и упаковочные методы [5]. Фильтровочные методы по-
зволяют удалять неинформативные признаки согласно общим характеристикам
данных. Они более просты в вычислительном плане и не привязаны к конкретному
алгоритму классификации. Во встроенных методах выбранный классификатор участвует
в построении подмножества признаков, тем самым, позволяя повысить точность
классификации. Недостатком встроенных методов является высокая вычислительная
сложность в связи с необходимостью на каждой итерации отбора применять классифи-
кационный алгоритм. Для подмножества информативных генов, отбираемых из дан-
ных генной экспрессии, применяются как фильтровочные методы, например, стандарт-
ные параметрические тесты (t-тест [6]), непараметрические тесты (знаково-ранговый
тест Вилкоксона [7]), так и упаковочные [8], [9]. Однако, зачастую, у разных авторов
подмножества отбираемых генов различаются, что может быть результатом как не-
соответствия размерностей анализируемых данных, так и игнорирования зависимос-
тей между генами. Таким образом, на сегодняшний день не существует однозначных
рекомендаций по выбору методов отбора подмножества информативных генов [10].
Цель данной статьи – разработка нового алгоритма отбора признаков,
который позволяет преодолеть недостатки как фильтровочного, так и упаковочного
подходов, и основан на ранжировании генов путем классификаций повторных
случайных выборок из исходного набора данных. Предлагаемый алгоритм обладает
следующими преимуществами: позволяет избежать переобучения за счет формирова-
ния обучающих матриц меньшей размерности, с преобладанием количества случаев
над количеством генов; позволяет учитывать информативность комбинации генов
путем оценки подмножества признаков классификационным алгоритмом.
Новоселова Н.А., Том И.Э.
«Искусственный интеллект» 2013 № 3 60
2Н
В
В статье представлены результаты тестирования предложенного алгоритма на
наборе данных по лейкемии, оценена биологическая значимость подмножества из
20-и генов с наибольшим рангом и проведен сравнительный анализ с результатами,
полученными другими авторами.
Описание предложенного алгоритма
Пусть
M N
X
×
представляет собой матрицу исходных данных экспрессии генов,
где M – количество признаков (генов), а N – количество случаев или объектов
данных, вектор 1 2( , , , ), 1,N
i i i i
x x x x i M= =K обозначает значения гена для N случаев
или генный профиль. Каждый объект данных имеет метку класса, и в нашем иссле-
довании соответствует одному из двух классов. Алгоритм автоматически масштаби-
руется на обработку данных с большим количеством классов. Обозначим через
, 1, 2
i
N i = количество объектов i -го класса, тогда
1 2
N N N= + .
Алгоритм осуществляет ранжирование признаков путем классификации пов-
торных случайных выборок из матрицы исходных данных экспрессии генов
M N
X
×
.
При этом выполняется процесс двойного отбора, т.е. случайным образом выбирается
m M< генов и n N< объектов данных. Количество отбираемых объектов данных
определяется параметром β , а количество генов такое, что / 2m n≤ . Такая схема от-
бора позволяет на k -й итерации формировать сбалансированную матрицу k
m n
Y
×
,
которую, согласно исследованиям авторов [3], менее вероятно переобучить. Коли-
чество итераций K выбирается таким образом, чтобы каждый ген анализируемого
набора данных отбирался определенное количество раз, достаточное для адек-ватной
оценки его ранга. Дополнительным критерием останова итерационного процесса,
кроме количества итераций, является значение коэффициента корреляции вектора
рангов на текущей и предыдущей итерации.
На каждом последующем шаге итерационного процесса, т.е. через определен-
ное заданное количество итераций
iter
k , формируется выходная матрица
4
k
M
E
×
, с коли-
чеством строк, равным исходному числу генов ( 1,i M= ), и четырьмя столбцами.
Значение первого столбца k
i
T ( 1,i M= ) соответствует общему количеству раз, когда
ген i включен в выборку для анализа после очередных
iter
k итераций. Значение второго
столбца k
i
S ( 1,i M= ) соответствует общему количеству раз, когда ген i отобран в
состав успешной модели классификации. Под успешной моделью подразумевается
модель, имеющая ошибку классификации меньше предварительно заданного значения
параметра α . Значение третьего столбца /
k k k
i i i
P S T= ( 1,i M= ) соответствует предска-
зательной способности i -го гена и в четвертом столбце k
i
R ( 1,i M= ) содержится
значение ранга i -го гена, рассчитанное на основе k
i
P после
iter
k итераций. Гены с бóль-
шим значением k
i
P являются более информативными и, следовательно, имеют более
высокий ранг.
Каждая итерация алгоритма 1,k K= состоит из выполнения следующих шагов:
1. Для построения матрицы для анализа k
m n
Y
×
на k -й итерации применяется про-
цедура двойного отбора строк и столбцов матрицы из
M N
X
×
. Матрица k
m n
Y
×
состоит
Алгоритм ранжирования признаков для обнаружения биомаркеров…
«Штучний інтелект» 2013 № 3 61
2Н
из m случайным образом отобранных генов из всего исходного множества M ,
1
n
случаев из множества
1
N исходных случаев первого класса и
2
n случаев из множества
2
N исходных случаев второго класса, таких что
1 1 2 2
/ /n N n N β= = ,
1 2
n n n+ = и
m n< . Таким образом формируется обучающее множество, состоящее из n случаев,
и тестовое множество, состоящее соответственно из N n− случаев.
2. К обучающей выборке, заданной матрицей k
m n
Y
×
, применяется классифика-
ционный алгоритм. В качестве классификационного алгоритма используется метод
сжимающихся центроидов [11]. Процедура перекрестной проверки используется для
поиска оптимального классификатора, который имеет минимальную ошибку на
обучающей выборке k
m n
Y
×
. Использование процедуры позволяет определить пороговое
значение k
∆ , соответствующее наименьшей ошибке классификатора, полученной с
использованием наименьшего подмножества генов
1 2
, , ,
l
x x xK , где l m≤ . Полученная
классификационная модель
1 2
( , , , )k
l
C f x x x= K верифицируется на тестовом множес-
тве из N n− случаев. Ошибка классификации e рассчитывается следующим образом
k FP FN
e
N n
+
=
−
,
где FP – ошибка первого рода, FN – ошибка второго рода.
В случае, если для всех возможных пороговых значений k
∆ и подмножеств
генов
1 2
, , ,
l
x x xK , l m≤ минимальная ошибка классификатора, построенного на обу-
чающей выборке, превосходит значение α , то верификация на тестовом множестве
не выполняется и осуществляется переход к шагу 4.
3. Если на тестовом множестве ошибка классификационной модели на тесто-
вом множестве k
e α≤ , т.е. меньше, чем предварительно заданный порог, то модель
принимается как успешная и выполняется модификация выходной матрицы
4M
E
×
.
Для каждого
i
x гена анализируемой на k -й итерации матрицы k
m n
Y
×
определяется
соответствующий ген матрицы
4M
E
×
и значения столбцов ,
k k
i i
T S и k
i
P рассчиты-
ваются следующим образом:
1
1 2
1
1 2
1, ( , , , )
, ( , , , )
k
k i i m
i k
i i m
T x x x x
T
T x x x x
−
−
+ ∈
=
∉
K
K
1
1 2
1
1 2
1, ( , , , )
, ( , , , )
k
k i i l
i k
i i l
S x x x x
S
S x x x x
−
−
+ ∈
=
∉
K
K
. /
k k k
i i i
P S T=
4. Если на тестовом множестве ошибка классификационной модели k
e α> ,
классификационная модель считается неуспешной и отобранные на k -й итерации
гены являются неинформативными. Модель в этом случае можно определить как
переобученную на обучающей выборке. Значения столбцов ,
k k
i i
T S и k
i
P выходной
матрицы
4M
E
×
для каждого гена из отобранного подмножества
1 2
( , , , )
m
x x xK рас-
считываются как
1
1 2
1
1 2
1, ( , , , )
, ( , , , )
k
k i i m
i k
i i m
T x x x x
T
T x x x x
−
−
+ ∈
=
∉
K
K
1k k
i i
S S
−
= /
k k k
i i i
P S T= .
Значения рангов определяются путем сортировки прогностических значений ге-
нов , 1,
k
i
P i M= в порядке убывания и заносятся в столбец , 1,
k
i
R i M= матрицы
4M
E
×
.
Новоселова Н.А., Том И.Э.
«Искусственный интеллект» 2013 № 3 62
2Н
В
Каждые
iter
k итераций оцениваются изменение в ранжировании генов путем рас-
чета коэффициента ранговой корреляции Спирмена между векторами k
R и *k
R на
k -й и *k -й итерациях, где *
iter
k k k= − :
1
1 2
1
1 2
1, ( , , , )
, ( , , , )
k
k i i m
i k
i i m
T x x x x
T
T x x x x
−
−
+ ∈
=
∉
K
K
1k k
i i
S S
−
= /
k k k
i i i
P S T= .
Значения рангов определяются путем сортировки прогностических значений
генов , 1,
k
i
P i M= в порядке убывания и заносятся в столбец , 1,
k
i
R i M= матрицы
4M
E
×
.
Каждые
iter
k итераций оцениваются изменения в ранжировании генов путем рас-
чета коэффициента корреляции Спирмена между векторами рангов k
R и *k
R на k -й
и *k -й итерациях, где *
iter
k k k= − :
( )
( )
2
*
21
1 6
1
k k
M i i
i
R R
r
M M
=
−
= −
−
∑ .
Алгоритм прекращает свою работу в случае, если коэффициент корреляции
r γ> (например 0.99γ = ), т.е. когда ранговая последовательность стабилизируется.
Результаты экспериментов
Для тестирования предложенного алгоритма ранжирования признаков и про-
ведения сравнительного анализа результатов в нашем исследовании использовался
набор данных пациентов с лейкемией [12]. Набор данных включает два типа острой
лейкемии: острая лимфобластная форма (ALL) и острая миелоидная лейкемия (AML).
Набор состоит из 47 случаев лейкемии ALL (38 случаев B-cell лейкемии и 9 случаев
T-cell лейкемии) и 25 случаев AML, которые характеризуются экспрессией 7129 генов.
Согласно протоколу, описанному в [13], были выполнены следующие шаги предоб-
работки данных: пороговая обработка с наименьшим значением экспрессии, равным
100 и наибольшим – 1600; фильтрация с исключением генов со значениями экс-
прессии, удовлетворяющими одному из следующих условий: max 5
min
< или
(max min) 500− ≤ , где max – максимальное значение и min – минимальное значение
экспрессии гена; логарифмическая трансформация значений экспрессии генов. Пос-
ле выполнения предобработки было отобрано 3571 генов. Набор данных можно
скачать по ссылке [14].
Для проведения эксперимента были выбраны следующие параметры: коли-
чество итераций 300000K = , пороговое значение ошибки классификации 0.2α = ,
значение доли случаев, случайным образом отбираемых из исходного набора на
каждой итерации 0.7β = , количество итераций между выполнением расчета кри-
терия останова
iter
k =20000 путем оценки коэффициента корреляции с пороговым
значением 0.09r = . Каждые
iter
k оценивалась выходная матрица
4M
E
×
. В табл. 1 пред-
ставлены 20 генов с наибольшим рангом, полученные в результате эксперимента.
Для каждого из 20 подмножеств, начиная с одноэлементного, состоящего из
гена с наивысшим рангом, и далее путем добавления последующего гена в ран-
жированном списке, была построена классификационная модель и оценена ошибка
классификации всего исходного набора данных. В качестве наиболее информа-
тивного подмножества, которое может рассматриваться как набор потенциальных
биомаркеров заболевания, было отобрано подмножество с наименьшей ошибкой
Алгоритм ранжирования признаков для обнаружения биомаркеров…
«Штучний інтелект» 2013 № 3 63
2Н
классификации. На рис. 1 представлены значения ошибки классификации, соответ-
ствующие количеству отобранных генов от 2 до 20. Согласно полученным значениям
ошибки, рассчитанным с использованием процедуры перекрестной проверки на всем
исходном наборе данных, в качестве биомаркеров заболевания можно выбрать
подмножество, состоящее из четырех генов (Cd33, Zyxin, APLP2, CST3), с точностью
классификации 98,6%. Необходимо отметить, что подмножество из 10 генов дает
несколько меньшую ошибку классификации, однако требует определения значений
экспрессии большего количества генов.
Таблица 1 – Описание генов с наибольшим рангом
№
Обозначени
е гена
Описание №
Обозначение
гена
Описание
1 Cd33
Рекомбинантный
белок человека
11 DNTT
Терминальная диоксинуклеотид-
трансфераза
2 Zyxin Циксин 12 MARCKSL1 MARCKS-подобный протеин
3 APLP2
Предшественник
бета-амилоида
13 CD79A
Полипептид Ig-альфа (иммуно-
глобулин ассоциированная альфа)
4 CST3 Цистатин C 14 CTSA Катепсин A
5 MGST1
глутатион-S-
трансферазы
15 CSTA Цистатин А
6 CTSD Катепсин D 16 SERPINB1 Серпин В1
7 CFD Адипсин 17 FAH Фумарилацетоацетат гидролаза
8 CCND3 Циклин D3 18 CFP
Пропердин – глобулярный белок
сыворотки крови человека и
млекопитающих животных.
9 CD63
Мембранный
белок,
гликопротеин из
семейства
тетраспанинов
19 VPREB1
Легкие цепи иммуноглобулинов.
Ткане-специфичный ген, который
неактивен в ES (эмбриональная
стволовая клетка), но который
активируется во время ранних
стадий развития B-lymphocyte.
10 TCF3
Фактор
транскрипции
20 SPTAN1 Спектрин альфа-цепь
21 MPO Миелопероксидаза
Количество генов
О
ш
и
б
ка
к
л
а
с
с
и
ф
и
ка
ц
и
и
(
ко
л
и
ч
е
с
тв
о
о
ш
и
б
о
к)
1 2 3 4 5 6 7 8 9 11 13 15 17 19 21
0
.0
0
.5
1
.0
1
.5
2
.0
2
.5
3
.0
3
.5
4
.0
4
.5
5
.0
5
.5
6
.0
Рисунок 1 – Ошибка классификации для количества генов от 2 до 20
Новоселова Н.А., Том И.Э.
«Искусственный интеллект» 2013 № 3 64
2Н
В
Сравнительный анализ результатов, полученных с использованием предложен-
ного алгоритма, показал его эффективность при определении наиболее информа-
тивных генов, т.к. большее их количество присутствует в списках информативных
генов других авторов [15-18], а сравнимая точность классификации (с использо-
ванием процедуры перекрестной проверки) достигается с использованием меньшего
их количества (табл. 2).
Таблица 2 – Результаты сравнительного анализа различных методов отбора
признаков
Точность классификации Количество генов
HBE метод [15] 97.2% 4 гена
Метод [16] 98.6% 132 гена
Метод [17] 98.6% 3 кластера генов (размер одного
кластера от 1 до 23 генов)
Предложенный алгоритм 98.6% 4 гена
Анализ биологической значимости отобранных генов
Для того чтобы оценить биологическую значимость полученных результатов
ранжированное подмножество из 20 наиболее информативных генов было проана-
лизировано с использованием инструмента анализа биологических процессов InnateDB
(http://www.innatedb.ca). Была выявлена их потенциальная функциональная связь с
фенотипом заболевания и биологические пути, в которых они участвуют. Значимость
участия комбинации генов в определенном биологическом процессе оценивалась путем
расчета соответствующего p-уровня. Согласно полученным результатам анализа два
(адипсин CFD и комплементарный фактор пропердин CFP) из 20 генов участвуют в
альтернативном пути системы комплемента, подавлении инфекционных агентов (p-
уровень = 0.00006). В работе [18] адипсин был также выбран в качестве биомаркера
подтипа лейкемии, и была описана его роль в дифференциации миелоидных клеток.
Два гена (CD33 и DNTT) из 20 связаны с процессом дифференцировки
гемопоэтических клеток (p-уровень = 0.00429). CD33 кодирует мембранный протеин
клетки и сильно экспрессирован на поверхности лейкемических бластов, приме-
няется для дифференциации миелоидных и лимфоидных клеток [19]. DNTT
(деоксинуклеотидтрансфераза) экспрессируется в популяциях нормальных и злока-
чественных пре-B и пре-T лимфоцитах во время ранних стадий дифференцировки.
Два гена (циклин D3 и CD79A) участвуют в биологическом процессе клеточ-
ного цикла и сигнального пути В-клеточого рецептора (p-уровень = 0.01489). Также
два гена циклин D3 и циксин участвуют в процессе фокусной адгезии (p-уровень =
=0.0225). В работе [20] циксин был отобран как один из биомаркеров фенотипов
лейкемии. Уровень его экспрессии играет важную роль в дифференцировке подтипов
лейкемии, однако его прямая связь в гемопоэзе не выявлена. Согласно последним
исследованиям циксин-кодируемые протеины могут регулировать транскрипцию гена
путем взаимодействия с фактором транскрипции. Таким образом, наиболее инфор-
мативные 20 генов с наибольшим рангом, полученные с использованием предложенного
алгоритма, функционально значимы как для процесса дифференцировки гемопоэти-
ческих клеток, так и патогенеза онкологических заболеваний. Многие из отобранных
нами генов отобраны также в качестве биомаркеров для распознавания подтипа
лейкемии в ряде других исследований [18-20].
Алгоритм ранжирования признаков для обнаружения биомаркеров…
«Штучний інтелект» 2013 № 3 65
2Н
Оценка сходимости алгоритма
Для определения оптимальных прогностических значений каждого гена необ-
ходимо оценить все возможные выборки m случаев из исходной матрицы данных
M N
X
×
, а именно ( ) ( ) ( )1 !/ 1 ! !
m
M
C M m M m= − − − различных комбинаций, что является
сложным в вычислительном плане с количеством вычислений, пропорциональным
( )!O M . Используемый нами подход является приближенным, эвристическим и по-
лучает оценки прогностических значений генов путем повторного анализа случайных
выборок m случаев из исходной матрицы данных
M N
X
×
. Следовательно, необходимо
проанализировать сходимость предложенного алгоритма и способность получать
достоверные оценки ранжированных прогностических значений. Для этого мы про-
анализируем вектор рангов для различного количества итераций алгоритма. Как
показано на рис. 2 для 20 генов, расположенных вверху ранжированного списка,
значения рангов на 20 000 и 40 000 итерациях достаточно сильно отличаются.
0
10
20
30
40
50
60
70
2
0
K
4
0
K
6
0
K
8
0
K
1
0
0K
1
2
0
K
1
4
0
K
1
6
0
K
1
8
0K
2
0
0
K
2
2
0
K
2
4
0
K
2
6
0K
2
8
0K
3
0
0
K
M23197_at
X95735_at
L09209_s_at
M27891_at
U46499_at
M63138_at
M84526_at
M92287_at
X62654_rna1_at
M31523_at
M11722_at
HG1612-HT1612_at
U05259_rna1_at
M22960_at
D88422_at
M93056_at
M55150_at
M83652_s_at
D88270_at
J05243_at
Рисунок 2 – Изменение рангов 20 генов в зависимости от количества итераций
Однако, после приблизительно 200 000 итераций значения рангов стабилизи-
руются. Таким образом, предложенный алгоритм сходится к близкому к оптимальному
решению, и может достаточно эффективно осуществлять ранжирование признаков,
используя сравнительно небольшое количество итераций.
Выводы
Предложенный алгоритм ранжирования признаков позволяет выделять наи-
более информативные гены в данных генной экспрессии, причем стабильность значе-
ний рангов отдельных генов обусловлена многократной оценкой выборок из исходной
матрицы данных, что помогает избежать переобучения, и способствует получению
несмещенных оценок вектора рангов. Согласно алгоритму на каждой итерации выпол-
няется классификация случайным образом сформированной обучающей выборки с
Новоселова Н.А., Том И.Э.
«Искусственный интеллект» 2013 № 3 66
2Н
В
верификацией классификационной модели на тестовой выборке. Точность классифи-
кации является показателем прогностической способности отобранных на очередной
итерации комбинации генов. Выходная матрица количественно фиксирует как прог-
ностическую способность, так и ранг отдельных генов, которые модифицируются на
каждой последующей итерации, приближаясь к оптимальному ранжированию. Крите-
рием оптимальности вектора рангов является стабилизация его значений для отдель-
ных генов, что оценивается с использованием критерия ранговой корреляции Спирмена.
Предложенный алгоритм протестирован на наборе данных по лейкемии и про-
ведена оценка сходимости алгоритма на примере 20 генов, расположенных вверху
ранжированного списка. Оценена биологическая значимость исследуемого подмно-
жества отобранных генов, которая позволяет сделать вывод об их тесной связи с
процессами, происходящими в лейкемических клетках. Таким образом, отобранные
гены с наивысшим рангом не являются результатом случайного отбора. Сравни-
тельный анализ с работами других авторов по исследуемому набору данных показал
преимущество предложенного нами алгоритма, а именно в качестве результата ото-
брано наименьшее подмножество из четырех биомаркеров, обеспечивающих такую
же или лучшую точность классификации.
Литература
1. Liu X. An entropy-based gene selection method for cancer classification using microarray data / X. Liu,
A. Krishnan, A. Mondry // BMC Bioinformatics. – 2005. – Vol. 6, № 76.
2. Новоселова Н.А. Методы анализа данных генной экспрессии. Обзор и перспективные направления
развития (Novoselova, N.A. Methods for gene expression analysis. Survey and perspective directions) /
Н.А. Новоселова, И.Э. Том. – LAMBERT Academic Publishing GmbH&Co. – 2012. – 68 p. – ISBN
978-3-659-16145-2.
3. Dougherty E.R. Performance of feature selection methods / E.R. Dougherty, J. Hua, C. Sima // Curr
Genomics. – 2009. – Vol. 10. – P. 365-374.
4. Wang Y. Gene selection from microarray data for cancer classification a machine learning approach /
Y. Wang, I.V. Tetko, M.A. Hall // Comp Biol Chem. – 2005. – Vol. 29. – P. 37-46.
5. Kohavi R. Wrapper for feature subset selection / R. Kohavi, G. John // Artificial Intelligence. – 1997. –
Vol. 97, № 1-2. – P. 273-324.
6. An efficient and robust statistical modeling approach to discover differentially expressed genes using
genomic expression profiles / [Thomas J.G., Olson J.M., Tapscott S.J., Zhao L.P.] // Genome
Res. -2001. – Vol. 11. – P. 1227-1236.
7. Antoniadis A. Effective dimension reduction methods for tumor classification using gene expression
data / A. Antoniadis, S. Lambert-Lacroix, F. Leblanc // Bioinformatics. – 2003. – Vol. 19. – P. 563-570.
8. Filter versus wrapper gene selection approaches in DNA microarray domains / [Inza I., Larranaga P.,
Blanco R., Cerrolaza, A.] // Artif. Intell. Med. – 2004. – Vol. 31, № 2. – P. 91-103.
9. Xiong M. Biomarker identification by feature wrappers / M. Xiong, Z. Fang, J. Zhao // Genome
Research. -2001. – Vol. 11. – P. 1878-1887.
10. Saeys Y. A review of feature selection techniques in bioinformatics / Y. Saeys, I. Inza, P. Larranaga //
Bioinformatics. – 2007. – Vol. 23. – P. 2507-2517.
11. Diagnosis of multiple cancer types by shrunken centroids of gene expression / [Tibshirani R., Hastie T.,
Narasimhan B., Chu G.] // Proc Natl Acad Sci U S A. – 2002. – Vol. 99. – P. 6567-6572.
12. Molecular classification of Cancer:class discovery and class prediction by gene expression monitoring /
[Golub T.R., Slonim D.K., Tamayo P. et al.] // Nature. – 1999. – Vol. 286. – P. 531-537.
13. Dudoit S. Comparison of discrimination methods for the classification of tumors using gene expression
data / S. Dudoit, J. Fridlyand, T. Speed // J Am Stat Assoc. - 2002. – Vol. 97. – P. 77-87.
14. Whitehead Institute Center for Genomic Research: cancer genomics [Электронный ресурс]. – Режим
доступа : http://www-genome.wi.mit.edu/cancer
15. Optimization Based Tumor Classification from Microarray Gene Expression Data / [Dagliyan O., Uney-
Yuksektepe F., Kavakli I.H., Turkay M.] ; [Электронный ресурс] // PLoS ONE. – 2011. – № 6(2). –
Режим доступа : e14579. doi:10.1371/journal.pone.0014579.
Алгоритм ранжирования признаков для обнаружения биомаркеров…
«Штучний інтелект» 2013 № 3 67
2Н
16. Optimization models for cancer classification extracting gene interaction information from microarray
expression data / [Antonov A., Tetko I.V., Mader M.T. et al.] // Bioinformatics. – 2004. – Vol. 20. –
P. 644-652.
17. Dettling M. Supervised clustering of genes / M. Dettling, P. Buhlmann [Электронный ресурс] //
Genome Biol. – 2002. – Vol. 3. – Режим доступа : research0069.1–0069.15.
18. Biomarker discovery in microarray gene expression data with gaussian processes / [Chu W., Ghahramani
Z., Falciani F., Wild D.L.] // Bioinformatics. – 2005. – Vol. 21. – P. 3385-3393.
19. Yang A.J. Bayesian variable selection for disease classification using gene expression data / A.J. Yang,
X.Y. Song // Bioinformatics. – 2010. – Vol. 26. – P. 215-222.
20. Gene selection from microarray data for cancer classification – a machine learning approach / [Y. Wang
et al.] // Comput. Biol. Chem. – 2005. – Vol. 29, № 1. – P. 37-46.
Literatura
1. Liu X. An entropy-based gene selection method for cancer classification using microarray data / X. Liu,
A. Krishnan, A. Mondry // BMC Bioinformatics. – 2005. – Vol. 6, № 76.
2. Novoselov NA Methods for analysis of gene expression data. Overview and prospects for development
(Novoselova, NA Methods for gene expression analysis. Survey and perspective directions) / N. Novoselov,
IE Tom. - LAMBERT Academic Publishing GmbH & Co. - 2012. - 68 p. - ISBN 978-3-659-16145-2.
3. Dougherty E.R. Performance of feature selection methods / E.R. Dougherty, J. Hua, C. Sima // Curr
Genomics. – 2009. – Vol. 10. – P. 365-374.
4. Wang Y. Gene selection from microarray data for cancer classification a machine learning approach /
Y. Wang, I.V. Tetko, M.A. Hall // Comp Biol Chem. – 2005. – Vol. 29. – P. 37-46.
5. Kohavi R. Wrapper for feature subset selection / R. Kohavi, G. John // Artificial Intelligence. – 1997. –
Vol. 97, № 1-2. – P. 273-324.
6. An efficient and robust statistical modeling approach to discover differentially expressed genes using
genomic expression profiles / [Thomas J.G., Olson J.M., Tapscott S.J., Zhao L.P.] // Genome
Res. -2001. – Vol. 11. – P. 1227-1236.
7. Antoniadis A. Effective dimension reduction methods for tumor classification using gene expression
data / A. Antoniadis, S. Lambert-Lacroix, F. Leblanc // Bioinformatics. – 2003. – Vol. 19. – P. 563-570.
8. Filter versus wrapper gene selection approaches in DNA microarray domains / [Inza I., Larranaga P.,
Blanco R., Cerrolaza, A.] // Artif. Intell. Med. – 2004. – Vol. 31, № 2. – P. 91-103.
9. Xiong M. Biomarker identification by feature wrappers / M. Xiong, Z. Fang, J. Zhao // Genome
Research. -2001. – Vol. 11. – P. 1878-1887.
10. Saeys Y. A review of feature selection techniques in bioinformatics / Y. Saeys, I. Inza, P. Larranaga //
Bioinformatics. – 2007. – Vol. 23. – P. 2507-2517.
11. Diagnosis of multiple cancer types by shrunken centroids of gene expression / [Tibshirani R., Hastie T.,
Narasimhan B., Chu G.] // Proc Natl Acad Sci U S A. – 2002. – Vol. 99. – P. 6567-6572.
12. Molecular classification of Cancer:class discovery and class prediction by gene expression monitoring /
[Golub T.R., Slonim D.K., Tamayo P. et al.] // Nature. – 1999. – Vol. 286. – P. 531-537.
13. Dudoit S. Comparison of discrimination methods for the classification of tumors using gene expression
data / S. Dudoit, J. Fridlyand, T. Speed // J Am Stat Assoc. - 2002. – Vol. 97. – P. 77-87.
14. Whitehead Institute Center for Genomic Research: cancer genomics [Электронный ресурс]. – Режим
доступа : http://www-genome.wi.mit.edu/cancer
15. Optimization Based Tumor Classification from Microarray Gene Expression Data / [Dagliyan O., Uney-
Yuksektepe F., Kavakli I.H., Turkay M.] ; [Электронный ресурс] // PLoS ONE. – 2011. – № 6(2). –
Режим доступа : e14579. doi:10.1371/journal.pone.0014579.
16. Optimization models for cancer classification extracting gene interaction information from microarray
expression data / [Antonov A., Tetko I.V., Mader M.T. et al.] // Bioinformatics. – 2004. – Vol. 20. –
P. 644-652.
17. Dettling M. Supervised clustering of genes / M. Dettling, P. Buhlmann [Электронный ресурс] //
Genome Biol. – 2002. – Vol. 3. – Режим доступа : research0069.1–0069.15.
18. Biomarker discovery in microarray gene expression data with gaussian processes / [Chu W., Ghahramani
Z., Falciani F., Wild D.L.] // Bioinformatics. – 2005. – Vol. 21. – P. 3385-3393.
19. Yang A.J. Bayesian variable selection for disease classification using gene expression data / A.J. Yang,
X.Y. Song // Bioinformatics. – 2010. – Vol. 26. – P. 215-222.
20. Gene selection from microarray data for cancer classification – a machine learning approach / [Y. Wang
et al.] // Comput. Biol. Chem. – 2005. – Vol. 29, № 1. – P. 37-46.
Новоселова Н.А., Том И.Э.
«Искусственный интеллект» 2013 № 3 68
2Н
В
RESUME
N. Novoselova, I. Tom
Algorithm of Feature Ranking for Biomarker Discovery in Gene
Expression Data
In the paper the ranking аlgorithm of gene expression data obtained from microarray
measurements is considered. The proposed algorithm allows to select the most informative
genes by ranking, where the stability of the ranks of individual genes is ensured by
estimation of multiple samples from initial data matrix. Such an approach helps to avoid
overfitting and enables the unbiased estimate of the vector of ranks. At each iteration the
classification model constructed on the randomly generated training sample is verified on
the test sample. The classification accuracy is the indicator of the prognostic ability of the
individual genes. After the successful classification the ranks of the participating genes
become higher, meanwhile the search for the optimal ranking is performed not for each
individual gene, but the whole combination. The output matrix is modified after pre-
determined number of iterations, registering both the prognostic ability and the ranks of the
individual genes. The stability of the rank vector serves as an optimality criterion and is
estimated by computing Spearman correlation coefficient between the current and previous
rank order.
The proposed algorithm has been tested on the leukemia dataset and its convergence
is analyzed, considering the twenty top-ranked genes. The analysis of the biological
significance of the investigated gene subset allows to confirm its obvious functional
relevance to the phenotype it predicts and the processes, taking place in the leukemic cells.
It assures that the top-ranked genes are highly unlikely to be selected by chance. The
comparative analysis of the developed algorithm on the leukemia dataset shows its
advantage over analogs, notably the selected set of biomarkers is smaller, consisting of
four genes, which provide similar or higher classification accuracy and preserve the high
classification accuracy.
Статья поступила в редакцию 02.04.2013.
|