Отбор переменных в логистическую регрессию генетическим алгоритмом

В статье исследуются эффективные процедуры отбора переменных в бинарные классифицирующие модели на основе логистической регрессии. Для этого используется генетический алгоритм, причем в функцию фитнеса особи параметр штрафа за включение в модель новых переменных изменяется в зависимости от рассчи...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2008
Автор: Паклин, Н.Б.
Формат: Стаття
Мова:Російська
Опубліковано: Інститут проблем штучного інтелекту МОН України та НАН України 2008
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/7157
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Отбор переменных в логистическую регрессию генетическим алгоритмом / Н.Б. Паклин // Штучний інтелект. — 2008. — № 3. — С. 714-719. — Бібліогр.: 5 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859672328234860544
author Паклин, Н.Б.
author_facet Паклин, Н.Б.
citation_txt Отбор переменных в логистическую регрессию генетическим алгоритмом / Н.Б. Паклин // Штучний інтелект. — 2008. — № 3. — С. 714-719. — Бібліогр.: 5 назв. — рос.
collection DSpace DC
description В статье исследуются эффективные процедуры отбора переменных в бинарные классифицирующие модели на основе логистической регрессии. Для этого используется генетический алгоритм, причем в функцию фитнеса особи параметр штрафа за включение в модель новых переменных изменяется в зависимости от рассчитанного значения площади под ROC-кривой. Проведены эксперименты на модельных наборах данных и в задаче кредитного скоринга. У статті досліджуються ефективні процедури відбору змінних в бінарні класифікуючі моделі на основі логістичної регресії. Для цього використовується генетичний алгоритм, причому у функцію фітнеса особини параметр штрафу за включення в модель нових змінних змінюється залежно від розрахованого значення площі під ROC-кривою. Проведені експерименти на модельних наборах даних і в задачі кредитного скорингу. In the paper we discuss effective procedures for а feature selection problem in a binary logistic regression model. A genetic algorithm was used to find best feature combinations, with the special fitness function based on a penalty parameter for including new variables. This parameter depends on ROC-curve index on current epoch. Experiments on Madelon data set and credit scoring classification problem were made.
first_indexed 2025-11-30T14:00:16Z
format Article
fulltext «Искусственный интеллект» 3’2008 714 8П УДК 62-50:15 Н.Б. Паклин ГОУ ВПО «Рязанский филиал Московского государственного университета экономики, статистики и информатики», г. Рязань, Россия paklin@newmail.ru Отбор переменных в логистическую регрессию генетическим алгоритмом В статье исследуются эффективные процедуры отбора переменных в бинарные классифицирующие модели на основе логистической регрессии. Для этого используется генетический алгоритм, причем в функцию фитнеса особи параметр штрафа за включение в модель новых переменных изменяется в зависимости от рассчитанного значения площади под ROC-кривой. Проведены эксперименты на модельных наборах данных и в задаче кредитного скоринга. Введение В ряде прикладных областей, таких, как медицина и кредитный скоринг, логисти- ческая регрессия [1] неизменно остается популярным средством для построения бинарных классифицирующих моделей, даже несмотря на появление в последние два десяти-летия эффективных алгоритмов машинного обучения. Причины этого лежат в том, что математический аппарат логистической регрессии хорошо изучен, коэффициенты регрессии поддаются интерпретации, а при помощи ROC-анализа можно подобрать точку отсечения (cut-off value) так, чтобы модель обеспечивала заданный уровень чувст- вительности. Последнее особенно важно в медицинском скрининге, в котором нужно добиваться высокой (более 90 %) чувствительности диагностического теста. В последние годы бурный рост розничного кредитования в банковском секторе в России и странах бывшего СНГ заставил банки применять эффективные методики оцен- ки заемщиков, или скоринг. Основным математическим средством для построения так называемых скоринговых карт по-прежнему остается логистическая регрессия, хотя накоплен значительный мировой опыт использования для этих целей деревьев класси- фикации и искусственных нейронных сетей [2]. Как и задача медицинской диагностики, прогнозирование кредитоспособности заемщика на основе накопленных статистических данных – кредитных историй – сводится к задаче бинарной классификации. Типичной является ситуация, когда приходится иметь дело с десятками переменных, и, соответ- ственно, производить их отбор для построения модели. Включение в модель регрессии шумового признака, никак не связанного с восстанавливаемой зависимостью, может только ухудшить обобщающую способность модели. Выбор оптимального набора пере- менных путем перебора всех комбинаций приводит к NP-полной задаче. Поэтому на практике получили распространение статистические процедуры пошагового отбора пере- менных, которые позволяют снизить количество вычислений, но не обеспечивают нахож- дения оптимального набора входных переменных ввиду «жадных» стратегий. Поэтому представляется актуальной разработка «нежадных» методов отбора, основанных на слу- чайном направленном поиске. В работе [3] уже была предпринята попытка адаптации простого генетического алгоритма к отбору переменных в бинарную логистическую регрессию, которая прове- рялась на задаче предсказания инфаркта миокарда по набору из 43 симптомов больного. Отбор переменных в логистическую регрессию генетическим алгоритмом «Штучний інтелект» 3’2008 715 8П Результаты экспериментов показали превосходство генетического алгоритма над тради- ционными статистическими процедурами, однако введенный авторами параметр в функ- цию приспособленности подобран эмпирически для конкретной обучающей выборки. В данной работе продолжается исследование проблемы эволюционного отбора перемен- ных в логистическую регрессию, предлагается модифицированная функция приспособ- ленности и проводится тестирование на синтетических наборах данных, в том числе из UC Irvine Machine Learning Repository, а также на реальных кредитных историях. Анализ «жадных» стратегий отбора На практике при отборе переменных в регрессионную модель приходится реа- лизовывать два противоречивых требования: – нужно использовать как можно больше входных переменных, содержащих новую информацию о выходной переменной; – поскольку каждая новая переменная может ухудшить обобщающую способность моде- ли, нужно стремиться, чтобы модель содержала как можно меньше входных переменных. Поиск наилучшей регрессионной модели, как правило, заключается в поиске компромисса между данными требованиями. Прикладная статистика предлагает две основные процедуры для отбора переменных: метод прямого выбора (англ.: forward selection) и метод обратного исключения (англ.: backward elimination). Для анализа недостатков рассмотрим их подробнее [1]. Процедура forward начинается с «пустой» модели, в которую еще не включена ни одна переменная. Она содержит следующие шаги. 1. Для первой переменной, вводимой в модель, основным критерием выбора является высокая корреляция с выходной переменной. Если полученная в результате модель не обладает достаточной значимостью, из этого следует, что среди доступ- ных переменных исходной выборки значимые переменные отсутствуют. В против- ном случае переходят к шагу 2. 2. Для каждой из остальных переменных вычисляется последовательная F-ста- тистика для данной переменной и переменных, уже включенных в модель. При этом каждый раз выбирается та переменная, для которой значение последовательной F-ста- тистики будет наибольшим (обозначим ее maxF ). 3. Для значения maxF проводится тест значимости. Если модель после добавле- ния переменной, выбранной на шаге 2, не обладает достаточной значимостью, то алгоритм останавливается и текущая модель остается без переменной, выбранной на шаге 2. В противном случае изменение модели принимается и осуществляется пере- ход на шаг 2 для выбора следующей переменной. Процесс продолжается до тех пор, пока все значимые переменные не будут включены в модель. В отличие от метода forward, процедура backward начинается с «полной» модели (или модель enter), когда в нее включаются все доступные переменные. Процедура также содержит три шага. 1. Решается задача регрессии с помощью полной модели, т.е. когда в ней присутствуют все доступные переменные. 2. Для каждой переменной в модели вычисляется частная F-статистика. Пред- почтение отдается переменной, для которой значение частной F-статистики будет наименьшим (обозначим его minF ). Паклин Н.Б. «Искусственный интеллект» 3’2008 716 8П 3. Производится тест значимости minF . Если minF не является достаточно значи- мой, то связанная с ней переменная исключается из модели и производится возврат ко 2-му шагу. Если minF имеет высокую значимость, то алгоритм останавливается, и формируется отчет о текущем состоянии модели. Если это первый проход алго- ритма, то мы имеем полную модель и, следовательно, все доступные переменные являются значимыми. Если проход не является первым, то модель уменьшается на одну или несколько переменных. Эти процедуры, по сути, являются алгоритмами оптимизации на большом пространстве наблюдений. По этой причине отсутствует гарантия, что действи- тельно будет найдена наилучшая модель из всех возможных (глобальный оптимум), т.е. будет построена модель, обеспечивающая минимальную ошибку и максималь- ную значимость. Единственным способом гарантировать, что будет найдена действи- тельно наилучшая модель из всех возможных, является перебор всех возможных комбинаций входных переменных, т.е. метод глобального поиска. Метод глобаль- ного поиска не применим на практике (требуется перебрать 2k комбинаций, где k – число потенциальных переменных). Еще одна проблема – переобучение. В машинном обучении принято оценивать качество модели не только по ошибке классификации на обучающем множестве, но и по ошибке обобщения, которая рассчитывается на тестовом множестве. Кроме того, для бинарных классификаторов, в том числе логи- стической регрессии, применяется ROC-анализ [4], в котором анализируется индекс AUC – площадь под ROC-кривой. Эта кривая есть график зависимости чувстви- тельности от специфичности, рассчитываемых при различных значениях точек отсечения. Значение AUC, рассчитываемое на обучающей и тестовой выборках, определяет прогностическую силу модели. AUC = 0,5 соответствует бесполезному классификатору, а AUC = 1 – идеальному. Считается, что регрессионная модель, имеющая высокое значение площади под кривой на обучающем множестве и низкое на тестовом, демонстрирует эффект переобучения. Рассмотренные статистические процедуры forward и backward никак не контролируют эффект переобучения, поскольку не используют в своей работе обращение к отдельному множеству, которое принято называть валидационным. Использование генетического алгоритма устраняет данный недостаток. Формализация задачи отбора генетическим алгоритмом Рассмотренные выше утверждения позволяют сформулировать целевую функ- цию для решения задачи отбора переменных в регрессионную модель: максимизация площади под кривой на валидационном (т.е. не участвующим в расчете коэффи- циентов регрессии) множестве и минимизация количества переменных. В терминах генетического алгоритма функция приспособленности будет выглядеть следующим образом [3]: max))((),,( → − += u nuumAUCSCuF CS ρ , 1) где C и S – обучающее и валидационное множества соответственно; n – число перемен- ных, отобранных в модель (константа всегда включена в модель); u – общее число пере- менных; )(umC – модель логистической регрессии, построенная на множестве C; AUCS( )(umC ) – площадь под ROC-кривой, рассчитанная на множестве S; ρ – параметр. Первая часть функции (1) изменяется от 0,5 до 1. Выражение unu /)( − изме- няется от 0 до 1. Параметр ρ регулирует соотношение между числом переменных в Отбор переменных в логистическую регрессию генетическим алгоритмом «Штучний інтелект» 3’2008 717 8П модели и ее прогностической силой: чем он больше, тем меньше переменных будет в «лучшей» особи генетического алгоритма. Каждый ген особи и определяет, вклю- чать переменную в регрессионную модель или нет. В [3] параметр ρ подобран эмпирически и установлен равным 0,02. Пробные эксперименты показали, что такое значение не является универсальным. При низких значениях AUC важно не ограничивать пространство поиска и как можно меньше штрафовать особь за увеличение количества переменных в модели. С повышением AUC нужно стремиться к снижению числа переменных, т.е. увеличивать штраф за ее добавление. Фиксированное значение ρ такую гибкость не обеспечивает. Исходя из вышесказанного, предлагается следующая кусочно-линейная функ- ция для ρ , зависящая от AUCS (рис. 1). Рисунок 1 – Зависимость ρ от AUCS При ее построении учитывалась градация качества классификаторов в зависи- мости от значения площади под кривой [4] (табл. 1). Таблица 1 Интервал AUC Качество модели 0,9 – 1,0 Отличное 0,8 – 0,9 Очень хорошее 0,7 – 0,8 Хорошее 0,6 – 0,7 Удовлетворительное 0,5 – 0,6 Неудовлетворительное Эксперименты на искусственных наборах данных Целью проводимых экспериментов являлось сравнение эффективности функции приспособленности с фиксированным и переменным параметром ρ , а также оценка работы алгоритма при больших размерностях. В качестве первого набора данных использовалось искусственно сгенерированное множество из функциональной зависимости 7,0)( 2 54321 −≥+−−= xxxxxf X , xk (k = 1,..,5) равномерно распределен на (0;1). Объем обучающего и валидационного множества сос- Паклин Н.Б. «Искусственный интеллект» 3’2008 718 8П тавил 375 и 125 записей соответственно. К набору данных были добавлены 45 случайных переменных, также равномерно распределенные на (0;1). Таким образом, общая размер- ность пространства поиска составила 250. Результаты экспериментов сведены в табл. 2. Для генетического алгоритма приведен результат с минимальным (n) и средним (nср) числом переменных на 100 запусках алгоритма с постоянным параметром 02,0=cρ и изменяющимся в зави- симости от значения AUC ( ]8,0;02,0[∈dρ ).Число хромосом в популяции генетичес- кого алгоритма 30, алгоритм останавливался при постоянстве целевой функции в течение 20 эпох. Коэффициенты логистической регрессии рассчитывались стандартным методом Ньютона. В таблице также приведены результаты для процедур forward (f) и со всеми включенными переменными (e), h – число эпох генетического алгоритма. Процедура backward не включила в модель ни одну переменную (расчет пошаговой регрессии производился в пакете SPSS 14,0). Таблица 2 – Результаты экспериментов для первого набора Модель AUCS n nср h ГА ( cρ ) 0,963 8 8,7 64 ГА ( dρ ) 0,963 5 17,2 79 f 0,95 50 – – e 0,896 15 – – Целевая функция с переменным параметром dρ показала себя лучше всех: не- сколько раз генетический алгоритм находил решение именно с теми 5 переменными, на основе которых была получена выходная переменная. В последние годы проблема отбора признаков (англ.: feature selection) в машин- ном обучении приобрела самостоятельное значение, и для тестирования алгоритмов был разработан ряд искусственных наборов данных сложной природы с большим числом шумовых признаков (с долей от 30 до 95 % от их общего числа). Задачи с таким числом признаков на практике возникают нечасто, но эти наборы данных служат для проверки масштабируемости алгоритмов. Из UCI Machine Learning Repository был взят набор данных Madelon [5], состоящий из 500 входных пере- менных, из которых значимыми (на основе которых генерировалось выходное поле) являются только 20. Остальные переменные были искусственно добавлены в набор, а их значения имели распределения, близкие к истинным переменным, что услож- няет задачу отбора переменных. Обучающее множество Madelon имеет размер 2000 записей, валидационное – 1000. В результате работы генетического алгоритма уже на 8 эпохе число пере- менных было сокращено до 224 с AUCS = 0,60 (AUCS на полной модели тоже равен 0,60). Поэтому всего за несколько эпох генетического алгоритма можно существенно снизить число переменных. Процедуре forward, к примеру, не удалось за прием- лемое время выдать решение (пакет SPSS 14.0). Применение в задаче кредитного скоринга В качестве практической задачи были взяты реальные кредитные истории, содер- жащие информацию о качестве обслуживания долга заемщиками и их социально-эконо- мические параметры: возраст, образование, количество лет проживания в регионе, доход и т.д. – всего 20 переменных. При помощи специального преобразования непрерывное Отбор переменных в логистическую регрессию генетическим алгоритмом «Штучний інтелект» 3’2008 719 8П множество переменных, отвечающих за число просрочек, было трансформировано в бинарную переменную «плохой/хороший заемщик». Обучающее множество составило 3557 записей, валидационное – 687. Доля «плохих» заемщиков составила 17 %. Мно- жества отличались тем, что в них присутствовали шумы, аномалии и незначащие фак- торы. Пока что такая картина является скорее нормой в кредитных историях российских банков, нежели отклонением. Генетический алгоритм из 20 переменных составил только 2 с AUCs = 0,66. Полная модель имела площадь под кривой 0,6. Заключение В целом генетический алгоритм с предложенной кусочно-линейной штрафной функцией за включение в модель новых переменных, зависящей от площади под кривой на текущей эпохе, показал хорошие результаты на синтетических наборах данных и в задаче кредитного скоринга, лучшие, чем при использовании фиксированного параметра штрафа с 02,0=ρ . Однако подход обладает рядом недостатков. Во-первых, он имеет высокую вычислительная сложность, которая выражается в том, что на каждой эпохе необходимо решать регрессионное уравнение и рассчитывать площадь под кривой. Поэтому для получения результатов за приемлемое время мы имеем ограничения на размер популяции. Во-вторых, метод Ньютона для расчета коэффициентов логистической регрессии иногда не сходится, и генетический алгоритм приходится запускать повторно. Поэтому можно сказать, что применение генетического алгоритма оправдано в задачах с пространством поиска, не превышающего 100 переменных. Кроме того, перспективным представляется сравнение подхода с другими эволюционными стратегиями, в частности, муравьиными алгоритмами. Литература 1. Larose, Daniel T. Data Mining methods and models. – John Wiley & Sons, Inc., Hoboken, New Jersey, 2006. – 322 P. 2. Черкашенко Н.Ч. Этот загадочный скоринг // Банковские дело. – 2006. –№ 3. – С. 42-28. 3. Vinterbo S., Ohno-Machado L. A genetic algorithm to select variables in logistic regression: example in the domain of myocardial infarction // Journal of the American Medical Informatics Association. – 1999. – №6. – P. 984-988, 4. Zweig M.H., Campbell G. ROC Plots: A Fundamental Evaluation Tool in Clinical Medicine // Clinical Chemistry. – 1993 – Vol. 39, №. 4. 5. Madelon Data Set. – Режим доступа: http://archive.ics.uci.edu/ml/datasets/Madelon. М.Б. Паклін Відбір змінних в логістичну регресію генетичним алгоритмом У статті досліджуються ефективні процедури відбору змінних в бінарні класифікуючі моделі на основі логістичної регресії. Для цього використовується генетичний алгоритм, причому у функцію фітнеса особини параметр штрафу за включення в модель нових змінних змінюється залежно від розрахованого значення площі під ROC-кривою. Проведені експерименти на модельних наборах даних і в задачі кредитного скорингу. N.B. Paklin Feature Selection in a Logistic Regression by Genetic Algorithm In the paper we discuss effective procedures for а feature selection problem in a binary logistic regression model. A genetic algorithm was used to find best feature combinations, with the special fitness function based on a penalty parameter for including new variables. This parameter depends on ROC-curve index on current epoch. Experiments on Madelon data set and credit scoring classification problem were made. Статья поступила в редакцию 21.07.2008.
id nasplib_isofts_kiev_ua-123456789-7157
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Russian
last_indexed 2025-11-30T14:00:16Z
publishDate 2008
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Паклин, Н.Б.
2010-03-25T11:58:50Z
2010-03-25T11:58:50Z
2008
Отбор переменных в логистическую регрессию генетическим алгоритмом / Н.Б. Паклин // Штучний інтелект. — 2008. — № 3. — С. 714-719. — Бібліогр.: 5 назв. — рос.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/7157
62-50:15
В статье исследуются эффективные процедуры отбора переменных в бинарные классифицирующие модели на основе логистической регрессии. Для этого используется генетический алгоритм, причем в функцию фитнеса особи параметр штрафа за включение в модель новых переменных изменяется в зависимости от рассчитанного значения площади под ROC-кривой. Проведены эксперименты на модельных наборах данных и в задаче кредитного скоринга.
У статті досліджуються ефективні процедури відбору змінних в бінарні класифікуючі моделі на основі логістичної регресії. Для цього використовується генетичний алгоритм, причому у функцію фітнеса особини параметр штрафу за включення в модель нових змінних змінюється залежно від розрахованого значення площі під ROC-кривою. Проведені експерименти на модельних наборах даних і в задачі кредитного скорингу.
In the paper we discuss effective procedures for а feature selection problem in a binary logistic regression model. A genetic algorithm was used to find best feature combinations, with the special fitness function based on a penalty parameter for including new variables. This parameter depends on ROC-curve index on current epoch. Experiments on Madelon data set and credit scoring classification problem were made.
ru
Інститут проблем штучного інтелекту МОН України та НАН України
Архитектура, алгоритмическое и программное обеспечение интеллектуальных многопроцессорных систем
Отбор переменных в логистическую регрессию генетическим алгоритмом
Відбір змінних в логістичну регресію генетичним алгоритмом
Feature Selection in a Logistic Regression by Genetic Algorithm
Article
published earlier
spellingShingle Отбор переменных в логистическую регрессию генетическим алгоритмом
Паклин, Н.Б.
Архитектура, алгоритмическое и программное обеспечение интеллектуальных многопроцессорных систем
title Отбор переменных в логистическую регрессию генетическим алгоритмом
title_alt Відбір змінних в логістичну регресію генетичним алгоритмом
Feature Selection in a Logistic Regression by Genetic Algorithm
title_full Отбор переменных в логистическую регрессию генетическим алгоритмом
title_fullStr Отбор переменных в логистическую регрессию генетическим алгоритмом
title_full_unstemmed Отбор переменных в логистическую регрессию генетическим алгоритмом
title_short Отбор переменных в логистическую регрессию генетическим алгоритмом
title_sort отбор переменных в логистическую регрессию генетическим алгоритмом
topic Архитектура, алгоритмическое и программное обеспечение интеллектуальных многопроцессорных систем
topic_facet Архитектура, алгоритмическое и программное обеспечение интеллектуальных многопроцессорных систем
url https://nasplib.isofts.kiev.ua/handle/123456789/7157
work_keys_str_mv AT paklinnb otborperemennyhvlogističeskuûregressiûgenetičeskimalgoritmom
AT paklinnb vídbírzmínnihvlogístičnuregresíûgenetičnimalgoritmom
AT paklinnb featureselectioninalogisticregressionbygeneticalgorithm