Основные концепции множественного регрессионного анализа

Приведены типичные условия получения статистических регрессионных моделей. Разработаны методы получения моделей с возможно наилучшими статистическими свойствами. Приведены конкретные системные решения основных задач регрессионного анализа и направления дальнейших исследований. Наведено типові умови...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Математичні машини і системи
Дата:2013
Автори: Радченко, С.Г., Лапач, С.Н.
Формат: Стаття
Мова:Російська
Опубліковано: Інститут проблем математичних машин і систем НАН України 2013
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/83808
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Основные концепции множественного регрессионного анализа / С.Г. Радченко, С.Н. Лапач // Мат. машини і системи. — 2013. — № 1. — С. 150-156. — Бібліогр.: 11 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860006781515726848
author Радченко, С.Г.
Лапач, С.Н.
author_facet Радченко, С.Г.
Лапач, С.Н.
citation_txt Основные концепции множественного регрессионного анализа / С.Г. Радченко, С.Н. Лапач // Мат. машини і системи. — 2013. — № 1. — С. 150-156. — Бібліогр.: 11 назв. — рос.
collection DSpace DC
container_title Математичні машини і системи
description Приведены типичные условия получения статистических регрессионных моделей. Разработаны методы получения моделей с возможно наилучшими статистическими свойствами. Приведены конкретные системные решения основных задач регрессионного анализа и направления дальнейших исследований. Наведено типові умови отримання статистичних регресійних моделей. Розроблено методи отримання моделей з можливо найкращими статистичними властивостями. Приведено конкретні системні вирішення основних задач регресійного аналізу та напрями подальших досліджень. The typical conditions for statistic regressive models formation were described. The methods for models with the possibly optimal statistical properties were developed. The specific system solutions for the key problems of regression analysis and directions for future research were described.
first_indexed 2025-12-07T16:39:30Z
format Article
fulltext 150 © Радченко С.Г., Лапач С.Н., 2013 ISSN 1028-9763. Математичні машини і системи, 2013, № 1 УДК 519.246.8 С.Г. РАДЧЕНКО, С.Н. ЛАПАЧ ОСНОВНЫЕ КОНЦЕПЦИИ МНОЖЕСТВЕННОГО РЕГРЕССИОННОГО АНАЛИЗА Анотація. Наведено типові умови отримання статистичних регресійних моделей. Розроблено методи отримання моделей з можливо найкращими статистичними властивостями. Приведено конкретні системні вирішення основних задач регресійного аналізу та напрями подальших дослі- джень. Ключові слова: регресійний аналіз, планування експерименту, стійке оцінювання моде- лей,отримання квазіоптимальних планів експериментів. Аннотация. Приведены типичные условия получения статистических регрессионных моделей. Разработаны методы получения моделей с возможно наилучшими статистическими свойствами. Приведены конкретные системные решения основных задач регрессионного анализа и направления дальнейших исследований. Ключевые слова: регрессионный анализ, планирование эксперимента, устойчивое оценивание мо- делей, получение квазиоптимальных планов экспериментов. Abstract. The typical conditions for statistic regressive models formation were described. The methods for models with the possibly optimal statistical properties were developed. The specific system solutions for the key problems of regression analysis and directions for future research were described. Keywords: regression analysis, design of experiment, stable estimation of models, quasioptimal experi- mental designs generation. 1. Вступление. Постановка проблемы Многофакторные статистические регрессионные модели полиномиального вида, линейные по параметрам и, в общем случае, не линейные по факторам, широко используются в тех- нических, технологических, агробиологических и других исследованиях систем. При по- строении моделей необходимо восстановить в виде формализованного выражения влияние управляемых факторов и оценить случайную составляющую, которая не несет полезной информации. Источником ее являются неуправляемые и неконтролируемые факторы. Та- кие задачи получили название обратных. Обратная задача – определение коэффициентов B в уравнении Y=XB+E по измеренному выходному результату Y и условиям наблюдения X; E – значение случайной ошибки ε . Многие обратные задачи являются некорректно по- ставленными задачами. 2. Анализ условий получения регрессионных моделей Статистические модели получают в следующих типичных условиях. 1. Число возможных опытов ограничено и практически не превышает 32…50(64), что приводит к использованию дробного факторного эксперимента. Полный факторный эксперимент обычно возможен только для 3…4 факторов, если число уровней не превы- шает трех. 2. Число факторов и число их уровней могут быть такими, что практически трудно найти экономный (по числу опытов) план эксперимента. 3. Для многофакторных регулярных планов экспериментов не известны последова- тельные планы. 4. Структуры определяемых статистических моделей почти всегда исследователю не известны. ISSN 1028-9763. Математичні машини і системи, 2013, № 1 151 5. Форма факторного пространства при решении реальных прикладных задач может быть произвольной, т.е. не соответствовать многомерному прямоугольному параллелепи- педу, сфере, симплексу. В этом случае факторы будут коррелированы друг с другом и не- обходимо решать некорректно поставленную задачу. 6. Степень влияния неуправляемых и неконтролируемых факторов может весьма изменяться в повторных сериях опытов, и тогда влияние управляемых факторов становит- ся статистически незначимым. 3. Цель публикации Разработать методы получения регрессионных моделей, которые в вышеприведенных ус- ловиях обеспечивают наилучшие возможные их критерии качества. 4. Изложение разработанных методов Получение многофакторных статистических моделей с наилучшими свойствами возможно только при планировании эксперимента, т.е. в том случае, когда матрица, которая исполь- зуется для построения модели, конструируется таким образом, чтобы обеспечить требуе- мые свойства всего процесса моделирования. То есть оптимальность плана должна опре- деляться как ошибкой модели, так и ошибкой определения коэффициентов модели [1]. Это означает, что к построению регрессионных моделей необходимо подходить системно: процесс должен включать построение плана эксперимента, формализованный выбор структуры модели, устойчивое оценивание коэффициентов модели. Под устойчивым (робастным) планом эксперимента понимается план полного или дробного факторного эксперимента, позволяющий выбрать неизвестные исследователю структуры «истинных» статистических моделей wŷ полиномиального вида, линейных по параметрам, и получить адекватные модели ( w – текущий номер определяемой модели, 1 w m≤ ≤ , m – общее число определяемых моделей по устойчивому плану эксперимента). План эксперимента не изменяется для получаемых различных структур моделей [2]. Устойчивым робастным планам экспериментов соответствуют полные факторные эксперименты, многофакторные регулярные, не близкие к насыщенным, планы экспери- ментов, планы на основе ЛПτ равномерно распределенных последовательностей [2]. Устойчивая структура многофакторной статистической модели – структура, кото- рая характеризуется неизменностью множества главных эффектов и взаимодействий мно- гофакторной статистической модели полиномиального вида при изменении значений ре- зультатов экспериментов (откликов), порождаемых случайными ошибками (погрешностя- ми) результатов наблюдений, измерений, вычислений и неопределенностью искомой структуры модели. Структурные элементы моделей выбираются из множества структур- ных элементов модели полного факторного эксперимента с ортогональными или слабо коррелированными (коэффициент парной корреляции 0,3ijr < ) эффектами с использова- нием устойчивого (робастного) плана эксперимента [2]. Под устойчивостью коэффициентов статистической модели будем понимать мини- мально возможную изменчивость коэффициентов многофакторной статистической модели полиномиального вида к случайным ошибкам (погрешностям) результатов наблюдений, измерений и вычислений. Для оценки устойчивости коэффициентов используется число обусловленности cond (XTX). Устойчивость наилучшая, если cond (XTX) 1= , хорошая 1 cond< (XTX) 10≤ , удовлетворительная 10 cond< (XTX) 100≤ , неудовлетворительная cond (XTX) 100> [2]. 152 ISSN 1028-9763. Математичні машини і системи, 2013, № 1 Анализ условий решения прикладных реальных задач, свойств полного факторного эксперимента и многофакторных регулярных планов позволил сформулировать основные требования к структуре статистической модели. 1. Структурная группа коэффициентов многофакторного уравнения регрессии не известна исследователю. 2. Структуры моделей выбираются из структуры модели полного факторного экс- перимента с ортогональными или близкими к ортогональным структурными эффектами. 3. Выбор структуры модели должен быть формализованным. 4. Возможность формализованного отображения в математической модели произ- вольной (но конечной) по сложности реальной действительности при условии правильного выбора степени полинома по каждому фактору. 5. Доступность, простота и надежность фактического получения адекватной струк- туры при решении задач на потоке. При переходе от натуральных значений факторов 1,..., kX X к системе ортогональ- ных полиномов Чебышева (системе ортогональных контрастов) структура математической модели имеет вид 1( 1)(1) (2) 1 1 1(1 ... ) ...sx x x −+ + + + × × ...1( )2()1( +++ kk xx ( 1) )ks k Пx N−+ → , где 1 – значение фиктивного фактора 0 1x ≡ ; )1( 1x , …, )1( 1 1 −sx , …, )1( kx , …, )1( −ks kx – ортогональные контрасты факторов 1,..., kX X ; 1,..., ks s – число различных уровней факторов 1,..., kX X ; k – общее число факторов; (1), (2), …, ( ) ( )1 1 ,..., 1ks s− − – порядок контрастов факторов 1,..., kX X ; ПN – число структурных элементов полного факторного эксперимента, равное числу опытов эксперимента. Предполагается, что максимальное значение порядка ортогонального контраста ( )1 1is i k− ≤ ≤ достаточно для адекватного описания влияния фактора iX по всей области факторного пространства. Значение is назначается исследователем, исходя из логически профессионального анализа предметной области. Для полного факторного эксперимента число структурных эффектов (элементов) модели равно числу опытов плана эксперимента ПN , и все эффекты ортогональны друг к другу. Получаемая статистическая модель будет адекватна результатам эксперимента, так как множество структурных элементов необходимо и достаточно для описания результа- тов опытов. В случае выбора дробного факторного регулярного плана эксперимента все главные эффекты будут ортогональны друг к другу. Из структуры модели полного факторного экс- перимента возможно выделение различных структур статистических моделей wŷ для дробного факторного эксперимента. Если план эксперимента не выбирать близким к на- сыщенному, то некоторые взаимодействия будут ортогональны к главным эффектам, вве- денным в модель, и модель будет адекватна либо близка к адекватной. Рассмотрим построение структуры модели для полного факторного эксперимента 21×31×41//24: первый фактор 1X на двух, второй 2X на трех, третий 3X на четырех уров- нях. Формализованная структура статистической модели будет следующей: ) 1)( )(1 +(1 )3( 3 )2( 3 )1( 3 )2( 2 )1( 2 )1( 1 xxxxxx +++++ 24ПN→ = , ISSN 1028-9763. Математичні машини і системи, 2013, № 1 153 где )1( 1x , )1( 2x , )1( 3x – линейные контрасты факторов 1 2 3, ,X X X ; )2( 2x , )2( 3x – квадратичные контрасты факторов 2X , 3X ; )3( 3x – кубический контраст фактора 3X ; 24ПN = – число структурных элементов статистической модели, равное числу опытов плана экспериментов. Общий вид статистической модели будет следующий: ŷ = 00xb + )1( 11xb + )1( 22xb + )2( 23xb + )1( 34xb + )2( 35xb + )3( 36xb + )1( 2 )1( 17 xxb + )2( 2 )1( 18 xxb + + )1( 3 )1( 19 xxb + )2( 3 )1( 110 xxb + )3( 3 )1( 111 xxb + )1( 3 )1( 212 xxb + )2( 3 )1( 213 xxb + )3( 3 )1( 214 xxb + + )1( 3 )2( 215 xxb + )2( 3 )2( 216 xxb + )3( 3 )2( 217 xxb + )1( 3 )1( 2 )1( 118 xxxb + )1( 3 )2( 2 )1( 119 xxxb + + )3( 3 )1( 2 )1( 120 xxxb + )1( 3 )2( 2 )1( 121 xxxb + )2( 3 )2( 2 )1( 122 xxxb + )3( 3 )2( 2 )1( 123 xxxb . Модель содержит семь главных эффектов, одиннадцать двойных взаимодействий и шесть тройных взаимодействий. Для обеспечения решения задач прикладного множественного регрессионного ана- лиза в рамках системного подхода разработаны следующие концепции. Как развитие теории многофакторных регулярных планов: 1) квазиортогональные, квази-D-оптимальные, квазирегулярные и квазиравномер- ные планы экспериментов, для получения которых разработаны алгоритмы RASTA1, RASTA2, RASTA8 [2]; 2) генерирование последовательных регулярных планов экспериментов [2]. 2. Область факторного пространства в технических и технологических системах часто не соответствует стандартной – многофакторному прямоугольному параллелепипе- ду. Для преобразования области факторного пространства к стандартной разработан топо- логический метод устойчивого оценивания регрессионных моделей. Он заключается в ус- тановлении взаимно однозначного и взаимно непрерывного соответствия между прообра- зом факторного пространства, в котором эффекты ортогональны друг к другу или близки к ортогональным и в котором можно оптимально планировать эксперимент и получать ста- тистические модели с наилучшими возможными свойствами, и образом факторного про- странства, который задается в предметной области и в котором планирование эксперимен- та традиционными методами невозможно из-за мультиколлинеарности факторов [3]. То- пологический метод устойчивого оценивания регрессионных моделей привел к созданию инвариантно-группового подхода в теории планирования эксперимента. Он имеет сле- дующие модификации метода: 1) Получение функций отображения прообраза факторного пространства в образ [3]. 2) Установление собственной кодированной системы координат в области прообра- за и области образа [3]. 3) Планирование эксперимента с использованием фиктивных факторов [3]. 3. Как развитие робастных планов эксперимента предложено использовать регуляр- ные планы и планы на основе ЛПτ равномерно распределенных последовательностей [2, 4, 5]. Эти планы наилучшим образом отвечают системным требованиям к процессу построе- ния регрессионной модели. Использование данных планов обеспечивает одновременно оп- тимальные условия для поиска неизвестной структуры уравнения регрессии и достаточно близкие к оптимальным условия получения устойчивых оценок коэффициентов регрессии. Кроме того, эти планы дополнительно устойчивы к отклонениям от самого плана: пропус- 154 ISSN 1028-9763. Математичні машини і системи, 2013, № 1 ки отдельных экспериментов и незначительные отклонения от значения уровней плана. Это свойство, а также возможность использовать планы как последовательные, представ- ляют значительные удобства (и экономический выигрыш) для экспериментатора. 4. Распространением теории эксперимента на ситуации, в которых экспериментатор не может проводить эксперимент по заранее построенному плану, является разработка ме- тодов построения из матрицы пассивного эксперимента матрицы, обладающей необходи- мыми свойствами для получения устойчивой и информативной регрессионной модели [6]. 5. Показано, что для обеспечения устойчивости процесса получения оценок коэф- фициентов регрессии необходимо ортогональное представление эффектов (главных и взаимодействий) в виде ортогональных нормированных контрастов [2, 4]. 6. Для формализованного получения устойчивых структур моделей, заранее не из- вестных исследователю, из структурного множества эффектов полного факторного экспе- римента разработаны соответствующие алгоритмы (RASTA3 [2]) и программное средство «Планирование, регрессия и анализ моделей» (ПС ПРИАМ) [7]. В алгоритме RASTA3 проводится последовательная проверка статистической зна- чимости главных эффектов и взаимодействий для введения их в получаемую модель. Предполагается использование устойчивого (робастного) плана эксперимента. Условия ввода эффектов: ортогональность или малая коррелированность (коэффициент парной корреляции 0,3...0,4ijr ≤ с выбранными для введения в модель эффектами); выбор вводи- мых эффектов проводится из числа эффектов структуры модели полного факторного экс- перимента. ПС ПРИАМ характеризуется следующими возможностями: 1) Реализация специально разработанной технологии решения научных и приклад- ных задач по построению математических моделей и многокритериальной оптимизации, а не набор стандартных методов и средств прикладной статистики. 2) Ориентация на массового пользователя: ПС содержит все необходимые средства для решения задач от ее постановки до подготовки отчета, обеспечивается получение ре- зультатов высокого качества за счет самоадаптирующихся вычислительных схем, настраи- вающихся на исходные данные и промежуточные результаты. Имеется возможность изме- нять параметры вычислительных схем и активно вмешиваться в процесс решения задачи на любом этапе: • достигается высокая надежность и достоверность конечного результата; • контекстная помощь позволяет в любом месте получить необходимую информа- цию. 3) Робастное (устойчивое) конструирование эксперимента. 4) Эффективные алгоритмы определения структуры уравнения регрессии. 5) Устойчивое оценивание сильно коррелированных факторов в многофакторном уравнении регрессии. 7. Поправка RASTA для оценивания и исключения в информационном смысле сис- тематических погрешностей от влияния неуправляемых и неконтролируемых факторов в различных сериях повторных опытов. Это позволяет обоснованно определить значимость влияния управляемых факторов и повысить точность получаемых результатов [2]. В исследовании урожайности кормовых бобов среднеквадратическая ошибка ре- зультатов экспериментов была уменьшена в 6,8 раза, что позволило обоснованно устано- вить статистическую значимость влияния эффектов всех управляемых факторов на уро- жайность бобов [8]. Повышение воспроизводимости результатов экспериментальных исследований бы- ло использовано также в исследованиях технологического процесса нарезания наружной резьбы винторезными самооткрывающимися головками 3КА по критерию точности [9]. Дисперсия воспроизводимости критерия качества была уменьшена в 2,6 раза. ISSN 1028-9763. Математичні машини і системи, 2013, № 1 155 5. Выводы и перспективы дальнейших исследований Практика использования разработанных концепций для решения более ста прикладных задач показала их эффективность и соответствие реальности условий. Отметим, что необ- ходимо использовать системный подход, включающий все приведенные разработки. Это позволяет рассматривать весь процесс построения регрессионных моделей как единую технологию и принимать решения на каждом этапе, исходя из требований получения мо- дели необходимого качества, а не из возможностей применения каких-либо методов. С разработанными методами решения регрессионных задач и полученными резуль- татами можно ознакомиться в [10, 11]. Дальнейшее возможное развитие методологии регрессионного анализа целесооб- разно проводить в следующих направлениях: 1. Системный подход в получении многофакторных статистических моделей, вклю- чающий 1) устойчивый (робастный) план эксперимента, 2) устойчивую структуру модели, априори не известную исследователю, 3) устойчивое оценивание коэффициентов модели. 2. Распространение концепции ортогональности во множественном регрессионном анализе на нестандартные области факторного пространства. 3. Дальнейшее развитие инвариантно-группового подхода в теории планирования эксперимента. 4. Исследование статистических свойств планов экспериментов на основе использо- вания ЛПτ равномерно распределенных последовательностей. 5. Дальнейшее развитие генерирования квазиортогональных квазирегулярных пла- нов экспериментов. 6. Разработка методов выделения из массивов исходных непланированных данных информативного подмножества с наилучшими возможными статистическими свойствами. СПИСОК ЛИТЕРАТУРЫ 1. Математическая теория планирования эксперимента / Под ред. С.М. Ермакова. – М.: Наука, ГРФМЛ, 1983. – 392 с. 2. Радченко С.Г. Методология регрессионного анализа / Радченко С.Г. – К.: Корнійчук, 2011. – 376 с. 3. Радченко С.Г. Устойчивые методы оценивания статистических моделей / Радченко С.Г. – К.: ПП «Санспарель», 2005. – 504 с. 4. Лапач С.Н. Статистические методы в фармакологии и маркетинге фармацевтического рынка / Лапач С.Н., Пасечник М.Ф., Чубенко А.В. – К.: ЗАТ «Укрспецмонтажпроект», 1999. – 312 с. 5. Лапач С.Н.Статистические методы в медико-биологических исследованиях с использованием Excel / Лапач С.Н., Чубенко А.В., Бабич П.Н. – [2-е изд. перераб. и доп.]. – К.: Морион, 2001. – 408 с. 6. Лапач С.М. Забезпечення необхідних властивостей вибірки для побудови регресійної моделі / С.М. Лапач // Физические и компьютерные технологии. Труды 15-й Междунар. научно-техн. конф., (Харьков, 2–3 декабря 2009 г.). – Харьков: ХНПК «ФЭД», 2009. – С. 179 – 182. 7. Лапач С.Н. Планирование, регрессия и анализ моделей PRIAM (ПРИАМ) / С.Н. Лапач, С.Г. Рад- ченко, П.Н. Бабич // Программные продукты Украины: каталог. – К., 1993. – С. 24 – 27. 8. Статистичні методи планування експериментів та обробки їхніх результатів у рослинництві / В.Ф. Петриченко, С.Г. Радченко, П.М. Бабіч [та ін.] // Вісник аграрної науки. – 2006. – № 11. – С. 25 – 29. 9. Радченко С.Г. Оптимизация технологических условий нарезания наружных резьб винторезными самооткрывающимися головками по критерию точности / С.Г. Радченко, С.С. Добрянский // Вест- ник машиностроения. – 1986. – № 1. – С. 56 – 59. 10. Лаборатория экспериментально-статистических методов исследований (ЛЭСМИ) [Электрон- ный ресурс]. – Режим доступа: http://www.n-t.org/sp/lesmi. 156 ISSN 1028-9763. Математичні машини і системи, 2013, № 1 11. Сайт кафедры «Технология машиностроения» Механико-машиностроительного института На- ционального технического университета Украины «Киевский политехнический институт» [Элек- тронный ресурс]. – Режим доступа: http://tm-mmi.kpi.ua/index.php/ru/1/ publications/352?task=view. Стаття надійшла до редакції 14.09.2012
id nasplib_isofts_kiev_ua-123456789-83808
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1028-9763
language Russian
last_indexed 2025-12-07T16:39:30Z
publishDate 2013
publisher Інститут проблем математичних машин і систем НАН України
record_format dspace
spelling Радченко, С.Г.
Лапач, С.Н.
2015-06-24T06:51:19Z
2015-06-24T06:51:19Z
2013
Основные концепции множественного регрессионного анализа / С.Г. Радченко, С.Н. Лапач // Мат. машини і системи. — 2013. — № 1. — С. 150-156. — Бібліогр.: 11 назв. — рос.
1028-9763
https://nasplib.isofts.kiev.ua/handle/123456789/83808
519.246.8
Приведены типичные условия получения статистических регрессионных моделей. Разработаны методы получения моделей с возможно наилучшими статистическими свойствами. Приведены конкретные системные решения основных задач регрессионного анализа и направления дальнейших исследований.
Наведено типові умови отримання статистичних регресійних моделей. Розроблено методи отримання моделей з можливо найкращими статистичними властивостями. Приведено конкретні системні вирішення основних задач регресійного аналізу та напрями подальших досліджень.
The typical conditions for statistic regressive models formation were described. The methods for models with the possibly optimal statistical properties were developed. The specific system solutions for the key problems of regression analysis and directions for future research were described.
ru
Інститут проблем математичних машин і систем НАН України
Математичні машини і системи
Моделювання і управління
Основные концепции множественного регрессионного анализа
Основні концепції множинного регресійного аналізу
The basic concepts of multiple regression analysis
Article
published earlier
spellingShingle Основные концепции множественного регрессионного анализа
Радченко, С.Г.
Лапач, С.Н.
Моделювання і управління
title Основные концепции множественного регрессионного анализа
title_alt Основні концепції множинного регресійного аналізу
The basic concepts of multiple regression analysis
title_full Основные концепции множественного регрессионного анализа
title_fullStr Основные концепции множественного регрессионного анализа
title_full_unstemmed Основные концепции множественного регрессионного анализа
title_short Основные концепции множественного регрессионного анализа
title_sort основные концепции множественного регрессионного анализа
topic Моделювання і управління
topic_facet Моделювання і управління
url https://nasplib.isofts.kiev.ua/handle/123456789/83808
work_keys_str_mv AT radčenkosg osnovnyekoncepciimnožestvennogoregressionnogoanaliza
AT lapačsn osnovnyekoncepciimnožestvennogoregressionnogoanaliza
AT radčenkosg osnovníkoncepcíímnožinnogoregresíinogoanalízu
AT lapačsn osnovníkoncepcíímnožinnogoregresíinogoanalízu
AT radčenkosg thebasicconceptsofmultipleregressionanalysis
AT lapačsn thebasicconceptsofmultipleregressionanalysis