Линейный регрессионный анализ малой выборки нечетких исходных данных

Розглянуто задачу оцінювання параметрів рівняння регресії для малої вибірки вихідних даних, коли умови проведення спостережень задані нечітко. Запропоновано технологію штучної ортогоналізації результатів пасивного експерименту, основану на комплексному застосуванні нечіткої кластеризації та розробле...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2012
Hauptverfasser: Серая, О.В., Демин, Д.А.
Format: Artikel
Sprache:Russian
Veröffentlicht: Інститут кібернетики ім. В.М. Глушкова НАН України 2012
Schriftenreihe:Проблемы управления и информатики
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/207522
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Линейный регрессионный анализ малой выборки нечетких исходных данных / О.В. Серая, Д.А. Демин // Проблемы управления и информатики. — 2012. — № 4. — С. 129–142. — Бібліогр.: 34 назви. - рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-207522
record_format dspace
spelling irk-123456789-2075222025-10-09T00:18:08Z Линейный регрессионный анализ малой выборки нечетких исходных данных Лінійний регресійний аналіз малої вибірки нечітких вихідних даних Linear Regression Analysis of a Small Sample of Fuzzy Initial Data Серая, О.В. Демин, Д.А. Методы обработки информации Розглянуто задачу оцінювання параметрів рівняння регресії для малої вибірки вихідних даних, коли умови проведення спостережень задані нечітко. Запропоновано технологію штучної ортогоналізації результатів пасивного експерименту, основану на комплексному застосуванні нечіткої кластеризації та розробленого методу розв’язання нечітких систем лінійних алгебраїчних рівнянь. The problem of estimating the parameters of the regression equation for a small sample of initial data, when the conditions of observation are given fuzzy. The technology of artificial orthogonalization of results of a passive experiment is based on the integrated application of fuzzy clustering and the developed method for solving fuzzy systems of linear algebraic equations. 2012 Article Линейный регрессионный анализ малой выборки нечетких исходных данных / О.В. Серая, Д.А. Демин // Проблемы управления и информатики. — 2012. — № 4. — С. 129–142. — Бібліогр.: 34 назви. - рос. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/207522 519.681 10.1615/JAutomatInfScien.v44.i7.40 ru Проблемы управления и информатики application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Методы обработки информации
Методы обработки информации
spellingShingle Методы обработки информации
Методы обработки информации
Серая, О.В.
Демин, Д.А.
Линейный регрессионный анализ малой выборки нечетких исходных данных
Проблемы управления и информатики
description Розглянуто задачу оцінювання параметрів рівняння регресії для малої вибірки вихідних даних, коли умови проведення спостережень задані нечітко. Запропоновано технологію штучної ортогоналізації результатів пасивного експерименту, основану на комплексному застосуванні нечіткої кластеризації та розробленого методу розв’язання нечітких систем лінійних алгебраїчних рівнянь.
format Article
author Серая, О.В.
Демин, Д.А.
author_facet Серая, О.В.
Демин, Д.А.
author_sort Серая, О.В.
title Линейный регрессионный анализ малой выборки нечетких исходных данных
title_short Линейный регрессионный анализ малой выборки нечетких исходных данных
title_full Линейный регрессионный анализ малой выборки нечетких исходных данных
title_fullStr Линейный регрессионный анализ малой выборки нечетких исходных данных
title_full_unstemmed Линейный регрессионный анализ малой выборки нечетких исходных данных
title_sort линейный регрессионный анализ малой выборки нечетких исходных данных
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2012
topic_facet Методы обработки информации
url https://nasplib.isofts.kiev.ua/handle/123456789/207522
citation_txt Линейный регрессионный анализ малой выборки нечетких исходных данных / О.В. Серая, Д.А. Демин // Проблемы управления и информатики. — 2012. — № 4. — С. 129–142. — Бібліогр.: 34 назви. - рос.
series Проблемы управления и информатики
work_keys_str_mv AT seraâov linejnyjregressionnyjanalizmalojvyborkinečetkihishodnyhdannyh
AT deminda linejnyjregressionnyjanalizmalojvyborkinečetkihishodnyhdannyh
AT seraâov líníjnijregresíjnijanalízmaloívibírkinečítkihvihídnihdanih
AT deminda líníjnijregresíjnijanalízmaloívibírkinečítkihvihídnihdanih
AT seraâov linearregressionanalysisofasmallsampleoffuzzyinitialdata
AT deminda linearregressionanalysisofasmallsampleoffuzzyinitialdata
first_indexed 2025-10-09T01:10:05Z
last_indexed 2025-10-12T01:07:58Z
_version_ 1845736273333977088
fulltext © О.В. СЕРАЯ, Д.А. ДЕМИН, 2012 Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 4 129 УДК 519.681 О.В. Серая, Д.А. Демин ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ МАЛОЙ ВЫБОРКИ НЕЧЕТКИХ ИСХОДНЫХ ДАННЫХ Введение Возрастающий интерес исследователей к регрессионному анализу систем связан с пониманием серьезности проблем построения адекватных моделей связи между параметрами системы и факторами внешней среды, действующими в усло- виях неопределенности. Задача оценивания параметров уравнений регрессии в ситуациях, когда результаты опытов и значения влияющих факторов измеряются с ошибками, многократно рассматривалась, например, в [1–5]. В этих работах оцениваются параметры модели связи с использованием метода наименьших квадратов и основное внимание уделяется исследованию качества оценок. В част- ности, в [5] показано, что эти оценки смещены. В работах [2, 5–7] описаны выраже- ния для ковариационных матриц ошибок оценивания и исследованы распределения их элементов. Следует отметить, что эти результаты получены при использовании некоторых достаточно жестких предположений: ошибки измерений распределены нормально с нулевым математическим ожиданием и известной дисперсией, и, кро- ме того, задача не осложнена малостью выборки наблюдений. В противном случае в задаче оценивания возникают серьезные проблемы. Преодолеть их можно с по- мощью искусственной ортогонализации пассивного эксперимента [8]. Получае- мый при этом план полного факторного эксперимента обеспечивает возможность обоснованного отсеивания малозначимых факторов и их взаимодействий, улуч- шая соотношение между числом оцениваемых параметров искомого уравнения регрессии и числом опытов. Однако при этом может возникнуть ситуация, когда реализация структурирующего этапа искусственной ортогонализации — построе- ние локальных уравнений регрессии — невозможна из-за недостаточности изме- рений в соответствующих областях факторного пространства наблюдений. Про- блема преодолевается с помощью предложенной в [9] процедуры отыскания усе- ченного ортогонального плана, которая позволяет рассчитать репликоподобный план, решающий задачу отсева малозначимых компонентов уравнения регрессии. Определенный недостаток этой методики — использование предположения о том, что оцениваемые в ходе эксперимента значения функции отклика — случайные величины с известной дисперсией. Ослабление этой гипотезы достигается, если принять менее обязывающую модель и считать, что измеренные значения функ- ции отклика — нечеткие числа с известными функциями принадлежности. Реали- зация процедуры искусственной ортогонализации и построения усеченного ре- пликоподобного плана в этих условиях описана в [10]. Задача принципиально усложняется, если неопределенность, возникающая при измерении значений функции отклика и при мониторинге условий проведе- ния опытов, описана нечетко. Подобная ситуация весьма типична и является следствием множества естественных причин: невозможность точного контроля параметров технологических процессов (например, при управлении плавкой в ме- таллургии) или значений факторов, влияющих на спрос продаваемого товара, или количественных характеристик показателей внешней среды, задающих условия и режим эксплуатации техники и определяющих ее надежность и т.п. По-видимому, впервые задача регрессионного анализа в условиях нечетких исходных данных была поставлена и решена в [11]. Предложенный метод основан на отыскании параметров функций принадлежности регрессионных коэффициен- 130 ISSN 0572-2691 тов, обеспечивающих минимизацию суммарной нечеткости значений функции отклика. Задача решается методом линейного программирования, он фактически повторен в [12]. Очевидны его недостатки. Во-первых, задача решена в предпо- ложении, что нечеткие исходные данные имеют треугольную функцию принад- лежности. При этом считается, что результатом суммирования треугольных чисел является вновь треугольное число, что не согласуется с принципом обобщения Заде. Во-вторых, в методику конструктивно заложена высокая чувствительность результатов решения задачи от выбросов исходных данных. Наконец, предложен- ный метод не совсем соответствует традиционной идеологии регрессионного ана- лиза, ориентированной на поиск адекватных моделей зависимости функции от- клика от влияющих факторов. Основная идея Танаки многократно репродуциро- валась при более общих предположениях относительно функций принадлежности нечетких исходных данных [13–17]. В качестве меры нечеткости при этом ис- пользовались длины интервалов α-сечений этих функций или сами функции при- надлежности были заданы интервально [18]. Практически параллельно развивается другой, более близкий к традицион- ному, метод нечеткого регрессионного анализа, в котором коэффициенты регрес- сии отыскиваются в соответствии с естественным критерием — среднее квадра- тическое отклонение значений функции отклика, предсказываемых моделью, от данных реального эксперимента [19]. При этом, как правило, рассматривается за- дача, когда нечеткими являются только результаты измерений значений функции отклика [20–24]. В дальнейшем этот подход комбинируется с подходом, миними- зирующим нечеткость [25, 26]. Для измерения «расстояния» между выходом мо- дели и реальными данными используются различные метрики [27], а для решения возникающей при этом оптимизационной задачи применяется не только традици- онная технология нелинейного программирования, но и генетические алгорит- мы [28]. Совершенно оригинальная идея построения регрессионных моделей реализо- вана в [29], согласно которой каждой точке факторного пространства соответ- ствует нечеткое число с параметрически заданной функцией принадлежности. За- висимости каждого из параметров этой функции принадлежности от координат (значений факторов) отыскиваются с помощью обычного регрессионного анализа по четким результатам измерения факторов в реальном эксперименте. Очевидный недостаток: чувствительность результата к характеру рассеяния точек обучающей выборки в факторном пространстве. Краткий анализ описанных известных методов нечеткого регрессионного анализа позволяет выделить их общий недостаток: по умолчанию предполагается, что объем выборки исходных данных, которым мы располагаем, достаточен для статистически обоснованного оценивания параметров уравнения регрессии. Это предположение вполне корректно для многих прикладных задач, в которых при- емлемой моделью связи между многомерным входом и выходом является линей- ная не только по параметрам, но и по факторам аналитическая зависимость. Од- нако если в каких-то конкретных задачах пренебрежение возможным влиянием факторных взаимодействий не имеет достаточных оснований, то возникающее при этом неудовлетворительное соотношение между количеством опытов и оце- ниваемых параметров может привести к невозможности реализации описанных процедур регрессионного анализа. Общая задача регрессионного анализа в усло- виях малой выборки нечетких исходных данных ранее не рассматривалась. 1. Постановка задачи Единственная реальная возможность улучшения соотношения между числом параметров уравнения регрессии и количеством экспериментов в условиях, когда количество опытов увеличить невозможно, состоит в упрощении структуры урав- Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 4 131 нения регрессии путем отсеивания малозначимых факторов и взаимодействий, которое обеспечивается искусственной ортогонализацией реального пассивного эксперимента. При этом реальный пассивный эксперимент преобразуется в экви- валентный активный, отображаемый планом полного факторного эксперимента. Ортогональность этого плана обеспечивает возможность независимого оценива- ния каждого коэффициента уравнения регрессии. Действительно, примем, что ре- зультирующий параметр y (функция отклика) зависит от m влияющих факторов mXXX ...,,, 21 следующим образом: ...... 2112110  XXaXaXaay mm .......... 21...121,1 mmmmmm XXXaXXa   (1) Пусть проделано n опытов и результат j-го из них )( jy описывается сово- купностью значений влияющих факторов ,jpX ,...,,2,1 nj  ....,,2,1 mp  Вве- дем матрицу H и векторы Y и A следующим образом: , ............1 .............................. ............1 ............1 211,2121 2222121,2222122221 1121111,1121111211                       nmnnnmmnnnnmnn mmmm mmmm XXXXXXXXXX XXXXXXXXXX XXXXXXXXXX H ),...( 21 T nyyyY  )..........( ...12,112210 T mmmm aaaaaaaA  При этом выражение (1) в матричной форме примет вид .HAY  Тради- ционная технология оценивания компонентов вектора A с использованием метода наименьших квадратов приводит, как известно, к соотношению .)(ˆ T1T YHHHA  Если теперь условия экспериментов образуют ортонормиро- ванный план, то, как легко показать, , 1 1 1 1 )(ˆ 1 21 1 1 1 1 1 1T 12 2 1 0                                                            n j jjmjj n j jj n j jj n j j m yXXX n yX n yX n y n HH a a a a A     т.е. коэффициенты уравнения регрессии (1) оцениваются независимо один от дру- гого. При этом стандартная процедура статистического оценивания значимости каждого из них способствует элиминированию малозначимых факторов и взаи- модействий. Непосредственная реализация этого метода в условиях нечетких исходных дан- ных невозможна, что приводит к необходимости решения следующих частных задач:  кластеризация точек, соответствующих результатам опытов, координаты которых заданы нечетко;  использование искусственной ортогонализации оценивания параметров ло- кальных уравнений регрессии, описывающих поведение функции отклика в каж- 132 ISSN 0572-2691 дой из подобластей факторного пространства экспериментов по нечетким исход- ным данным, и расчет нечетких оценок значений функции отклика в ортогональ- ных вершинах полного факторного эксперимента;  решение нечеткой многоиндексной задачи назначения для формирования усеченного ортогонального плана;  оценивание параметров полного уравнения регрессии, описывающего экс- перимент в целом, по нечетким данным и отсев малозначимых факторов и взаи- модействий. Рассмотрим последовательно методы решения перечисленных задач. 2. Решение задачи нечеткой кластеризации Будем считать, что истинное значение jpx -фактора pX в j-м эксперименте — нечеткое число с соответствующей функцией принадлежности, например )( RL  -ти- па [30, 31]:                               ,, ,, )( jpjp jp jpjp jpjp jp jpjp jp xx xx R xx xx L x (2) где jpx — измеренное значение p-й координаты в j-м эксперименте, являющееся модальным для нечеткого числа ,jpx ,...,,2,1 nj  ,...,,2,1 mp  ,jp jp — левые и правые коэффициенты нечеткости в описании (2). Теперь, используя совокупность модальных значений ,jpx ,...,,2,1 nj  ,...,,2,1 mp  рассчитаем набор },{minmin, jp j p xX  },{maxmax, jp j p xX  ,...,,2,1 mp  задающий m-мерный гиперпараллелепипед; вершины кторого ис- пользуем как центры притяжения m2 кластеров. Процедура кластеризации состоит в следующем. Для каждой точки рассчи- тывается нечеткое расстояние до каждого из центров притяжения кластеров и со- ответствующая функция принадлежности. Затем полученные функции принад- лежности используются для отыскания кластера, наиболее приемлемого относи- тельно рассматриваемой точки. Выполним формальное описание процедуры. Для пары (k-й кластер–j-я точка) введем нечеткое значение квадрата расстоя- ния от центра притяжения кластера до точки ,)( 2 1 2 jpkp m p kj xa    .2...,,2,1 mk  В результате получим функцию принадлежности нечеткого числа .2 kj При расче- тах используем известные соотношения для результатов выполнения операций над нечеткими числами )( RL  -типа [30–32]. Пусть 111 ,,  aALR , 222 ,,  aBLR — нечеткие числа )( RL  -типа. Тогда параметры нечеткого числа  ,,aBAC LRLRLR вычисляются по фор- мулам ,21 aaa  ,21  ,21  параметры числа  LRLRLR BAC  ,,a — по формулам ,21 aaa  ,21  ,12  параметры числа  ,,aBAC LRLRLR — по формулам ,21aaa  ,1121  aa .1221  aa В соответствии с этим параметры нечетких чисел ,jpkpkjp xa  2 kjp ,)( 2 jpkp xa  2 1 2 kjp q p kj    определяются соотношениями: Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 4 133 ,jpkpkjp xa  , )()( x jp a kpkjp  ; )()( a kp x jpkjp  ,)( 22 kjpkjp  ),(2 )()( x jp a kpkjpkjp  );(2 )()( a kp x jpkjpkjp  ,)( 2 1 2 kjp q p kj    , 1 kjp q p kj    . 1 kjp q p kj    При этом функция принадлежности нечеткого значения квадрата расстояния от k-го центра до j-й точки имеет вид         . ),/)(( , ),/)(( )( 2222 2222 kjkjkjkjkj kjkjkjkjkj jp R L x (3) В рассматриваемой задаче приведенные общие соотношения упрощаются, так как координаты центров притяжения кластеров — четкие числа и поэтому ,jpkpkjp xa  ,jpkjp  .jpkjp  В результате реализации описанной процедуры для каждой из точек будут получены функции принадлежности нечетких чисел, отображающих «расстоя- ния» до центров соответствующих кластеров. Эти числа теперь необходимо срав- нить между собой, выбирая из них то, для которого степень предпочтения по от- ношению ко всем остальным наименьшая. Это число будет определять кластер, «ближайший» к рассматриваемой точке. Процедура сравнения нечетких чисел традиционна [31, 32]. Пусть заданы совокупность нечетких чисел qzzz ...,,, 21 и их функции принадлежности ).(...,),(),( 21 qzzz  Степень предпочтения не- четкого числа kz нечеткому числу lz оценивается по формуле )},(),({minsup))(),(( lk zz lk zzzz lk   }....,,2,1{, qlk  (4) С использованием (4) выбор нечеткого числа с наименьшей степенью пред- почтения по отношению к другим числам совокупности трудностей не вызывает. При этом номер кластера ,*k к которому будет присоединена очередная точка, определяется соотношением },))(),(({minminarg* lk lk zzk  }....,,2,1{, qlk  (5) Здесь kz и lz — нечеткие «расстояния» от очередной точки до центров соответ- ственно k- и l-го кластеров. Соотношения (3)–(5) обеспечивают решение задачи нечеткой кластеризации. 3. Построение частных уравнений регрессии для описания поведения функции отклика в каждой из подобластей m-мерного пространства факторов Эта задача для каждой из подобластей решается независимо. Пусть в какой-то конкретной подобласти по результатам решения задачи кластеризации число экспе- риментов оказалось равным N. Описание функции отклика в каждой подобласти обеспечивает выражение (1). Это соотношение нелинейно по факторам, но линейно по параметрам уравнения регрессии. Поэтому, не снижая общности, для конкретно- сти будем считать, что для адекватного описания поведения функции отклика до- статочно в соотношении (1) ограничиться двухфакторными взаимодействиями. То- гда результатам N проведенных экспериментов соответствуют соотношения . , ,1,,1211222110 1,11,1,112111211221110 NmNmNmmNNNmmNN mmmmmm yxxaxxaxaxaxaa yxxaxxaxaxaxaa        (6) 134 ISSN 0572-2691 Слева они содержат набор неизвестных параметров )...,,,...,,,( ,11210 mmm aaaaa  и нечеткие значения факторов mXXX ...,,, 21 в N опытах, а справа — четкие зна- чения результатов измерения функции отклика в этих опытах. Таким образом, за- дача оценивания параметров уравнения регрессии в случае, когда значения фак- торов определены нечетко, сведена к отысканию наилучшего в выбранном смыс- ле решения системы уравнений (6) с нечеткими параметрами. Понятно, что решение этой нечеткой системы уравнений будет нечетким. Найдем вначале мо- дальные значения искомых нечетких чисел. Рассмотрим возможный метод реше- ния этой задачи [32, 33]. Пусть для определенности нечеткие значения jpx системы (6) имеют )( RL  функции принадлежности гауссова вида , 2 )( exp)( 2 2            jp jpjp jpjp xx x ,...,,2,1 Nj  ....,,2,1 mp  Выбор гауссова представления функции принадлежности )( RL  -типа обу- словлен рядом обстоятельств. Во-первых, соответствующее соотношение одно- значно задается всего двумя параметрами и поэтому описать его проще, нежели задаваемые тремя или четырьмя параметрами треугольное или трапецеидальное. Во-вторых, экспоненциальный характер гауссова описания функции принадлеж- ности больше соответствует интуитивному представлению о поведении этой функции по сравнению с линейными описаниями, характерными для треугольной или трапецеидальной функций принадлежности. В-третьих, замечательным свой- ством гауссовых нечетких чисел является предельная простота выполнения ос- новных операций над ними [32]. И, наконец, в-четвертых, здесь имеет место ана- лог центральной предельной теоремы теории вероятностей: сумма нечетких чисел с произвольными функциями принадлежности в достаточно широком классе условий есть нечеткое число, функция принадлежности которого с увеличением числа слагаемых неограниченно приближается к гауссовой [32]. Введем нечеткие числа jmjmjmmjjjmmjjj yxxaxxaxaxaxaaz   ,1,,1211222110  (7) и запишем их функции принадлежности: , )(2 )( exp)( 21 11 0 1 12 2121                         j jj j m p pp jpjppp m p jppj zD zz yxxaxaaz (8) , 2121 121 1 11 0 jjpjppp pp m p jpp m p j yxxaxaaz      ,)( 222 1 1 22 1 2121 121 jpjppp pp m p jpp m p j aazD      ....,,2,1 Nj  Сформируем четкую систему линейных алгебраических уравнений, порождае- мую системой (6), если заменить нечеткие числа jpx их модальными значениями. Поскольку необходимое условие построения уравнения регрессии (число экспери- ментов превышает число оцениваемых параметров) должно быть выполнено, то по- лучаемая система переопределена. Решение системы найдем методом наименьших квадратов, и пусть вектор )......( )0( ,1 )0()0( 2 )0( 1 )0( 0 )0( mmm aaaaaA  — результат решения этой системы. Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 4 135 Вернемся к расчету модального решения исходной нечеткой задачи. Понят- но, что любому решению системы (6) соответствует набор значений невязок Nzzz ...,,, 21 (7), которые в совокупности определяют точку с нечеткими коорди- натами, задаваемыми функциями принадлежности ).( jj z К качеству искомого решения естественно предъявить следующие требования: оно не должно слишком отличаться от решения ,)0(A получаемого при замене нечетких параметров зада- чи jpx их модальными значениями; функции принадлежности нечетких чисел ,iz вычисляемые при подстановке искомого решения в (7), должны быть как можно менее размытыми. Рассмотрим возможные варианты скаляризации получаемого при этом век- торного критерия. Введем естественную меру неопределенности для нечеткого числа .jz Сначала осуществим нормировку функции принадлежности (8), опре- делив функцию                                 j j jj j j j jj jj j j dz zD zz zD zD zD zz dzz z z )(2 )( exp )(2 1 )(2 )(2 )( exp )( )( )( 2 2 . )(2 )( exp )(2 1 2             j jj j zD zz zD Полученное выражение можно трактовать как гауссову плотность распреде- ления случайного числа jz с математическим ожиданием jz и дисперси- ей ).( jzD Рассчитаем энтропию случайной величины jz как меру ее неопреде- ленности:                           j j jj jj jj j j dz zD zz zDzD zz zD zH )(2 )( exp )(2 1 log )(2 )( exp )(2 1 )( 22                 j j jj jj dz zD zz zDzD )(2 )( exp )(2 1 )(2 1 log 2                  j j jj j jj j dz zD zz zD zz zD e )(2 )( )(2 )( exp )(2 log 22                          j j jj j jj j dz zD zz d zD zze zD )(2 )( exp )(22 log )(2log 2                       )(2 )( exp )(22 log )(2log 2 j jj j jj j zD zz zD zze zD                     j j jj j dz zD zz zD )(2 )( exp )(2 1 2 2 .)(2loglog)(2log jj zeDezD  (9) 136 ISSN 0572-2691 Отметим, что близкие аналитические выражения для расчета меры неопреде- ленности нечеткого числа jz могут быть получены при использовании других показателей размытости соответствующей функции принадлежности, например площади под кривой ).( jz При этом .)(2 )(2 )( exp)())(( 2 jj j jj jjj zDdz zD zz dzzzS                 Тогда усредненная мера неопределенности нечеткого набора ),...,,,( 21 Nzzz определяемая конкретным решением A системы (6), задается соотношениями ,)(2log 1 )( 1 )( 11 1 j N j j N j zeD N zH N AF    .)(2 1 ))(( 1 )( 11 2 j N j j N j zD N zS N AF    Другие варианты расчета неопределенности нечеткого набора )...,,,( 21 Nzzz реализуют чебышевское приближение к искомому решению и связаны с отыска- нием наихудшей компоненты из набора мер, рассчитываемых для )...,,,( 21 Nzzz . Соответствующие выражения имеют вид ,)(2logmax)(max)(3 j j j j zeDzHAF  .)(2max))((max)(4 j j j j zDzSAF  Теперь соответствующие скалярные меры качества четкого решения системы (6) могут быть заданы как взвешенные линейные комбинации суммарной меры не- определенности для нечеткого набора ),...,,,( 21 Nzzz порождаемого для выбран- ного A системой соотношений (6), и меры отклонения этого решения от :)0(A ].1,0[,)]())[(1()(2max)( ,)]())[(1()(2logmax)( ,)]())[(1()(2)( ,)]()([)1()(2log)( 5,0)0(T)0( 4 5,0)0(T)0( 3 5,0)0(T)0( 1 2 5,0)0(T)0( 1 1         AAAAzDA AAAAzeDA AAAAzDA AAAAzeDA j j j j N j j j N j (10) Параметр  определяется в каждой конкретной задаче требуемым соотноше- нием относительных важностей скалярных компонентов обобщенного критерия. Смысл критериев (10) понятен. Первый скалярный компонент критерия харак- теризует уровень компактности тел неопределенности, соответствующих функци- ям принадлежности нечетких чисел ),...,,,( 21 Nzzz а второй компонент — сте- пень близости получаемого решения к .)0(A Теперь задача отыскания модального решения системы (6) сведена к задаче минимизации выбранного критерия (10). Следует отметить, что все введенные критерии имеют эвристический характер. Это прямое следствие отсутствия ясного и однозначно трактуемого определения того, что есть решения системы уравнений, содержащих нечеткие параметры. Поэтому ка- чество решения такой системы, получаемое для различных критериев из (10), может быть оценено по-разному в зависимости от того, какие требования предъявляются к набору A как к решению задачи. Предпочтение одного критерия по сравнению с дру- гим не может быть получено из каких-либо общих соображений и определяется реша- емой задачей. Возникшая ситуация достаточно типична и аналогична ситуации, име- Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 4 137 ющей место, например, в задаче аппроксимации совокупности наблюдений плавной кривой. Решение, полученное путем минимизации с использованием в качестве эври- стического критерия суммы квадратов отклонений реальных измерений от значений, предсказываемых моделью, не может считаться более предпочтительным по сравне- нию, например, с аппроксимацией, использующей другой эвристический критерий — максимальное из указанных отклонений, поскольку выбор критерия целиком опреде- ляется решаемой задачей. Продолжим решение задачи. Во всех перечисленных случаях искомый век- тор модальных оценок параметров A уравнения регрессии может быть найден лю- бым прямым методом численной оптимизации выбранного критерия. Однако если в условиях малой выборки частное описание поведения функции отклика вынуж- денно является линейным, то минимизация аддитивных критериев )(1 A и )(2 A может быть выполнена аналитически. Пусть частное описание функции отклика для некоторой конкретной подобласти факторного пространства имеет вид ....)( 22110 mmxaxaxaaXy  Найдем модальный набор ),...,,,,( 210 maaaaA  минимизируя, например, ).(2 A Положим .5,0 При этом критерий имеет вид .)( 2 1 2 2 )( 5,0 2)0( 0 5,0 22 11 2                       pp m p jpp m p N j aaa N A Во многих практических задачах естественно считать, что параметр 2 jp функции принадлежности нечеткого числа ,jpx характеризующий степень его нечеткости, зависит только от свойств измеряемого фактора ,pX но не от номера точки j, в которой проводится измерение. С учетом этого критерий )(2 A упро- щается к виду .)( 2 1 2 2 )( 5,0 2)0( 0 5,0 22 1 2                       pp m p pp m p aaaA Далее имеем , )( )0( 00 0 2 aa a A    откуда , )0( 00 aa  .0 )( 2 1 2 2)( 5,0 2)0( 0 )0( 5,0 22 1 2 2                            pp m p pp pp m p pp p aa aa a a a A Следовательно, ,)( 2 1 5,0 2)0( 0 5,0 1 22 )0( 2 /                                   pp m p m p pp pp pp aaa aa a ....,,2,1 mp  Выражение в правой части полученного соотношения не зависит от p. Обозначим его C и решим полученное уравнение относительно .pa Имеем ,)0(2 CaCaa pppp  откуда , 2 )0( C Ca a p p p   ....,,2,1 mp  Константа C отыскивается из уравнения . 2 1 5,0 2 2 2 )0( 1 5,0 2 2 2 )0( 1 / Ca C Ca C Ca p p p m p p p p m p                                                               138 ISSN 0572-2691 Структура этого уравнения дает возможность решить его численно методом простой итерации. Таким образом, получен набор )...,,,,( 210 maaaaA  модаль- ных значений нечетких чисел, являющихся решением системы уравнений (6). За- метим, что в рассматриваемом частном случае линейного описания функции от- клика аналитическое решение может быть получено и для минимаксных критери- ев )(3 A и ).(4 A Приближенные оценки вариаций для этих чисел получим следующим обра- зом. Построим многошаговую процедуру, на каждом шаге которой будем считать, что только одна из искомых компонент вектора параметров уравнения регрессии нечеткая, а остальные равны своим модальным значениям. Пусть нечетким явля- ется конкретный параметр, например 0p -й. Запишем соответствующий вариант системы уравнений (6), выделив элементы, содержащие неопределенность: .... ,... 00 00 22110 1111221110 NNmmNppNN mmpp yxaxaxaxaa yxaxaxaxaa      (11) Теперь последовательно решим N уравнений системы (11) относитель- но . 0pa При этом значения параметра 0pa будут нечеткими. Его условная функция принадлежности по результатам решения, например, k-го уравнения имеет вид , 2 )( exp)( 2 2)()( )( )( 0 00 0                k p a k p k pk p aa a , 1 00 0 )(            kpp pp k kp k p xay x a .22 0 )( 0 kpp pp a ak p    Эти N условных функций принадлежности для параметра 0pa комплексируется, формируя безусловную функцию принадлежности параметра 0pa следующим образом: , 2 )( exp)( 2 2 0 00 0              p pp p aa a , 1 2 )( 12 1 )( 0 0 )( 0 0 k pk p a k p N k a N k p a a        . 1 2 1 2 )( 0 0 k p a N k p N    Описанная методика повторяется последовательно для всех p и обеспечивает расчет числовых характеристик функций принадлежности нечетких параметров уравнений регрессии для каждой из подобластей факторного пространства. Полученные функции принадлежности нечетких параметров частных уравне- ний регрессии используются для расчета функций принадлежности нечетких оценок функции отклика в ортогональных точках плана полного факторного экс- перимента. Вычисленный ранее набор },{minmin jp j p xX  },{maxmax jp j p xX  ,...,,2,1 mp  определяет крайние точки m-мерного гиперпараллелепипеда. Изме- нением масштаба по каждой из координат факторного пространства этот гиперпа- раллелепипед трансформируется в m-мерный гиперкуб с центром в начале коорди- нат и длинами ребер, равными двум. Вершины полученного гиперкуба образуют ортонормированный план полного факторного эксперимента. Используем получен- ные частные уравнения регрессии. Пусть некоторой k-й вершине соответствует набор координат ),...,,,( )()( 2 )( 1 k m kk xxx каждая из которых принимает одно из двух возможных значений: 1 или –1. Тогда нечеткое значение )(ky функции отклика в этой точке определяется соотношением .... )()( 22 )( 110 )( k mm kkk xaxaxaay  Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 4 139 Введем полученный выше набор функций принадлежности нечетких пара- метров уравнения регрессии ).(,),(),(),( 210 maaaa   В соответствии со стандартными правилами нечеткой математики [32] легко определить функцию принадлежности )( )(ky нечеткого значения .)(ky Повторение этой операции для всех подобластей факторного пространства завершает процедуру искусственной ортогонализации. 4. Построение усеченного ортогонального плана по нечетким исходным данным Очередная проблема, являющаяся следствием малой выборки проводимых наблюдений, состоит в том, что число точек в каждой из подобластей может ока- заться существенно различным или даже недопустимо малым. В [9] рассмотрен возможный метод преодоления этого путем формирования усеченного реплико- подобного ортогонального подплана плана полного факторного эксперимента. Метод основан на доказанной в [34] теореме, из которой следует, что для системы уравнений с булевыми переменными: ,2...,,2,1 ,2...,,2,1,1 ,2...,,2,1 ,2...,,2,1,1 ,2...,,2,1,2...,,2,1,1 32 2 31 2 21 2 321 1 321 2 321 3 rr iii i rr iii i rr iii i iiz iiz iiz r r r       (12) где )( 321 iii — номер строки полного факторного эксперимента в r2 -ричной си- стеме счисления, ,3/mr  любое ее решение     случае, противном в0 план, в включена )( строка если,1 321 321 iii z iii определяет некоторый усеченный ортогональный по факторам план. Понятно, что качество искомого уравнения регрессии определяется выбранным решением системы уравнений (12), общее число которых равно !.2)!...12()!2( 2 rr Естественный критерий качества плана может быть сформулирован с помощью какой-либо из введенных выше мер неопределенности, например энтропийной для нечетких чисел, определяющих функцию отклика в вершинах плана. Для конкретной l-й вершины эту меру неопределенности будем оценивать парамет- ром ,lD входящим в описание соответствующей функции принадлежности. То- гда значение критерия для некоторого плана определяется соотношением ,max l Ml DD   (13) где M — множество вершин ортогонального плана. Теперь задача построения эффективного усеченного ортогонального репли- коподобного плана сведена к следующей: на множестве решений системы урав- нений (12) найти решение, минимизирующее критерий (13). Построим эвристическую процедуру выбора решения системы уравне- ний (12), минимизирующего (13). Введем кубическую матрицу )( 321 iii , по- ложив 1 321  iii для всех ,2...,,2,11 ri  ,2...,,2,12 ri  .2...,,2,1 3 ri  Дополним теперь систему уравнений (12) совокупностью неравенств . 321321 iiiiiiz  (14) 140 ISSN 0572-2691 Поскольку переменные 321 iiiz булевы, то неравенства (14) никак не влияют на решение системы уравнений (12). Получим какое-либо решение этой системы — },{ )1( 321 iii z ,2...,,2,11 ri  ,2...,,2,12 ri  .2...,,2,1 3 ri  Введем множество индексов }.1:)({ )1( 3211 321  iii ziiiN Теперь выберем max1D l Nl D l  max и в матрице )( 321 iii положим 0 321  iii для всех ,),,( 1321 Niii  где 1N — множество всех элементов Δ, для которых .max1DDl  Вновь будем решать систему уравнений (12) с учетом неравенств (14). По- нятно, что теперь эти неравенства запретят использование при получении реше- ния тех элементов матрицы ),( 321 iiiz которым соответствуют вершины из 1N со значением меры неопределенности, превосходящим .max1D Если такое решение получено, например, },{ )2( 321 iii z то для него, аналогично предыдущему, отыскиваем множество индексов }1:),{( )2( 3212 321  iii ziiiN , вычисляем l Nl DD 2 maxmax2   и после этого в матрице )( 321 iii дополнительно полагаем 0 321  iii для всех ,),,( 2321 Niii  где 2N — множество всех элементов из Δ, для которых .max2DDl  При этом решение задачи продолжается. Если такое решение отсут- ствует, то план, полученный на очередной итерации, является искомым. Отметим важные особенности предложенной многошаговой процедуры. Во- первых, при последовательности итераций число разрешенных элементов матрицы },{ 321 iii на которых отыскивается решение системы уравнений (12), монотонно со- кращается до тех пор, пока не сработает критерий останова (отсутствие решения), ли- бо это число достигнет минимально возможного, равного .2r Таким образом, проце- дура, безусловно, является сходящейся. Во-вторых, и значение критерия при переходе от очередного разрешенного множества к другому точно так же монотонно убывает. Решение большого количества реальных задач (12), (13) показало, что получаемое эв- ристическое решение близко к оптимальному, причем степень близости растет с уве- личением размерности задачи. Таким образом, в результате проведения третьего эта- па получен усеченный подплан плана полного факторного эксперимента, для которо- го значение меры неопределенности для «наихудшей» вершины (критерий качества плана) минимально возможный. 5. Оценивание параметров итогового уравнения регрессии Соответствующий полученному решению набор нечетких чисел ly исполь- зуем для независимой оценки параметров уравнения регрессии (1). При этом не- четкая оценка конкретного параметра pa уравнения (1) рассчитывается как ли- нейная комбинация нечетких значений ,ly ,,,2,1 0Nl  взвешенных со значе- ниями элементов р-го столбца матрицы Х, определяемой множеством вершин, вошедших в усеченный план. Функция принадлежности этого параметра pa имеет вид )},2/()({exp)( 2 ppppp Daaa  , 1 0 10 llp N l p yx N a    , 1 1 l N l p D N D    ....,,2,1 mp  Завершает процедуру оценивания параметров уравнения регрессии (1) наименее формализованный этап — принятие решения относительно значимости Международный научно-технический журнал «Проблемы управления и информатики», 2012, № 4 141 каждого из факторов и их взаимодействий. Возможный подход к решению этой задачи состоит в следующем. Будем считать, что р-й элемент полученного урав- нения регрессии (1) незначим, если функция принадлежности )( pp a накрывает нуль и значение )0(p не ниже некоторого заданного δ (например, ).9,0 При этом со степенью уверенности не ниже δ можно считать, что этот элемент незна- чим и его из уравнения можно исключить. Повторение этой процедуры для всех mp ,,2,1  формирует искомое уравнение регрессии. Заключение Таким образом, получена процедура оценивания параметров уравнения ре- грессии, связывающего значения факторов со значением некоторого результиру- ющего параметра, определяющего качество (эффективность) системы, в условиях малой выборки нечетких значений факторов в каждом эксперименте. О.В. Сіра, Д.О. Дьомін ЛІНІЙНИЙ РЕГРЕСІЙНИЙ АНАЛІЗ МАЛОЇ ВИБІРКИ НЕЧІТКИХ ВИХІДНИХ ДАНИХ Розглянуто задачу оцінювання параметрів рівняння регресії для малої вибірки вихідних даних, коли умови проведення спостережень задані нечітко. Запропо- новано технологію штучної ортогоналізаціі результатів пасивного експеримен- ту, основану на комплексному застосуванні нечіткої кластеризації, та розроб- леного методу розв’язання нечітких систем лінійних алгебраїчних рівнянь. O.V. Seraya, D.A. Demin LINEAR REGRESSION ANALYSIS OF SMALL SAMPLE OF FUZZY INITIAL DATA The problem of estimating the parameters of the regression equation for a small sam- ple of initial data, when the conditions of observation are given fuzzy. The technolo- gy of artificial orthogonalization results of passive experiment, based on the integrat- ed application of fuzzy clustering and the developed method for solving fuzzy sys- tems of linear algebraic equations. 1. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. — М. : Наука, 1979. — 446 c. 2. Кендалл М., Стьюарт А. Статистические выводы и связи. — М. : Наука, 1973. — 466 c. 3. Box G. The effect of errors in the factor levels and experimental design // Technometrics. — 1963. — 5. — P. 247–262. 4. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — М. : Финансы и статистика. Кн. 2. — 1987. — 351 с. 5. Daviers R., Hutton B. The effect of errors in the independent variables in linear regression // Biometrika. — 1975. — 62. — P. 383–396. 6. Durbin I. Errors in variables // Rev. Int. Stat. Inst. — 1954. — 22. — P. 23–41. 7. Fuller W. Properties of some estimators for the errors in variables model // Ann. Stat. — 1980. — 8. — p. 407–418. 8. Серая О.В., Демин Д.А. Оценивание параметров уравнения регрессии в условиях малой вы- борки // Східно-Європейський журнал передових технологій. — 2009. — № 6/4 (42). — С. 14–20. 9. Раскин Л.Г., Демин Д.А. Искусственная ортогонализация пассивного эксперимента в усло- виях малой выборки // Інформаційно-керуючі системи на залізничному транспорті. — 2010. — № 1. — C. 20–23. 10. Демин Д.А., Каткова Т.И. Метод обработки малой выборки нечетких результатов ортого- нализованного пассивного эксперимента // Вестн. Иженерной академии Украины. — 2010. — № 2. — С. 211–216. 11. Tanaka H., Uejima S., Asai K. Linear regression analysis with fuzzy model // IEEE Trans. Systems Man Cybernet. — 1982. — 12, N 6. — P. 903–907. 142 ISSN 0572-2691 12. Манусов В.З., Могиленко А.В. Применение нечеткого регрессионного анализа для прогно- зирования энергопотребления // Электричество. — 2005. — № 4. — С. 11–17. 13. Hong D.H., Lee S., Do H.Y. Fuzzy linear regression analysis for fuzzy input-output data using shape preserving operations // Fuzzy Sets and Systems. — 2001. — 122, N 3. — P. 513–526. 14. Hong Tau Lee, Sheu Hua Chen. Fuzzy regression model with fuzzy input and output data for manpower forecasting // Ibid. — 2001. — 119, N 2. — P. 205–213. 15. Piterbarg L.I. Parameter estimation from small biased samples: Fuzzy sets vs statistics // Ibid. — 2007. — 158, N 19. — P. 1–21. 16. Bargiela A., Pedrycz W., Nakashima T. Multiple regression with fuzzy data // Ibid. — 2007. — 158, N 19. — P. 2169–2188. 17. Hong D.H., Do H.Y. Fuzzy polynomial regression analysis using shape preserving operation // Korean Society for computational & Applied Mathematics and Korean SIGCAM. — 2001. — 8, N 3. — P. 645–656. 18. Dug Hun Hong, Changha Hwang. Interval regression analysis using quadratic loss support vector machine // IEEE Transactions on Fuzzy Systems. — 2005. — 13 (2). — P. 229–237. 19. Diamond P. Fuzzy least squares // Information Sci. — 1988. — 46, N 3. — P. 141–157. 20. Huang Z., Shen Q. Fuzzy interpolation and extrapolation: a practical approach // IEEE Transactions on Fuzzy Systems. — 2008. — 16 (1). — P. 13–28. 21. Kwong C.K., Chen Y., Chan K.Y., Wong H. The hybrid fuzzy least-squares regression approach to modeling manufacturing processes // Ibid. — 2008. — 16 (3). — P. 644–651. 22. Liang-Hsuan Chen, Chan-Ching Hsueh. Fuzzy regression models using the least-squares method based on the concept of distance // Ibid. — 2009. — 17 (6). — P. 1259–1272. 23. Charfeddine S., Mora-Carnino F., De Coligny M. Fuzzy linear regression application to the esti- mation of air transport demand // International Conference on Fuzzy Sets and Soft Computing in Economics and Finance. — 2004. — 2. — P. 351–359. 24. Pei-Yi Hao, Jung-Hsien Chiang. Fuzzy regression analysis by support vector learning approach // IEEE Transactions on Fuzzy Systems. — 2008. — 16 (2). — P. 428–441. 25. Yun-Hsi O. Chang, Bilal M. Ayyub. Fuzzy regression methods — a comparative assessment // Fuzzy Sets and Systems. — 2001. — 119, N 2. — P. 187–203. 26. Yun-Hsi O. Chang. Hybrid fuzzy least-squares regression analysis and its reliability measures // Ibid. — 2001. — 119, N 2. — P. 225–246. 27. Papadopoulos B., Sirpi M. Similarities and distances in fuzzy regression modeling // Soft Computing. — 2004. — 8, N 8. — P. 556–561. 28. Aliev R., Fazlollahi B., Vahidov R. Genetic algorithms-based fuzzy regression analysis // Ibid. — 2002. — 6, N 6. — P. 470–475. 29. Штовба С.Д. Нечеткая идентификация на основе регрессионных моделей параметриче- ской функции принадлежности // Проблемы управления и информатики. — 2006. — № 6. — C. 38–44. 30. Дюбуа Д., Прад А. Теория возможностей. Приложение к представлению знаний в информа- тике : Пер. с франц. / Под ред. С.А. Орловского. — М. : Радио и связь, 1990. — 286 с. 31. Леоненков А.В. Нечеткое моделирование в среде MATLAB и fuzzyTECH. — СПб. : БХВ – Петербург, 2003. — 736 с. 32. Раскин Л.Г., Серая О.В. Нечеткая математика. — Харьков : Парус, 2008. — 352 с. 33. Sira O.V., Khalil H. A new approach for resolving equations with fuzzy parameters. Al-Shqeerat // European Journal of Scientific Research. — 2009. — 38, N 4. — Р. 619–625. — http://www. eurojournals.com/ejsr.htm 34. Раскин Л.Г., Серая О.В., Лолашвили Б.Г. Обработка результатов многофакторного пассив- ного эксперимента с использованием представительных ортогональных усеченных планов // Інформаційно-керуючі системи на залізничному транспорті. — 2004. — № 3. — С. 40–43. Получено 04.10.2010 После доработки 21.11.2011 http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/l/Lee:Hong_Tau.html http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/c/Chen:Sheu_Hua.html http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/p/Piterbarg:Leonid_I=.html http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/b/Bargiela:Andrzej.html http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/p/Pedrycz:Witold.html http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/n/Nakashima:Tomoharu.html http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=91 http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=91 http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=91 http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=91 http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=91 http://www.eurojournals.com/ejsr_38_4_13.pdf