Проекція градієнта: спрощення області мінімізації афінним перетворенням
One of the classical problems of optimization theory in a finite-dimensional space is to find a minimum of a function on a nonempty set. Usually, finding the precise solution to this task analytically requires a lot of computational resources or is even impossible at all. So, approximate methods are...
Gespeichert in:
| Datum: | 2024 |
|---|---|
| 1. Verfasser: | |
| Format: | Artikel |
| Sprache: | Englisch |
| Veröffentlicht: |
The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
2024
|
| Schlagworte: | |
| Online Zugang: | https://journal.iasa.kpi.ua/article/view/286064 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | System research and information technologies |
| Завантажити файл: | |
Institution
System research and information technologies| _version_ | 1866302930455363584 |
|---|---|
| author | Spectorsky, Igor |
| author_facet | Spectorsky, Igor |
| author_sort | Spectorsky, Igor |
| baseUrl_str | http://journal.iasa.kpi.ua/oai |
| collection | OJS |
| datestamp_date | 2024-08-11T01:12:49Z |
| description | One of the classical problems of optimization theory in a finite-dimensional space is to find a minimum of a function on a nonempty set. Usually, finding the precise solution to this task analytically requires a lot of computational resources or is even impossible at all. So, approximate methods are used most often in practical cases. One of the simplest and the most well-known among such approximate methods for unconditional optimization is the method of gradient descent; its generalization for conditional optimization was found in 1964, the method of projected gradient. For some simple sets (line segment, parallelepiped, ball), the projection of the point on the set can be easily found by an explicit formula. However, for more complicated sets (e.g., an ellipse), projecting becomes a separate task. Nevertheless, sometimes computing projection can be simplified by affine transform; e.g., an ellipse can be transformed into a ball by affine (moreover, by linear) transformation. The paper aims to simplify the problem of minimizing function on the set by changing the condition set by affine transform F(x)= Ax+b, where A is a non-degenerated square matrix, and b is a fixed vector of proper dimension. |
| doi_str_mv | 10.20535/SRIT.2308-8893.2024.2.09 |
| first_indexed | 2025-07-17T10:28:20Z |
| format | Article |
| fulltext |
І.Я. Спекторський, 2024
Системні дослідження та інформаційні технології, 2024, № 2 117
UDC 519.6:519.8
DOI: 10.20535/SRIT.2308-8893.2024.2.09
ПРОЕКЦІЯ ГРАДІЄНТА: СПРОЩЕННЯ ОБЛАСТІ
МІНІМІЗАЦІЇ АФІННИМ ПЕРЕТВОРЕННЯМ
І.Я. СПЕКТОРСЬКИЙ
Анотація. Розглянуто класичну задачу оптимізації у скінченновимірному про-
сторі, тобто знаходження мінімуму функції на непорожній множині. Пошук
точного розв’язку цієї задачі аналітичними методами потребує множинних об-
числювальних ресурсів або взагалі неможливий. Для реальних задач частіше
застосовують методи пошуку наближеного розв’язку, серед яких одним з най-
простіших і найвідоміших для задач безумовної оптимізації є метод градієнт-
ного спуску. Узагальненням методу градієнтного спуску на випадок умовної
оптимізації є запропонований у 1964 р. метод проекції градієнта. Для деяких
типів множини (відрізок, паралелепіпед, куля) проекцію точки на множину
можна знайти простими явними формулами, проте для складніших (напр.,
еліпс) проектування стає окремою задачею мінімізації. Однак у деяких випад-
ках обчислення проекції не можна спростити афінним перетворенням — напр.,
еліпс афінним (і навіть лінійним) перетворенням можна звести до кулі. Спро-
щено задачу мінімізації функції на множині застосуванням афінного перетво-
рення F(x) = Ax+b, де A — невироджена квадратна матриця, b — фіксований
вектор відповідної розмірності.
Ключові слова: проекція градієнта, мінімізація, афінне перетворення.
ВСТУП
Класичною задачею оптимізації у скінченновимірному просторі є знахо-
дження мінімуму функції nf : на непорожній множині nD (тут і
надалі символ « » позначає нестроге вкладення, тобто можливий випадок
nD — задача безумовної оптимізації). Як правило, пошук точного
розв’язку цієї задачі аналітичними методами потребує надто багато обчис-
лювальних ресурсів або взагалі неможливий. Тому для реальних задач най-
частіше застосовують методи пошуку наближеного розв’язку, серед яких
одним з найпростіших і найвідоміших для задач безумовної оптимізації є
метод градієнтного спуску (див., напр., [1–6]). Узагальненням методу граді-
єнтного спуску на випадок умовної оптимізації ( nD ) є запропонований
у 1964 р. метод проекції градієнта (див. [7]). Для деяких типів множини D
(відрізок, паралелепіпед, куля) проекцію точки nx на D можна знайти
простими явними формулами, проте для дещо складніших областей (напр.,
якщо 2D — еліпс) проектування стає окремою задачею мінімізації. Од-
нак у деяких випадках обчислення проекції на D можна спростити афінним
перетворенням — напр., еліпс афінним (і навіть лінійним) перетворенням
можна звести до кулі.
Мета роботи — звести задачу мінімізації функції nf : на
множині nD до мінімізації функції ))~(()~(
~ 1 xFfxf на множині
І.Я. Спекторський
ISSN 1681–6048 System Research & Information Technologies, 2024, № 2 118
)(:
~
DFDxbAxD , де bAxxF )( , A — невироджена матриця
розмірності nn , nb — фіксований вектор.
ОПУКЛІ МНОЖИНИ ТА ФУНКЦІЇ
Означення 1. Множину nD називають опуклою, якщо Dyx )1(
для будь-яких ]1,0[,, DyDx . Інакше кажучи, D є опуклою, якщо ра-
зом з точками DyDx , містить відрізок ],[ yx :
Dyxyx
Dy
Dx
]}1,0[:)1({],[
,
.
Приклад 1. На площині (простір 2 ) будь-який круг є опуклою фігу-
рою (множиною), будь-яке коло — ні (рис. 1). Інші приклади опуклих та не-
опуклих фігур зображено на рис. 2.
Зауваження 1. Надалі вважатимемо, що будь-який еліпс та будь-який
багатокутник містять внутрішню ділянку, яку вони обмежують. Таким чи-
ном, еліпс та трикутник завжди є опуклими фігурами, однак чотирикутник
може не бути опуклим (рис. 3).
Означення 2. Функцію nf : називають опуклою, якщо для
будь-яких ]1,0[,, DyDx справджується нерівність
)()1()())1(( yfxfyxf . (1)
Означення 3. Функцію nf : називають строго опуклою, якщо для
будь-яких )1,0(,, DyDx , таких, що yx , справджується нерівність
)()1()())1(( yfxfyxf .
Круг — опукла фігура Коло — неопукла фігура
Рис. 1. Круг і коло — властивість опуклості
Опуклі фігури Неопуклі фігури
Рис. 2. Опуклі та неопуклі фігури
Опуклі фігури Неопуклі фігури
Рис. 3. Еліпс та багатокутники — властивість опуклості
Проекція градієнта: спрощення області мінімізації афінним перетворенням
Системні дослідження та інформаційні технології, 2024, № 2 119
Приклад 2. 1. Одновимірна ( 1n ) лінійна функція cbxxf )(1 за
будь-яких фіксованих констант cb , є опуклою, але не строго опук-
лою, оскільки для будь-якої ]1,0[ нестрога нерівність (1) виконується,
проте перетворюється в рівність:
cyxbyxf ))1(())1((1
)()1()())(1()( 11 yfxfcbycbx . (2)
2. Одновимірна квадратична функція 2
2 )( axxf ( a — фіксована
константа) є опуклою тоді і тільки тоді, коли 0a . Дійсно, для будь-якої
]1,0[ маємо:
.))(1()()1()(
)1(2)1()1()1(
)1(2)1())1(())1((
2
22
2222
22222
2
yxayfxf
xyayaxayaxa
xyayaxayxayxf
(3)
Очевидно, у випадку 0a функція 2
2 )( axxf є строго опуклою.
Зазначимо, що отриманий результат з урахуванням рівностей (2) та (3)
легко поширити на загальну одновимірну квадратичну функцію
cbxaxxf 2
3 )( ; функція опукла, якщо 0a (зокрема, строго опукла,
якщо 0a ); константи cb , на опуклість (строгу опуклість) функції
cbxax 2 не впливають.
Із означень 1 та 2 негайно випливає простий факт, що пов’язує обидва
означення: функція nf : опукла тоді і тільки тоді, коли її надграфік
})(:),{(Epi yxfyxf n є опуклою множиною в просторі
nn 1 . На рис. 4 схематично показано надграфіки функцій
cbxxf )(1 та cbxaxxf 2
3 )( .
Означення 4. Функцію nf : називають сильно опуклою з пара-
метром 0 , якщо для будь-яких ]1,0[,, DyDx справджується
нерівність
2
2
1 ||||)1()()1()())1(( yxyfxfyxf .
cbx
c
ax2+bx+c, a>0 ax2+bx+c, a<0
Рис.4. Надграфіки лінійної та квадратичної функцій
І.Я. Спекторський
ISSN 1681–6048 System Research & Information Technologies, 2024, № 2 120
Приклад 3. Квадрат евклідової норми 2|||| x як функція n:|||| 2 є
сильно опуклою з параметром 2 . Дійсно, для будь-якої ]1,0[ аналогі-
чно (3) отримуємо:
))1((,)1((||)1(|| 2 yxyxyx
),)(1(2||||)1(|||| 2222 yxyx
.||||)1(||||)1(|||| 222 yxyx
Зауваження 2. Деякі автори (напр., [4, 5, 8]), визначаючи сильну опук-
лість функції, випускають коефіцієнт
2
1 у доданку перед параметром опук-
лості, що зменшує параметр опуклості вдвічі. Так, згідно з таким визначен-
ням, функція 2|||| x є сильно опуклою з параметром 1 .
Відомі критерії опуклості для гладких функцій. Так, для двічі непере-
рвно диференційовної функції nf : справджуються логічні еквівале-
нтності (див., напр., [2, 4–6, 8]):
Функція f опукла тоді й тільки тоді, коли 0),( hhf для будь-
якого nh (гесіан f є невід’ємно визначеною матрицею).
Функція f сильно опукла з параметром 0 тоді і тільки тоді, ко-
ли 2||||),( hhhf для будь-якого nh (матриця nIf є невід’ємно
визначеною матрицею).
Для строго опуклих функцій аналогічна еквівалентність неправильна,
проте справджується наслідок: для строгої опуклості функції f достатньо,
щоб 0),( hhf для будь-якого ненульового nh (гесіан f є додатно
визначеною матрицею).
Приклад 4. Одновимірна функція 4)( xxf опукла, і навіть строго
опукла. Дійсно, враховуючи строгу (навіть сильну) опуклість функції
2)( xxg (див. приклад 3) та строгу монотонність 2)( xxg на ),0[ ,
отримуємо:
)()1()()1()1(
))1(()))1((())1(())(()(
444242
222224
yfxfyxyx
yxyxyxxggxf
для будь-якої )1,0( . Проте функція 4)( xxf не сильно опукла, оскільки
для будь-якої константи 0 нерівність 212)( xxf не справджується
для 12
|| x .
Сформулюємо у вигляді лем три відомі (див., напр., [2, 4, 5, 8]) власти-
вості щодо мінімізації опуклої функції на опуклій множині.
Лема 1. Нехай nD — опукла множина, . nf : — опукла фу-
нкція, Dx * — локальний мінімум f на D , тобто існує таке 0 ,
що )()( * xfxf для всіх Dx , для яких *xx . Тоді Dx * — глоба-
льний мінімум f на D , тобто )()( * xfxf для всіх Dx .
Проекція градієнта: спрощення області мінімізації афінним перетворенням
Системні дослідження та інформаційні технології, 2024, № 2 121
Доведення. Нехай Dx * — локальний мінімум f на D , 0 — та-
ке число, що )()( * xfxf для всіх Dx , для яких *xx . Зафіксуємо
довільне Da . Тоді для ),(min 1
*
1
2 ax
маємо: **))1(( xxa
)( ** xaxa , звідки, з урахуванням опуклості множини D
та функції f , )()1()())1(()( *** xfafxafxf . Отже,
)()1()()( ** xfafxf , звідки )()( * afxf і, оскільки 0 ,
)()( * afxf . Таким чином, ураховуючи довільність вибору Da , точка
Dx * дійсно є глобальним мінімумом функції f на D .□
Лема 2. Нехай nD — опукла множина, . nf : — строго опу-
кла функція. Тоді f досягає глобального мінімуму на D не більш ніж в од-
ній точці.
Доведення. Припустимо, що f досягає глобального мінімуму *y на
D принаймні у двох різних точках Dm 1 , Dm 2 , тобто )( 1mf
*
2 )( ymf , та 21 mm . Тоді, враховуючи опуклість D та строгу опук-
лість f , отримуємо, що Dmm
2
21 та *
212
1
2
))()(()( 21 ymfmff mm , що
суперечить глобальності мінімуму *
21 )()( ymfmf на множині D .□
Лема 3. Нехай nD — опукла множина, . nf : — сильно
опукла функція. Тоді f досягає глобального мінімуму на D у точності в
одній точці.
Доведення (див., напр., [4, 5, 8]) спирається на обґрунтуванні обмеженості
знизу множин Лебега vxfDxDv )(: та неперервності f на n .
Детальніше про властивості опуклих множин і функцій див., [2, 4–6, 8].
АФІННЕ ПЕРЕТВОРЕННЯ ОПУКЛИХ МНОЖИН ТА АРГУМЕНТІВ
ОПУКЛИХ ФУНКЦІЙ
Уведемо до розгляду афінне перетворення nnF : , тобто відображення
bAxxF )( , де A — фіксована невироджена матриця розмірності nn ,
nb — фіксований вектор. Зазначимо, що завдяки невиродженості A іс-
нує обернене (також афінне) перетворення bAxAxF 111 )( .
Лема 4. Нехай nD — непорожня опукла множина. Тоді опуклою є
також множина )(:
~
DFDxbAxD .
Доведення. Нехай DyDx
~~,
~~ . За визначенням множини D
~
, маємо еле-
менти DyDx , , такі, що bAyybAxx ~ ,~ , звідки bAxAx 11~
,D DbAyAy 11~ . Тоді, зафіксувавши довільну ]1,0[ , отримуємо:
))(1()(~)1(~ bAybAxyx
DyxFbyxA
~
))1(())1(( ,
І.Я. Спекторський
ISSN 1681–6048 System Research & Information Technologies, 2024, № 2 122
оскільки Dyx )1( завдяки опуклості D . Отже, Dyx
~~)1(~ , що
доводить опуклість множини D
~
.
Приклад 5. Розглянемо в 2 множину, обмежену прямокутником
(сторони повернуті відносно координатних осей):
103x42
543x2
:
21
21
2
1
x
x
x
x
D .
Очевидно, область D можна отримати афінним (навіть лінійним) перетво-
ренням із прямокутника D
~
, сторони якого паралельні координатним
осям:
2
1
2
1
21
21
6.08.0
8.06.0
5
34
43
34
43
x
x
x
x
xx
xx
. Таким чином, афінне
перетворення
2
1
2
1
2
1
6.08.0
8.06.0
~
~
x
x
x
x
F
x
x
(у даному випадку — пово-
рот) переводить повернутий прямокутник
103x42
543x2
:
21
21
2
1
x
x
x
x
D
у прямокутник )(
2~0.4
1~0.4
:~
~
10~52
5~52
:~
~~
2
1
2
1
2
1
2
1 DF
x
x
x
x
x
x
x
x
D
,
сторони якого паралельні координатним осям (рис. 5).
Приклад 6. Розглянемо в 2 множину, обмежену кривою другого порядку:
1)10()5(24)10(41)5(34 : 21
2
2
2
1
2
1 x xxx
x
x
D
1
10
5
,10
5
4112
1234
:
2
1
2
1
2
1
x
x
x
x
x
x
.
Процедурою діагоналізації отримуємо:
6.08.0
8.06.0
250
050
6.08.0
8.06.0
4112
1234
.
1 2
1
-2 -1 0
1x
2x
2
D
1
~x
2
1
2
~x
0
D
~
1 1
Рис. 5. Область
103x42
543x2
:
21
21
2
1
x
x
x
x
D — повернутий прямокутник, область
2~0.4
1~0.4
:~
~~
2
1
2
1
x
x
x
x
D — прямокутник, сторони якого паралельні координатним
осям
Проекція градієнта: спрощення області мінімізації афінним перетворенням
Системні дослідження та інформаційні технології, 2024, № 2 123
Оскільки матриця
4112
1234
, як і матриця
250
050
, є додатно визначеною,
область D є повернутим та зсунутим еліпсом і може бути отримана афінним
перетворенням з одиничного круга
1~~ :~
~~ 2
2
2
1
2
1 xx
x
x
D , рис. 6.
Еліптичну криву 1)10()5(24)10(41)5(34 21
2
2
2
1 x xxx , або,
у записі через квадратичну форму, 1
10
5
,10
5
4112
1234
2
1
2
1
x
x
x
x
, можна
отримати з одиничного кола 1 2
2
2
1 xx послідовно зсувом, повертанням
та розтягненням:
1
10
5
,10
5
4112
1234
2
1
2
1
x
x
x
x
1
10
5
,10
5
6.08.0
8.06.0
250
050
6.08.0
8.06.0
2
1
2
1
x
x
x
x
1
10
5
6.08.0
8.06.0
,10
5
6.08.0
8.06.0
250
050
2
1
2
1
x
x
x
x
1
10
5
6.08.0
8.06.0
,10
5
6.08.0
8.06.0
50
025
50
025
2
1
2
1
x
x
x
x
1
10
5
6.08.0
8.06.0
50
025
,10
5
6.08.0
8.06.0
50
025
2
1
2
1
x
x
x
x
.
Отже, афінне перетворення
50
225
34
2423
10
5
6.08.0
8.06.0
50
025
~
~
2
1
2
1
2
1
2
1
x
x
x
x
x
x
F
x
x
-10.0
-10.2
5.0 4.8 5.2
-9.8
0.0
1x
2x
D 1
~x
1.0
1.0
-1.0
-1.0
1
~x
D
~
Рис. 6. Область D — еліпс 1)102()51(242)102(412)51(34 x xxx , область
1~~ :~
~~ 2
2
2
1
2
1 xx
x
x
D — одиничний круг
І.Я. Спекторський
ISSN 1681–6048 System Research & Information Technologies, 2024, № 2 124
пов’язує одиничний круг
1~~ :~
~
1~
~
,~
~
:~
~~ 2
2
2
1
2
1
2
1
2
1
2
1 xx
x
x
x
x
x
x
x
x
D і
зсунутий повернутий еліпс
1
10
5
,10
5
4112
1234
:
2
1
2
1
2
1
x
x
x
x
x
x
D
1)10()5(24)10(41)5(34 : 21
2
2
2
1
2
1 x xxx
x
x
).
~
(1~~:~
~
1
,
: 12
2
2
1
2
11
2
1
2
1
2
1 DFxx
x
x
F
x
x
F
x
x
F
x
x
Для матриці A уведемо позначення ),(max T
1||:||
max xxAA
xx n
та
),(min T
1||:||
min xxAA
xx n
відповідно максимальне та мінімальне власне чи-
сло матриці TAA ; нагадаємо, що матриці TAA та AAT мають однаковий
набір додатних (завдяки невиродженості A ) власних чисел.
Лема 5. Нехай функція nf : — опукла (строго опукла, сильно
опукла з параметром 0 ). Тоді функція nf :
~
, )~(
~
xf
)~())~(( 111 bAxAfxFf теж опукла (відповідно строго опукла, сильно
опукла з параметром 01
max ).
Доведення. 1. Нехай функція nf : опукла. Зафіксувавши
]1,0[ , дістаємо:
))~)(1()~(()~)1(~(
~ 1111 bAyAbAxAfyxf
)~(
~
)1()~(
~
)~()1()~( 1111 yfxfbAyAfbAxAf
для довільних nn yx ~,~ , що доводить опуклість функції g . □
2. Нехай функція nf : строго опукла; nn yx ~,~ і yx ~~ . За
умовою, матриця A невироджена, а отже, матриця -1A існує і невироджена,
звідки bAyAbAxA 1111 ~~ . Зафіксувавши )1,0( , маємо
)~(
~
)1()~(
~
)~()1()~(
))~)(1()~(()~)1(~(
~
1111
1111
yfxfbAyAfbAxAf
bAyAbAxAfyxf
для довільних nn yx ~,~ , що доводить строгу опуклість функції f
~
. □
3. Нехай функція nf : сильно опукла з параметром 0 . Зазна-
чимо, що матриця TAA симетрична і, завдяки невиродженості матриці A ,
додатно визначена. Це означає, що всі власні числа матриці TAA дійсні до-
Проекція градієнта: спрощення області мінімізації афінним перетворенням
Системні дослідження та інформаційні технології, 2024, № 2 125
датні числа. Очевидно, ),)((min 1
1||:||
1
max xxAAT
xx n
— мінімальне власне
число матриці 1)( TAA . Отже, зафіксувавши ]1,0[ , отримуємо:
1
max2
1
2
11
2
21
2
1111
1111
)1()~(
~
)1()~(
~
))~~(),~~()(()1()~(
~
)1()~(
~
))~~(),~~(()1()~(
~
)1()~(
~
||)~~(||)1()~()1()~(
))~)(1()~(()~)1(~(
~
yfxf
yxyxAAyfxf
yxAyxAyfxf
yxAbAyAfbAxAf
bAyAbAxAfyxf
T
для довільних nn yx ~,~ , що доводить сильну опуклість функції f
~
з
параметром 1
max
.
Приклад 7. Нехай nf : , 2||||)( xxf . Функція 2||||)( xxf си-
льно опукла з параметром 2 (див. приклад 3), а отже, функція )~(
~
xf
21121 ||~||||)~(|| bAxAxF є сильно опуклою з параметром 01
max .
Цікаво, що у випадку 0b білінійний функціонал )~,~)((~,~ 1T yxAAyx ,
завдяки симетричності та додатній визначеності матриці 1T )( AA , визначає
інший скалярний добуток, а функція 2121 ||~||||)~(||)~(~,~ xAxFxgxx
іншу норму в n .
У [4] наведено теорему про збереження опуклості функції (без умови
строгої чи сильної опуклості) за застосування до аргумента довільного пере-
творення bAx .
ПРОЕКЦІЯ ТОЧКИ НА МНОЖИНУ
Означення 5. Проекцією точки na на непорожню множину nD
називають точку DaD Pr , найближчу до a серед усіх точок Dx :
||||inf||Pr|| axaa
DxD
. (4)
Оскільки норма |||| невід’ємна, рівність (4) можна подати через квад-
рат норми 2|||| :
22 ||||inf||Pr|| axaa
DxD
. (5)
Очевидно, aaD Pr тоді й тільки тоді, коли Da .
Приклад 8. Для кола 222
2,02
2
1,01
2
1 )()( :
rxxxx
x
x
D
радіуса 0r із центром у
2,0
1,0
0 x
x
x проекцію точки
2,0
1,0
2
1
x
x
a
a
a
І.Я. Спекторський
ISSN 1681–6048 System Research & Information Technologies, 2024, № 2 126
можна обчислити за формулою )(
||||
Pr 0
0
0 xa
xa
rxaD
, тобто aDPr
міститься на перетині відрізка ],[ 0 ax з колом D (див. рис.7, а, б).; проекцією
центра кола 0xa є кожна точка кола (рис. 7, в).
Приклад 9. Для відкритого круга
222
2,02
2
1,01
2
1 )()( :
rxxxx
x
x
D
радіуса 0r із центром в
2,0
1,0
0 x
x
x проекції точки Da ( ra |||| ) не
існує. Дійсно, raxax
Dx
||||||||inf 0 міг би
досягатись лише в точці )( 0||||0 0
xax
xa
r
(рис. 8), але Dxax
xa
r )( 0||||0 0
, оскільки
||)(||(||))((|| 0||||00||||0
00
xaxxax
xa
r
xa
r
rxa
xa
r |||| 0|||| 0
.
У загальному випадку точка na мо-
же мати кілька проекцій на множину nD (приклад 8) або не мати жод-
ної (приклад 9). Проте відомий класичний факт (див., напр., [1, 4, 5]), який
наводимо як лему.
Лема 6. 1. Нехай множина nD непорожня і замкнена. Тоді будь-
яка точка na має принаймні одну проекцію на D .
2. Нехай множина nD опукла. Тоді будь-яка точка na має не
більше однієї проекції на D .
Доведення. 1. Проекція aDPr на замкнену множину D існує за теоремою
Веєрштраса: неперервна функція n||:|| досягає свого найменшого
значення ||||min||||inf axax
DxDx
на непорожній замкненій множині nD .
2. Функція n:|||| 2 є строго (і навіть сильно) опуклою (див. при-
клад 3) і, за лемою 2, має не більше одного глобального мінімуму на опуклій
множині nD .□
2,0x
0
1x
2x
a
)( 0||||0 0
xax
xa
r
Рис. 8. Проекція точки на від-
критий круг не існує
Рис. 7. Проекція точки на коло
2,0x
0
1x
2x
D
1,0x
a
aDPr
1x
2,0x
0
2x
D
1,0x
a
aDPr aDPr
aDPr
0
2,0x
1x
2x
D
1,0x
a
aDPr
a б в
Проекція градієнта: спрощення області мінімізації афінним перетворенням
Системні дослідження та інформаційні технології, 2024, № 2 127
Приклад 10. 1. Нехай 2
0 }|||| :{ rxxxD замкнений круг раді-
уса 0r із центром в 2
0 x . Очевидно, D опукла і замкнена і, за ле-
мою 6, для будь-якого 2a існує єдина проекція aDPr
Daxax
Daa
xa
r ),(
;,
0||||0
0
точки 2a на множинуD (див. приклад 8).
2. Нехай 2)2,1( : iMxmxD iii прямокутник (рис. 9), визна-
чений точками 2m , 2M , )2,1( iMm ii . Очевидно, D опукла і за-
мкнена, і, за лемою 6, для будь-якого 2a існує єдина проекція
aDPr )2,1( i :
,,
;,
;
)(Pr
iii
iiii
i
iD
MaM
Mama
m
a
Формули для проекцій на круг і прямокутник (сторони якого паралельні
координатним осям), наведені у прикладі 10,
природним чином узагальнюються на кулю та
паралелепіпед у n . Детальніше про проекції
на деякі прості множини nD (куля, пара-
лелепіпед, півпростір та ін.) див., напр. [5].
Однак для проекцій на більш складні множи-
ни (зокрема, на еліпс) надати прості явні фо-
рмули неможливо.
Приклад 11. Нехай
1)10()5(24)10(41)5(34 : 21
2
2
2
1
2
1 x xxx
x
x
D
повернутий еліпс (див. приклад 6),
7.9
5
a . Оскільки Da , проекція
aDPr лежить на еліптичній кривій 2
2
2
1 )10(41)5(34 xx
1)10()5(24 21 x x , яка обмежує область D . Застосовуючи до пошуку
екстремуму у рівності (5) метод множників Лагранжа, запишемо відповідну
функцію Лагранжа:
2
1
2
2
2
121 )5(34()7.9()5(),,( xxxxxL
)1)10()5(24)10(41 21
2
2 x xx .
Мінімум функції ),,( 21 xxL можливий лише в нулях часткових похідних:
LLL xx ,,
21
:
01)10()5(24)10(41)5(34
0))10(82)5(24()79(2
0))10(24)5(68()5(2
21
2
2
2
1
212
211
x xxx
xx.x
xxλx
(6)
2M
0
1x
2x
1m
a
aDPr 2m
1M
Рис. 9. Проекція точки на
прямокутник
І.Я. Спекторський
ISSN 1681–6048 System Research & Information Technologies, 2024, № 2 128
Легко перевірити, що аналітичне розв’язання системи (6) зводиться до
рівняння 4-го степеня відносно — такі рівняння, хоч і допускають явний
розв’язок, але відповідні формули складні і містять радикали до 4-го степеня
включно. Тому раціональним бачиться чисельне розв’язання системи (6),
у результаті чого, після відкидання «зайвих» коренів (які не можуть бути
мінімумом правої частини рівності (5)), отримуємо:
9.8381-
4.9757
Pr aD (множ-
ник -0.0218 , але це значення безпосередньо не входить до aDPr ), рис. 10.
Приклад 12. Нехай
103x42
543x2
:
21
21
2
1
x
x
x
x
D повернутий пря-
мокутник (див. приклад 5),
4
1
a .
Для обчислення aDPr проаналізуємо розташування точки a відносно
пар паралельних прямих 243x 21 x і 543x 21 x та 23x4 21 x і
103x4 21 x . Оскільки 5194413 , проекція aDPr лежить на
прямій 543x 21 x . Оскільки 10843142 , проекція aDPr ле-
жить на прямій, яка проходить через точку
a та паралельна прямим 23x4 21 x і
1034 21 xx , тобто на прямій
0)4(3)14( 21 xx , або, в іншому ви-
гляді, на прямій 834x 21 x . Розв’язуючи
систему
834x
543x
21
21
x
x
, дістаємо: aDPr
76.1
68.0
25
44
25
17
, рис. 11.
Зауваження 3. У прикладах 11 і 12 вектор aa DPr ортогональний до-
тичній у точці a до кривої, що обмежує область D (рис. 10 та 11 відповід-
но). Така властивість є загальною і поширюється на множини D з неглад-
кою межею (див., напр., [1, 4, 5]).
-10.0
-10.2
2x
-9.6
5.0 4.8 5.2
-9.8
0.0
1x
D
a
aDPr
a
aDPr
D
Рис. 10. Проекція точки на еліпс 1)102()51(242)102(412)51(34 x xxx
Рис. 11. Проекція точки на
прямокутник
103x42
543x2
21
21
x
x
2
2
-2 0
1x
2x
4
D
a
aDPr
Проекція градієнта: спрощення області мінімізації афінним перетворенням
Системні дослідження та інформаційні технології, 2024, № 2 129
АФІННЕ ПЕРЕТВОРЕННЯ В ОПЕРАТОРІ ПРОЕКТУВАННЯ
Нехай nD — непорожня опукла та замкнена множина, a довільна точ-
ка в n . Згідно з лемою 6, проекція aDPr існує і єдина, тобто інфімум у
рівності (4) досягається у єдиній точці ||||minargPr axa
Dx
D
.
Розглянемо заміну змінних )(~ xFx за афінним перетворенням
nnF : , bAxxF )( ( A —невироджена матриця розмірності nn ,
nb ). Позначивши, як і в п. 0, )(:)(
~
DFDxxFD , )(~ xFx ,
)(~ aFa , уведемо оператор aF
DPr , пов’язаний з обчисленням проекції
aD
~Pr~ з подальшою заміною змінних )(~ xFx :
)~(PrPr ~1 aFa D
F
D
(7)
Очевидно, множина )(
~
DFD є непорожньою, за лемою 4 )(
~
DFD є
опуклою і, завдяки замкненості множини D та неперервності відображення
F — замкненою. Таким чином, проекція aD
~Pr~ за лемою 6 існує і єдина.
Ураховуючи визначення оператора aDPr , подамо рівність (7) через
minarg :
||)()(||minarg||)~~||minarg(Pr
)
~
()~(~~~
1
11
aFxFaxFa
DFx:FxDx
F
D
n
||)()(||minarg bAabAx
Dx
.||||minarg||)(||minarg F
DxDx
axaxA
Отже, оператор aF
DPr , як і оператор aDPr , визначає на D точку, най-
ближчу до a , але найближчу — у сенсі метрики, визначеної нормою
|||||||| xAx F (див. також приклад 7). Зазначимо, що норма |||||||| xAx F (а
отже, і оператор aF
DPr ) визначається матрицею A і не залежить від b . Оче-
видно, що у випадку ортогональної матриці A маємо рівність норм:
222 ||||),(),(|||||||| xxxAxAxxAx F ,
а отже, aa D
F
D PrPr .
Приклад 13. Розглянемо в 2 еліпс (див. приклади 6 і 11):
1)10()5(24)10(41)5(34 : 21
2
2
2
1
2
1 x xxx
x
x
D
1
10
5
,10
5
4112
1234
:
2
1
2
1
2
1
x
x
x
x
x
x
1
50
225
34
2423
,50
225
34
2423
:
2
1
2
1
2
1
x
x
x
x
x
x
.
І.Я. Спекторський
ISSN 1681–6048 System Research & Information Technologies, 2024, № 2 130
Очевидно (див. також приклад 6), еліпс D пов’язаний з одиничним
кругом
1~~ :~
~~ 2
2
2
1
2
1 xx
x
x
D афінним перетворенням
2
1
2
1
~
~
x
x
F
x
x
50
225
34
2423
2
1
x
x
: )
~
(1 DFD , або )(
~
DFD .
Обчислимо aF
DPr для
7.9
5
a . Оскільки DaFa
~
90.0
70,1
)(~
,
отримуємо (див. приклад 10, п. 1):
89.0
46.0
||~||
~
~~),0~(0
;
~~,~
~Pr
||0~||
1~
a
a
Daa
Daa
a
a
D ,
звідки остаточно маємо:
50
225
||~||
~
34
2423
)~(PrPr
1
~1
a
a
aFa D
F
D
50
1
84.9
5
50
225
||~||
~
624
823
a
a
.
Зауважимо, що aa D
F
D PrPr (рис. 12).
Приклад 14. Розглянемо в 2 повернутий прямокутник (див. та-
кож приклади 5 та 12)
103x42
543x2
:
21
21
2
1
x
x
x
x
D . Оскільки
2
1
21
21
6.08.0
8.06.0
5
34
43
x
x
xx
xx
, область D пов’язана афінним перетво-
ренням
2
1
2
1
2
1
6.08.0
8.06.0
~
~
x
x
x
x
F
x
x
із прямокутником D
~
)(
2~0.4
1~0.4
:~
~
2
1
2
1 DF
x
x
x
x
, сторони якого паралельні координатним
a
aDPr
D
D
a
Центр
еліпса
aF
DPr
Рис. 12. Оператори aDPr і aF
DPr для еліпса )5(24)10(41)5(34 1
2
2
2
1 xxx
1)10( 2 x
Проекція градієнта: спрощення області мінімізації афінним перетворенням
Системні дослідження та інформаційні технології, 2024, № 2 131
осям (детальніше див. приклад 5). У цьому випадку, оскільки матриця
6.08.0
8.06.0
A є ортогональною (матрицею повороту), оператор aF
DPr
збігається із проекцією: aa D
F
D PrPr для довільного na (див. приклад 12,
рис. 11).
МЕТОД ПРОЕКЦІЇ ГРАДІЄНТА З АФІННИМ ПЕРЕТВОРЕННЯМ
Нехай nD — непорожня опукла та замкнена множина, nf : ди-
ференційовна строго опукла функція на n За сформульованих умов, згідно
з лемою 3, існує єдиний мінімум функції f на D : )(minarg* xfx
Dx
. Аналі-
тичне обчислення *x у практичних випадках є складним і почасти немож-
ливим. Для чисельного розв’язання задачі )(minarg* xfx
Dx
у 1964 р. амери-
канським вченим А. Голдштейном був запропонований (див. [7])
ітераційний метод, нині відомий як метод проекції градієнта:
nx 0 — обрана початкова точка;
)(Pr1 kkk
D
k hxx ( 0k ), де )( kk xfh напрямок кроку (ан-
тиградієнт), nka — довжина кроку (обирається залежно від модифікації
методу).
Одним з найпоширеніших методів вибору довжини кроку є метод
найшвидшого спуску:
0
)(minarg
kkk hxf , який, разом з додатковими
умовами на f і D , забезпечує збіжність *xx
k
k
; сформулюємо ві-
домий (див., напр. [4]) результат у вигляді теореми.
Теорема 1. Нехай nD — непорожня опукла та замкнена множина,
nf : функція на n , яка задовольняє умови:
неперервна диференційовність на n ;
сильна опуклість з параметром 0 ;
градієнт є ліпшицевим з константою L , тобто ||)()(|| yfxf
|||| yxL .
Тоді рекурентно задана послідовність
nx 0 довільно обрана початкова точка,
)(Pr1 kkk
D
k hxx ( 0k ), де )( kk xfh , k
0
)(minarg
kk hxf збігається до *x з геометричною швидкістю:
*xx
k
k
, |||||||| **1 xxqxx kk ( 0kk ), де )1,0[q — фіксована
константа, 0k — фіксований номер.
Доведення див., напр. у [4].
І.Я. Спекторський
ISSN 1681–6048 System Research & Information Technologies, 2024, № 2 132
Зауваження 4. Очевидно, умова геометричної швидкості (або лінійної
швидкості) |||||||| **1 xxqxx kk ( 0kk ) еквівалентна умові |||| *xxk
kCq ( 0k ), де )1,0[q , 0C — фіксовані константи.
Метод проекції градієнта пов’язаний з обчисленням проекції точки kx
на множину D , що нескладно у простих випадках (наприклад, якщо D круг
або прямокутник, див. приклад 10), проте ускладнюється до окремої задачі
мінімізації для складніших випадків (наприклад, якщо D еліпс, див.
приклад 11).
Для спрощення задачі проектування застосуємо у задачі пошуку
)(minarg* xfx
Dx
заміну змінних, пов’язану з афінним перетворенням
nnF : , bAxxF )( ( A —невироджена матриця розмірності nn ,
nb ). Позначивши, як і в п. 2, )(}:)({
~
DFDxxFD , )(~ xFx ,
)~())~(()~(
~ 111 bAxAfxFfxf , отримуємо область nD
~
і функцію
nf :
~
. Таким чином, пошук )(minarg* xfx
Dx
можна звести до пошуку
)~(
~
minarg~
~~
* xfx
Dx
, )(~ *1* xFx , з подальшим «поверненням» до )~(1 xFx .
Теорема 2. Нехай функція nf : і область nD задовольня-
ють умови теореми 1, nFx 0, — довільна початкова точка,
))
~~)(((Pr ,11, kkkFF
D
kF hxFFx ( 0k ), де )()(
~ ,1 kFTk xfAh ,
0~
, )
~~(minarg~
kkFk hxf . Тоді послідовність kFx , ( 0k ) збігається до
)(minarg* xfx
Dx
зі швидкістю геометричної прогресії:
*, xx
k
kF
, kFkF qCxx )(|||| *, ( 0k ),
де )1,0[Fq , 0C — фіксовані константи.
Доведення. Розглянемо (див. також п. 2 і 4) отримані заміною змінних
)(~ xFx область )(}:)(~{
~
DFDxxFxD та функцію )~(
~
xf
)~())~(( 111 bAxAfxFf .
Оскільки область D за умовою непорожня, опукла та замкнена, об-
ласть )(
~
DFD за побудовою також є непорожньою, за лемою 4 опуклою,
за неперервністю відображення F замкненою. Оскільки f за умовою є си-
льно опуклою з параметром 0 , функція f
~
за лемою 5 є сильно опуклою
з параметром 01
max . Функція f за умовою є неперервно диференційов-
ною, тоді функція f
~
теж є диференційовною як композиція диференційов-
них відображень f і 1F . Для обчислення f
~
знайдемо ),
~
( df для довіль-
ного фіксованого nd :
Проекція градієнта: спрощення області мінімізації афінним перетворенням
Системні дослідження та інформаційні технології, 2024, № 2 133
)),~()(()),~(()),~(
~
( 111111 dbAxAfAdAbAxAfdxf T ,
звідки, враховуючи довільність nd , отримуємо, що )~(
~
xf
))~(()(( 11 xFfAT є неперервним, і функція f
~
є неперервно диференці-
йовною. Нарешті, із ліпшицевості f з константою L , для f
~
маємо:
21111112 ||)~()(()~()((||||)~(
~
)~(
~
|| bAyAfAbAxAfAyfxf TT
)),~()~(()(( 11111 bAyAfbAxAfAAT
))~()~( 1111 bAyAfbAxAf
21111
min ||))~()~(|| bAyAfbAxAf
,||~~||||)~~(|| 222
min
212
min yxLyxAL
де ),(min
1||:||
min xAxAT
xx n
— мінімальне власне число матриці TAA . Таким
чином, f
~
ліпшицевий з константою Lmin . Отже, область D
~
і функція f
~
задовольняють умови теореми 1, тобто рекурентно задана послідовність kx~
( 0k ), де nx 0~ довільно обрана початкова точка, )
~~~(Pr~ ~1 kkk
D
k hxx ,
))~(()()~(
~~ 11 kTkk xFfAxfh ,
0~
)
~~~(
~
minarg~
kkk hxf збігається до
*x з геометричною швидкістю: *~~ xx
k
k
, ||~~||~||~~|| **1 xxqxx kk
( 0k ), де )1,0[~q фіксована константа. Увівши позначення kFx ,
)~(1 kxF , дістаємо: )~( 010, xFxF (початкова точка),
))
~~)(((Pr)
~~~((Pr)~( ,1~1111, kkkFF
D
kkk
D
kkF hxFFhxFxFx .
Оскільки за лемою 3 існує єдиний )~(
~
minarg~
~~
* xfx
Dx
, за побудовою ма-
ємо зв’язок )(~ ** xFx , звідки *, xx
k
kF
. Нарешті, оцінимо швид-
кість збіжності *, xx
k
kF
:
||)~~(||||)~()~(|||||| *11*111*1, xxAxFxFxx kkkF
)~~),~~()(( *111 xxxxAA kkkT
,~||~~||||~~|| *
~
*11
minmin
kkqk qCxxxx
тобто *, xx
k
kF
із лінійною швидкістю, що завершує доведення тео-
реми. □
Зауваження 5. Послідовності kx ( 0k ) та kFx , ( 0k ) мають одна-
кову границю *x , однак, взагалі кажучи, поточково розрізняються, тобто
найчастіше kFk xx , .
І.Я. Спекторський
ISSN 1681–6048 System Research & Information Technologies, 2024, № 2 134
Приклад 15. Нехай 2:f ,
2
2
2
1
2
1 )11()6( xx
x
x
f
4
1 )6( x . Функція f сильно опукла з параметром 2 , оскільки
20
0)6(122 2
1
2
1 x
x
x
f .
Розглянемо задачу мінімізації функції f на множині 2D в еліпсі
(див. приклади 6, 11 і 13):
,1
50
225
34
2423
,50
225
34
2423
:
1
10
5
,10
5
4112
1234
:
1)10()5(24)10(41)5(34 :
2
1
2
1
2
1
2
1
2
1
2
1
21
2
2
2
1
2
1
x
x
x
x
x
x
x
x
x
x
x
x
x xxx
x
x
D
який пов’язаний афінним перетворенням
50
225
34
2423
~
~
2
1
2
1
2
1
x
x
x
x
F
x
x
з кругом )(1~~ :~
~~ 2
2
2
1
2
1 DFxx
x
x
D
.
Оскільки область D непорожня, опукла і замкнена, можемо засто-
сувати результат теореми 2; формулу для обчислення проекції точки на круг
D
~
наведено у прикладі 10. У табл. 1 подано результати роботи класичного
методу проекції градієнта (послідовність kx , 0k ) та методу проекції гра-
дієнта з афінним перетворенням (послідовність kFx , , 0k ); в обох випад-
ках для збіжності з точністю до 510 . За початкову точку взято центр еліпса:
10
50,0 Fxx (те ж саме спостерігається і за інших початкових точок).
Т а б л и ц я 1
k 0 1 2 3 4 5
kx
00000.10
00000.5
15950.10
10119.5
15380.10
11600.5
15380.10
11628.5
15380.10
11629.5
15380.10
11628.5
kFx ,
00000.10
00000.5
10.15750-
5.10640
10.15400-
5.11568
15380.10
11623.5
10.15380-
5.11626
10.15380-
5.11626
Отже, комп’ютерне моделювання підтверджує, що
k
k
x
0
lim
15380.10
1627.5
lim ,
0
kF
k
x , що збігається зі значенням )(minarg* xfx
Dx
з точ-
ністю до 510 , проте траєкторії kx і kFx , розрізняються.
Проекція градієнта: спрощення області мінімізації афінним перетворенням
Системні дослідження та інформаційні технології, 2024, № 2 135
Приклад 16. Нехай 2:f , 4
1
2
2
2
1
2
1 )1()1()1(
xxx
x
x
f .
Функція f сильно опукла з параметром 2 , оскільки
2
1
x
x
f
20
0)1(122 2
1x
.
Розглянемо задачу мінімізації функції f на множині 2D
у повернутому прямокутнику (див. приклади 5, 10 і 12)
103x42
543x2
:
21
21
2
1
x
x
x
x
D , який пов’язаний афінним перетворенням
2
1
2
1
2
1
2
1
6.08.0
8.06.0
34
43
5
1
~
~
x
x
x
x
x
x
F
x
x
із прямокутником
)(
2~0.4
1~0.4
:~
~
10~52
5~52
:~
~~
2
1
2
1
2
1
2
1 DF
x
x
x
x
x
x
x
x
D
, сторони якого
паралельні координатним осям.
Оскільки область D непорожня, опукла і замкнена, можемо засто-
сувати результат теореми 2, формула для обчислення проекції точки на пря-
мокутник D
~
наведена у прикладі 10. У табл. 2 наведено результати роботи
класичного методу проекції градієнта (послідовність kx , 0k ) та методу
проекції градієнта з афінним перетворенням (послідовність kFx , , 0k );
в обох випадках для збіжності з точністю до 510 . За початкову точку взято
центр прямокутника:
2.1
7.0
28.1
54.0 10,0 Fxx F (схоже спостеріга-
ється і за інших початкових точок).
Т а б л и ц я 2
k 0 1 2 3 4 5
kx
28000.1
54000.0
1.13951
52688.0
1.15770
69478.0
1.15719
62678.0
1.15720
62778.0
1.15720
62778.0
kFx ,
28000.1
54000.0
1.13951
52688.0
1.15770
69478.0
1.15719
62678.0
1.15720
62778.0
1.15720
62778.0
Отже, комп’ютерне моделювання підтверджує, що
kF
k
k
k
xx ,
00
limlim
15380.10
1627.5
, що збігається зі значенням )(minarg* xfx
Dx
з точністю до
510 , і траєкторії kx і kFx , також збігаються, що пояснюється ортогональ-
ністю матриці
6.08.0
8.06.0
, яка визначає
2
1
x
x
F .
І.Я. Спекторський
ISSN 1681–6048 System Research & Information Technologies, 2024, № 2 136
ВИСНОВКИ
1. Афінне перетворення координат у деяких випадках суттєво спрощує
проектування точки на множину.
2. Афінне перетворення у методі проекції градієнта принаймні не погі-
ршує швидкість збіжності методу.
3. Напрямом подальших досліджень може бути узагальнення отрима-
ного результату на ширший клас перетворень; принциповим має бути збері-
гання опуклості множин та сильної опуклості функцій.
ЛІТЕРАТУРА
1. Andersen Ang, “Projected Gradient Algorithm,” Mathématique et recherche opération-
nelle, 2021. Available: https://angms.science/doc/CVX/CVX_PGD.pdf
2. Sébastien Bubeck, “Convex Optimization: Algorithms and Complexity,” Foundations
and Trends in Machine Learning, vol. 8, no. 3-4, pp. 232–357, 2015. doi:
10.1561/2200000050
3. H. Jongen, K. Meer, and E. Triesch, Optimization Theory. New York, Boston, Dordrechr,
London, Moscow: Kluwer Academic Publisher, 2007, 443 p.
4. A. Sukharev, A. Timokhov, and V. Fedorov, Course Optimization Methods. M.: Nauka,
2005, 368 p.
5. F.P. Vasil’ev, Numerical Methods for Solving Extremal Problems. M.: Nauka, 1988, 552 p.
6. Y. Nesterov, Introductory Lectures on Convex Optimization. Boston, Dordrechr, London:
Kluwer Academic Publisher, 2004, 236 p.
7. A. Goldstein, “Convex programming in Hilbert space,” Bulletin of the American Mathe-
matical Society, no. 70, pp. 709–710, 1964.
8. M.P. Moklyachuk, Foundations of Convex Analysis: Textbook. Kyiv: TViMS, 2004, 240 p.
9. A. Ahmadi, Characterizations of convex functions, strict and strong convexity, optimality
conditions for convex problems. 2021. Available: http://www.princeton.edu/
~aaa/Public/Teaching/ORF523/ORF523_Lec7.pdf
10. R. Rockafellar, Convex Analysis. Princeton: Princeton University Press, 2015, 472 p.
Received 02.08.2023
INFORMATION ON THE ARTICLE
Igor Ya. Spectorsky, ORCID: 0000-0003-4863-7986, Educational and Research Institute
for Applied System Analysis of the National Technical University of Ukraine “Igor Sikor-
sky Kyiv Polytechnic Institute”, Ukraine, e-mail: i.spectorsky@gmail.com
GRADIENT PROJECTION: SIMPLIFYING MINIMIZATION AREA BY AFFINE
TRANSFORM / I.Ya. Spectorsky
Abstract. One of the classical problems of optimization theory in a finite-
dimensional space is to find a minimum of a function on a nonempty set. Usually,
finding the precise solution to this task analytically requires a lot of computational
resources or is even impossible at all. So, approximate methods are used most often
in practical cases. One of the simplest and the most well-known among such ap-
proximate methods for unconditional optimization is the method of gradient descent;
its generalization for conditional optimization was found in 1964, the method of pro-
jected gradient. For some simple sets (line segment, parallelepiped, ball), the projec-
tion of the point on the set can be easily found by an explicit formula. However, for
more complicated sets (e.g., an ellipse), projecting becomes a separate task. Never-
theless, sometimes computing projection can be simplified by affine transform; e.g.,
an ellipse can be transformed into a ball by affine (moreover, by lin-
ear) transformation. The paper aims to simplify the problem of minimizing function
on the set by changing the condition set by affine transform F(x)= Ax+b, where A is
a non-degenerated square matrix, and b is a fixed vector of proper dimension.
Keywords: gradient projection, minimization, affine transformation.
|
| id | journaliasakpiua-article-286064 |
| institution | System research and information technologies |
| keywords_txt_mv | keywords |
| language | English |
| last_indexed | 2025-07-17T10:28:20Z |
| publishDate | 2024 |
| publisher | The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" |
| record_format | ojs |
| resource_txt_mv | journaliasakpiua/a6/a0c737d156c2463ed74de37f66a247a6.pdf |
| spelling | journaliasakpiua-article-2860642024-08-11T01:12:49Z Gradient projection: simplifying minimization area by affine transform Проекція градієнта: спрощення області мінімізації афінним перетворенням Spectorsky, Igor проекція градієнта мінімізація афінне перетворення gradient projection minimization affine transformation One of the classical problems of optimization theory in a finite-dimensional space is to find a minimum of a function on a nonempty set. Usually, finding the precise solution to this task analytically requires a lot of computational resources or is even impossible at all. So, approximate methods are used most often in practical cases. One of the simplest and the most well-known among such approximate methods for unconditional optimization is the method of gradient descent; its generalization for conditional optimization was found in 1964, the method of projected gradient. For some simple sets (line segment, parallelepiped, ball), the projection of the point on the set can be easily found by an explicit formula. However, for more complicated sets (e.g., an ellipse), projecting becomes a separate task. Nevertheless, sometimes computing projection can be simplified by affine transform; e.g., an ellipse can be transformed into a ball by affine (moreover, by linear) transformation. The paper aims to simplify the problem of minimizing function on the set by changing the condition set by affine transform F(x)= Ax+b, where A is a non-degenerated square matrix, and b is a fixed vector of proper dimension. Розглянуто класичну задачу оптимізації у скінченновимірному просторі, тобто знаходження мінімуму функції на непорожній множині. Пошук точного розв’язку цієї задачі аналітичними методами потребує множинних обчислювальних ресурсів або взагалі неможливий. Для реальних задач частіше застосовують методи пошуку наближеного розв’язку, серед яких одним з найпростіших і найвідоміших для задач безумовної оптимізації є метод градієнтного спуску. Узагальненням методу градієнтного спуску на випадок умовної оптимізації є запропонований у 1964 р. метод проекції градієнта. Для деяких типів множини (відрізок, паралелепіпед, куля) проекцію точки на множину можна знайти простими явними формулами, проте для складніших (напр., еліпс) проектування стає окремою задачею мінімізації. Однак у деяких випадках обчислення проекції не можна спростити афінним перетворенням — напр., еліпс афінним (і навіть лінійним) перетворенням можна звести до кулі. Спрощено задачу мінімізації функції на множині застосуванням афінного перетворення F(x) = Ax+b, де A — невироджена квадратна матриця, b — фіксований вектор відповідної розмірності. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2024-06-28 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/286064 10.20535/SRIT.2308-8893.2024.2.09 System research and information technologies; No. 2 (2024); 117-136 Системные исследования и информационные технологии; № 2 (2024); 117-136 Системні дослідження та інформаційні технології; № 2 (2024); 117-136 2308-8893 1681-6048 en https://journal.iasa.kpi.ua/article/view/286064/301165 |
| spellingShingle | проекція градієнта мінімізація афінне перетворення Spectorsky, Igor Проекція градієнта: спрощення області мінімізації афінним перетворенням |
| title | Проекція градієнта: спрощення області мінімізації афінним перетворенням |
| title_alt | Gradient projection: simplifying minimization area by affine transform |
| title_full | Проекція градієнта: спрощення області мінімізації афінним перетворенням |
| title_fullStr | Проекція градієнта: спрощення області мінімізації афінним перетворенням |
| title_full_unstemmed | Проекція градієнта: спрощення області мінімізації афінним перетворенням |
| title_short | Проекція градієнта: спрощення області мінімізації афінним перетворенням |
| title_sort | проекція градієнта: спрощення області мінімізації афінним перетворенням |
| topic | проекція градієнта мінімізація афінне перетворення |
| topic_facet | проекція градієнта мінімізація афінне перетворення gradient projection minimization affine transformation |
| url | https://journal.iasa.kpi.ua/article/view/286064 |
| work_keys_str_mv | AT spectorskyigor gradientprojectionsimplifyingminimizationareabyaffinetransform AT spectorskyigor proekcíâgradíêntasproŝennâoblastímínímízacííafínnimperetvorennâm |