Сучасні стохастичні квазіградієнтні алгоритми оптимізації

Стохастична оптимізація стала провідним методом у різних галузях, таких як машинне навчання, нейронні мережі та обробка сигналів. Ці задачі спрямовані на мінімізацію цільової функції із зашумленими та невизначеними даними. Всебічно порівнюються сучасні квазіградієнтні методи стохастичної оптимізації...

Full description

Saved in:
Bibliographic Details
Published in:Проблеми керування та інформатики
Date:2024
Main Authors: Норкін, В.І., Козирєв, А.Ю., Норкін, Б.В.
Format: Article
Language:Ukrainian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2024
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/211150
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Сучасні стохастичні квазіградієнтні алгоритми оптимізації / В.І. Норкін, А.Ю. Козирєв, Б.В. Норкін // Проблеми керування та інформатики. — 2024. — № 2. — С. 71–83. — Бібліогр.: 35 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859824140000690176
author Норкін, В.І.
Козирєв, А.Ю.
Норкін, Б.В.
author_facet Норкін, В.І.
Козирєв, А.Ю.
Норкін, Б.В.
citation_txt Сучасні стохастичні квазіградієнтні алгоритми оптимізації / В.І. Норкін, А.Ю. Козирєв, Б.В. Норкін // Проблеми керування та інформатики. — 2024. — № 2. — С. 71–83. — Бібліогр.: 35 назв. — укр.
collection DSpace DC
container_title Проблеми керування та інформатики
description Стохастична оптимізація стала провідним методом у різних галузях, таких як машинне навчання, нейронні мережі та обробка сигналів. Ці задачі спрямовані на мінімізацію цільової функції із зашумленими та невизначеними даними. Всебічно порівнюються сучасні квазіградієнтні методи стохастичної оптимізації, ілюструються їхні основні принципи, властивості збіжності та практичні застосування. Вводяться основні поняття градієнтного спуску, стохастичної апроксимації та оптимізації, після чого детально пояснюються методи оптимізації. Поглиблено аналізуються адаптивні стохастичні градієнтні методи, акцентується увага на їхній здатності динамічно змінювати швидкість навчання залежно від структури задачі. Досліджуються узагальнення цих методів на негладкі випадки, описуються проблеми, що виникають при негладких оптимізаційних ландшафтах. Stochastic optimization has become a leading method in various fields such as machine learning, neural networks, and signal processing. These problems aim at minimizing the objective function with noisy and uncertain data. The article comprehensively compares modern quasi-gradient methods of stochastic optimization, illustrates their basic principles, convergence properties, and practical applications. Basic concepts of gradient descent, stochastic approximation, and optimization are introduced, followed by detailed explanations of optimization methods. Adaptive stochastic gradient methods are analyzed in depth, focusing on their ability to dynamically adjust learning rates depending on the problem structure. Extensions of these methods to nonsmooth cases are studied, describing challenges in nonsmooth optimization landscapes.
first_indexed 2026-03-16T13:08:35Z
format Article
fulltext © В.І. НОРКІН, А.Ю. КОЗИРЄВ, Б.В. НОРКІН, 2024 Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2024, № 2 71 СТОХАСТИЧНІ СИСТЕМИ, НЕЧІТКІ МНОЖИНИ УДК 519.95 В.І. Норкін, А.Ю. Козирєв, Б.В. Норкін СУЧАСНІ СТОХАСТИЧНІ КВАЗІГРАДІЄНТНІ АЛГОРИТМИ ОПТИМІЗАЦІЇ Норкін Володимир Іванович Інститут кібернетики імені В.М. Глушкова НАН України,м. Київ, Національний техніч- ний університет України «Київський політехнічний інститут імені Ігоря Сікорського», orcid: 0000-0003-3255-0405 vladimir.norkin@gmail.com Козирєв Антон Юрійович Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», orcid: 0009-0007-6692-2162 a.kozyriev@kpi.ua Норкін Богдан Володимирович Інститут кібернетики імені В.М. Глушкова НАН України, м. Київ, bogdan.norkin@gmail.com Стохастична оптимізація стала провідним методом у різних галузях, таких як машинне навчання, нейронні мережі та обробка сигналів. Ці задачі спрямовані на мінімізацію цільової функції із зашумленими та невизначеними даними. Всебічно порівнюються сучасні квазіградієнтні методи стохастичної оптиміза- ції, ілюструються їхні основні принципи, властивості збіжності та практичні застосування. Вводяться основні поняття градієнтного спуску, стохастичної апроксимації та оптимізації, після чого детально пояснюються методи оптимі- зації. Поглиблено аналізуються адаптивні стохастичні градієнтні методи, акцен- тується увага на їхній здатності динамічно змінювати швидкість навчання зале- жно від структури задачі. Досліджуються узагальнення цих методів на негладкі випадки, описуються проблеми, що виникають при негладких оптимізаційних ландшафтах. Ілюструється застосування вдосконалених методів у контексті за- дач безумовної оптимізації та демонструється їхня ефективність у прискоренні збіжності та підвищенні точності. Цей порівняльний аналіз має на меті дати до- слідникам і практикам глибше розуміння останніх досягнень у стохастичній оп- тимізації та окреслити шлях для майбутніх інновацій. Ключові слова: стохастична оптимізація, стохастична апроксимація, сто- хастична негладка оптимізація, стохастичний градієнтний спуск, стохастич- ний квазіградієнтний метод, адаптивний метод стохастичного градієнта, кінцево-різницевий стохастичний градієнт.  Робота авторів підтримана Національним фондом досліджень України (проєкт 2020.02/0121). https://orcid.org/0000-0003-3255-0405 mailto:vladimir.norkin@gmail.com https://orcid.org/0009-0007-6692-2162 mailto:a.kozyriev@kpi.ua mailto:bogdan.norkin@gmail.com 72 ISSN 2786-6491 Вступ В останні роки зростаюча складність проблем, керованих даними, і збіль- шення масштабів наборів даних підкреслили важливість ефективних методів оп- тимізації в різних галузях, таких як машинне навчання, компʼютерний зір (CV — Computer Vision) і обробка природної мови (NLP — Natural Language Processing). Методи стохастичної оптимізації, які спрямовані на мінімізацію цільових функцій в умовах невизначеності та шуму, привертають значну увагу як метод вирішення цих задач. Основна ідея таких методів полягає у використанні градієнтної інфор- мації з випадково вибраної підмножини даних, що зменшує обчислювальну склад- ність при збереженні загального напрямку до оптимуму. У цій статті проведемо порівняльний аналіз сучасних квазіградієнтних методів стохастичної оптимізації, розглянемо їхні теоретичні основи, властивості збіжності та практичні застосу- вання. Введемо фундаментальні поняття градієнта, градієнтного спуску та стохас- тичної оптимізації, перш ніж досліджувати тонкощі класичних та адаптивних сто- хастичних градієнтних методів. Крім того, досліджуються узагальнення цих методів на негладкі випадки та їхню застосовність у нейронних мережах. Оптимізація відіграє вирішальну роль у навчанні моделей та їхній продуктивності в цій галузі. Запропоновані у статті всебічний огляд і порівняння сучасних методів стохастичної оптимізації мають на меті заохочувати дослідників і практиків до більш усвідомленого вибору, що в під- сумку сприятиме подальшому прогресу. Історично еволюція методів оптимізації характеризується появою та розвит- ком багатьох стохастичних квазіградієнтних (SQG — Stochastic Quasi-Gradient) методів. Першими стохастичними методами оптимізації вважаються методи ап- роксимації Роббінса–Монро [1] та Кіфера–Вольфовіца [2] у 1950-х роках. Після цих новаторських робіт в 1960-х роках зʼявився алгоритм стохастичного квазі- градієнтного спуску Ю.М. Єрмолʼєва [3] — метод управління невизначеностями, притаманними негладким опуклим стохастичним задачам. У 1960-ті роки Б.Т. Поляк запропонував «метод важкої кулі» (Momentum — метод імпульсу) [4, 5], який включав множник швидкості, що породжувало більш плавну траєкторію зближення та надавало вагову складову попереднім градієн- там. Не менш важливим внеском цієї епохи був прискорений метод Нестерова (NAG — Nesterovʼs Average Gradient Method) [6] — особливо впливовий метод, який запровадив механізм попередньої оцінки градієнта і в такий спосіб покращив збіжність і зменшив осциляції траєкторії збіжності. Крім того, в цьому десятилітті також зʼявився метод дзеркального спуску Немировського–Юдіна [7] — метод оп- тимізації з усередненням траєкторії спуску, що забезпечує більшу гнучкість на всьому оптимізаційному ландшафті. З 2010-х років спільнота оптимізаторів переорієнтувалася на адаптивні методи, що демонструвало тенденцію до коригування швидкості навчання на основі істори- чної інформації про градієнт. AdaGrad (Adaptive Gradient) [8] став лідером у цій га- лузі завдяки унікальному калібруванню швидкості навчання щодо кожного параметра та демонструванню своєї ефективності, особливо на розріджених наборах даних [9]. RMSProp (Running Mean Square Propagation), що наслідував його, застосував ковзну середню попередніх квадратичних градієнтів для стабілізації змін швидкості нав- чання [10]. Алгоритм ADAM (Adaptive Momentum), що синтезував принципи «метода важкої кулі» і RMSProp, зберіг оцінки першого моменту градієнта, а також його не- зміщений другий момент і у такий спосіб позиціонував себе як передовий алгоритм у величезному просторі методів глибокого навчання [11]. Останні тенденції ілюструють зростання кількості оптимізаційних задач, що характеризуються негладкими цільовими функціями, наприклад нейронні мережі Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2024, № 2 73 з розривними функціями активації [12–14]. Класичні алгоритми градієнтного спус- ку, які детально описані вище, призначені виключно для розвʼязання задач з глад- кими цільовими функціями. Отже, можуть виникати проблеми в контекстах з не- гладкими цільовими функціями через розриви градієнта, які є основним джерелом навігаційної інформації. Поширеним рішенням проблеми є застосування методу згладжування Стеклова [15–18], тобто апроксимація значення градієнта в певному околі поточної точки використання згладженої цільової функції в градієнтній ре- курентній послідовності. Інше рішення передбачає апроксимацію градієнта за до- помогою відповідних скінченних різниць [16]. 1. Задача стохастичної оптимізації Математичне формулювання, яке має на меті знайти оптимальний розвʼязок цільової функції в умовах невизначеності та шуму, притаманних базовим даним або системі, — це задача стохастичної оптимізації. На відміну від детермінованої оптимізації, де цільова функція і обмеження точно визначені, стохастична оптимі- зація має справу з проблемами, де деякі компоненти мають випадковий характер, що робить оптимізаційний ландшафт більш складним. Нехай 1:F W → — цільова функція з областю визначення ,nW  1:f W → — опукла та диференційована функція, яка залежить від детермі- нованої змінної w W та стохастичної змінної , визначеної на просторі ( , , ),P  n — стандартний n -вимірний евклідів простір. Тоді задачу стохастич- ної оптимізації можна подати у вигляді [3, 19] min ( ) ( , ) ( , ) ( )w W F w f w f w P d   =  =      , (1) де — оператор математичного сподівання. Основною проблемою задачі (1) є неможливість явно обчислити значення інтеграла (математичне сподівання) та значення градієнта інтеграла. Рішення полягає у використанні алгоритмів стохас- тичного градієнтного спуску, які використовують градієнти ( , )w f w  стохастич- ної функції ( , )f   або їхні кінцево-різницеві заміни на кожній ітерації. 1.1. Стохастична апроксимація. Перші кроки в розробці стохастичних ал- горитмів зроблено в роботі Роббінса та Монро [1], де автори розглянули задачу пошуку кореня функції :F W= → з відповідним шумовим доданком за при- пущенням, що розподіл його має нульове математичне сподівання. Припустимо, що функцію ( )F w не можна безпосередньо спостерігати, тоді маємо змогу набли- зити її за допомогою вимірювання випадкової величини ( , )k kf w  у точках kw і такої, що для умовного стохастичного сподівання виконано [ ( , ) ]k k k kf w w   = ( ).F w= Відповідно, запропонований алгоритм являє собою наступну рекурентну послідовність: 1 ( , ),k k k k kw w wf+ = −  0,1,...,k = (2) де k — послідовність додатних покрокових множників. Кіфер та Вольфо- віц [2] запропонували розширення алгоритму (2) на пошук екстремуму функ- ції :F → за припущенням, що є випадкові спостереження ( , )k kg w  гра- дієнта ( )wF w функції вартості ( )F w в точці kw на ітерації .k Як ( , )k kg w  74 ISSN 2786-6491 автори пропонують брати кінцево-різницеві оцінки градієнтів функції ( , )kf   в точці .kw Запропонований алгоритм являє собою кінцево-різницеву апрок- симацію за збуреними значеннями параметрів k kw +  та k kw −  відповідно: 1 ( , ) ( , ) , 2 k k k k k k k k k k f w f w w w+ +  − −  = −  0,1,...k = . (3) 1.2. Застосування стохастичних квазіградієнтних алгоритмів у машин- ному навчанні. Проблеми стохастичної оптимізації виникають у різних сферах, таких як фінанси, управління ланцюгами поставок, машинне навчання та дослі- дження операцій, де рішення повинні прийматися на основі неповної або неви- значеної інформації [3, 19]. Штучна нейронна мережа — математична модель, що є деяким представлен- ням нейронних мереж живих тварин та діє схожим чином. Ці моделі складаються з нейронів та синаптичних звʼязків між ними. Нейрони поділяють на окремі гру- пи, які називають шарами. Загальний принцип роботи полягає у тому, що вхідні дані поступово передаються між нейронами, які утворюють між собою синапс. Синаптичні звʼязки мають деякий числовий параметр, що зветься «вага» та відпо- відає за силу звʼязку між нейронами або, інакше кажучи, відображає міру впливу інформації з попереднього нейрона на наступний. На цей час абсолютна більшість нейронних мереж належить до класу feed- forward neural network (дослівно: пряма нейронна мережа). Задачею такої мережі є знаходження деякої функції ( ),x яка для певної вибірки пар { ; }x y наближатиме функцію ( )y x= для усіх пар вибірки. Для пошуку такої апроксимації задається також цільова функція похибки ( , ),f y y де y — згенерований нейромережею результат, а y — очікуваний результат, а також наступна модель нейронної ме- режі. Нехай 1( ,..., ,..., )j nw w w w= — ваги нейронної мережі, тоді вихідний ре- зультат мережі залежить від вхідних даних x і ваг w моделі: ( , ).y w x =  Сформулюємо задачу навчання нейронної мережі наступним чином [12]: ,( ) ( ( , ), ) min ,nx y w F w f w x y  =  → де математичне сподівання береться за випадковими парами ( , ).x y = У прямих нейронних мережах для цього використовується чисельний метод стохастичного градієнтного спуску. Загальна формула алгоритму є доволі простою: 1 ( ( , ), ),k k k k k ww w f w x y+ = −  0 ,nw  0,1,...k = , де ( )F w — цільова функція для мінімізації,  — параметр швидкості градієнтно- го спуску, ( , )k k kx y = — приклад тренувальної вибірки, що використовується на ітерації .k Ініціалізація параметрів 0w моделі відбувається випадковим чи- ном, тому їх треба адаптувати для мінімізації цільової функції. У разі штучних нейронних мереж розрахунок градієнта відбувається для кож- ної компоненти вектора параметрів .w Для розрахунку значень похідної активно використовуються правила диференціювання складної функції (backpropagation, автоматичне диференціювання). Однією з головних проблем цього методу вважається його нестабільність та потреба у налаштуванні параметра . Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2024, № 2 75 2. Стохастичні градієнтні методи У сценаріях, де можемо обчислити значення функції ( )F w та її відповідні градієнти ( ),F w задача оптимізації (1) розвʼязується за допомогою детермінова- них методів нелінійного програмування. Найпростіший градієнтний алгоритм сформулюємо наступним чином [3]: 1 0( ( )), ( ) arg min , , ,k k k k w WW Ww F w vw w w W k+ =  −   = −   (4) де k позначає номер ітерації для даного методу, ( )kF w — градієнт цільової функції ( )kF w у точці ,kw w= а W є ортогональним оператором проєктування на компактну опуклу множину .W 2.1. Стохастичний градієнтний спуск. Визначення [3]. Випадковий вектор ku називається стохастичним градієнтом функції ( )F w у точці ,kw w= якщо виконується умова { }k ku w = ( ),kF w де { }k ku w позначає умовне математичне сподівання. Отже, якщо ( ) [ ( , )],ww fF w =   то вектор ( , ),k k k wu f w=   градієнт вздовж змінної w для функції ( , ),kf   що визнає значення параметра k =  сталим, дійсно є стохастичним градієнтом функції ( )F w в точці .kw w= Нехай k позначає невідʼємні множники кроку для градієнта, а { }k — не- залежні спостереження (або статистику) випадкової величини . Відповідний ме- тод стохастичного градієнтного спуску (SGD — Stochastic Gradient Decent) тоді виражається наступним рекурентним рівнянням [3]: 1 0( ), , .k k k X kw uw w X k+ =  −   (5) Для забезпечення збіжності методу, заданого рівнянням (5), потрібно, щоб множники кроку 0k  задовольняли умови, окреслені нижче: 2 0 0 , .k k k k   = =  = +   +  (6) Ці умови свідчать про те, що в той час, як сума множників кроків повинна прямувати до нескінченності, сума їхніх квадратів має залишатися скінчен- ною. Зазначені вимоги є важливими для підтримки балансу між достатнім прогресом та уникненням занадто великих кроків, які можуть порушити збіж- ність алгоритму. У пакетному варіанті градієнтного спуску (5), дослідженому в роботах [12, 20], використовується наступний варіант градієнта 1 1 ( , ). kN k k k k w i i u f w N = =   Тут { , 1,..., }k i ki N = репрезентує незалежні спостереження випадкової величини  на ітерації .k Однак варто зазначити, що з погляду споживання памʼяті пакетна вер- сія потрапляє до категорії «жадібних алгоритмів», оскільки вона потребує заван- таження до памʼяті всього набору вхідних ознак. І навпаки, SGD завантажує лише один елемент з набору ознак, наприклад один запис з великого масиву даних. Це робить SGD більш придатним для вирішення таких завдань, як глибоке навчання нейронних мереж. 76 ISSN 2786-6491 У мініпакетній версії [9, 21] стохастичний градієнт обчислюється з випад- ково вибраної підмножини стохастичних змінних ( ) { } k k k i i NM    з фіксова- ним розміром : ( ) .k ii M m  = Цей варіант має вигляд 1 1 ( , ),w m k k k i i u f w m = =   { , 1,..., },k i i m = ,km N і часто розглядається як «золота середина» між стабільні- стю збіжності, яку забезпечує пакетний градієнтний спуск, та оптимальним вико- ристанням памʼяті стохастичного градієнтного спуску. 2.2. Прискорені методи. Базовий мініпакетний градієнтний спуск має пе- вні труднощі, повʼязані зі збіжністю. Основна проблема полягає у визначенні оптимальної швидкості навчання, оскільки занадто мала швидкість призводить до повільної збіжності, тоді як велика може спричинити нестабільність і поте- нційно призвести до розбіжності. Програмні стратегії швидкості навчання пропонують певний рівень контролю, але вони за своєю суттю обмежені в адаптивності через власні фіксовані параметри, які можуть не повністю відпо- відати специфічним особливостям визначеного набору даних. Зазначимо, що застосування єдиної швидкості навчання для всіх оновлень параметрів може бути неефективним для розріджених даних або ознак, що змінюються з різною частотою. Більше того, мінімізація неопуклих функцій помилок у нейронних мережах може бути ускладнена через ризик потрапляння в пастку локальних мінімумів, які є неоптимальними, або сідлових точок [22] через близькі до ну- ля градієнти. Для вирішення цих проблем можна застосувати нормалізацію стохастичних градієнтів [12] у рекурентному рівнянні (5): 1 0( ), , ,k k k k X kw w H u w X k+ =  −   (7) де kH — квадратна діагональна матриця з невідʼємними коефіцієнтами на ді- агоналі, які визначаються поточною ітерацією kw або всією траєкторією 0 1{ , , ..., }.kw w w Як приклад, елементами діагоналі можуть бути 1 , ( ) k ii k h u = +  де 0.  Метод дзеркального спуску Немировського–Юдіна [7] ще більше покращує процес збіжності шляхом додавання усереднення до ітераційної послідовності (5), як показано нижче: 1 1 1 1 1 1 1 1 (1 ) ,/ k k k i k k i i k k i i w w ww + + + + + + = = =   = − +  1 1 1 0 , ./ k k k i i k + + + =  =    Б.Т. Поляк [4, 5] ввів множник прискорення  разом з множником швидкості зближення  в «метод важкої кулі» (також відомий як градієнтний спуск по ім- пульсу), який відповідає величині градієнта спуску .ku Це дозволяє керувати при- скоренням швидкості зближення за величиною градієнта. Для опису поведінки градієнтного спуску автор використав фізичну аналогію руху тіла в потенційному полі під дією сили тертя, що описується ньютонівським диференціальним рівнян- ням другого порядку: Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2024, № 2 77 2 2 ( ),w w a v w w tt F   + = −  де a — множник маси, v — множник тертя, а градієнт ( )wF w — консерватив- не силове поле з потенціальною енергією. Можемо використати кінцево-різницеві оцінки градієнта для перетворення множників прискорення та швидкості у дис- кретні значення: 1 1 1 2 2 ( ). k k k k k w w w w a v w t w w F t + − +− + − + = −  Далі впорядковуємо схожі терміни і розташовуємо незалежні параметри з одного боку, а решту параметрів — з іншого: 2 1 1( ) ( ).w k k k k kt a w ww w w a v t a v F t + − − = −  + − +  +  З огляду на умову фіксованого значення z для кожного елемента x незалеж- ного набору параметрів можемо спростити наведене вище рівняння через ви- раження кроку градієнтного спуску як 2 ( ) t a v t   = +  і множника імпульсу — як ( ) a a v t  = +  і отримати рекурентну послідовність «методу важкої кулі» [4, 5, 12, 23, 24] для розвʼязання оптимізаційної задачі (1) на просторі :nW = 1 1 0( ) ( ), , .k k k k k n k k xw w w w w w kF+ −= +  − −    Множники 0, 0k k    можуть залежати від kw або 0{ , ..., },kw w а замість ви- значених градієнтів ( )kF w дозволено використовувати стохастичні градієн- ти ku функції .( ), kF w w w= Імпульсний множник може прискорити швидкість збіжності алгоритму градієнтного спуску і зробити його швидшим в областях плато і сідлових точках цільової функції. Однак накопичення імпульсу градієнт- ного спуску ускладнює контроль швидкості збіжності в околі мінімуму. Алгоритм може «пропускати» мінімуми і вимагати додаткових ітерацій для зменшення множника імпульсу. Метод Нестерова (або метод яружного кроку) [6, 25] визначається наступною рекурентною послідовністю: ( ),k k k k vw v F= −  1 1 0 0( ), , ,k k k k n kv w w w w v k+ −= +  − =   де 0k  — крок вздовж яру. Замість детермінованих градієнтів ( )kF w можна використовувати стохастичні градієнти функції ( ).F w Перше рівняння методу означає спуск з точки kv до низини kw яру функції ( ),F w а друге рівняння — крок вздовж яру з точки kw у напрямку 1( ).k kw w −− 2.3. Адаптивні методи. Для наведених вище методів актуальною є проблема збіжності на розріджених даних (проблема зникаючих градієнтів). Рішення полягає в адаптації кроку градієнтного спуску k до значень зі статистичної вибірки на певній 78 ISSN 2786-6491 ітерації при виконанні більших оновлень параметрів kw для розріджених значень вхідних параметрів k і малих оновлень для частих значень вхідних параметрів [12]. AdaGrad [8]. Даний алгоритм адаптує крок навчання кожного з параметрів при виконанні великих оновлень для нерегулярних параметрів та незначних для параметрів, які оновлюються занадто часто. Крок навчання  регуляризовано до- датковим параметром ,kG який акумулює значення градієнтів на минулих кроках: 1 , 1,..., ; 0,1,...k k k j j j k j w w g j n k G +  = − = = + , де k jg — j -та компонента стохастичного градієнта функції F в точці kw = 1( , ..., , ..., ),k k k j nw w w= k jG — комбінація попередньо акумульованих градієнтів 1 2( ) ,k k k j j jG G g−= + 1,..., .j n= У разі навчання нейронної мережі параметри 1( ,..., )nw w w= є вагами мережі, k означає крок оптимізації, а не шар мережі. За цих обставин в околі мінімуму значення градієнтного множника наближа- ється до нуля, а значення кроку — до нескінченності, що призведе до того, що по- слідовність градієнтного спуску вийде за межі простору визначення функції. Щоб вирішити цю проблему, потрібно додати до градієнтної складової k jG у знамен- нику згладжуючий доданок 80 .1 −  Хоча метод і вирішує проблему налаштування величини кроку оптимізації, проте виникає нова — акумуляція градієнтів у знаменнику призводить до поступового на- ближення кроку до нуля. Метод має кращу збіжність на розрідженій вибірці, але сума квадратів значень градієнта призводить до поступового зменшення значення кроку градієнта. RMSProp [8, 10]. Серйозним недоліком AdaGrad є експоненційне наближен- ня кроку оптимізації до нуля через неконтрольований ріст значення нормування. З одного боку, це стабілізує алгоритм оптимізації, з іншого — крок оптимізації стає настільки незначним, що модель ніколи не наблизиться до точки оптимуму. Вирішенням недоліку неконтрольованого зменшення кроку є використання сто- хастичної апроксимації значення компоненти градієнта kG величиною [ ].kG В алгоритмі RMSProp (середньоквадратичного адаптивного кроку) ця проблема вирішується за допомогою ковзного середнього: 1 2(1 )( ) ,k k k j j jG G g−= + − 1 , 1,..., ; 0,1,...k k k j j j k j w w g j n k G +  = − = = + , де  — параметр усереднення, зазвичай 0,9. ADAM [11]. Даний алгоритм, на відміну від AdaGrad та RMSProp, адаптує не лише величину кроку оптимізації, але й зберігає напрямок руху минулих онов- лень подібно до моменту: 1 1 1(1 ,)k k k j j jm m g−= + − 1 2 2 2(1 ( ) ,)k k k j j jv v g−= + − 1 ,k k k j j j k j w w m v +  = − + 1,..., ; 0,1,...,j n k= = де 1 2,  — параметри, типові значення 0,9 та 0,999 відповідно. Додано примітку [H1]: нормування? унормування? Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2024, № 2 79 Важливо зазначити, що значення km і kv можуть бути зміщеними (тобто очікуване значення параметра не дорівнює самому значенню), що призводить до неочікуваної поведінки дисперсії коливань. Виправлені оцінки моментів першого та другого порядку мають вигляд [11]: 1 2 , . 1 1 k k k km v m v= = − − Величини km та kv є поточними статистичними оцінками градієнтів ( )kF w та норм 2 ( )kF w для цільової функції задачі (1). Таким чином, отримуємо ітера- ційну послідовність методу адаптивного оцінювання моментів (ADAM) [11]: 1 0, 1,..., , , N.k k k n j j j k j w w m j n w k v +  = − =   +  2.4. Узагальнення для негладких функцій. У класичних градієнтних алго- ритмах обчислення значень градієнта ( )wF w є обовʼязковою вимогою, що ство- рює значні труднощі в контексті негладких функцій. Такі функції, що характери- зуються відсутністю диференційованості в певних точках області визначення, призводять до значних труднощів при використанні традиційних градієнтних ме- тодів оптимізації. Проявами цих труднощів є низька продуктивність алгоритмів через потенційні проблеми зі збіжністю, непередбачувані напрямки пошуку та за- гальну нездатність встановити навіть локальний оптимум. Узагальнення приско- рених методів (важкої кулі [3], яружного кроку [6], дзеркального спуску [7]) на клас так званих узагальнено диференційованих функцій здійснено у роботі [26]. Надалі будемо вважати, що функція ( ), ,F w w W є ліпшицевою, тобто існує додатна константа 0,L  така, що ( ) ( ) , .F v F w L v w v w W−  −   Відомо, що ліпшицеві функції є неперервно диференційованими майже всю- ди, а в точках, де вона не є такою, визначають субдиференціал [27] ( )F w = { lim ( ), }.k k kg F w w w= =  → У дослідженнях [15, 16, 26, 28] запропоновано метод згладжування неглад- ких функцій, а саме усереднення на гіперкубах (також відомий як згладжування Стеклова [18]), застосований для дослідження та оптимізації негладких ліп- шицевих функцій з використанням стохастичних кінцево-різницевих методів. Щоб гарантувати локальну збіжність методу оптимізації до стаціонарних точок задачі, параметр згладжування прямує до нуля та узгоджується з ітераційними кроками методу. У роботах [29–34] знаходження оцінки градієнта ліпшицевої функ- ції ( )F w пропонується вирішувати за допомогою згладжування на кулі: 1 1 1( ) ( ) ( ) , V w v FF w v dv −= + де 1 2 { : 1}nV v v=   — одинична куля в n з обʼємом 1.v Згладжена функція ( )F w є неперервно диференційованою, її градієнт дорів- нює очікуваному значенню субдиференціала по кулі [33]: 1 1 ( ) ( ) . V n F w F w v dv =  +    80 ISSN 2786-6491 Альтернативно градієнт ( )F w неперервної функції ( )F w обчислюється поверх- невим інтегралом ( ) 1 1 1 ( ) ( ) ( ) , 2S w s n F F w v F w v vds h  = +  − −  де 1 2 { : 1}nS v v=  = — одинична сфера в n з площею 1.s Позначимо v випадковий вектор, рівномірно розподілений на одиничній сфері 1,S тоді градієнт ( )F w може бути репрезентований у вигляді математич- ного сподівання ( ) [ ( ) ( )] .v n F x F w v F w v v h  = + − − При його використанні можемо мінімізувати згладжену функцію ( )F w на мно- жині nW  (і наближено мінімізувати вихідну функцію ( )F w ) стохастичним методом кінцево-різницевого градієнта: 1 ,( )k k W k kw w+ =  −  0 ,w W 1 1 1(2 ) ( ( ) ( )) ,k k k k k t k i ki m k i im F w v F w v v− − = =  +  − −  0,1,...k = , де 1}{ i k m iv = — незалежні випадкові вектори, рівномірно розподілені на одиничній сфері, або 1 1 ( ),k k t ki m im F w v− = =  +  де 1}{ k i i mv = — незалежні випадкові вектори, рівномірно розподілені на одиничній кулі. Швидкість збіжності усередненої траєкторії цього методу на опуклих неглад- ких ліпшицевих функціях вивчена в [35]. 3. Числові результати Для порівняння швидкості збіжності методів проведено низку тестів на яружних функціях з різною кількістю кінцевих різниць 1 1 ( ( ) ( )) . 2 k kk k i m k k i i iF w w vFv v =  = +  − +    Визначено, що невелика кількість m кінцевих різниць у стохастичному на- прямку може суттєво зменшити кількість ітерацій. Реалізоване програмне за- безпечення для тестування швидкості збіжності не використовує алгоритми автоматичного диференціювання для обчислення градієнта. Замість цього за- стосовували кінцеві різниці для оцінки градієнтів з розміром числової сітки , де неузагальнений градієнтний алгоритм має 1m = кінцевих різниць. За допо- могою центральних кінцевих різниць другого порядку досягли точності 2( ).O  Узагальнена форма градієнтного спуску здебільшого покращує швидкість збіж- ності неадаптивних методів, оскільки вони мають гірші навігаційні властивос- ті через фіксований множник кроку . Порівняння швидкості збіжності алгоритмів на гладкій цільовій функції 2 2 2 1 1 2 1 2( , ) log (1 ) 10f w w w w= + + продемонстровано в табл. 1. Задані початкова точка 0 (0,1)w = та гіперпараметри 0,001, = 0,1,adagrad = 0,00001, = 1 0,001, = 2 0,01, = 0,9, = 1 0,9, = 2 0,999. = Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2024, № 2 81 Таблиця 1 m SGD Polyak Nesterov AdaGrad RMSProp ADAM 1 32331 3169 3175 1062 1055 3745 3 10528 1664 1435 450 1085 2076 5 17589 2151 2261 560 1073 2595 7 21349 2148 2389 610 1069 2726 В табл. 1 показано число ітерацій методів для досягнення точності по градіє- нту 1 0,001. = В табл. 2 репрезентується порівняння поведінки алгоритмів на негладкій неопуклій цільовій функції 2 2 1 2 1 2 1( , ) 1 100f w w w w w= − + − . Задані початкова точка 0 ( 1,1)w = − та гіперпараметри: кількість ітерацій = 50000, крок спуску 0,001, = параметр згладжування 0,001, = 0,9, = 1 0,9, = 2 0,999. = Таблиця 2 m SGD Polyak Nesterov AdaGrad RMSProp ADAM 0 2,321078 6,836364 4,648051 1,770273 1,021553 0,980610 3 1,127154 1,30318 1,017222 1,783618 0,597922 0,006344 В табл. 2 представлено значення цільової функції після 50000 ітерацій, зна- чення 0m = відповідає використанню детермінованого градієнта в методах, а 3m = — трьох випадкових кінцевих різниць для оцінки градієнтів. Хід ітерацій методів, залежність значень цільової функції 2 1 2( , )f w w від чи- сла ітерацій методу показано рисунку (ліворуч — 0,m = праворуч — 3m = ). Висновок У статті репрезентовано комплексний огляд сучасних стохастичних градієнтних алгоритмів з їхнім узагальненням на негладкі цільові функції. Для узагальненого кін- цево-різницевого алгоритму градієнтного спуску отримано оцінку швидкості збіжнос- ті. При експериментальному порівнянні швидкості збіжності на яружних функціях адаптивні градієнтні алгоритми в узагальненому вигляді показали кращу продуктив- ність, ніж їхнє класичне представлення. Проблемою неадаптивних градієнтних алгоритмів є їхній фіксований крок множника, який може бути вузьким місцем при розріджених вхідних даних. 0 3 6 0 20000 40000 0 20000 40000 Графік відношення значення цільової функції до числа ітерацій при m=0 Графік відношення значення цільової функції до числа ітерацій при m=3 1 2 3 4 5 6 1 — Momentum, 2 — NAG, 3 — ADAM, 4 — RMSProp, 5 —AdaGrad, 6 — SGD 1 — Momentum, 2 — NAG, 3 — ADAM, 4 — RMSProp, 5 —AdaGrad, 6 — SGD 1 2 4 5 3 6 82 ISSN 2786-6491 V. Norkin, A. Kozyriev, B. Norkin MODERN STOCHASTIC QUASI-GRADIENT OPTIMIZATION ALGORITHMS Vladimir Norkin V.M. Glushkov Institute of Cybernetics of the NAS of Ukraine, Kyiv, National Tech- nical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute», vladimir.norkin@gmail.com Anton Kozyriev National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute», sonara4mus@gmail.com Bogdan Norkin V.M. Glushkov Institute of Cybernetics of the NAS of Ukraine, Kyiv, bogdan.norkin@gmail.com Stochastic optimization has become a leading method in various fields such as ma- chine learning, neural networks training, and signal processing. These problems are aimed at minimizing the objective function with noisy and uncertain data. Such prob- lems are attributed to stochastic programming. The article comprehensively com- pares modern quasi-gradient methods of stochastic optimization, illustrates their basic principles, convergence properties, and practical applications. First, basic con- cepts of gradient descent, stochastic approximation and optimization are introduced, and then optimization methods are explained in detail. Extensions of the basic gradi- ent descent such as Nemirovski’s mirror decent, Polyak’s heavy ball (momentum) and Nesterov’s valley step methods are reviewed. Beside these classical methods, adaptive stochastic gradient methods are analyzed in depth; attention is focused on their ability to dynamically change the learning rate and decent directions depending on the structure of the problem and a course of optimization. The nomenclature of adaptive stochastic gradient methods includes AdaGrad, RMSProp, ADAM. Gener- alizations of these methods to the case of non-smooth objective function are studied; problems arising in non-smooth optimization landscapes are described. These gener- alizations exploit the idea of smoothing coming back to Steklov (1907) and consist in approximation of the original objective function by a sequence of close smoothed functions. The latter admit approximation of their gradients in the form of finite dif- ferences in random directions. The application of these improved methods in the con- text of unconditional optimization problems is illustrated and their effectiveness in accelerating convergence and increasing accuracy is demonstrated. In particular, our experiments demonstrate a considerable positive effect of smoothing on the behavior of the methods in case of nonsmooth problems. This benchmarking study aims to provide researchers and practitioners with a deeper understanding of recent advances in stochastic optimization and outline a path for future innovation. Keywords: stochastic optimization, stochastic approximation, stochastic non-smooth optimization, stochastic gradient descent, stochastic quasi-gradient method, adaptive stochastic gradient method, finite-difference stochastic gradient. ПОСИЛАННЯ 1. Robbins H., Monro S. A stochastic approximation method. The Annals of Mathematical Statistics. 1951. Vol. 22(3). P. 400–407. DOI: https://doi.org/10.1214/aoms/1177729586 2. Kiefer J., Wolfowitz J. Stochastic estimation of the maximum of a regression function. The Annals of Mathematical Statistics. 1952. Vol. 23, N 3. P. 462–466. 3. Ермольев Ю.М. Методы стохастического программирования. Москва : Наука, 1976. 4. Polyak B. Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics. 1964. Vol. 4(5). P. 1–17. DOI: https: //doi.org/10.1016/0041-5553(64)90137-5 5. Поляк Б.Т. Введение в оптимизацию. Москва : Наука, 1983. 384 с. 6. Nesterov Y.E. A method of solving a convex programming problem with convergence rate O(1/k2). Doklady Akademii Nauk. Russian Academy of Sciences. 1983. Vol. 269. P. 543–547. mailto:vladimir.norkin@gmail.com mailto:sonara4mus@gmail.com mailto:bogdan.norkin@gmail.com https://doi.org/10.1214/aoms/1177729586 https://doi.org/10.1016/0041-5553(64)90137-5 https://doi.org/10.1016/0041-5553(64)90137-5 Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2024, № 2 83 7. Nemirovskij A.S., Udin D.B., Dawson E.R. Problems of convex stochastic programming. John Wiley & Sons, 1983. P. 182–197. 8. Duchi J., Hazan E., Singer Y. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research. 2011. Vol. 12. P. 2121–2159. 9. Ruder S. An overview of gradient descent optimization algorithms. 2016. arXiv preprint arXiv:1609.04747. 10. Tieleman T., Hinton G. Lecture 6.5-rmsprop: divide the gradient by a running average of its recent magnitude. Coursera: Neural Networks for Machine Learning. 2012. Vol. 4, N 2. P. 26–31. 11. Kingma D.P., Ba J. Adam: A method for stochastic optimization. 2014. arXiv preprint arXiv: 1412.6980. 12. Bottou L., Curtis F.E., Nocedal J. Optimization methods for large-scale machine learning. SIAM Review. 2018. Vol. 60(2). P. 223–311. DOI: https://doi.org/10.1137/16m1080173 13. Longo M., Opschoor J.A., Disch N., Schwab C., Zech J. De rham compatible deep neural network FEM. Neural Networks. 2023. Vol. 165. P. 721–739. DOI: https://doi.org/10.1016/ j.neunet.2023.06.008 14. Ustimenko A., Prokhorenkova L. StochasticRank: global optimization of scale-free discrete functions. 2020. CoRR abs/2003.02122. DOI: https://doi.org/10.48550/arXiv.2003.02122 15. Gupal A.M. A method for the minimization of almost-differentiable functions. Cybernetics. 1977. Vol. 13(1). P. 115–117. 16. Гупал А.М. Стохастические методы решения негладких экстремальных задач. Киев : Нау- кова думка, 1979. 149 с. 17. Ermoliev Y.M., Norkin V.I., Wets R.J.B. The minimization of semicontinuous functions: Mollifier subgradients. SIAM Journal on Control and Optimization. 1995. Vol. 33(1). P. 149–167. DOI: https://doi.org/10.1137/s0363012992238369 18. Chagas J.Q., Diehl N.M.L., Guidolin P.L. Some properties for the Steklov averages. 2017. 33 p. DOI: https://doi.org/10.48550/arXiv.1707.06368 19. Shapiro A., Dentcheva D., Ruszczy ́nski A. Lectures on stochastic programming: modeling and theory. Society for Industrial Mathematics. 2009. DOI: https://doi.org/10.1137/1.9780898718751, https://epubs.siam.org/doi/abs/10.1137/1.9780898718751 20. Qian X., Klabjan D. The impact of the mini-batch size on the variance of gradients in stochastic gradient descent. arXiv 2020. arXiv preprint arXiv:2004.13146. 21. Surono S., Thobirin A., Hsm Z.A., Astuti A.Y., Kp B.R., Oktavia M. Optimization of fuzzy system inference model on mini batch gradient descent. Frontiers in Artificial Intelligence and Applications. 2022. DOI: https://doi.org/10.3233/faia220387 22. Dauphin Y., Pascanu R., Gulcehre C., Cho K., Ganguli S., Bengio Y. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization. 2014. arXiv preprint arXiv:1406.2572 23. Qian N. On the momentum term in gradient descent learning algorithms. Neural Networks. 1999. Vol. 12(1). P. 145–151. DOI: https://doi.org/10.1016/s0893-6080(98)00116-6 24. Liu W., Chen L., Chen Y., Zhang, W. Accelerating federated learning via momentum gradient descent. IEEE Transactions on Parallel and Distributed Systems. 2020. Vol. 31(8). P. 1754–176. DOI: https://doi.org/10.1109/tpds.2020.2975189 25. Walkington N.J. Nesterovʼs method for convex optimization. SIAM Review. 2023. Vol. 65(2). P. 539–562. DOI: https://doi.org/10.1137/21M1390037 26. Михалевич В.С., Гупал А.М., Норкин В.И. Методы невыпуклой оптимизации. М. : Наука, 1987. 280 с. 27. Clarke F.H. Optimization and nonsmooth analysis. SIAM, 1990. 305 p. 28. Mayne D.Q., Polak E. Nondifferential optimization via adaptive smoothing. Journal of Optimization Theory and Applications. 1984. Vol. 43(4). P. 601–613. DOI: https://doi.org/ 10.1007/bf00935008 29. Norkin V. Two random search algorithms for minimizing non-differentiable functions. In: Ermoliev Y.M., Kovalenko I.N. (eds.) Mathematical Methods of Operations Research and Reliability Theory. Kyiv : Institute of Cybernetics of the NAS of Ukraine, 1978. P. 36–40. 30. Nesterov Y. Smooth minimization of non-smooth functions. Mathematical Programming. 2004. Vol. 103(1). P. 127–152. DOI: https://doi.org/10.1007/s10107-004-0552-5 31. Nesterov Y., Spokoiny V. Random gradient-free minimization of convex functions. Foundations of Computational Mathematics. 2015. Vol. 17(2). P. 527–566. DOI: https://doi.org/10.1007/ s10208-015-9296-2 32. Duchi J.C., Jordan M.I., Wainwright M.J., Wibisono A. Optimal rates for zero-order convex optimization: the power of two function evaluations. IEEE Transactions on Information Theory. 2015. Vol. 61, N 5. P. 2788–2806. DOI: https://doi.org/10.1109/tit.2015.2409256 33. Shamir O. An optimal algorithm for bandit and zero-order convex optimization with two-point feedback. The Journal of Machine Learning Research. 2017. Vol. 18(1). P. 1703–1713. 34. Norkin V. A stochastic smoothing method for nonsmooth global optimization. Cybernetics and Computer Technologies. 2020. N 1. P. 5–14. DOI: https://doi.org/10.34229/2707-451x.20.1.1 35. Norkin V., Pichler A., Kozyriev A. Constrained global optimization by smoothing. arXiv Preprint, 2023. arXiv:2308.08422 [math.OC]. Отримано 26.03.2024 https://doi.org/10.1016/j.neunet.2023.06.008 https://doi.org/10.1016/j.neunet.2023.06.008 https://doi.org/10.48550/arXiv.2003.02122 https://doi.org/10.1137/s0363012992238369 https://doi.org/10.48550/arXiv.1707.06368 https://doi.org/10.1137/1.9780898718751 https://epubs.siam.org/doi/abs/10.1137/1.9780898718751 https://doi.org/10.3233/faia220387 https://arxiv.org/abs/1406.2572 https://doi.org/10.1016/s0893-6080(98)00116-6 https://doi.org/10.1109/tpds.2020.2975189 https://doi.org/10.1137/21M1390037 https://doi.org/10.1007/bf00935008 https://doi.org/10.1007/bf00935008 https://doi.org/10.1007/s10107-004-0552-5 https://doi.org/10.1007/s10208-015-9296-2 https://doi.org/10.1007/s10208-015-9296-2 https://doi.org/10.1109/tit.2015.2409256 https://doi.org/10.34229/2707-451x.20.1.1 https://arxiv.org/abs/2308.08422
id nasplib_isofts_kiev_ua-123456789-211150
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0572-2691
language Ukrainian
last_indexed 2026-03-16T13:08:35Z
publishDate 2024
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
record_format dspace
spelling Норкін, В.І.
Козирєв, А.Ю.
Норкін, Б.В.
2025-12-24T21:35:44Z
2024
Сучасні стохастичні квазіградієнтні алгоритми оптимізації / В.І. Норкін, А.Ю. Козирєв, Б.В. Норкін // Проблеми керування та інформатики. — 2024. — № 2. — С. 71–83. — Бібліогр.: 35 назв. — укр.
0572-2691
https://nasplib.isofts.kiev.ua/handle/123456789/211150
519.95
10.34229/1028-0979-2024-2-6
Стохастична оптимізація стала провідним методом у різних галузях, таких як машинне навчання, нейронні мережі та обробка сигналів. Ці задачі спрямовані на мінімізацію цільової функції із зашумленими та невизначеними даними. Всебічно порівнюються сучасні квазіградієнтні методи стохастичної оптимізації, ілюструються їхні основні принципи, властивості збіжності та практичні застосування. Вводяться основні поняття градієнтного спуску, стохастичної апроксимації та оптимізації, після чого детально пояснюються методи оптимізації. Поглиблено аналізуються адаптивні стохастичні градієнтні методи, акцентується увага на їхній здатності динамічно змінювати швидкість навчання залежно від структури задачі. Досліджуються узагальнення цих методів на негладкі випадки, описуються проблеми, що виникають при негладких оптимізаційних ландшафтах.
Stochastic optimization has become a leading method in various fields such as machine learning, neural networks, and signal processing. These problems aim at minimizing the objective function with noisy and uncertain data. The article comprehensively compares modern quasi-gradient methods of stochastic optimization, illustrates their basic principles, convergence properties, and practical applications. Basic concepts of gradient descent, stochastic approximation, and optimization are introduced, followed by detailed explanations of optimization methods. Adaptive stochastic gradient methods are analyzed in depth, focusing on their ability to dynamically adjust learning rates depending on the problem structure. Extensions of these methods to nonsmooth cases are studied, describing challenges in nonsmooth optimization landscapes.
uk
Інститут кібернетики ім. В.М. Глушкова НАН України
Проблеми керування та інформатики
Стохастичні системи, нечіткі множини
Сучасні стохастичні квазіградієнтні алгоритми оптимізації
Modern Stochastic Quasi-Gradient Optimization Algorithms
Article
published earlier
spellingShingle Сучасні стохастичні квазіградієнтні алгоритми оптимізації
Норкін, В.І.
Козирєв, А.Ю.
Норкін, Б.В.
Стохастичні системи, нечіткі множини
title Сучасні стохастичні квазіградієнтні алгоритми оптимізації
title_alt Modern Stochastic Quasi-Gradient Optimization Algorithms
title_full Сучасні стохастичні квазіградієнтні алгоритми оптимізації
title_fullStr Сучасні стохастичні квазіградієнтні алгоритми оптимізації
title_full_unstemmed Сучасні стохастичні квазіградієнтні алгоритми оптимізації
title_short Сучасні стохастичні квазіградієнтні алгоритми оптимізації
title_sort сучасні стохастичні квазіградієнтні алгоритми оптимізації
topic Стохастичні системи, нечіткі множини
topic_facet Стохастичні системи, нечіткі множини
url https://nasplib.isofts.kiev.ua/handle/123456789/211150
work_keys_str_mv AT norkínví sučasnístohastičníkvazígradíêntníalgoritmioptimízacíí
AT kozirêvaû sučasnístohastičníkvazígradíêntníalgoritmioptimízacíí
AT norkínbv sučasnístohastičníkvazígradíêntníalgoritmioptimízacíí
AT norkínví modernstochasticquasigradientoptimizationalgorithms
AT kozirêvaû modernstochasticquasigradientoptimizationalgorithms
AT norkínbv modernstochasticquasigradientoptimizationalgorithms