Нейрон на основі адаптивного нечіткого перетворення для сучасних моделей штучних нейронних мереж

Зі зростанням об’ємів даних для обробки та з ускладненням задач з обробки даних науковці та спеціалісти з індустрії поступаються складністю та швидкістю моделей штучних нейронних мереж (ШНМ) на користь покращення їх апроксимуючих здатностей. Підвищення складності моделей, зокрема збільшення глибини...

Full description

Saved in:
Bibliographic Details
Date:2023
Main Authors: Bodyanskiy, Yevgeniy, Kostiuk, Serhii
Format: Article
Language:Ukrainian
Published: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2023
Subjects:
Online Access:https://jais.net.ua/index.php/files/article/view/209
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Problems of Control and Informatics

Institution

Problems of Control and Informatics
Description
Summary:Зі зростанням об’ємів даних для обробки та з ускладненням задач з обробки даних науковці та спеціалісти з індустрії поступаються складністю та швидкістю моделей штучних нейронних мереж (ШНМ) на користь покращення їх апроксимуючих здатностей. Підвищення складності моделей, зокрема збільшення глибини та кількості шарів, призводить до небажаних ефектів, наприклад, зникаючого та вибухаючого градієнтів. Комерційні моделі ШНМ часто використовують кусково-лінійні активаційні функції типу ReLU для уникнення обчислювальних складнощів та прискорення навчання. Хоча кусково-лінійні активаційні функції і доказали ефективність у комерційних моделях, наприкладі згорткових моделей (convolutional neural networks — CNN), для класифікації зображень вони, як правило, мають фіксовану форму, що обмежує здатність моделі до оптимізації та адаптування до поточної задачі. Запропоновано адаптивну кусково-лінійну активаційну функцію (Adaptive Piece-Wise Activation — APWA) як адаптивну альтернативу для фіксованих кусково-лінійних активацій. Основою APWA-функції є адаптивне нечітке перетворення вхідного сигналу, реалізоване множиною функцій належності з адаптивними параметрами підсилення вихідного сигналу. Як і кусково-лінійні активаційні функції, APWA позбавлена ефектів вибухаючого та зникаючого градієнтів, а також відносно проста в обчисленні, що зменшує тривалість навчання та сприяє прямому поширенню в мережах з нейронами на основі APWA. Показано ефективність нейронів та моделей на основі APWA на прикладі двох різних наборів даних для класифікації зображень, а також двох моделей різного рівня складності. Моделі з APWA адаптують форму активаційних функцій у процесі навчання, що покращує точність класифікації порівнянно з базовими моделями, які не є адаптивними.