Покращення моделей розпізнавання облич за допомогою згорткових нейронних мереж, навчання подібності та методів оптимізації

Розпізнавання облич — це одна з основних задач комп’ютерного зору. Вона має безліч прикладних застосувань, що призвело до величезної кількості досліджень у цій сфері. І хоча дослідження відбувались з початку розвитку комп’ютерного зору, адекватних результатів змогли досягнути лише за допомогою згорт...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2021
Автори: Litvynchuk , Andrey, Baranovska , Lesya
Формат: Стаття
Мова:Ukrainian
Опубліковано: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2021
Теми:
Онлайн доступ:https://jais.net.ua/index.php/files/article/view/189
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems of Control and Informatics

Репозитарії

Problems of Control and Informatics
Опис
Резюме:Розпізнавання облич — це одна з основних задач комп’ютерного зору. Вона має безліч прикладних застосувань, що призвело до величезної кількості досліджень у цій сфері. І хоча дослідження відбувались з початку розвитку комп’ютерного зору, адекватних результатів змогли досягнути лише за допомогою згорткових нейронних мереж. У даній роботі проведено порівняльний аналіз методів розпізнавання облич до згорткових нейронних мереж. Розглянуто набір архітектур нейронних мереж, методів навчання подібності та оптимізації. Проведено ряд експериментів, виконано порівняльний аналіз розглянутих методів покращення згорткових нейронних мереж, в результаті отримано універсальний алгоритм для навчання моделі розпізнавання облич. Для порівняння різних підходів розпізнавання облич ми обрали набір даних VGGFace2. Він складається з 3,31 млн зображень 9131 людини. Його створили за допомогою зображень з пошукової системи Google. Спочатку застосовувалися попередньо навчені нейронні мережі для виділення певної кількості найбільш можливих фотографій людини. Після цього зображення перевірялись розмітниками для фінальної ідентифікації. Для валідаційної вибірки відклали 50 зображень 500 людей, загалом 25000 зображень. Практично всі експерименти проводилися ітеративно. Тобто, обравши найкращий підхід у попередньому етапі (наприклад, найкращий оптимізатор), ми використовували вже його і далі перевіряли, наприклад, архітектуру мережі. Як і очікувалось, нейронні мережі з більшою кількістю параметрів та складнішою архітектурою показували кращі результати у наведеній в роботі задачі. Серед розглянутих нами моделей найкращою виявилась Se-ResNet50. Навчання подібності — це метод, за допомогою якого можливо досягнути хорошої точності. Без цього методу задачу вирішити було б неможливо. Для оптимізації нейронних мереж ми розглядали і адаптивні, і прості оптимізатори. Як показано у роботі, для даної задачі найкращим виявився стохастичний градієнтний спуск з моментом, а адаптивні методи показали поганий результат. Загалом, використовуючи різні підходи, ми змогли отримати точність 92 % на досить складному наборі даних, що на 25,5 % краще за базовий експеримент. подальший розвиток даного дослідження можливий завдяки покращенню архітектури нейронної мережі, збору більшої кількості даних та застосуванню кращих методів регуляризації.