Method of managing the execution of tasks of a multithreaded program according to a given dependency graph
This article examines the effectiveness of pre-training generative model based on a visual transformer and subsequent fine tuning for image classification tasks. The main problem of the study is the poor training efficiency of the visual transformer on a limited amount of data. It is possible to imp...
Збережено в:
| Дата: | 2024 |
|---|---|
| Автори: | , |
| Формат: | Стаття |
| Мова: | Українська |
| Опубліковано: |
PROBLEMS IN PROGRAMMING
2024
|
| Теми: | |
| Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/643 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Problems in programming |
| Завантажити файл: | |
Репозитарії
Problems in programming| _version_ | 1859476783422767104 |
|---|---|
| author | Terentiev, R.V. Ivanenko, P.А. |
| author_facet | Terentiev, R.V. Ivanenko, P.А. |
| author_sort | Terentiev, R.V. |
| baseUrl_str | https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| collection | OJS |
| datestamp_date | 2025-02-15T13:36:00Z |
| description | This article examines the effectiveness of pre-training generative model based on a visual transformer and subsequent fine tuning for image classification tasks. The main problem of the study is the poor training efficiency of the visual transformer on a limited amount of data. It is possible to improve the accuracy of the image classification model by using transfer learning of the knowledge obtained during the previous training of the generative model on the same data. A subset of the standard Imagenet dataset - Tiny Imagenet was used to test the hypothesis. It contains 200 categories of around 500 images each. The size of each image is 64x64 pixels. For pre-training the generative model, patches are used to mask image segments. The training of restoring masked image pixels forces the model to pay attention to the context around the removed part, as well as to general visual patterns. This leads to a better understanding of visual information by the model as a whole and helps with further fine tuning of the model for the classification task. As a result of a series of experiments, it was possible to achieve an improvement in the accuracy of image classification from 40% to 44.7%, and an analysis of the effect of the overall degree of masking and patch size on it is given. Additionally, impact of different sizes of patches (2x2, 4x4, 8x8 pixels) and different percentages of masking (20/40/60 percent) of the input image were investigated in the paper.Prombles in programming 2024; 2-3: 247-252 |
| first_indexed | 2025-07-17T09:47:27Z |
| format | Article |
| fulltext |
247
Машинне навчання та нейронні мережі
УДК 004.855.5 http://doi.org/10.15407/pp2024.02-03.247
Р.В. Терентьєв, П.А. Іваненко
ПЕРЕДАВАЛЬНЕ НАВЧАННЯ ДЛЯ ПІДВИЩЕННЯ
ТОЧНОСТІ КЛАСИФІКАЦІЇ ВІЗУАЛЬНОГО
ТРАНСФОРМЕРА НА ОБМЕЖЕНИХ ДАНИХ
У цій статті досліджується ефективність попереднього навчання генеративних моделей на основі візуа-
льного трансформера і подальшому навчанню моделі для задач класифікації зображень. Основною про-
блемою дослідження є погана ефективність навчання візуального трансформера на обмеженій кількості
даних. Можна підвищити точність моделі класифікації зображень, використавши передавальне навчання
знань, отриманих під час попереднього навчання генеративної моделі на тих самих даних. Для перевірки
гіпотези була використана підмножина стандартного набору даних Imagenet, що містить 200 категорій
по ~500 зображень. Розмір кожного зображення 64х64 пікселів. Для попереднього навчання генеративної
моделі використовуються патчі для маскування сегментів зображення. Процес навчання відновлення за-
маскованих пікселів зображення змушує модель звертати увагу на контекст навколо видаленої частини,
а також на загальні візуальні закономірності. Це приводить до кращого розуміння моделлю візуальної
інформації в цілому і допомагає у подальшому навчанні моделі під задачу класифікації. В результаті серії
експериментів вдалося досягти покращення точності класифікації зображень з 40% до 44.7%, а також
наведено аналіз впливу на нього загального ступеню маскування та розмірності патчів. Додатково в
роботі досліджені різні розмірності патчів (2x2, 4х4, 8х8 пікселів) й різний відсоток маскування (20/40/60
відсотків) вхідного зображення та вплив цих параметрів на передавальне навчання.
Ключові слова: візуальні трансформери, генеративні моделі, класифікація зображень, попереднє нав-
чання, передавальне навчання.
R.V. Terentiev, P.А. Ivanenko
TRANSFER LEARNING METHODS FOR INCREASING VISION
TRANSFORMER CLASSIFICATION ACCURACY ON SMALL
DATASET
This article examines the effectiveness of pre-training generative model based on a visual transformer and
subsequent fine tuning for image classification tasks. The main problem of the study is the poor training
efficiency of the visual transformer on a limited amount of data. It is possible to improve the accuracy of the
image classification model by using transfer learning of the knowledge obtained during the previous training of
the generative model on the same data. A subset of the standard Imagenet dataset - Tiny Imagenet was used to
test the hypothesis. It contains 200 categories of around 500 images each. The size of each image is 64x64 pixels.
For pre-training the generative model, patches are used to mask image segments. The training of restoring
masked image pixels forces the model to pay attention to the context around the removed part, as well as to
general visual patterns. This leads to a better understanding of visual information by the model as a whole and
helps with further fine tuning of the model for the classification task. As a result of a series of experiments, it
was possible to achieve an improvement in the accuracy of image classification from 40% to 44.7%, and an
analysis of the effect of the overall degree of masking and patch size on it is given. Additionally, impact of
different sizes of patches (2x2, 4x4, 8x8 pixels) and different percentages of masking (20/40/60 percent) of the
input image were investigated in the paper.
Keywords: vision transformers, generative models, image classification, pre-training, transfer learning.
Вступ
Візуальний трансформер (ViT) [5] –
це новаторська архітектура нейронних ме-
реж, яка за останні роки здобула значну по-
пулярність у сфері комп'ютерного зору.
Моделі з механізмом самоуваги [11] дося-
гли вражаючих результатів у багатьох зада-
© Р.В. Терентьєв, П.А. Іваненко, 2024
ISSN 1727-4907. Проблеми програмування. 2024. №2-3
248
Машинне навчання та нейронні мережі
чах, таких як обробка природної мови, кла-
сифікація зображень, сегментація та детек-
ція об'єктів. Проте навчання таких моделей
може бути складним завданням, що потре-
бує ретельного підходу та розуміння специ-
фіки цієї архітектури.
Одна з ключових проблем навчання
візуальних трансформерів – це потреба у
великих наборах даних. Вона пов'язана з
тим, що візуальні трансформери обробля-
ють зображення як послідовність токенів, і
для коректного кодування візуальної інфо-
рмації їм необхідна значна кількість навча-
льних прикладів. Традиційні згорткові ней-
ронні мережі [6, 9, 10], натомість можуть
давати кращі результати з меншими набо-
рами даних завдяки локальному зв'язку: на
відміну від повністю пов’язаних нейронних
мереж, де кожен нейрон з’єднується з кож-
ним нейроном на попередньому рівні, ней-
рони згорткової мережі підключаються
лише до невеликої локалізованої області
вхідних даних.
В цій роботі випробуваний метод
попереднього навчання візуального транс-
формера як генеративної моделі для покра-
щення результатів подальшого навчання
моделі для задачі класифікації використо-
вуючи маленьку вибірку даних.
Метод навчання
Для подолання згаданих вище недо-
ліків візуальних трансформерів можна за-
стосувати комбінацію попереднього нав-
чання генеративної моделі й подальшу пе-
редачу знань у модель класифікації. Для
цього була використана генеративна мо-
дель UVCGANv2 [11], яка є комбінацію
ViT та U-Net[8], глибокою нейронною ме-
режею, що добре зарекомендувала себе в
задачах сегментації та генерування зобра-
жень. Попередньо модель була додатково
модифікована з метою використання її не
лише для генерації, а й для класифікації зо-
бражень.
Метод навчання складається з двох
етапів. Спочатку ми навчаємо модель на за-
дачі відтворення зображення, яке було по-
передньо замасковано патчами визначе-
ного розміру. Ступінь маскування є також
фіксованою в межах кожного експериме-
нту. Після навчання моделі як генератив-
ної, ця модель продовжує навчання, але вже
як класифікатор. Для порівняння результа-
тів була навчена базова модель – модель,
яка була одразу навчена як класифікатор,
без попереднього навчання генеративної
моделі.
Гіпотеза полягає в тому, що під час
навчання генеративної моделі, процес відт-
ворення оригінального зображення змушує
модель звертати увагу на контекст навколо
видаленої частини, а також на загальні візу-
альні закономірності. Це має приводити до
кращого розуміння моделлю візуальної ін-
формації в цілому та покращити результати
подальшого навчання моделі як класифіка-
тора. Додатково перевіримо вплив розміру
патчів та ступеню маскування на значення
функції втрат у відновленні зображення ге-
неративною моделлю. Очікується збіль-
шення функції втрат для більших патчів для
всіх ступенів маскування.
Опис моделі
Візьмемо запропоновану модель
UVCGANv2 для перетворення зображень.
У цій моделі є токен стилю, який в класич-
ній ViT моделі використовується як токен
класу. Для модифікації моделі як класифі-
катора додається один додатковий шар пі-
сля токену класу. Цей шар використову-
ється для прогнозування ймовірності того,
що зображення належить до певного класу.
Оригінальний UVCGANv2 розрахо-
ваний на зображення розміром 256х256 пі-
кселів, тому конфігурація моделі була зме-
ншена. Замість 4 шарів перетворення вхід-
ного зображення на послідовність візуаль-
них токенів (та навпаки) було використано
три шари з розміром каналів 48, 96 та 192
відповідно. Розмір послідовності, яка пере-
дається в блоки трансформера – 64 + 1 (то-
кен класу). Кількість блоків трансформера
залишилась без змін, а саме 12. Розмір при-
хованого шару багатошарового перцепт-
рону в кожному блоці трансформера був
зменшений до 768. Фінальний розмір мо-
делі – 8М параметрів. Рис. 1 містить спро-
щену схему моделі.
Також оригінальна модель викорис-
товує оптимізацію навчання за допомогою
249
Машинне навчання та нейронні мережі
ReZero [2]. Ця оптимізація не була викори-
стана в цій роботі, через те, що початкові
експерименти показали погіршення нав-
чання базової моделі під час використання
ReZero.
Рис. 1. Спрощена схема модифікова-
ного UVCGANv2 для задачі відновлення
зображення та класифікації
Навчання моделі
Дані: Для перевірки гіпотез була
використана вибірка даних Tiny Imagenet.
Tiny Imagenet – це підмножина вибірки
даних ImageNet, що містить 200 категорій
замість 1000, та має менший розмір зобра-
жень. Ця вибірка даних використовується
для дослідницьких задач з комп'ютерного
бачення, де потрібна менша кількість да-
них, але водночас зберігається складність
класифікації. Розмір вибірки для трену-
вання – 84000 зображень. Розмір вибірки
для валідації – 10000 зображень. Розмір
кожного зображення 64х64 пікселів. До-
датково під час навчання моделі (як гене-
ративної, так і класифікатора) було вико-
ристано метод аугментації даних – це про-
цес штучного генерування нових даних на
основі вже існуючих. Цей метод викорис-
товується для збагачення наборів даних,
що, так само веде до кращого узагаль-
нення та більшої стійкості моделей ма-
шинного навчання. Завдяки аугментації,
модель може "бачити" більше прикладів,
що робить її стійкішою до шуму та пере-
падів у даних. У роботі була використана
автоматична аугментація для вибірки да-
них Imagenet [3].
Функції втрат: Для навчання від-
творення зображення була використана
функція втрат середня абсолютна похи-
бка між кожним пікселем згенерованого
зображення та оригінального зобра-
ження. Для навчання класифікації була
використана функція втрат перехресна
ентропія.
Алгоритм оптимізації: Для мінімі-
зації функції втрат був використаний алго-
ритм Adam [7]. Він краще працює для тре-
нування моделей з механізмом самоуваги.
Adam використовує адаптивне регулю-
вання швидкості навчання для кожного па-
раметра, що дозволяє йому автоматично пі-
длаштовуватися під різні швидкості збли-
ження різних параметрів.
Параметри навчання: Для корект-
ного порівняння кожна з моделей навчалася
з аналогічними параметрами. А саме: роз-
мір батчу 128; алгоритм оптимізації моделі
– Adam (beta1=0.9, beta2=0.99); навчання
впродовж 50 епох; перші 5 епох швидкість
навчання збільшується з 1e-9 до 1e-4; для
останніх 15 епох швидкість навчання змен-
шується до 5e-5.
Використання маленької швидкості
навчання на початку тренування покра-
щило стабільність навчання в цілому. Вико-
ристання швидкості навчання більше за 1e-
4 призводило до нестабільної мінімізації
функції втрат.
Навчання генеративної моделі:
Для перевірки гіпотез були навчені дев’ять
генеративних моделей на кожну комбіна-
цію розміру патчів (2x2, 4х4, 8х8 пікселів)
та ступені маскування (20/40/60 відсотків).
На Рис. 2 зображені приклади маскування
вхідного зображення.
Рис. 2. Приклади маскування вхід-
ного зображення (колонка 1) в залежності
від розміру патча та відсотку маскування.
250
Машинне навчання та нейронні мережі
Навчання класифікатора: Кожна
варіація генеративної моделі була навчена
на задачу класифікації використовуючи до-
даний шар після токену класу. Додатково
була навчена модель класифікації без попе-
реднього навчання генеративної моделі (ба-
зова модель) та використовувалась для по-
рівняння з іншими.
Пов’язані роботи
Методи передавального навчання
завжди покращують результати навчання
нейронних мереж. Модель UVCGANv2 ви-
користовує такий самий метод маскування,
як і в цій роботі, для покращення резуль-
тату перетворення зображень, проте ця мо-
дель не вирішує задач класифікації. Модель
ViT попередньо навчалася на більших да-
них для покращення результатів класифіка-
ції на вибірці даних ImageNet. Метод, за-
пропонований в BEIT [1], використовує ту
саму вибірку даних для попереднього нав-
чання, але маскує візуальні токени та вико-
ристовує окрему мережу для побудови
словника токенів. Ще одного покращення
ViT було досягнуто за допомогою викорис-
тання додаткових згорткових нейронних
шарів [13].
У цій роботі випробувано метод,
який використовує ту ж саму вибірку даних
для попереднього навчання. Але маску-
вання відбувається для пікселів зобра-
ження. Також модель UVCGANv2 має декі-
лька згорткових нейронних шарів для пере-
творення вхідного зображення в візуальні
токени.
Найбільш схожий метод з віднов-
ленням пікселів був застосований в
SimMIM [14] – в ньому маскуються токени
і за допомогою одного додаткового шару
відбувається навчання відновлення піксе-
лів замаскованого токену. В нашій роботі
використовується генеративна мережа для
відновлення всього зображення.
Варто зауважити, що проблема нав-
чання візуального трансформера на малих
даних була ефективно вирішена в
ASTROFORMER [4] за допомогою модифі-
кації архітектури трансформера та механі-
зму самоуваги. Нова архітектура показала
точність класифікації на даних Tiny
ImageNet 92.98%, що значно перевищує ре-
зультати цієї роботи. Має сенс спробувати
метод, запропонований в цій роботі, після
модифікації генеративної мережі викорис-
товуючи архітектуру ASTROFORMER.
Результати експериментів
Результати навчання генератив-
ної моделі. Перевірка навчання генератив-
ної моделі проводилася за рахунок порів-
няння значення функції втрат. Усі моделі не
були спроможні деталізовано відтворити
відсутні частини зображення, але задові-
льно зберігали форми присутніх на зобра-
женні об'єктів. Як видно з результатів у
Таблиці 1, гіпотеза щодо збільшення вели-
чини функції втрат у процесі збільшення
розміру патчів підтвердилася.
Результати навчання класифіка-
тора. Гіпотеза щодо покращення точності
класифікації, використовуючи попередньо
навчену генеративну модель, підтверди-
лася.
Вплив розміру патча та відсотка ма-
скування на результат навчання класифіка-
тора наведений в Таблиці 2. Неоднозначна
кореляція точності класифікатора та конфі-
гурації алгоритму маскування вхідного зо-
браження потребують додаткових експери-
ментів.
Розмір патчу 4х4 пікселів та ступінь
маскування в 20 відсотків дало найкращий
результат після подальшого навчання кла-
сифікатора. Точність класифікації збільши-
лась на 4.7 процентних пункти вище за ба-
зову модель (з 40% до 44%).
Таблиця 1
Функція втрат генеративної моделі після
навчання для кожної комбінації розміру
патча та відсотку маскування
Розмір патчу /
Відсоток маску-
вання
20% 40% 60%
2х2 0.0178 0.0309 0.0445
4х4 0.0185 0.0344 0.0521
8х8 0.0224 0.0403 0.0646
251
Машинне навчання та нейронні мережі
Таблиця 2
Точність класифікації для базової моделі
та генеративних після навчання на задачу
класифікації
Модель Точність класифікації
базова модель 40%
розмір патчу 2х2
20% маскування 44.6
40% маскування 44.1
60% маскування 44.6
розмір патчу 4х4
20% маскування 44.7
40% маскування 43.2
60% маскування 43.6
розмір патчу 8х8
20% маскування 43.1
40% маскування 44.3
60% маскування 44.1
Зміна точності передбачень під час
навчання для валідаційних даних показана
на Рис. 3, 4, 5 для кожного розміру патча та
ступеня маскування.
Рис. 3. Патчі розміром 2х2.
Рис. 4. Патчі розміром 4х4.
Рис. 5. Патчі розміром 8х8.
Висновки
Виконано серію експериментів з по-
переднього навчання модифікованої гене-
ративної моделі UVCGANv2 і подальшого
передання знань для навчання моделі кла-
сифікації зображень. Навіть на невеликих
даних запропонований метод покращив то-
чність класифікації на 4.7%.
Дослідження впливу розмірності
патчів для маскування зображення, а також
загального ступеня маскування, підтвер-
дило гіпотезу про те, що збільшення роз-
міру патчів збільшує значення функції
втрат у процесі відновлення зображення ге-
неративною моделлю.
Результати отримані в цій роботі до-
водять потенціал запропонованого методу.
Предметом уваги подальшого дослідження
цього методу можуть стати використання
більшої вибірки даних для попереднього
тренування, використання більшого роз-
міру вхідного зображення, зміна архітек-
тури UVCGANv2 на запропоновану в
ASTROFORMER, та використання методів
регуляризації.
References
1. Bao H., Dong L., Piao S. and Wei F. (2021)
BEiT: BERT Pre-Training of Image
Transformers, arXiv preprint
arXiv:2106.08254.
2. Bachlechner T., Majumder B.P., Mao H.H.,
Cottrell G.W. and McAuley J. (2021) ReZero
is All You Need: Fast Convergence at Large
Depth, Uncertainty in Artificial Intelligence.
PMLR.
252
Машинне навчання та нейронні мережі
3. Cubuk E.D., Zoph B., Mane D., Vasudevan V.
and Le Q.V. (2019) AutoAugment: Learning
Augmentation Strategies from Data
Proceedings of the IEEE/CVF conference on
computer vision and pattern recognition.
4. Dagli R., (2023) Astroformer: More Data
Might Not be All You Need for Classification,
arXiv preprint arXiv:2304.05350
5. Dosovitskiy A., Beyer L., Kolesnikov A.,
Weissenborn D., Zhai X., Unterthiner T.,
Dehghani M., Minderer M., Heigold G., Gelly
S., Uszkoreit J. and Houlsby N. (2020) An
Image is Worth 16x16 Words: Transformers
for Image Recognition at Scale, arXiv preprint
arXiv:2010.11929.
6. He K., Zhang X., Ren S. and Sun J. (2016)
Deep Residual Learning for Image
Recognition, Proceedings of the IEEE
conference on computer vision and pattern
recognition.
7. Kingma D.P., Ba J. (2014) Adam: A Method
for Stochastic Optimization, arXiv preprint
arXiv:1412.6980.
8. Ronneberger O., Fischer P. and Brox T. (2015)
U-Net: Convolutional Networks for
Biomedical Image Segmentation, Medical
image computing and computer-assisted
intervention–MICCAI 2015: 18th international
conference, Munich, Germany, October 5-9,
2015, proceedings, part III 18. Springer
International Publishing.
9. Szegedy C., Liu W., Jia Y., Sermanet P., Reed
S., Anguelov D., Erhan D., Vanhoucke V. and
Rabinovich A. (2015) Going Deeper with
Convolutions, Proceedings of the IEEE
conference on computer vision and pattern
recognition.
10. Tan M., Le Q.V. (2019) EfficientNet:
Rethinking Model Scaling for Convolutional
Neural Networks, International conference on
machine learning. PMLR.
11. Torbunov D., Huang Y., Tseng H., Yu H.,
Huang J., Yoo S., Lin M., Viren B. and Ren Y.
(2023) UVCGAN v2: An Improved Cycle-
Consistent GAN for Unpaired Image-to-Image
Translation, arXiv preprint arXiv:2303.16280.
12. Vaswani A., Shazeer N., Parmar N., Uszkoreit
J., Jones L., Gomez A.N., Kaiser L. and
Polosukhin I. (2017) Attention Is All You
Need, Advances in neural information
processing systems 30.
13. Xiao T., Singh M., Mintun E., Darrell T.,
Dollár P. and Girshick R. (2021) Early
Convolutions Help Transformers See Better,
Advances in neural information processing
systems 34.
14. Xie Z., Zhang Z., Cao Y., Lin Y., Bao J., Yao
Z., Dai Q., Hu H. (2022) SimMIM: A Simple
Framework for Masked Image Modeling,
International Conference on Computer Vision
and Pattern Recognition (CVPR)
Одержано: 09.04.2024
Внутрішня рецензія отримана: 21.04.2024
Зовнішня рецензія отримана: 26.04.2024
Про авторів:
1Терентьєв Роман Валерійович,
магістр
1Іваненко Павло Андрійович,
кандидат фізико–математичних наук,
старший науковий співробітник.
https://orcid.org/0000-0001-5437-9763.
Місце роботи авторів:
1Інститут програмних систем
НАН України,
тел. +38-044-522-62-42
E-mail: ukrprog@isofts.kiev.ua
www.iss.nas.gov.ua
|
| id | pp_isofts_kiev_ua-article-643 |
| institution | Problems in programming |
| keywords_txt_mv | keywords |
| language | Ukrainian |
| last_indexed | 2025-07-17T09:47:27Z |
| publishDate | 2024 |
| publisher | PROBLEMS IN PROGRAMMING |
| record_format | ojs |
| resource_txt_mv | ppisoftskievua/42/ed224983ff6fe58effbb2ff176344e42.pdf |
| spelling | pp_isofts_kiev_ua-article-6432025-02-15T13:36:00Z Method of managing the execution of tasks of a multithreaded program according to a given dependency graph Передавальне навчання для підвищення точності класифікації візуального трансформера на обмежених даних Terentiev, R.V. Ivanenko, P.А. vision transformers; generative models; image classification; pre-training; transfer learning UDC 004.855.5 візуальні трансформери; генеративні моделі; класифікація зображень; попереднє навчання; передавальне навчання УДК 004.855.5 This article examines the effectiveness of pre-training generative model based on a visual transformer and subsequent fine tuning for image classification tasks. The main problem of the study is the poor training efficiency of the visual transformer on a limited amount of data. It is possible to improve the accuracy of the image classification model by using transfer learning of the knowledge obtained during the previous training of the generative model on the same data. A subset of the standard Imagenet dataset - Tiny Imagenet was used to test the hypothesis. It contains 200 categories of around 500 images each. The size of each image is 64x64 pixels. For pre-training the generative model, patches are used to mask image segments. The training of restoring masked image pixels forces the model to pay attention to the context around the removed part, as well as to general visual patterns. This leads to a better understanding of visual information by the model as a whole and helps with further fine tuning of the model for the classification task. As a result of a series of experiments, it was possible to achieve an improvement in the accuracy of image classification from 40% to 44.7%, and an analysis of the effect of the overall degree of masking and patch size on it is given. Additionally, impact of different sizes of patches (2x2, 4x4, 8x8 pixels) and different percentages of masking (20/40/60 percent) of the input image were investigated in the paper.Prombles in programming 2024; 2-3: 247-252 У цій статті досліджується ефективність попереднього навчання генеративних моделей на основі візуального трансформера і подальшому навчанню моделі для задач класифікації зображень. Основною проблемою дослідження є погана ефективність навчання візуального трансформера на обмеженій кількості даних. Можна підвищити точність моделі класифікації зображень, використавши передавальне навчання знань, отриманих під час попереднього навчання генеративної моделі на тих самих даних. Для перевірки гіпотези була використана підмножина стандартного набору даних Imagenet, що містить 200 категорій по ~500 зображень. Розмір кожного зображення 64х64 пікселів. Для попереднього навчання генеративної моделі використовуються патчі для маскування сегментів зображення. Процес навчання відновлення замаскованих пікселів зображення змушує модель звертати увагу на контекст навколо видаленої частини, а також на загальні візуальні закономірності. Це приводить до кращого розуміння моделлю візуальної інформації в цілому і допомагає у подальшому навчанні моделі під задачу класифікації. В результаті серії експериментів вдалося досягти покращення точності класифікації зображень з 40% до 44.7%, а також наведено аналіз впливу на нього загального ступеню маскування та розмірності патчів. Додатково в роботі досліджені різні розмірності патчів (2x2, 4х4, 8х8 пікселів) й різний відсоток маскування (20/40/60 відсотків) вхідного зображення та вплив цих параметрів на передавальне навчання.Prombles in programming 2024; 2-3: 247-252 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2024-12-17 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/643 10.15407/pp2024.02-03.247 PROBLEMS IN PROGRAMMING; No 2-3 (2024); 247-252 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2024); 247-252 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2024); 247-252 1727-4907 10.15407/pp2024.02-03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/643/695 Copyright (c) 2024 PROBLEMS IN PROGRAMMING |
| spellingShingle | vision transformers generative models image classification pre-training transfer learning UDC 004.855.5 Terentiev, R.V. Ivanenko, P.А. Method of managing the execution of tasks of a multithreaded program according to a given dependency graph |
| title | Method of managing the execution of tasks of a multithreaded program according to a given dependency graph |
| title_alt | Передавальне навчання для підвищення точності класифікації візуального трансформера на обмежених даних |
| title_full | Method of managing the execution of tasks of a multithreaded program according to a given dependency graph |
| title_fullStr | Method of managing the execution of tasks of a multithreaded program according to a given dependency graph |
| title_full_unstemmed | Method of managing the execution of tasks of a multithreaded program according to a given dependency graph |
| title_short | Method of managing the execution of tasks of a multithreaded program according to a given dependency graph |
| title_sort | method of managing the execution of tasks of a multithreaded program according to a given dependency graph |
| topic | vision transformers generative models image classification pre-training transfer learning UDC 004.855.5 |
| topic_facet | vision transformers generative models image classification pre-training transfer learning UDC 004.855.5 візуальні трансформери генеративні моделі класифікація зображень попереднє навчання передавальне навчання УДК 004.855.5 |
| url | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/643 |
| work_keys_str_mv | AT terentievrv methodofmanagingtheexecutionoftasksofamultithreadedprogramaccordingtoagivendependencygraph AT ivanenkopa methodofmanagingtheexecutionoftasksofamultithreadedprogramaccordingtoagivendependencygraph AT terentievrv peredavalʹnenavčannâdlâpídviŝennâtočnostíklasifíkacíívízualʹnogotransformeranaobmeženihdanih AT ivanenkopa peredavalʹnenavčannâdlâpídviŝennâtočnostíklasifíkacíívízualʹnogotransformeranaobmeženihdanih |