Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU

Експериментально дослідженні фактори, що впливають на продуктивність застосування готових неромережних моделей у хмарних системах різної архітектури з графічними прискорювачами. Оцінені накладні видатки пов’язані з мікросервісною і розподіленою архітектурою, вплив пам’яті, мережі, розміру пакетів, с...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2020
Hauptverfasser: Тульчинський, В.Г., Лавренюк, С.І., Роганов, В.Ю., Тульчинський, П.Г., Халімендік, В.В.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Інститут кібернетики ім. В.М. Глушкова НАН України 2020
Schriftenreihe:Кібернетика та комп’ютерні технології
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/168597
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU / В.Г. Тульчинський, С.І. Лавренюк, В.Ю. Роганов, П.Г. Тульчинський, В.В. Халімендік // Кібернетика та комп’ютерні технології: Зб. наук. пр. — 2020. — № 1. — С. 74-82— Бібліогр.: 8 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-168597
record_format dspace
spelling nasplib_isofts_kiev_ua-123456789-1685972025-02-09T22:16:49Z Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU Факторы продуктивности применения моделей искусственного интеллекта в облаке с использованием GPU Factors of performance for application of ai models in GPU cloud Тульчинський, В.Г. Лавренюк, С.І. Роганов, В.Ю. Тульчинський, П.Г. Халімендік, В.В. Інформаційні технології: теорія та інструментальні засоби Експериментально дослідженні фактори, що впливають на продуктивність застосування готових неромережних моделей у хмарних системах різної архітектури з графічними прискорювачами. Оцінені накладні видатки пов’язані з мікросервісною і розподіленою архітектурою, вплив пам’яті, мережі, розміру пакетів, синхронної і асинхронної взаємодії. Продемонстровано складний нелінійний характер впливу параметрів системи у різних комбінаціях. Цель статьи: экспериментально исследовать факторы, влияющие на производительность применения готовых нейросетевых моделей в облачных системах различной архитектуры с графическими ускорителями. Результаты. Оценены накладные расходы, связанные с микросервисной и распределенной архитектурами, влияние памяти, сети, размера пакетов, синхронного и асинхронного взаимодействия. Продемонстрирован сложный нелинейный характер влияния параметров системы в различных комбинациях. The purpose of the paper is to experimentally investigate the factors that influence the performance of a ready-to-use neural network model application in GPU cloud systems of various architectures. Results. Overheads related to microservices and distributed architectures, memory, network, batch size, synchronous and asynchronous interactions are estimated. The complex nonlinear nature of the influence of the system parameters in various combinations is demonstrated. 2020 Article Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU / В.Г. Тульчинський, С.І. Лавренюк, В.Ю. Роганов, П.Г. Тульчинський, В.В. Халімендік // Кібернетика та комп’ютерні технології: Зб. наук. пр. — 2020. — № 1. — С. 74-82— Бібліогр.: 8 назв. — укр. 2707-4501 DOI:10.34229/2707-451X.20.1.8 MSC 68-04, 68M14, 68T45 https://nasplib.isofts.kiev.ua/handle/123456789/168597 004.89 uk Кібернетика та комп’ютерні технології application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
topic Інформаційні технології: теорія та інструментальні засоби
Інформаційні технології: теорія та інструментальні засоби
spellingShingle Інформаційні технології: теорія та інструментальні засоби
Інформаційні технології: теорія та інструментальні засоби
Тульчинський, В.Г.
Лавренюк, С.І.
Роганов, В.Ю.
Тульчинський, П.Г.
Халімендік, В.В.
Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU
Кібернетика та комп’ютерні технології
description Експериментально дослідженні фактори, що впливають на продуктивність застосування готових неромережних моделей у хмарних системах різної архітектури з графічними прискорювачами. Оцінені накладні видатки пов’язані з мікросервісною і розподіленою архітектурою, вплив пам’яті, мережі, розміру пакетів, синхронної і асинхронної взаємодії. Продемонстровано складний нелінійний характер впливу параметрів системи у різних комбінаціях.
format Article
author Тульчинський, В.Г.
Лавренюк, С.І.
Роганов, В.Ю.
Тульчинський, П.Г.
Халімендік, В.В.
author_facet Тульчинський, В.Г.
Лавренюк, С.І.
Роганов, В.Ю.
Тульчинський, П.Г.
Халімендік, В.В.
author_sort Тульчинський, В.Г.
title Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU
title_short Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU
title_full Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU
title_fullStr Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU
title_full_unstemmed Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU
title_sort фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням gpu
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2020
topic_facet Інформаційні технології: теорія та інструментальні засоби
url https://nasplib.isofts.kiev.ua/handle/123456789/168597
citation_txt Фактори продуктивності застосування моделей штучного інтелекту у хмарі з використанням GPU / В.Г. Тульчинський, С.І. Лавренюк, В.Ю. Роганов, П.Г. Тульчинський, В.В. Халімендік // Кібернетика та комп’ютерні технології: Зб. наук. пр. — 2020. — № 1. — С. 74-82— Бібліогр.: 8 назв. — укр.
series Кібернетика та комп’ютерні технології
work_keys_str_mv AT tulʹčinsʹkiivg faktoriproduktivnostízastosuvannâmodeleištučnogoíntelektuuhmarízvikoristannâmgpu
AT lavrenûksí faktoriproduktivnostízastosuvannâmodeleištučnogoíntelektuuhmarízvikoristannâmgpu
AT roganovvû faktoriproduktivnostízastosuvannâmodeleištučnogoíntelektuuhmarízvikoristannâmgpu
AT tulʹčinsʹkiipg faktoriproduktivnostízastosuvannâmodeleištučnogoíntelektuuhmarízvikoristannâmgpu
AT halímendíkvv faktoriproduktivnostízastosuvannâmodeleištučnogoíntelektuuhmarízvikoristannâmgpu
AT tulʹčinsʹkiivg faktoryproduktivnostiprimeneniâmodeleiiskusstvennogointellektavoblakesispolʹzovaniemgpu
AT lavrenûksí faktoryproduktivnostiprimeneniâmodeleiiskusstvennogointellektavoblakesispolʹzovaniemgpu
AT roganovvû faktoryproduktivnostiprimeneniâmodeleiiskusstvennogointellektavoblakesispolʹzovaniemgpu
AT tulʹčinsʹkiipg faktoryproduktivnostiprimeneniâmodeleiiskusstvennogointellektavoblakesispolʹzovaniemgpu
AT halímendíkvv faktoryproduktivnostiprimeneniâmodeleiiskusstvennogointellektavoblakesispolʹzovaniemgpu
AT tulʹčinsʹkiivg factorsofperformanceforapplicationofaimodelsingpucloud
AT lavrenûksí factorsofperformanceforapplicationofaimodelsingpucloud
AT roganovvû factorsofperformanceforapplicationofaimodelsingpucloud
AT tulʹčinsʹkiipg factorsofperformanceforapplicationofaimodelsingpucloud
AT halímendíkvv factorsofperformanceforapplicationofaimodelsingpucloud
first_indexed 2025-12-01T08:48:13Z
last_indexed 2025-12-01T08:48:13Z
_version_ 1850295079732772864
fulltext ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ: ТЕОРІЯ ТА ІНСТРУМЕНТАЛЬНІ ЗАСОБИ 74 ISSN 2707-4501. Кібернетика та комп'ютерні технології. 2020, № 1 КІБЕРНЕТИКА та КОМП'ЮТЕРНІ ТЕХНОЛОГІЇ Експериментально досліджені фактори, що впливають на продуктивність застосування готових нейромережних моделей у хмарних системах різної архітектури з графічними прискорювачами. Оцінені накладні видатки пов’язані з мікросервісною і розподіленою ар- хітектурою, вплив пам’яті, мережі, розміру пакетів, синхронної і асинхронної взаємодії. Продемонстровано складний нелінійний ха- рактер впливу параметрів системи у різних комбінаціях. Ключові слова: машинне навчання, хмарні технології, графічні прискорювачі, GPU, системна архітектура, продуктивність.  В.Г. Тульчинський, С.І. Лавренюк, В.Ю. Роганов, П.Г. Тульчинський, В.В. Халімендік, 2020 УДК 004.89 DOI:10.34229/2707-451X.20.1.8 В.Г. ТУЛЬЧИНСЬКИЙ, С.І. ЛАВРЕНЮК, В.Ю. РОГАНОВ, П.Г. ТУЛЬЧИНСЬКИЙ, В.В. ХАЛІМЕНДІК ФАКТОРИ ПРОДУКТИВНОСТІ ЗАСТОСУВАННЯ МОДЕЛЕЙ ШТУЧНОГО ІНТЕЛЕКТУ У ХМАРІ З ВИКОРИСТАННЯМ GPU Вступ. У роботах з машинного навчання (МН) і шту- чного інтелекту (ШІ) наголос зазвичай робиться на якості класифікації, або точності оцінки параметрів. Якщо увага приділяється продуктивності, то переваж- но також йдеться про продуктивність етапу тренуван- ня моделі. Проте з розповсюдженням застосувань ШІ в реальних прикладних задачах важливішою стає проблема забезпечення високої продуктивності обро- бки даних з допомогою готових натренованих моде- лей. За своїм характером ця проблема принципово ві- дрізняється від проблеми тренування моделей: остан- ня має справу з інтенсивними обчисленнями, а перша – з простими обчисленнями, але великими потоками даних (файлів), що надходять з мережі чи файлової системи на обробку. Тобто це типова задача парале- льної обробки з інтенсивним введенням/виведенням. Додамо, що з точки зору прикладного застосування, модуль ШІ, що виконує класифікацію, оцінку, чи ін- шу обробку даних є «чорним ящиком»: вартість роз- робки і тренування моделі, як і ризики невдачі занад- то високі, щоб займатися такими задачами не профе- сійно. Тому оптимізація продуктивності насамперед передбачає підбор та балансування параметрів сере- довища. Хмарні системи з їх гнучкістю, керованістю і легким масштабуванням є ідеальними площадками для таких задач. Розглянемо детальніше задачу дослідження факто- рів, що впливають на продуктивність на одному, але визначному прикладі. Історію розпочала організація ImageNet [1], яка веде відкриту базу даних посилань на зображення з Інтернету, організовану у семантичну ієрархію WordNet за іменниками. В ній кожен вузол ієрархії ві- дповідає певному слову та містить посилання на сотні чи тисячі відповідних зображень. У середньому – 500 зображень на вузол. Спочатку ImageNet був асоційований з Стенфордським університетом, https://doi.org/10.34229/2707-451X.20.1.8 ФАКТОРИ ПРОДУКТИВНОСТІ ЗАСТОСУВАННЯ МОДЕЛЕЙ ШТУЧНОГО ІНТЕЛЕКТУ … ISSN 2707-4501. Cybernetics and Computer Technologies. 2020, No.1 75 потім переїхав в Університет Північної Кароліни в Чапел Хілл. Починаючи з 2010 р. ImageNet про- водить конкурс автоматичного розпізнавання зображень Large Scale Visual Recognition Challenge (ILSVRC), в якому беруть участь провідні компанії (як Google і Microsoft), університети, дослідни- цькі організації тощо. У 2015 р. цей конкурс виграла група з Microsoft Research Asia – Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, що запропонувала нову нейронну мережу глибокого нав- чання за залишками, а саме її варіант з 50 шарами: ResNet-50 [2]. Наступні експерименти були на- віть успішніші: ResNet з 152 шарами досягла 3% рівня помилок, що навіть краще за людину [3]. Та завдяки успіху 2015 р. комбінація ImageNet / ResNet-50 стала одна з найпопулярніших для тесту- вання широкомасштабного розподіленого глибокого навчання [4]. Для тестування продуктивності розпізнавання ми використовували ResNet-50 з вибраними даними з колекції ImageNet. Експерименти. Експериментально досліджено три архітектури системи розпізнавання на ос- нові ResNet-50, які показано на рис. 1 – 3. Для реалізації програм використано мову Python. APP AI Framework GPU Driver GPU HW CPU Inference Server Docker APP Tensor RT GPU Driver GPU HW HTTP РИС. 1. Проста архітектура РИС. 2. Мікросервісна архітектура На рис. 1 – проста архітектура, де система ШІ (AI Framework) не відокремлена від програми користувача (APP), а поділяє з нею адресний простір спільної віртуальної машини (ВМ). Програма користувача завантажує дані (тобто картинки), об’єднує їх у пакети та подає на бібліотеку ШІ TensorFlow. ШІ через драйвер NVIDIA (GPU Driver) використовує графічний прискорювач (GPU HW), що через механізм портів прив’язаний до ВМ. Програма працює включно у синхронному режимі, тому що бібліотечні виклики TensorFlow не розпаралелюються. На рис. 2 – мікросервісна архітектура, що використовує створений та оптимізований NVIDIA спеціалізований Docker-контейнер (Inference Server Docker) з програмою ШІ TensorRT замість бібліотеки TensorFlow. Програма користувача (APP) виконується в пам’яті хоста (ВМ), а для пере- дачі пакетів у контейнер використовуються мережеві протоколи HTTP або GRPC (прискорений протокол від Amazon). Це дозволяє обирати між синхронним і асинхронним режимом подачі паке- тів на обробку. В.Г. ТУЛЬЧИНСЬКИЙ, С.І. ЛАВРЕНЮК, В.Ю. РОГАНОВ, П.Г. ТУЛЬЧИНСЬКИЙ, В.В. ХАЛІМЕНДІК 76 ISSN 2707-4501. Кібернетика та комп'ютерні технології. 2020, № 1 Client APP HTTP TCP Inference Server Docker Tensor RT GPU Driver GPU HW TCP NIC HTTP NIC РИС. 3. Розподілена архітектура На рис. 3 – розподілена архітектура, в якій програма користувача (APP) та Inference Server Docker виконуються на різних вузлах. Відповідно програма користувача залишає весь процесорний ресурс і пам’ять хоста у розпорядженні контейнера ШІ, але мережевий канал використовується вже не для копіювання даних у пам’яті одного фізичного вузла, а для дійсної передачі пакетів з ву- зла на вузол (також через мережеві протоколи HTTP або GRPC) з допомогою мережевих карт (NIC) та мережевих протоколів нижчого рівня, зокрема, стеку TCP для HTTP. Ця архітектура та- кож дозволяє вибір між синхронним і асинхронним режимом подачі пакетів на обробку. Тестовий набір даних для експериментального дослідження продуктивності розпізнавання з допомогою моделі ResNet-50 був завантажений за посиланнями ImageNet з колекцій № № n12154773, n04154340, n04516672, n02729837, n04105893, n07881800, n03800933. Оскільки ImageNet містить не файли картинок, а лише Інтернет-посилання, не всі вони дозволяють заванта- жити файл. Також, було з’ясовано, що не всі завантажені картинки розпізнаються моделлю ResNet-50. Зокрема, з’ясувалося що картинки менше за 2052 байт не розпізнаються зовсім. Деякі більші за розміром файлу картинки фактично виявились теж недосить великими для успішного розпізнавання. Оскільки задача полягала виключно в оцінці параметрів продуктивності, тестовий набір був заздалегідь програмно перевірений на можливість розпізнавання, і зображення, що не були розпізнані, відбраковувалися. Також з’ясувалося, що розмір файлу в пікселях впливає на про- дуктивність розпізнавання через додаткове перетворення до стандартного розміру. Щоб виключи- ти цей фактор з урахування, весь набір картинок був перед вимірюваннями приведений до стандар- тного розміру 224х224 відповідно до розмірів вхідного шару моделі ResNet-50. Тестова колекція складалася з 1500 різних картинок. Але для перевірки стабільної швидкодії і стійкості файли були розмножені, і додаткові експерименти проводилися з набором 13500 картинок. Вони підтвердили надійність оцінок отриманих для 1500 файлів. Під час розпізнавання тестовий набір даних знаходився у локальній пам’яті хоста, на якому виконувалася програма APP (в розподіленій архітектурі – на клієнті, в інших – на сервері). Технічні характеристики обладнання, що використовувалось для експериментального дослід- ження продуктивності розпізнавання та факторів, що на неї впливають, зведені у табл. 1. ФАКТОРИ ПРОДУКТИВНОСТІ ЗАСТОСУВАННЯ МОДЕЛЕЙ ШТУЧНОГО ІНТЕЛЕКТУ … ISSN 2707-4501. Cybernetics and Computer Technologies. 2020, No.1 77 ТАБЛИЦЯ 1. Технічні характеристики тестового устаткування Сервер (хост) Клієнт (для розподіленої архітектури) Вузол: p3.2xlarge Вузол: t3.2xlarge ЦПУ: Intel Xeon E5-2686 v4 ЦПУ: Intel Scalable Кількість ядер: 8 Кількість ядер: 4 Тактова частота: 2.3 ГГц Тактова частота: 2.5 ГГц Пам'ять (ОЗУ): 61 ГБ Пам'ять (ОЗУ): 16 ГБ GPU: NVIDIA V100 Мережа (для розподіленої архітектури) Пам'ять GPU: 16 ГБ Швидкість: 5 Гбіт/с Результати. Залежність загальної продуктивності (кількості оброблених картинок на секунду) від архітектури і розміру пакету показана на рис. 4. РИС. 4. Продуктивність ResNet-50 (асинхронний режим, GRPC) Для мікросервісної і розподіленої архітектури вимірювання проводилися в асинхронному режимі з мережевим протоколом GRPC, для простої – у синхронному режимі з безпосереднім викликом функції розпізнавання. Переваги мікросервісної (2) і розподіленої архітектури (3) над простою (1) частково пояснюється підтримкою асинхронного завантаження файлів, а частково – кращою оптимізацією TensorRT в Inference Server Docker у порівнянні з універсальною бібліоте- кою TensorFlow. Більш детальне порівняння трьох архітектур у різних режимах показано на рис. 5 дозволяє краще оцінити вагу тих факторів. В.Г. ТУЛЬЧИНСЬКИЙ, С.І. ЛАВРЕНЮК, В.Ю. РОГАНОВ, П.Г. ТУЛЬЧИНСЬКИЙ, В.В. ХАЛІМЕНДІК 78 ISSN 2707-4501. Кібернетика та комп'ютерні технології. 2020, № 1 РИС. 5. Продуктивність ResNet-50 у різних конфігураціях Якщо видалити затримку на завантаження файлів, простий режим працює надзвичайно швид- ко. Це стовпчик «(1) без файлів». Можна також побачити, що у синхронному режимі всі інші варі- анти архітектур («(2) синхронно HTTP», «(3) синхронно HTTP») працюють гірше за просту «(1)». Для більшої колекції «(1) 13500 файлів» проста архітектура також працює швидше. Ймовірно так впливає краща буферизація на рівні файлової системи, що встигає пристосуватися до послідовного завантаження файлів з однієї папки. Цікавим є також порівняння асинхронних режимів між собою. Залежно від мережевого протоколу вони є майже найшвидшими, чи взагалі найгіршими. Тобто йдеться про взаємне налаштування GPRC з контейнером від NVIDIA. Нарешті, «(2) perf_client» – це особливий тестовий клієнт, що надається NVIDIA у комплекті з Inference Server Docker для ви- мірювання продуктивності. Він не працює у розподіленій архітектурі, тому є підстави вважати, що perf_client використовує якісь недокументовані можливості взаємодії. До того ж він не завантажує файли, а надсилає в Inference Server якісь внутрішні дані (подібно до «(1) без файлів»). Порівнюю- чи з ним, можна побачити, що асинхронний режим з GPRC працює надзвичайно ефективно: різни- ця досить мала (458/410 кадрів на секунду для того ж вузла). Крім власно продуктивності при дослідженнях вимірювалось і оцінювалось багато інших параметрів (табл. 2), переважно з метою виявити і ліквідувати вузькі місця. ФАКТОРИ ПРОДУКТИВНОСТІ ЗАСТОСУВАННЯ МОДЕЛЕЙ ШТУЧНОГО ІНТЕЛЕКТУ … ISSN 2707-4501. Cybernetics and Computer Technologies. 2020, No.1 79 ТАБЛИЦЯ 2. Додаткові параметри, що вимірювалися в експерименті Вимірювання параметрів Архітектура де що (1) (2) (3) Прикладна програма Час підготовки моделі + + + Час завантаження і підготовки даних + + + Прикладна програма (залежить від сервера) Час надсилання даних на розпізнавач + + Час завантаження результатів з розпізнавача + + Час роботи розпізнавача + + + Прикладна програма Час друку протоколу + + Разом на сервері Середнє використання CPU + + Максимальне використання CPU + + Мінімальне використання CPU + + Розпізнавач Середнє використання CPU + + + Максимальне використання CPU + + + Мінімальне використання CPU + + + Разом на клієнті Середнє використання CPU + Максимальне використання CPU + Мінімальне використання CPU + Прикладна програма Середнє використання CPU + + + Максимальне використання CPU + + + Мінімальне використання CPU + + + GPU (на сервері) Середнє використання GPU + + + Максимальне використання GPU + + + Мінімальне використання GPU + + + Разом на сервері або клієнті (без докера) Середнє використання пам'яті + + + Максимальне використання пам'яті + + + Мінімальне використання пам'яті + + + Разом у докері Середнє використання пам'яті + + Максимальне використання пам'яті + + Мінімальне використання пам'яті + + Зокрема, було виявлено, що обсяг пам’яті сервера є критичним ресурсом для асинхронних режимів GPRC для обох архітектур з Inference Server Docker, особливо для коротких пакетів. Для довжини пакету 1 перевищення максимальної потреби у пам’яті щодо синхронного режиму сягало 4 – 4.4 разів. У точній відповідності до різниці продуктивності середнє завантаження GPU в про- стій архітектурі складало близько 50 %, а у інших архітектур при асинхронному режимі з GPRC – 75 – 80 %. А от звичайні процесори виявилися стабільно недовантажені. У всіх варіантах наявність лише 4 ядер не призвела б до помітних затримок. Стабільність вимірювань оцінювалась як стандартна похибка з 20 однакових експериментів. Для простої і мікросервісної архітектур, тобто коли всі процеси відбувалися в одному вузлі, про- дуктивність виявилась стійкою, похибка не перевищувала 0,5 %. Натомість у мережі (розподілена архітектура) похибка зростала від 3,5 – 4,5 % для коротких пакетів до 20 – 35 % для великих В.Г. ТУЛЬЧИНСЬКИЙ, С.І. ЛАВРЕНЮК, В.Ю. РОГАНОВ, П.Г. ТУЛЬЧИНСЬКИЙ, В.В. ХАЛІМЕНДІК 80 ISSN 2707-4501. Кібернетика та комп'ютерні технології. 2020, № 1 пакетів. Випадкова затримка передачі картинок у розподіленій архітектури може пояснити спад її продуктивності щодо мікросервісної для пакетів довших 10 кадрів (рис. 4). Висновки. Результати оптимізації параметрів різних архітектур для машинного навчання дозволили якісно спроектувати СКІТ 4.5 АІ – сегмент суперкомп’ютерного комплексу СКІТ [5] призначеного для задач штучного інтелекту. З його використанням вже отримані результати в кількох напрямках машинного навчання: - досліджено масштабованість нейронних мереж з шарами типів LSTM, згортки, та повний перцептрон, визначено залежність ефективності розпаралелювання від розміру пакету даних у сис- темах з багатьма GPU на одному вузлі; - побудована нейромережна модель для оцінки параметрів пористого середовища за даними акустичних досліджень свердловин (за синтетичними даними помилка прогнозу – 1.7 %) [6]; - побудована модель машинного навчання для аналізу великих даних телекомунікаційної компанії [7]; - реалізована нейромережна модель розріджено-розподіленої пам'яті на сучасних графічних процесорах і досліджені її параметри [8]. Список літератури 1. База даних зображень ImageNet. http://www.image-net.org (accessed Jan. 01, 2020). 2. He K., Zhang X, Ren S., Sun J. Deep Residual Learning for Image Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. 2016. https://arxiv.org/abs/1512.03385 3. Russakovsky O., Deng J., Su H., Krause J., Satheesh S., Ma S., Huang Z., Karpathy A., Khosla A., Bernstein M.S., Berg A.C., Li F. Imagenet large scale visual recognition challenge. Computing Research Repository (CoRR). Ithaca, NY, USA: Cornell University. 2014. https://arxiv.org/abs/1409.0575 4. Mikami H., Suganuma H., U-chupala P., Tanaka Y., Kageyama Y. Massively Distributed SGD: ImageNet/ResNet-50 Training in a Flash. Machine Learning. Ithaca, NY, USA: Cornell University. 2019. https://arxiv.org/abs/1811.05233 5. Головинський А.Л., Сергієнко І.В., Тульчинський В.Г., Маленко А.Л., Бандура О.Ю., Горенко С.О., Рога- нова О.Ю., Лаврікова О.І. Розвиток суперкомп’ютерів серії СКІТ, розроблених в Інституті кібернетики імені В.М. Глушкова НАН України з 2002 по 2017 рр. Кібернетика і системний аналіз. 2017. 4. С. 124 – 129. http://www.kibernetika.org/volumes/2017/numbers/04/articles/12/ArticleDetailsEU.html 6. Khalimendik V. Porosity structure prediction from conventional sonic well logs on the base of synthetic samples com- puted by Prodaivoda-Maslov’s method. 18th International Conference on Geoinformatics – Theoretical and Applied Aspects (Kyiv, May 2019). EAGE. 2019. https://doi.org/10.3997/2214-4609.201902061 7. Лавренюк А.М., Лавренюк С.І. Оптимізація підбору параметрів моделей для аналізу великих даних телекому- нікаційної компанії. XІІІ Міжнародна науково-технічна конференція "Перспективи телекомунікацій" (ПТ-2019). К.: КПІ ім. Ігоря Сікорського. 2019. С. 230 – 232. http://conferenc.its.kpi.ua/2019/paper/view/15736 8. Вдовиченко Р.О. Реалізація Розріджено-розподіленої пам'яті на сучасних графічних процесорах і дослідження характеристик моделі. Комп'ютерна математика. 2019. Вип. 1. С. 77 – 84. http://dspace.nbuv.gov.ua/handle/123456789/161936 Одержано 08.01.2020 Тульчинський Вадим Григорович, доктор фізико-математичних наук, завідувач відділу Інституту кібернетики імені В.М. Глушкова НАН України, Київ, Лавренюк Сергій Іванович, кандидат фізико-математичних наук, старший науковий співробітник Інституту кібернетики імені В.М. Глушкова НАН України, Київ, Роганов Вячеслав Юрійович, кандидат фізико-математичних наук, науковий співробітник Інституту кібернетики імені В.М. Глушкова НАН України, Київ, http://www.image-net.org/ https://arxiv.org/abs/1512.03385 https://arxiv.org/abs/1409.0575 https://arxiv.org/abs/1811.05233 http://www.kibernetika.org/volumes/2017/numbers/04/articles/12/ArticleDetailsEU.html https://doi.org/10.3997/2214-4609.201902061 http://conferenc.its.kpi.ua/2019/paper/view/15736 http://dspace.nbuv.gov.ua/handle/123456789/161936 ФАКТОРИ ПРОДУКТИВНОСТІ ЗАСТОСУВАННЯ МОДЕЛЕЙ ШТУЧНОГО ІНТЕЛЕКТУ … ISSN 2707-4501. Cybernetics and Computer Technologies. 2020, No.1 81 Тульчинський Петро Григорович, кандидат фізико-математичних наук, старший науковий співробітник Інституту кібернетики імені В.М. Глушкова НАН України, Київ, Халімендік Валерій Валерійович, молодший науковий співробітник Інституту кібернетики імені В.М. Глушкова НАН України, Київ. dep145@gmail.com УДК 004.89 В.Г. Тульчинский, С.И. Лавренюк, В.Ю. Роганов, П.Г. Тульчинский, В.В. Халимендик ФАКТОРЫ ПРОДУКТИВНОСТИ ПРИМЕНЕНИЯ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В ОБЛАКЕ С ИСПОЛЬЗОВАНИЕМ GPU Институт кибернетики имени В.М. Глушкова, Киев, Украина Переписка: dep145@gmail.com Введение. В работах по машинному обучению (МН) и искусственному интеллекту (ИИ) ударение обычно ставится на качестве классификации, или точности оценки параметров. Если внимание уделяет- ся производительности, то преимущественно также говорится о производительности этапа тренировки модели. Однако с распространением приложений ИИ в реальных прикладных задачах важнее становит- ся проблема обеспечения высокой производительности обработки данных с помощью готовых натрени- рованных моделей. По своему характеру эта проблема принципиально отличается от проблемы тренировки моделей: последняя имеет дело с интенсивными вычислениями, а первая – с простыми вы- числениями, но большими потоками данных (файлов), поступающих из сети, или файловой системы на обработку. То есть это – типичная задача параллельной обработки с интенсивным вводом-выводом. Добавим, что с точки зрения прикладного применения, модуль ИИ, выполняющий классификацию, оценку, другую обработку данных является «черным ящиком»: стоимость разработки и тренировки мо- дели, как и риски неудачи слишком высоки, чтобы заниматься такими задачами непрофессионально. Поэтому оптимизация производительности прежде всего предполагает подбор и балансировку парамет- ров среды. Облачные системы с их гибкостью, управляемостью и легким масштабированием являются идеальными площадками для таких задач. Рассмотрим подробнее задачу исследования факторов, влия- ющих на производительность на одном, но значительном примере классификации выборки из коллек- ции изображений ImageNet [1] с помощью нейронной сети глубокого обучения по остаткам с 50 слоями – ResNet-50 [2]. Цель работы. Экспериментально исследовать факторы, влияющие на производительность приме- нения готовых нейросетевых моделей в облачных системах различной архитектуры с графическими ускорителями. Результаты. Оценены накладные расходы, связанные с микросервисной и распределенной архи- тектурами, влияние памяти, сети, размера пакетов, синхронного и асинхронного взаимодействия. Продемонстрирован сложный нелинейный характер влияния параметров системы в различных комби- нациях. Ключевые слова: машинное обучение, облачные технологии, графические ускорители, GPU, системная архитектура, производительность. mailto:dep145@gmail.com mailto:dep145@gmail.com В.Г. ТУЛЬЧИНСЬКИЙ, С.І. ЛАВРЕНЮК, В.Ю. РОГАНОВ, П.Г. ТУЛЬЧИНСЬКИЙ, В.В. ХАЛІМЕНДІК 82 ISSN 2707-4501. Кібернетика та комп'ютерні технології. 2020, № 1 UDC 004.89 V. Tulchinsky, S. Lavreniuk, V. Roganov, P. Tulchinsky, V. Khalimendik FACTORS OF PERFORMANCE FOR APPLICATION OF AI MODELS IN GPU CLOUD V.M. Glushkov Institute of Cybernetics, Kyiv, Ukraine Correspondence: dep145@gmail.com Introduction. In machine learning (ML) and artificial intelligence (AI) works, the emphasis is usually on the quality of classification or the accuracy of parameter estimation. If the focus is on performance, then it is also mainly about the performance of the model's training phase. However, with the proliferation of AI applica- tions in real-world problems, the problem of ensuring high data processing performance with ready models be- comes more important. By its nature, this problem is fundamentally different from the one of model training: the latter deals with intensive calculations and the former with simple calculations, but large flows of data (files) coming from the network or file system for processing. That is, the typical task of parallel processing with intensive input-output. Besides, in terms of application, the AI module that performs classification, evalu- ation, or other data processing is a "black box": the cost of developing and training the model, as well as the risks of failure, are too high to handle such tasks in a non-professional manner. Therefore, performance optimi- zation primarily involves the selection and balancing of system parameters. Cloud systems with their flexibility, manageability and easy scaling are the ideal platforms for such tasks. Consider in more detail the task of inves- tigating the factors which affect performance on a single, but notable, pattern recognition sample of a subset of ImageNet image collection [1] classified by the 50-layer deep learning neural network ResNet-50 [2]. The purpose of the paper is to experimentally investigate the factors that influence the performance of a ready-to-use neural network model application in GPU cloud systems of various architectures. Results. Overheads related to microservices and distributed architectures, memory, network, batch size, synchronous and asynchronous interactions are estimated. The complex nonlinear nature of the influence of the system parameters in various combinations is demonstrated. Keywords: machine learning, cloud technologies, GPU, system architecture, performance. mailto:dep145@gmail.com