Развитие ускорителей специализированных вычислений

Быстродействие современных высокопроизводительных компьютеров повышают применением новых аппаратных средств общего назначения, совершенствованием их ПО и, все шире, применением ускорителей специализированных вычислений. В статье проанализированы особенности применения пяти основных типов таких ускор...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Математичні машини і системи
Datum:2010
Hauptverfasser: Якуба, А.А., Комухаев, Э.И., Рябчун, С.Г.
Format: Artikel
Sprache:Russisch
Veröffentlicht: Інститут проблем математичних машин і систем НАН України 2010
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/51613
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Развитие ускорителей специализированных вычислений / А.А. Якуба, Э.И. Комухаев, С.Г. Рябчун // Мат. машини і системи. — 2010. — № 2. — С. 10-20. — Бібліогр.: 8 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860139883495948288
author Якуба, А.А.
Комухаев, Э.И.
Рябчун, С.Г.
author_facet Якуба, А.А.
Комухаев, Э.И.
Рябчун, С.Г.
citation_txt Развитие ускорителей специализированных вычислений / А.А. Якуба, Э.И. Комухаев, С.Г. Рябчун // Мат. машини і системи. — 2010. — № 2. — С. 10-20. — Бібліогр.: 8 назв. — рос.
collection DSpace DC
container_title Математичні машини і системи
description Быстродействие современных высокопроизводительных компьютеров повышают применением новых аппаратных средств общего назначения, совершенствованием их ПО и, все шире, применением ускорителей специализированных вычислений. В статье проанализированы особенности применения пяти основных типов таких ускорителей. Отмечено появление узлов ускорителей в киевских кластерах НАН Украини (два типа в Главной астрономической обсерватории, один – в Институте кибернетики им. В.М. Глушкова). Швидкодію сучасних високопродуктивних комп'ютерів підвищують застосуванням нових апаратних засобів загального призначення, вдосконаленням їх ПЗ і, все ширше, застосуванням прискорювачів спеціалізованих обчислень. У статті проаналізовано особливості застосування п’яти основних типів таких прискорювачів. Відмічена поява вузлів прискорювачів у київських кластерах НАН України (два типи в Головній астрономічній обсерваторії, один – в Інституті кібернетики ім. В.М. Глушкова). Modern high performance computing is increased by the application of new hardware of a general purpose, their software perfection and, increasingly, by the application of accelerators of specialized calculations. The features of five basic types of such accelerators are analysed in the article. An occurrence of units of accelerators in clusters of Kyiv of the NAS of Ukraine (two types are in the Main Astronomical Observatory, one type is in the Institute of Cybernetics named after V. Gluskov) is noted.
first_indexed 2025-12-07T17:48:56Z
format Article
fulltext 10 © Якуба А.А., Комухаев Э.И., Рябчун С.Г., 2010 ISSN 1028-9763. Математичні машини і системи, 2010, № 2 УДК 681.3 А.А. ЯКУБА , Э.И. КОМУХАЕВ, С.Г. РЯБЧУН РАЗВИТИЕ УСКОРИТЕЛЕЙ СПЕЦИАЛИЗИРОВАННЫХ ВЫЧИСЛЕНИЙ Abstract. Modern high performance computing is increased by the application of new hardware of a general purpose, their software perfection and, increasingly, by the application of accelerators of specialized calculations. The features of five basic types of such accelerators are analysed in the article. An occurrence of units of accelerators in clusters of Kyiv of the NAS of Ukraine (two types are in the Main Astronomical Observatory, one type is in the Institute of Cybernetics named after V. Gluskov) is noted. Key words: HPC, accelerators Cell, ClearSpeed, graphic, on FPGA, GRAPE. Анотація. Швидкодію сучасних високопродуктивних комп'ютерів підвищують застосуванням нових апаратних засобів загального призначення, вдосконаленням їх ПЗ і, все ширше, застосуванням прискорювачів спеціалізованих обчислень. У статті проаналізовано особливості застосування п’яти основних типів таких прискорювачів. Відмічена поява вузлів прискорювачів у київських кластерах НАН України (два типи в Головній астрономічній обсерваторії, один – в Інституті кібернетики ім. В.М. Глушкова). Ключові слова: HPC, прискорювачі Cell, ClearSpeed, графічнi, на FPGA, GRAPE. Аннотация. Быстродействие современных высокопроизводительных компьютеров повышают применением новых аппаратных средств общего назначения, совершенствованием их ПО и, все шире, применением ускорителей специализированных вычислений. В статье проанализированы особенности применения пяти основных типов таких ускорителей. Отмечено появление узлов ускорителей в киевских кластерах НАН Украини (два типа в Главной астрономической обсерватории, один – в Институте кибернетики им. В.М. Глушкова). Ключевые слова: HPC, ускорители Cell, ClearSpeed, графические, на FPGA, GRAPE. 1. Введение Наибольший вклад в современные разработки, внедрение ускорителей специализированных вычислений для суперкомпьютеров вносят специалисты США, Японии, Китая, России. Последний 34-й список мирового рейтинга Тор 500 наиболее мощных суперкомпьютеров включает уже 12 суперкомпьютерных систем, содержащих различные ускорители специализированных вычислений. В отдельных публикациях, в частности, посвященных военному суперкомпьютеру Roadrunnes, впервые в мире преодолевшему петафропный барьер производительности, внедренные в эту систему ускорители специализированных вычислений называют также специализированными процессорами. Ниже отражены особенности различных типов ускорителей. 2. Модернизация аппаратных средств HPC (High Performance Computing) Постоянно наращиваются мощности новых HPC (недавно достигнута рекордная производительность в один петафлоп-квадрильйон операций с плавающей запятой в секунду) для обеспечения растущих запросов науки, техники, экономики, медицины, обороны, формирования долгосрочных прогнозов и др. Уже анонсированы проекты HPC c производительностью 2, 3, 10, 20, 40 PFLOPS. Для этих проектов отрабатываются многие инновационные решения повышения производительности, новые пути преодоления существующих ограничений, особенно в отношении энергозатрат. Жесткие ограничения по энергопотреблению практически заблокировали развитие процессорных проектов, связанных с ростом значений тактовой частоты свыше 3 – 4 ГГц. Теперь главным направлением разработок повышения быстродействия вычислений стала реализация перспектив параллелизации процессов обработки и ресурсов гибридизации ряда инновационных аппаратных средств. ISSN 1028-9763. Математичні машини і системи, 2010, № 2 11 Эффективные средства ускорения различных, даже конкурирующих, производителей нередко используются пользователями совместно. Например, в суперкомпьютере Tsubame Токийского института технологий, занявшего 56 место в последней, 34 редакции списка Top500, используются: многоядерные процессоры Intel Xeon 5400, процессоры и платы компаний AMD, Sun, nVidia, решения виртуализации, MPI, InfiniBand, сотни ускорителей ClearSpeed типа CSX600, каждый из которых содержит чип FPGA Virtex-4. Производительность Tsubame по тесту LINPACK вскоре намечено повысить до 2 PFLOPS. Замедлилось наращивание многоядерности процессоров общего применения для обработки параллельных потоков данных из-за недостаточного существующего уровня знаний в области процессов параллельной обработки, отсутствия эффективных алгоритмов. В [1] делается вывод, что на данном этапе дальнейший рост многоядерности процессоров общего назначения обеспечит повышение быстродействия HPC не более, чем на порядок. Из-за задержек при создании эффективных решений параллельного ПО для многих ядер главные производители многоядерных процессоров преимущественно совершенствуют параметры четырехъядерных и начинают выпускать шестиядерные процессоры. Компания Intel за последние годы представила уже три семейства четырехъядерных процессоров серий Xeon 5000, их параметры приведены в табл. 1. Таблица 1. Параметры X5300, X5400, X5500 Технол. изготовл., нм Тактовая частота, ГГц Мощность, Вт Объем кэш- памяти, Мб Аппаратные средства виртуали- зации Примечания 65 нм (X5300) 1,6 – 2,66 80 – 120 8 (L2) Да Каждому ядру назначают до 4 МБ кэш L2 45 нм (X5400) 2 – 3,2 80 – 150 12 (L2) Да Увеличена производит. относительно X5300 до 50% 45 нм (X5500) 2 – 3,2 38 - 130 4 – 8 (L3) Да Введен интегриров. контроллер памяти DDR3 Трудности согласований обменов с памятью связаны с тем, что ежегодно производительность процессоров растет примерно на 60%, а задержки при обращении к памяти снижаются лишь на 7% [2]. Для ускорения обменов с памятью интегрируют в кристалл контроллеры памяти. Такие контроллеры cравнительно давно и эффективно в своих процессорах применяет компания AMD. Оказалось, что решения параллельного ПО для специализированных вычислений намного проще оптимизировать даже для сотен ядер и обеспечить при этом рост быстродействия вычислений на несколько порядков. Такие решения широко реализуются в ускорителях, рассмотренных в разд. 3. ISSN 1028-9763. Математичні машини і системи, 2010, № 2 12 3. Особенности ускорителей специализированных вычис- лений Наибольший прирост произво- дительности за счет специа- лизированных вычислений на базе ускорителей, по сравнению с использованием CPU, дости- гается, когда, например, при обработке больших объемов данных используется единая последовательность математи- ческих операций, в частности, для случаев плотных (dense) матричных вычислений. Для многих приложений производительность вычислений на видеочипах с каждым годом все значительнее превышает производительность расчетов на основе CPU. Об этом свидетельствует график на рис. 1, который приводит компания NVIDIA [3, 4]. Отметим, что на графике показатели для видеочипов даны для одинарной точности, а для CPU – для двойной. Показатели, взятые при сравнениях для двойной точности, более близки, видеочипы почти на порядок медленнее обрабатывают данные с двойной точностью, чем с одинарной. Наибольшую известность и применение получили следующие разновидности ускорителей для HPC: – Cell-процессоры, разработка IBM совместно с компаниями Sony, Toshiba; – платы компании ClearSpeed (Великобритания – США); – платы на базе FPGA разработок компаний Celoxica, Nallatech, DRC и др. [5]; – блоки и платы GPGPU (General Purpose Graphical Processing Units) разработок компаний NVIDIA, AMD (ATI); – платы GRAPE, разработанные университетом Токио. Наиболее широкий спектр эффективно решаемых задач обеспечивают ускорители Cell, которые, в частности, применены для реализации суперкомпьютера IBM Roadrunner петафлопной производительности. Главная Рис. 1. Сравнение роста производительности CPU и GPU Рис. 2. Структура системы Roadrunner ISSN 1028-9763. Математичні машини і системи, 2010, № 2 13 особенность его структуры (рис. 2) в присоединениях Cell-ускорителей к каждому кластерному узлу на многоядерных процессорах AMD Opteron, которые выполняют основные системные операции. Здесь задействованы 6120 двухъядерных процессоров AMD Opteron и 12240 девятиядерних процесоров IBM Power X Cell8i. Последние выполняют математические и вспомогательные операции, где необходимо максимальное быстродействие. Сформировано 3060 структурных компонентов-модулей TriBlade (рис. 3), в каждом из них объединены два blade – сервера IBM QS22 (Cell) и один blade – сервер IBMLS21 (Opteron). Для объединения компонентов использовано около десяти тысяч соединений InfiniBand и Gigabit Ethernet. Важным достижением этой системы – рекордсмена продуктивности – является сравнительно высокий показатель энергоэффективности, а именно уровень 437 MFlops/Вт. Важным фактором расширения применений ускорителей является предоставление пользователям ускори- телей библиотек и драйверов cредств оценки эффективности решения задачи на базе предоставляемого соответ- ствующего программного обеспечения. 3.1. Особенности Cell-процессоров Компания IBM в партнерстве с компаниями Sony, Toshiba в 2005 году разработала высокопроизводительный процессор с новой Cell-архитектурой, предназначенной ускорить в 100 раз выполнение алгоритмов игровых и медийных устройств, значительно ускорить приложения в режиме реального времени. Сегодня Cell-процессор уже широко используется и в структурах HPC. Девятиядерный Cell-процессор является многопроцессорной микросхемой, включающей 64 бит- процессорный элемент PPE и 8 специализированных сопроцессоров SPE на базе SIMD-архитектуры, специали- зированную высокопроизводительную шину EIB, контроллер памяти и контроллер ввода – вывода (рис. 4). PPE распределяет задачи на SPE, контролирует системные операции ввода- вывода с системной памятью и внешними устройствами, а SPE ускоренно выполняют несложные математические операции. В процессоре PowerXCell& значительно ускорен обмен с системной Рис. 3. Структурная схема блейд-модуля TriBlade Рис. 4. Функциональные узлы Cell-процессора ISSN 1028-9763. Математичні машини і системи, 2010, № 2 14 памятью за счет введения в каждый SPE до 256 КБ локальной памяти с быстрым доступом. С нее могут перемещаться данные в основную память и обратно, даже с упреждением, без прерывания вычислительного процесса в SPE. Все SPE и PPE имеют ускоренный доступ к основной памяти через контроллер разделяемой памяти и внутреннюю объединяющую магистраль. Основным инструментом программирования ускорителей Cell является IBM SDK for Multicore Acceleration. В его составе компиляторы, отладчики, библиотеки BLAS, FFT, генерации случайных чисел и др. 3.2. Ускорители компании ClearSpeed Компания ClearSpeed из г. Бристоль в 2005 году разработала чип CSX600, в котором размещен восьмипотоковый процессор с 96 ядрами. В систему команд процессора входят монокоманды для внутреннего исполнения и поликоманды для исполнения в режиме SIMD всеми 96 ядрами процессора: над собственными наборами регистров, над данными узлов встроенной памяти. В чипе треды (потоки) взаимодействуют между собой и вводом-выводом на базе аппаратно реализованных семафоров. Два порта чипа позволяют реализацию многокристальных систем. Каждое ядро оснащено 6 Кб кэша, имеется общий кэш объемом 128 Кб, используемый всеми ядрами. На основе многоядерного чипа CSX600 (производство по техпроцессу 130 нм) компания ClearSpeed выпускает два типа плат-ускорителей: Advance X 620 с интерфейсом PCI-X и Advance e 620 с интерфейсом PCI-Express. Каждый из ускорителей содержит по 2 чипа CSX 600 и чип Xilinx FPGA Virtex-4 для реализаций интерфейсных функций. В 2008 году компанией ClearSpeed начат выпуск усовершенствованных моделей плат Advance e710, e720 с одним чипом CSX 700 по технологическому процессу 90 нм. Обеспечивается производительность 96 GFLOPS/25 W при точности 64 или 32 бит с плавающей запятой согласно стандарту IEEE 754. На плате размещена память 2 GB 533 MHz DDR2 с аппаратной коррекцией ошибок. Применение платы поддерживают прилагаемые библиотеки для функций BLAS, LAPACK, Standard C, Vector, FFT Random number generator. Программный набор инструментария CleerSpeed Visual Profiler позволяет оптимизировать для задач число требуемых ускорителей. Компания CleаrSpeed представила [6], в частности, последовательность протестированных показателей соотношений произво- дительность/энергопотребление для ряда конкурирующих плат ускорителей при решении задач FFT с точностью 1024 x 1024 2D. Соответственно указаны значения: 2,86 GFLOPs/W (для плат на CSX 700), 0,95 GFLOPs/W(для плат на Cell при 8 SPE ), 0,29 GFLOPs/W(для плат на S 870-Tesla ), 0,12 GFLOPs/W(для плат на x 86). Отмечается, что при различных вычислениях с производительностью около 100 GFLOPs с двойной точностью плата Advance e 710 потребляет всего 12W, а плата Tesla – около 170 W. 3.3. Ускорители на FPGA Аппаратноперестраиваемые (реконфигурируемые) ускорители на FPGA развиваются сравнительно давно, особенно для решения задач распознавания, включая поиск шаблонов ДНК и др. По сравнению с вычислениями на CPU для ряда специализированных задач ускорители на FPGA обеспечивают прирост производительности на два – три порядка. Разработка программ прошивок ISSN 1028-9763. Математичні машини і системи, 2010, № 2 15 FPGA весьма трудоемка, требует знания языков VHDL. Так, в проекте HPC Maxwell [5] для плат на FPGA Virtex-4 создание прошивки для типовой задачи с использованием метода Монте-Карло обеспечило ускорение примерно в 300 раз, потребовало несколько человеконедель труда программиста. В феврале 2009 г. cозданы компанией Xilinx усовершенствованные FPGA Virtex-6, выпускаемые по технологии 40 нм, которые за счет встроенных в кристалл решений на 50% ускоряют процесс проектирования прошивок, а также значительно ускоряют вычисления, снижают энергозатраты, стоимость. Уже через полтора месяца после анонсирования выпуска Virtex-6 появились сообщения о свыше 700 проектах на базе Virtex-6, например, мировой лидер приборостроения компания Agilent начала разработку нового поколения высокопроизводительных осциллографов с использованием Virtex-6. Прогнозируют широкие применения Virtex-6 для HPC. Например, весьма реальна замена двух чипов Virtex-4 одним чипом Virtex-6 в плате ускорителя RCHTX компании Celoxica, представленной на рис. 5. Существующий вариант платы обеспечивал прирост в 200 раз ускорения решений задач из области финансов, нефтегазовой области, биологии, медицины. RCHTX используются, в частности, в составе кластера в г. Пермь, занимающего место 26 в рейтинге Top50. После модернизации на базе Virtex-6 значительно улучшатся практически все параметры таких ускорителей. Компания Celoxica анонсировала выпуск линейки ускорителей на базе новых чипов FPGA Xilinx c подключением к платформам Intel посредством PCI Express. Новые FPGA – решения c использованием новых чипов компаний Xilinx, Altera внедряются для ряда HPC компаний Cray, Silicon Graphics, NEC и др. Значительно упрощаются реализации приложений на FPGA-ускорителях благодаря созданию высокоуровневых языков ImpulseC, Mitrion- C, Handel-C. В частности, последний используется для приложений упомянутых ускорителей компании Celoxica, язык Mitrion-C для FPGA- ускорителей компании Nallatech, платформ Cray XD1, SGI RASC. 3.4. Графические ускорители Интенсивно расширяется применение графических процессоров для ускорения неграфических вычислительных функций HPC на базе средств и технологий компании NVIDIA и компании AMD (ATI). Кратко перечислим часто используемые термины и акронимы. GPGPU (General – Purpose Graphics Processing Units) – технологии использования графического процессора для ускорения общих вычислений, ранее выполняемых центральными процессорами (CPU); Direct X – набор низкоуровневых программных интерфейсов мультимедиа-приложений; Open CL (Open Computing Langnage) – открытый язык вычислений для написания компьютерных программ, реализующих параллельные вычисления на различных графических и центральных процессорах. Open CL для Рис. 5. Ускоритель RCHTX ISSN 1028-9763. Математичні машини і системи, 2010, № 2 16 GPGPU обеспечивает параллелизм на уровне инструкций и на уровне данных. NVIDIA CUDA – инновационная архитектура совокупности программных и аппаратных средств для упрощенной и гибкой реализации на графических процессорах компании NVIDIA вычислений. CUDA (Compute Unified Device Architecture) с 2007 года получила широкое признание и позволяет пользователям решать сложные вычислительные задачи на многоядерных графических процессорах за меньшее время, чем при использовании CPU. CUDA отмечена премиями “Выбор читателей” от издания HPCWire, “Лучшая новинка” от журнала Popular Science, “Техническое превосходство” от PC Magazine. Инструменты CUDA (предоставляемые бесплатно) ускоряют решения многих ресурсоемких задач, включая поиск нефти и газа, вывод медицинских изображений. Для NVIDIA CUDA главным конкурирующим средством становится средство AMD CTM-Brook. Серию решений компании NVIDIA, ориентированных на высокопроизводительные вычисления, называют Tesla. А серия решений графических процессорных устройств компании AMD, ориентированная на ускорение вычислений, получила название FireStream. Далее подробнее рассмотрим возможности и особенности двух упомянутых основных типов средств GPGPU, представляющих разработки наиболее современного, третьего поколения [3]. Устройства третьего поколения содержат набор сотен потоковых процессоров, работающих с общей памятью (видео ОЗУ) объемом порядка 1 ГБ. Крупнейшим поставщиком графических средств является компания NVIDIA. Ее средства третьего поколения включают новый чип GT200, видеокарты серии GeForce GTX200, плату ускорителя расчетов Tesla C1060, blade-плату Tesla S1070 Computing System, CUDA версий 1.0, 1.1, 2.0. Видеочип GT200 создан для решения вычислительных задач при помощи технологии CUDA второго поколения. GT200 является программируемым мультипроцессором с 240 вычислительными ядрами, работающими на частоте 1,3 ГГц, имеет общую память, поддерживает вычисления с плавающей точкой двойной точности. Базовая одночиповая плата Tesla требует для работы около 170 Вт. Производительность одного чипа GT200 – 933 GFLOPS, а производительность платы C1060 округляют до 1TFLOPS. NVIDIA начала выпуск еще более мощной платы Tesla C1070 с использованием четырех чипов GT200 и соответственно 960 потоковых процессоров. Эта плата поддерживает технологию NVIDIA CUDA второго поколения, вычисления с одинарной и двойной точностью. Плата имеет системный интерфейс PCIe x16 или x8, интерфейс памяти 4х512 бит, пропускную способность памяти 408 ГБ/c, частоту потоковых процессоров 1500 МГц, объем 16 ГБ GDDR3 памяти, энергопотребление 700 Вт. NVIDIA разрабатывает новый графический чип GT300, который будет иметь двукратный прирост производительности в сравнении с GT200 и поддержку стандартного программного интерфейса Microsoft Direct11. Видеокарты серии NVIDIA8000 выпускаются с поддержкой программного интерфейса Direct X10 с конца 2006 года. Главный конкурент компании NVIDIA по разработкам вычислительных средств на базе графических чипов компания AMD уже представила свой графический процессор с поддержкой Direct X11. Компания AMD для своих средств ускорения вычислений использует стандартные платформы Open CL и Direct X, в то время как NVIDIA преимущественно ориентируется на ISSN 1028-9763. Математичні машини і системи, 2010, № 2 17 собственную платформу CUDA. Специалисты AMD недавно значительно ускорили работу компилятора Brook+ в составе средств программирования AMD CTM-Brook. К аппаратным графическим средствам вычислений третьего поколения компании AMD относятся наборы Radeon XIK-HD4K. Выделяется высокими характеристиками новая графическая карта Radeon HD4870, которая послужила основой для ускорителя FireStream 9270. Здесь используется чип с 800 потоковыми процессорами, суммарная производительность которых около 1,2 TFLOPS с одинарной точностью и 240 GFLOPS с удвоенной точностью. На плате установлены два гигабайта памяти GDDR5, тактируемые частотой 850 МГц. В кластерах чаще применяются ускоряющие средства компании NVIDIA Tesla – CUDA. Так, компания Evolved Machines собрала кластер на базе 14 CPU AMD Phenom и 42 графических карт Tesla с пиковой производительностью свыше 40 TFLOPS для моделирования устройств искусственного интеллекта. Компания “Т-Платформы” в 2009 году модернизировала в Киеве кластер GOLOWOOD Главной астрономической обсерватории НАНУ, добавив девять серверов на процессорах Intel Xeon 5420, память на узлах – до 8 ГБ, девять ускорителей NVIDIA GeForce GTX 280. За счет ввода указанного сочетания средств производительность кластера возросла с 1 TFLOPS до 6 TFLOPS. 3.5. Ускорители GRAVE, MPRACE для научных расчетов Для ускорения расчетов взаимодействий тел, частиц в астрофизике, химии,биологии все чаще к узлам кластеров подключают ускоряющие вычисления платы GRAVE, GRAVE-DR разработок университета Токио [7], а также платы MPRACE1, MPRACE2 разработок университета Гейдельберга [8]. Среди активных пользователей этих ускорителей научные учреждения США, Японии, Германии, Украины и других стран. В частности, реализуются расчеты, связанные с решениями гравитационной задачи N тел [4]. Эволюция системы N гравитирующих тел (материальных точек) описывается следующей системой уравнений: i i v dt dr = , 3 ij ij N ij j i rr rr Gm dt dv − − =∑ ≠ , где ii vrm ,,1 – масса, радиус-вектор и скорость i -го тела соответственно ( i изменяется от 1 до N ), G – гравитационная постоянная. Массы тел, а также положения и скорости в начальный момент времени считаются известными. Необходимо найти положения и скорости всех частиц в произвольный момент времени. С развитием высокопроизводительных средств вычислений расширяется моделирование и изучение свойств систем гравитирующих тел путем численного решения системы уравнений движения. Ввод ускорителей не только повышает быстродействие решений, но за счет аппаратной реализации укрупненных специализированных операций значительно упрощает программирование задач. Развитие семейств чипов, плат GRAPE, MPGRACE обеспечивает пользователям ряд ISSN 1028-9763. Математичні машини і системи, 2010, № 2 18 преимуществ по сравнению с использованием стандартных CPU. На рис. 6 представлена структура вычислительных схем чипа GRAPE-6 [7]. Разработчики се- мейств чипов GRAPE приводят, в частности, следующие сравнительные данные для чипов GRAPE- 6, созданных в 1999 году по технологиям 250 нм, и чипов Intel Xeon 5365, созданных в 2006 году по технологиям 65 нм. Соответственно для GRAPE указаны частота 90 MHz, пиковая производительность 32,4 GFLOPS, потребляемая мощность 10W, производительность на один ватт 3,24 GFLOPS, а для Xeon 3GHz, 48 GFLOPS, 120W, 0,4GFLOPS. В кластере GOLOWOOD Главной астрономической обсерватории НАНУ в Киеве с 2006 года используются восемь плат GRAPE6 – BLX64, по одной в каждом узле совместно с процессором Xeon 5130 и памятью 2ГБ. Этот кластер c 2006 года обеспечивал решения задач гравитационного взаимодействия многих тел, но его производительности (примерно 1 TFLOPS) недоставало для решения ряда других задач. Поэтому в 2009 году его модернизировали за счет более современных ускорителей (см. 3.4). В 2006 году специалисты Токийского университета создали многоядерный чип GRAPE DR, представляющий собой специализированный процессор для выполнения до 512 млрд операций с плавающей точкой в секунду. Каждое из его 512 ядер ориентировано на выполнение отдельной операции. Ядра процессора разделены на 16 групп, по 32 ядра в каждом. Причем каждая группа адаптирована на обработку определенного набора инструкций. Чип производится по 90-му нм техпроцессу, использует тактовую частоту в 500 МГц, потребляет под максимальной нагрузкой 60 Вт, в простое менее 30 Вт. На платах чип GRAPE DR взаимодействует с чипом FPGA Altera StratixII, который осуществляет интерфейсные и вспомогательные операции. Чип GRAPE DR на платах расширения размещается с интерфейсом PCI-X. Платы с четырьма чипами рассчитаны обеспечивать производительность 2TFLOPS. Растущие вычислительные возможности чипов GRAPE-DR предназначены для эффективной реализации задач: моделирования в астрономии, изучения динамики молекулярных процессов, квантово-молекулярного моделирования, исследований цепочек генома, гидродинамических взаимодействий частиц, обработки плотных (dense) матриц. К 2011 году специалисты Токийского университета планируют на базе перехода на техпроцесс 45 нм и новых решений для чипов GRAPE DR создать вычислительную систему с производительностью 1 – 10 PFLOPS. 4. Применение ускорителей Растущему применению ускорителей посвящен прошедший в США в 2009 Symposium on Application Рис. 6. Структура чипа GRAPE-6 ISSN 1028-9763. Математичні машини і системи, 2010, № 2 19 Accelerators in High Performance Computing. В его программе анализ развития применения рассмотренных выше разновидностей ускорителей в сочетании с чипами CPU, а также проекты их интеграции (Intel’s Larrabee, AMD Fusion). Автор известного тестового пакета LINPACK Джек Донгарра считает, что будущее HPC за гибридными решениями, объединяющими возможности графических ускорителей и многоядерных центральных процессоров. Однако этот прогноз не снижает целесообразность развития остальных разновидностей ускорителей, которые, видимо, будут чаще ориентированы на совместные подключения для ускорения решений конкретных задач. Такую тенденцию гибридизации ускорителей иллюстрирует как рис. 7, на котором к каждому HOST на CPU подключены по два типа ускорителей для решения задач астрофизики, биологии, так и табл. 5, где представлены пары различных ускорителей в составах трех из пяти новых HPC, использующих ускорители специализированных вычислений. В табл. 2 даны примеры использования пяти разновидностей ускорителей специализированных вычислений в реальных системах HPC. Таблица 2. Примеры применения ускорителей Место установки HPC Тип CPU Тип ускорит. средств Производит. HPC (TFlops) Примечания DOE/NNSA/ LANL, США Opteron DC 1.8 GHz PowerXCell 8i 3.2 GHz по LINPACK – 1105, Rpeak - 1456.7 Данная система возглавляет список Top500 в редакциях 31, 32, 33 GSIC Center, Япония Opteron QC 2.3 GHz, Xeon E5440 2.833 GHz Clear Speed CSX600, nVidia GT200 По LINPACK – 87.01, Rpeak – 163.19 В 33 редакции списка Top500 эта система занимает место 41 Кластер компании Evolved Machines, США 14 четырехъ- ядерных AMD Phenon 42 платы NVIDIA Tesla Пиковая производит. свыше 40 Предназначен для моделирования биологических нейронных сетей Кластер GOLOWOOD ГАО НАНУ, Украина 9 узлов на Intel Xeon 5130, добавлены 9 серверов на Intel Xeon 5420 С 2006 г. задействова-но 8 ускор. плат GRAPE6- BLX64, в 2009 г. добавлены ускорит. NVIDIA GeForce GTX280 Реальная производит. была 1 TFlops, после модернизации – 6 TFlops Ускорители GRAPE6 обеспечивали только решения задач N тел для астрофизики; добавленные в 2009 году ускорители NVIDIA значительно расширили круг решаемых задач Кластер университ. штата Иллинойс, США 16 узлов на двухъядерн. AMD Opteron NVIDIA G80GL, платы Nallatech FPGA (Virtex-4) Пиковая производит. 23 Предназначен для решения задач молекулярной динамики, моделирования погоды Рис. 7. Сочетания CPU и ускорителей [8] ISSN 1028-9763. Математичні машини і системи, 2010, № 2 20 5. Выводы 1. Все более эффективным и доступным средством повышения производительности HPC становится гибридизация CPU и ускорителей специализированных вычислений. Создавать требуемое параллельное ПО для многоядерных ускорителей специализированных вычислений оказалось намного проще, чем для многоядерных процессоров общего назначения, в частности, поддерживается обработка в ускорителях 192, 800 ядер. 2. Наибольшие применения в HPC получили следующие пять разновидностей ускорителей специализированных вычислений: – Cell-процессоры; – платы ускорения Clearspeed; – платы ускорения на базе FPGA; – платы ускорения на графических процессорах; – платы ускорения GRAPE. В составе ряда HPC уже используются 1–2 разновидности ускорителей. Чаще всего внедряются ускорительные платы на базе графических чипов. 3. После проведения в США первого ежегодного симпозиума по применению ускорителей для HPC (2009 Symposium on Application Accelerators in High Performance Computing) его устроители прогнозируют, что вскоре применение ускорителей для HPC станет нормой. СПИСОК ЛИТЕРАТУРЫ 1. Кузнецов С. Перспективы наноэлектроники. Обзор публикаций / C. Кузнецов // IEEE Computers Society. – 2008. – Vol. 41, N 5. – Режим доступа: www.citforum.ru/computer/2008-05/. 2. Волков Д. Оценка быстродействия нерегулярного доступа к памяти / Д. Волков, А. Фролов // Открытые системы. – 2008. – № 1. – С. 15 – 19. 3. Берилло А. NVIDIA CUDA – неграфические вычисления на графических процессорах / А. Берилло. – Режим доступа: www.ixbt.com/video3/cuda-t.shtml. 4. Модернизация суперкомпьютера ГАО НАНУ. – Режим доступа: www.pcnews.ru/golowood. 5. www.parallel.ru/FPGA/Maxwell.html. 6. www.clearspeed.com. 7. From Newton to Einstein – N. Body Dynamics / R. Spurzem, P. Berczik [et al.] // Journal of Phisic: Conference Series 78. – 2007. – N 012071. 8. www.scidacreview.org/0902/html/hardware.html. Стаття надійшла до редакції 06.10.2009
id nasplib_isofts_kiev_ua-123456789-51613
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1028-9763
language Russian
last_indexed 2025-12-07T17:48:56Z
publishDate 2010
publisher Інститут проблем математичних машин і систем НАН України
record_format dspace
spelling Якуба, А.А.
Комухаев, Э.И.
Рябчун, С.Г.
2013-12-04T01:03:02Z
2013-12-04T01:03:02Z
2010
Развитие ускорителей специализированных вычислений / А.А. Якуба, Э.И. Комухаев, С.Г. Рябчун // Мат. машини і системи. — 2010. — № 2. — С. 10-20. — Бібліогр.: 8 назв. — рос.
1028-9763
https://nasplib.isofts.kiev.ua/handle/123456789/51613
681.3
Быстродействие современных высокопроизводительных компьютеров повышают применением новых аппаратных средств общего назначения, совершенствованием их ПО и, все шире, применением ускорителей специализированных вычислений. В статье проанализированы особенности применения пяти основных типов таких ускорителей. Отмечено появление узлов ускорителей в киевских кластерах НАН Украини (два типа в Главной астрономической обсерватории, один – в Институте кибернетики им. В.М. Глушкова).
Швидкодію сучасних високопродуктивних комп'ютерів підвищують застосуванням нових апаратних засобів загального призначення, вдосконаленням їх ПЗ і, все ширше, застосуванням прискорювачів спеціалізованих обчислень. У статті проаналізовано особливості застосування п’яти основних типів таких прискорювачів. Відмічена поява вузлів прискорювачів у київських кластерах НАН України (два типи в Головній астрономічній обсерваторії, один – в Інституті кібернетики ім. В.М. Глушкова).
Modern high performance computing is increased by the application of new hardware of a general purpose, their software perfection and, increasingly, by the application of accelerators of specialized calculations. The features of five basic types of such accelerators are analysed in the article. An occurrence of units of accelerators in clusters of Kyiv of the NAS of Ukraine (two types are in the Main Astronomical Observatory, one type is in the Institute of Cybernetics named after V. Gluskov) is noted.
ru
Інститут проблем математичних машин і систем НАН України
Математичні машини і системи
Обчислювальні системи
Развитие ускорителей специализированных вычислений
Розвиток прискорювачів для спеціалізованих обчислень
Development of accelerators for specialized calculations
Article
published earlier
spellingShingle Развитие ускорителей специализированных вычислений
Якуба, А.А.
Комухаев, Э.И.
Рябчун, С.Г.
Обчислювальні системи
title Развитие ускорителей специализированных вычислений
title_alt Розвиток прискорювачів для спеціалізованих обчислень
Development of accelerators for specialized calculations
title_full Развитие ускорителей специализированных вычислений
title_fullStr Развитие ускорителей специализированных вычислений
title_full_unstemmed Развитие ускорителей специализированных вычислений
title_short Развитие ускорителей специализированных вычислений
title_sort развитие ускорителей специализированных вычислений
topic Обчислювальні системи
topic_facet Обчислювальні системи
url https://nasplib.isofts.kiev.ua/handle/123456789/51613
work_keys_str_mv AT âkubaaa razvitieuskoriteleispecializirovannyhvyčislenii
AT komuhaevéi razvitieuskoriteleispecializirovannyhvyčislenii
AT râbčunsg razvitieuskoriteleispecializirovannyhvyčislenii
AT âkubaaa rozvitokpriskorûvačívdlâspecíalízovanihobčislenʹ
AT komuhaevéi rozvitokpriskorûvačívdlâspecíalízovanihobčislenʹ
AT râbčunsg rozvitokpriskorûvačívdlâspecíalízovanihobčislenʹ
AT âkubaaa developmentofacceleratorsforspecializedcalculations
AT komuhaevéi developmentofacceleratorsforspecializedcalculations
AT râbčunsg developmentofacceleratorsforspecializedcalculations