Развитие ускорителей специализированных вычислений
Быстродействие современных высокопроизводительных компьютеров повышают применением новых аппаратных средств общего назначения, совершенствованием их ПО и, все шире, применением ускорителей специализированных вычислений. В статье проанализированы особенности применения пяти основных типов таких ускор...
Saved in:
| Published in: | Математичні машини і системи |
|---|---|
| Date: | 2010 |
| Main Authors: | , , |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут проблем математичних машин і систем НАН України
2010
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/51613 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Развитие ускорителей специализированных вычислений / А.А. Якуба, Э.И. Комухаев, С.Г. Рябчун // Мат. машини і системи. — 2010. — № 2. — С. 10-20. — Бібліогр.: 8 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1860139883495948288 |
|---|---|
| author | Якуба, А.А. Комухаев, Э.И. Рябчун, С.Г. |
| author_facet | Якуба, А.А. Комухаев, Э.И. Рябчун, С.Г. |
| citation_txt | Развитие ускорителей специализированных вычислений / А.А. Якуба, Э.И. Комухаев, С.Г. Рябчун // Мат. машини і системи. — 2010. — № 2. — С. 10-20. — Бібліогр.: 8 назв. — рос. |
| collection | DSpace DC |
| container_title | Математичні машини і системи |
| description | Быстродействие современных высокопроизводительных компьютеров повышают применением новых аппаратных средств общего назначения, совершенствованием их ПО и, все шире, применением ускорителей специализированных вычислений. В статье проанализированы особенности применения пяти основных типов таких ускорителей. Отмечено появление узлов ускорителей в киевских кластерах НАН Украини (два типа в Главной астрономической обсерватории, один – в Институте кибернетики им. В.М. Глушкова).
Швидкодію сучасних високопродуктивних комп'ютерів підвищують застосуванням нових апаратних засобів загального призначення, вдосконаленням їх ПЗ і, все ширше, застосуванням прискорювачів спеціалізованих обчислень. У статті проаналізовано особливості застосування п’яти основних типів таких прискорювачів. Відмічена поява вузлів прискорювачів у київських кластерах НАН України (два типи в Головній астрономічній обсерваторії, один – в Інституті кібернетики ім. В.М. Глушкова).
Modern high performance computing is increased by the application of new hardware of a general purpose, their software perfection and, increasingly, by the application of accelerators of specialized calculations. The features of five basic types of such accelerators are analysed in the article. An occurrence of units of accelerators in clusters of Kyiv of the NAS of Ukraine (two types are in the Main Astronomical Observatory, one type is in the Institute of Cybernetics named after V. Gluskov) is noted.
|
| first_indexed | 2025-12-07T17:48:56Z |
| format | Article |
| fulltext |
10 © Якуба А.А., Комухаев Э.И., Рябчун С.Г., 2010
ISSN 1028-9763. Математичні машини і системи, 2010, № 2
УДК 681.3
А.А. ЯКУБА , Э.И. КОМУХАЕВ, С.Г. РЯБЧУН
РАЗВИТИЕ УСКОРИТЕЛЕЙ СПЕЦИАЛИЗИРОВАННЫХ ВЫЧИСЛЕНИЙ
Abstract. Modern high performance computing is increased by the application of new hardware of a general purpose,
their software perfection and, increasingly, by the application of accelerators of specialized calculations. The features
of five basic types of such accelerators are analysed in the article. An occurrence of units of accelerators in clusters of
Kyiv of the NAS of Ukraine (two types are in the Main Astronomical Observatory, one type is in the Institute of
Cybernetics named after V. Gluskov) is noted.
Key words: HPC, accelerators Cell, ClearSpeed, graphic, on FPGA, GRAPE.
Анотація. Швидкодію сучасних високопродуктивних комп'ютерів підвищують застосуванням нових
апаратних засобів загального призначення, вдосконаленням їх ПЗ і, все ширше, застосуванням
прискорювачів спеціалізованих обчислень. У статті проаналізовано особливості застосування п’яти
основних типів таких прискорювачів. Відмічена поява вузлів прискорювачів у київських кластерах НАН
України (два типи в Головній астрономічній обсерваторії, один – в Інституті кібернетики ім.
В.М. Глушкова).
Ключові слова: HPC, прискорювачі Cell, ClearSpeed, графічнi, на FPGA, GRAPE.
Аннотация. Быстродействие современных высокопроизводительных компьютеров повышают
применением новых аппаратных средств общего назначения, совершенствованием их ПО и, все шире,
применением ускорителей специализированных вычислений. В статье проанализированы особенности
применения пяти основных типов таких ускорителей. Отмечено появление узлов ускорителей в киевских
кластерах НАН Украини (два типа в Главной астрономической обсерватории, один – в Институте
кибернетики им. В.М. Глушкова).
Ключевые слова: HPC, ускорители Cell, ClearSpeed, графические, на FPGA, GRAPE.
1. Введение
Наибольший вклад в современные разработки, внедрение ускорителей специализированных
вычислений для суперкомпьютеров вносят специалисты США, Японии, Китая, России. Последний
34-й список мирового рейтинга Тор 500 наиболее мощных суперкомпьютеров включает уже 12
суперкомпьютерных систем, содержащих различные ускорители специализированных вычислений.
В отдельных публикациях, в частности, посвященных военному суперкомпьютеру Roadrunnes,
впервые в мире преодолевшему петафропный барьер производительности, внедренные в эту
систему ускорители специализированных вычислений называют также специализированными
процессорами. Ниже отражены особенности различных типов ускорителей.
2. Модернизация аппаратных средств HPC (High Performance Computing)
Постоянно наращиваются мощности новых HPC (недавно достигнута рекордная
производительность в один петафлоп-квадрильйон операций с плавающей запятой в секунду) для
обеспечения растущих запросов науки, техники, экономики, медицины, обороны, формирования
долгосрочных прогнозов и др.
Уже анонсированы проекты HPC c производительностью 2, 3, 10, 20, 40 PFLOPS. Для этих
проектов отрабатываются многие инновационные решения повышения производительности, новые
пути преодоления существующих ограничений, особенно в отношении энергозатрат.
Жесткие ограничения по энергопотреблению практически заблокировали развитие
процессорных проектов, связанных с ростом значений тактовой частоты свыше 3 – 4 ГГц. Теперь
главным направлением разработок повышения быстродействия вычислений стала реализация
перспектив параллелизации процессов обработки и ресурсов гибридизации ряда инновационных
аппаратных средств.
ISSN 1028-9763. Математичні машини і системи, 2010, № 2 11
Эффективные средства ускорения различных, даже конкурирующих, производителей
нередко используются пользователями совместно. Например, в суперкомпьютере Tsubame
Токийского института технологий, занявшего 56 место в последней, 34 редакции списка Top500,
используются: многоядерные процессоры Intel Xeon 5400, процессоры и платы компаний AMD, Sun,
nVidia, решения виртуализации, MPI, InfiniBand, сотни ускорителей ClearSpeed типа CSX600,
каждый из которых содержит чип FPGA Virtex-4. Производительность Tsubame по тесту LINPACK
вскоре намечено повысить до 2 PFLOPS.
Замедлилось наращивание многоядерности процессоров общего применения для
обработки параллельных потоков данных из-за недостаточного существующего уровня знаний в
области процессов параллельной обработки, отсутствия эффективных алгоритмов. В [1] делается
вывод, что на данном этапе дальнейший рост многоядерности процессоров общего назначения
обеспечит повышение быстродействия HPC не более, чем на порядок. Из-за задержек при
создании эффективных решений параллельного ПО для многих ядер главные производители
многоядерных процессоров преимущественно совершенствуют параметры четырехъядерных и
начинают выпускать шестиядерные процессоры. Компания Intel за последние годы представила
уже три семейства четырехъядерных процессоров серий Xeon 5000, их параметры приведены в
табл. 1.
Таблица 1. Параметры X5300, X5400, X5500
Технол.
изготовл.,
нм
Тактовая
частота,
ГГц
Мощность,
Вт
Объем
кэш-
памяти, Мб
Аппаратные
средства
виртуали-
зации
Примечания
65 нм
(X5300)
1,6 – 2,66 80 – 120 8
(L2)
Да Каждому ядру
назначают до
4 МБ кэш L2
45 нм
(X5400)
2 – 3,2 80 – 150
12
(L2)
Да Увеличена
производит.
относительно
X5300 до 50%
45 нм
(X5500)
2 – 3,2 38 - 130 4 – 8
(L3)
Да Введен интегриров.
контроллер
памяти DDR3
Трудности согласований обменов с памятью связаны с тем, что ежегодно
производительность процессоров растет примерно на 60%, а задержки при обращении к памяти
снижаются лишь на 7% [2]. Для ускорения обменов с памятью интегрируют в кристалл контроллеры
памяти. Такие контроллеры cравнительно давно и эффективно в своих процессорах применяет
компания AMD.
Оказалось, что решения параллельного ПО для специализированных вычислений намного
проще оптимизировать даже для сотен ядер и обеспечить при этом рост быстродействия
вычислений на несколько порядков. Такие решения широко реализуются в ускорителях,
рассмотренных в разд. 3.
ISSN 1028-9763. Математичні машини і системи, 2010, № 2 12
3. Особенности ускорителей
специализированных вычис-
лений
Наибольший прирост произво-
дительности за счет специа-
лизированных вычислений на
базе ускорителей, по сравнению
с использованием CPU, дости-
гается, когда, например, при
обработке больших объемов
данных используется единая
последовательность математи-
ческих операций, в частности, для случаев плотных (dense) матричных вычислений. Для многих
приложений производительность вычислений на видеочипах с каждым годом все значительнее
превышает производительность расчетов на основе CPU. Об этом свидетельствует график на рис.
1, который приводит компания NVIDIA [3, 4].
Отметим, что на графике показатели для видеочипов даны для одинарной точности, а для
CPU – для двойной. Показатели, взятые при сравнениях для двойной точности, более близки,
видеочипы почти на порядок медленнее обрабатывают данные с двойной точностью, чем с
одинарной.
Наибольшую известность и
применение получили следующие
разновидности ускорителей для HPC:
– Cell-процессоры, разработка
IBM совместно с компаниями Sony,
Toshiba;
– платы компании ClearSpeed
(Великобритания – США);
– платы на базе FPGA разработок
компаний Celoxica, Nallatech, DRC и др.
[5];
– блоки и платы GPGPU (General
Purpose Graphical Processing Units)
разработок компаний NVIDIA, AMD (ATI);
– платы GRAPE, разработанные
университетом Токио.
Наиболее широкий спектр
эффективно решаемых задач обеспечивают ускорители Cell, которые, в частности, применены для
реализации суперкомпьютера IBM Roadrunner петафлопной производительности. Главная
Рис. 1. Сравнение роста производительности CPU и GPU
Рис. 2. Структура системы Roadrunner
ISSN 1028-9763. Математичні машини і системи, 2010, № 2 13
особенность его структуры (рис. 2) в присоединениях Cell-ускорителей к каждому кластерному узлу
на многоядерных процессорах AMD Opteron, которые выполняют основные системные операции.
Здесь задействованы 6120 двухъядерных процессоров AMD Opteron и 12240
девятиядерних процесоров IBM Power X Cell8i. Последние выполняют математические и
вспомогательные операции, где необходимо максимальное быстродействие. Сформировано 3060
структурных компонентов-модулей TriBlade (рис. 3), в каждом из них объединены два blade –
сервера IBM QS22 (Cell) и один blade – сервер IBMLS21 (Opteron).
Для объединения компонентов использовано около десяти тысяч соединений InfiniBand и
Gigabit Ethernet. Важным достижением этой системы – рекордсмена продуктивности – является
сравнительно высокий показатель
энергоэффективности, а именно уровень
437 MFlops/Вт.
Важным фактором расширения
применений ускорителей является
предоставление пользователям ускори-
телей библиотек и драйверов cредств
оценки эффективности решения задачи
на базе предоставляемого соответ-
ствующего программного обеспечения.
3.1. Особенности Cell-процессоров
Компания IBM в партнерстве с
компаниями Sony, Toshiba в 2005 году
разработала высокопроизводительный
процессор с новой Cell-архитектурой,
предназначенной ускорить в 100 раз
выполнение алгоритмов игровых и
медийных устройств, значительно
ускорить приложения в режиме
реального времени. Сегодня Cell-процессор уже широко используется и в структурах HPC.
Девятиядерный Cell-процессор является многопроцессорной микросхемой, включающей 64 бит-
процессорный элемент PPE и 8
специализированных сопроцессоров SPE
на базе SIMD-архитектуры, специали-
зированную высокопроизводительную
шину EIB, контроллер памяти и контроллер
ввода – вывода (рис. 4).
PPE распределяет задачи на SPE,
контролирует системные операции ввода-
вывода с системной памятью и внешними устройствами, а SPE ускоренно выполняют несложные
математические операции. В процессоре PowerXCell& значительно ускорен обмен с системной
Рис. 3. Структурная схема блейд-модуля TriBlade
Рис. 4. Функциональные узлы Cell-процессора
ISSN 1028-9763. Математичні машини і системи, 2010, № 2 14
памятью за счет введения в каждый SPE до 256 КБ локальной памяти с быстрым доступом. С нее
могут перемещаться данные в основную память и обратно, даже с упреждением, без прерывания
вычислительного процесса в SPE. Все SPE и PPE имеют ускоренный доступ к основной памяти
через контроллер разделяемой памяти и внутреннюю объединяющую магистраль.
Основным инструментом программирования ускорителей Cell является IBM SDK for
Multicore Acceleration. В его составе компиляторы, отладчики, библиотеки BLAS, FFT, генерации
случайных чисел и др.
3.2. Ускорители компании ClearSpeed
Компания ClearSpeed из г. Бристоль в 2005 году разработала чип CSX600, в котором размещен
восьмипотоковый процессор с 96 ядрами. В систему команд процессора входят монокоманды для
внутреннего исполнения и поликоманды для исполнения в режиме SIMD всеми 96 ядрами
процессора: над собственными наборами регистров, над данными узлов встроенной памяти. В
чипе треды (потоки) взаимодействуют между собой и вводом-выводом на базе аппаратно
реализованных семафоров. Два порта чипа позволяют реализацию многокристальных систем.
Каждое ядро оснащено 6 Кб кэша, имеется общий кэш объемом 128 Кб, используемый всеми
ядрами. На основе многоядерного чипа CSX600 (производство по техпроцессу 130 нм) компания
ClearSpeed выпускает два типа плат-ускорителей: Advance X 620 с интерфейсом PCI-X и Advance e
620 с интерфейсом PCI-Express. Каждый из ускорителей содержит по 2 чипа CSX 600 и чип Xilinx
FPGA Virtex-4 для реализаций интерфейсных функций. В 2008 году компанией ClearSpeed начат
выпуск усовершенствованных моделей плат Advance e710, e720 с одним чипом CSX 700 по
технологическому процессу 90 нм. Обеспечивается производительность 96 GFLOPS/25 W при
точности 64 или 32 бит с плавающей запятой согласно стандарту IEEE 754. На плате размещена
память 2 GB 533 MHz DDR2 с аппаратной коррекцией ошибок. Применение платы поддерживают
прилагаемые библиотеки для функций BLAS, LAPACK, Standard C, Vector, FFT Random number
generator. Программный набор инструментария CleerSpeed Visual Profiler позволяет
оптимизировать для задач число требуемых ускорителей. Компания CleаrSpeed представила [6], в
частности, последовательность протестированных показателей соотношений произво-
дительность/энергопотребление для ряда конкурирующих плат ускорителей при решении задач
FFT с точностью 1024 x 1024 2D. Соответственно указаны значения: 2,86 GFLOPs/W (для плат на
CSX 700), 0,95 GFLOPs/W(для плат на Cell при 8 SPE ), 0,29 GFLOPs/W(для плат на S 870-Tesla ),
0,12 GFLOPs/W(для плат на x 86). Отмечается, что при различных вычислениях с
производительностью около 100 GFLOPs с двойной точностью плата Advance e 710 потребляет
всего 12W, а плата Tesla – около 170 W.
3.3. Ускорители на FPGA
Аппаратноперестраиваемые (реконфигурируемые) ускорители на FPGA развиваются сравнительно
давно, особенно для решения задач распознавания, включая поиск шаблонов ДНК и др. По
сравнению с вычислениями на CPU для ряда специализированных задач ускорители на FPGA
обеспечивают прирост производительности на два – три порядка. Разработка программ прошивок
ISSN 1028-9763. Математичні машини і системи, 2010, № 2 15
FPGA весьма трудоемка, требует знания языков VHDL. Так, в проекте HPC Maxwell [5] для плат на
FPGA Virtex-4 создание прошивки для типовой задачи с использованием метода Монте-Карло
обеспечило ускорение примерно в 300 раз, потребовало несколько человеконедель труда
программиста. В феврале 2009 г. cозданы компанией Xilinx усовершенствованные FPGA Virtex-6,
выпускаемые по технологии 40 нм, которые за счет встроенных в кристалл решений на 50%
ускоряют процесс проектирования прошивок, а также значительно ускоряют вычисления, снижают
энергозатраты, стоимость. Уже через полтора месяца после анонсирования выпуска Virtex-6
появились сообщения о свыше 700 проектах на базе Virtex-6, например, мировой лидер
приборостроения компания Agilent начала разработку нового поколения высокопроизводительных
осциллографов с использованием Virtex-6. Прогнозируют широкие применения Virtex-6 для HPC.
Например, весьма реальна замена двух чипов Virtex-4 одним чипом Virtex-6 в плате ускорителя
RCHTX компании Celoxica, представленной на рис. 5.
Существующий вариант платы
обеспечивал прирост в 200 раз ускорения
решений задач из области финансов,
нефтегазовой области, биологии, медицины.
RCHTX используются, в частности, в составе
кластера в г. Пермь, занимающего место 26 в
рейтинге Top50. После модернизации на базе
Virtex-6 значительно улучшатся практически все
параметры таких ускорителей. Компания Celoxica
анонсировала выпуск линейки ускорителей на
базе новых чипов FPGA Xilinx c подключением к платформам Intel посредством PCI Express.
Новые FPGA – решения c использованием новых чипов компаний Xilinx, Altera внедряются
для ряда HPC компаний Cray, Silicon Graphics, NEC и др. Значительно упрощаются реализации
приложений на FPGA-ускорителях благодаря созданию высокоуровневых языков ImpulseC, Mitrion-
C, Handel-C. В частности, последний используется для приложений упомянутых ускорителей
компании Celoxica, язык Mitrion-C для FPGA- ускорителей компании Nallatech, платформ Cray XD1,
SGI RASC.
3.4. Графические ускорители
Интенсивно расширяется применение графических процессоров для ускорения неграфических
вычислительных функций HPC на базе средств и технологий компании NVIDIA и компании AMD
(ATI).
Кратко перечислим часто используемые термины и акронимы. GPGPU (General – Purpose
Graphics Processing Units) – технологии использования графического процессора для ускорения
общих вычислений, ранее выполняемых центральными процессорами (CPU); Direct X – набор
низкоуровневых программных интерфейсов мультимедиа-приложений; Open CL (Open Computing
Langnage) – открытый язык вычислений для написания компьютерных программ, реализующих
параллельные вычисления на различных графических и центральных процессорах. Open CL для
Рис. 5. Ускоритель RCHTX
ISSN 1028-9763. Математичні машини і системи, 2010, № 2 16
GPGPU обеспечивает параллелизм на уровне инструкций и на уровне данных. NVIDIA CUDA –
инновационная архитектура совокупности программных и аппаратных средств для упрощенной и
гибкой реализации на графических процессорах компании NVIDIA вычислений. CUDA (Compute
Unified Device Architecture) с 2007 года получила широкое признание и позволяет пользователям
решать сложные вычислительные задачи на многоядерных графических процессорах за меньшее
время, чем при использовании CPU. CUDA отмечена премиями “Выбор читателей” от издания
HPCWire, “Лучшая новинка” от журнала Popular Science, “Техническое превосходство” от PC
Magazine. Инструменты CUDA (предоставляемые бесплатно) ускоряют решения многих
ресурсоемких задач, включая поиск нефти и газа, вывод медицинских изображений. Для NVIDIA
CUDA главным конкурирующим средством становится средство AMD CTM-Brook.
Серию решений компании NVIDIA, ориентированных на высокопроизводительные
вычисления, называют Tesla. А серия решений графических процессорных устройств компании
AMD, ориентированная на ускорение вычислений, получила название FireStream. Далее подробнее
рассмотрим возможности и особенности двух упомянутых основных типов средств GPGPU,
представляющих разработки наиболее современного, третьего поколения [3]. Устройства третьего
поколения содержат набор сотен потоковых процессоров, работающих с общей памятью (видео
ОЗУ) объемом порядка 1 ГБ.
Крупнейшим поставщиком графических средств является компания NVIDIA. Ее средства
третьего поколения включают новый чип GT200, видеокарты серии GeForce GTX200, плату
ускорителя расчетов Tesla C1060, blade-плату Tesla S1070 Computing System, CUDA версий 1.0,
1.1, 2.0. Видеочип GT200 создан для решения вычислительных задач при помощи технологии
CUDA второго поколения. GT200 является программируемым мультипроцессором с 240
вычислительными ядрами, работающими на частоте 1,3 ГГц, имеет общую память, поддерживает
вычисления с плавающей точкой двойной точности. Базовая одночиповая плата Tesla требует для
работы около 170 Вт.
Производительность одного чипа GT200 – 933 GFLOPS, а производительность платы C1060
округляют до 1TFLOPS. NVIDIA начала выпуск еще более мощной платы Tesla C1070 с
использованием четырех чипов GT200 и соответственно 960 потоковых процессоров. Эта плата
поддерживает технологию NVIDIA CUDA второго поколения, вычисления с одинарной и двойной
точностью. Плата имеет системный интерфейс PCIe x16 или x8, интерфейс памяти 4х512 бит,
пропускную способность памяти 408 ГБ/c, частоту потоковых процессоров 1500 МГц, объем 16 ГБ
GDDR3 памяти, энергопотребление 700 Вт.
NVIDIA разрабатывает новый графический чип GT300, который будет иметь двукратный
прирост производительности в сравнении с GT200 и поддержку стандартного программного
интерфейса Microsoft Direct11. Видеокарты серии NVIDIA8000 выпускаются с поддержкой
программного интерфейса Direct X10 с конца 2006 года.
Главный конкурент компании NVIDIA по разработкам вычислительных средств на базе
графических чипов компания AMD уже представила свой графический процессор с поддержкой
Direct X11. Компания AMD для своих средств ускорения вычислений использует стандартные
платформы Open CL и Direct X, в то время как NVIDIA преимущественно ориентируется на
ISSN 1028-9763. Математичні машини і системи, 2010, № 2 17
собственную платформу CUDA. Специалисты AMD недавно значительно ускорили работу
компилятора Brook+ в составе средств программирования AMD CTM-Brook.
К аппаратным графическим средствам вычислений третьего поколения компании AMD
относятся наборы Radeon XIK-HD4K. Выделяется высокими характеристиками новая графическая
карта Radeon HD4870, которая послужила основой для ускорителя FireStream 9270. Здесь
используется чип с 800 потоковыми процессорами, суммарная производительность которых около
1,2 TFLOPS с одинарной точностью и 240 GFLOPS с удвоенной точностью. На плате установлены
два гигабайта памяти GDDR5, тактируемые частотой 850 МГц.
В кластерах чаще применяются ускоряющие средства компании NVIDIA Tesla – CUDA. Так,
компания Evolved Machines собрала кластер на базе 14 CPU AMD Phenom и 42 графических карт
Tesla с пиковой производительностью свыше 40 TFLOPS для моделирования устройств
искусственного интеллекта. Компания “Т-Платформы” в 2009 году модернизировала в Киеве
кластер GOLOWOOD Главной астрономической обсерватории НАНУ, добавив девять серверов на
процессорах Intel Xeon 5420, память на узлах – до 8 ГБ, девять ускорителей NVIDIA GeForce GTX
280. За счет ввода указанного сочетания средств производительность кластера возросла с 1
TFLOPS до 6 TFLOPS.
3.5. Ускорители GRAVE, MPRACE для научных расчетов
Для ускорения расчетов взаимодействий тел, частиц в астрофизике, химии,биологии все чаще к
узлам кластеров подключают ускоряющие вычисления платы GRAVE, GRAVE-DR разработок
университета Токио [7], а также платы MPRACE1, MPRACE2 разработок университета
Гейдельберга [8]. Среди активных пользователей этих ускорителей научные учреждения США,
Японии, Германии, Украины и других стран. В частности, реализуются расчеты, связанные с
решениями гравитационной задачи N тел [4].
Эволюция системы N гравитирующих тел (материальных точек) описывается следующей
системой уравнений:
i
i v
dt
dr
= ,
3
ij
ij
N
ij
j
i
rr
rr
Gm
dt
dv
−
−
=∑
≠
,
где ii vrm ,,1 – масса, радиус-вектор и скорость i -го тела соответственно ( i изменяется от 1 до N ),
G – гравитационная постоянная. Массы тел, а также положения и скорости в начальный момент
времени считаются известными. Необходимо найти положения и скорости всех частиц в
произвольный момент времени.
С развитием высокопроизводительных средств вычислений расширяется моделирование и
изучение свойств систем гравитирующих тел путем численного решения системы уравнений
движения. Ввод ускорителей не только повышает быстродействие решений, но за счет аппаратной
реализации укрупненных специализированных операций значительно упрощает программирование
задач. Развитие семейств чипов, плат GRAPE, MPGRACE обеспечивает пользователям ряд
ISSN 1028-9763. Математичні машини і системи, 2010, № 2 18
преимуществ по сравнению с использованием стандартных CPU. На рис. 6 представлена структура
вычислительных схем чипа GRAPE-6 [7].
Разработчики се-
мейств чипов GRAPE
приводят, в частности,
следующие сравнительные
данные для чипов GRAPE-
6, созданных в 1999 году по
технологиям 250 нм, и
чипов Intel Xeon 5365,
созданных в 2006 году по
технологиям 65 нм.
Соответственно для GRAPE
указаны частота 90 MHz, пиковая производительность 32,4 GFLOPS, потребляемая мощность 10W,
производительность на один ватт 3,24 GFLOPS, а для Xeon 3GHz, 48 GFLOPS, 120W, 0,4GFLOPS.
В кластере GOLOWOOD Главной астрономической обсерватории НАНУ в Киеве с 2006 года
используются восемь плат GRAPE6 – BLX64, по одной в каждом узле совместно с процессором
Xeon 5130 и памятью 2ГБ. Этот кластер c 2006 года обеспечивал решения задач гравитационного
взаимодействия многих тел, но его производительности (примерно 1 TFLOPS) недоставало для
решения ряда других задач. Поэтому в 2009 году его модернизировали за счет более современных
ускорителей (см. 3.4).
В 2006 году специалисты Токийского университета создали многоядерный чип GRAPE DR,
представляющий собой специализированный процессор для выполнения до 512 млрд операций с
плавающей точкой в секунду. Каждое из его 512 ядер ориентировано на выполнение отдельной
операции. Ядра процессора разделены на 16 групп, по 32 ядра в каждом. Причем каждая группа
адаптирована на обработку определенного набора инструкций. Чип производится по 90-му нм
техпроцессу, использует тактовую частоту в 500 МГц, потребляет под максимальной нагрузкой 60
Вт, в простое менее 30 Вт. На платах чип GRAPE DR взаимодействует с чипом FPGA Altera StratixII,
который осуществляет интерфейсные и вспомогательные операции. Чип GRAPE DR на платах
расширения размещается с интерфейсом PCI-X. Платы с четырьма чипами рассчитаны
обеспечивать производительность 2TFLOPS.
Растущие вычислительные возможности чипов GRAPE-DR предназначены для
эффективной реализации задач: моделирования в астрономии, изучения динамики молекулярных
процессов, квантово-молекулярного моделирования, исследований цепочек генома,
гидродинамических взаимодействий частиц, обработки плотных (dense) матриц.
К 2011 году специалисты Токийского университета планируют на базе перехода на
техпроцесс 45 нм и новых решений для чипов GRAPE DR создать вычислительную систему с
производительностью 1 – 10 PFLOPS.
4. Применение ускорителей
Растущему применению ускорителей посвящен прошедший в США в 2009 Symposium on Application
Рис. 6. Структура чипа GRAPE-6
ISSN 1028-9763. Математичні машини і системи, 2010, № 2 19
Accelerators in High Performance Computing. В его программе анализ развития применения
рассмотренных выше разновидностей ускорителей в сочетании с чипами CPU, а также проекты их
интеграции (Intel’s Larrabee, AMD Fusion).
Автор известного тестового пакета LINPACK
Джек Донгарра считает, что будущее HPC за гибридными
решениями, объединяющими возможности графических
ускорителей и многоядерных центральных процессоров.
Однако этот прогноз не снижает целесообразность
развития остальных разновидностей ускорителей,
которые, видимо, будут чаще ориентированы на
совместные подключения для ускорения решений
конкретных задач. Такую тенденцию гибридизации
ускорителей иллюстрирует как рис. 7, на котором к
каждому HOST на CPU подключены по два типа
ускорителей для решения задач астрофизики, биологии,
так и табл. 5, где представлены пары различных
ускорителей в составах трех из пяти новых HPC,
использующих ускорители специализированных вычислений.
В табл. 2 даны примеры использования пяти разновидностей ускорителей
специализированных вычислений в реальных системах HPC.
Таблица 2. Примеры применения ускорителей
Место
установки HPC
Тип CPU Тип ускорит.
средств
Производит. HPC
(TFlops)
Примечания
DOE/NNSA/
LANL, США
Opteron DC
1.8 GHz
PowerXCell 8i
3.2 GHz
по LINPACK –
1105, Rpeak -
1456.7
Данная система
возглавляет список
Top500 в редакциях 31,
32, 33
GSIC Center,
Япония
Opteron QC
2.3 GHz, Xeon
E5440 2.833
GHz
Clear Speed
CSX600, nVidia
GT200
По LINPACK –
87.01, Rpeak –
163.19
В 33 редакции списка
Top500 эта система
занимает место 41
Кластер
компании
Evolved
Machines,
США
14 четырехъ-
ядерных AMD
Phenon
42 платы
NVIDIA Tesla
Пиковая
производит.
свыше 40
Предназначен для
моделирования
биологических
нейронных сетей
Кластер
GOLOWOOD
ГАО НАНУ,
Украина
9 узлов на
Intel Xeon
5130,
добавлены 9
серверов на
Intel Xeon
5420
С 2006 г.
задействова-но
8 ускор. плат
GRAPE6-
BLX64, в 2009 г.
добавлены
ускорит. NVIDIA
GeForce
GTX280
Реальная
производит. была
1 TFlops, после
модернизации –
6 TFlops
Ускорители GRAPE6
обеспечивали только
решения задач N тел
для астрофизики;
добавленные в 2009
году ускорители NVIDIA
значительно расширили
круг решаемых задач
Кластер
университ.
штата
Иллинойс,
США
16 узлов на
двухъядерн.
AMD Opteron
NVIDIA G80GL,
платы Nallatech
FPGA (Virtex-4)
Пиковая
производит. 23
Предназначен для
решения задач
молекулярной
динамики,
моделирования погоды
Рис. 7. Сочетания CPU и
ускорителей [8]
ISSN 1028-9763. Математичні машини і системи, 2010, № 2 20
5. Выводы
1. Все более эффективным и доступным средством повышения производительности HPC
становится гибридизация CPU и ускорителей специализированных вычислений. Создавать
требуемое параллельное ПО для многоядерных ускорителей специализированных вычислений
оказалось намного проще, чем для многоядерных процессоров общего назначения, в частности,
поддерживается обработка в ускорителях 192, 800 ядер.
2. Наибольшие применения в HPC получили следующие пять разновидностей ускорителей
специализированных вычислений:
– Cell-процессоры;
– платы ускорения Clearspeed;
– платы ускорения на базе FPGA;
– платы ускорения на графических процессорах;
– платы ускорения GRAPE.
В составе ряда HPC уже используются 1–2 разновидности ускорителей. Чаще всего
внедряются ускорительные платы на базе графических чипов.
3. После проведения в США первого ежегодного симпозиума по применению ускорителей для HPC
(2009 Symposium on Application Accelerators in High Performance Computing) его устроители
прогнозируют, что вскоре применение ускорителей для HPC станет нормой.
СПИСОК ЛИТЕРАТУРЫ
1. Кузнецов С. Перспективы наноэлектроники. Обзор публикаций / C. Кузнецов // IEEE Computers Society. –
2008. – Vol. 41, N 5. – Режим доступа: www.citforum.ru/computer/2008-05/.
2. Волков Д. Оценка быстродействия нерегулярного доступа к памяти / Д. Волков, А. Фролов // Открытые
системы. – 2008. – № 1. – С. 15 – 19.
3. Берилло А. NVIDIA CUDA – неграфические вычисления на графических процессорах / А. Берилло. – Режим
доступа: www.ixbt.com/video3/cuda-t.shtml.
4. Модернизация суперкомпьютера ГАО НАНУ. – Режим доступа: www.pcnews.ru/golowood.
5. www.parallel.ru/FPGA/Maxwell.html.
6. www.clearspeed.com.
7. From Newton to Einstein – N. Body Dynamics / R. Spurzem, P. Berczik [et al.] // Journal of Phisic: Conference
Series 78. – 2007. – N 012071.
8. www.scidacreview.org/0902/html/hardware.html.
Стаття надійшла до редакції 06.10.2009
|
| id | nasplib_isofts_kiev_ua-123456789-51613 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1028-9763 |
| language | Russian |
| last_indexed | 2025-12-07T17:48:56Z |
| publishDate | 2010 |
| publisher | Інститут проблем математичних машин і систем НАН України |
| record_format | dspace |
| spelling | Якуба, А.А. Комухаев, Э.И. Рябчун, С.Г. 2013-12-04T01:03:02Z 2013-12-04T01:03:02Z 2010 Развитие ускорителей специализированных вычислений / А.А. Якуба, Э.И. Комухаев, С.Г. Рябчун // Мат. машини і системи. — 2010. — № 2. — С. 10-20. — Бібліогр.: 8 назв. — рос. 1028-9763 https://nasplib.isofts.kiev.ua/handle/123456789/51613 681.3 Быстродействие современных высокопроизводительных компьютеров повышают применением новых аппаратных средств общего назначения, совершенствованием их ПО и, все шире, применением ускорителей специализированных вычислений. В статье проанализированы особенности применения пяти основных типов таких ускорителей. Отмечено появление узлов ускорителей в киевских кластерах НАН Украини (два типа в Главной астрономической обсерватории, один – в Институте кибернетики им. В.М. Глушкова). Швидкодію сучасних високопродуктивних комп'ютерів підвищують застосуванням нових апаратних засобів загального призначення, вдосконаленням їх ПЗ і, все ширше, застосуванням прискорювачів спеціалізованих обчислень. У статті проаналізовано особливості застосування п’яти основних типів таких прискорювачів. Відмічена поява вузлів прискорювачів у київських кластерах НАН України (два типи в Головній астрономічній обсерваторії, один – в Інституті кібернетики ім. В.М. Глушкова). Modern high performance computing is increased by the application of new hardware of a general purpose, their software perfection and, increasingly, by the application of accelerators of specialized calculations. The features of five basic types of such accelerators are analysed in the article. An occurrence of units of accelerators in clusters of Kyiv of the NAS of Ukraine (two types are in the Main Astronomical Observatory, one type is in the Institute of Cybernetics named after V. Gluskov) is noted. ru Інститут проблем математичних машин і систем НАН України Математичні машини і системи Обчислювальні системи Развитие ускорителей специализированных вычислений Розвиток прискорювачів для спеціалізованих обчислень Development of accelerators for specialized calculations Article published earlier |
| spellingShingle | Развитие ускорителей специализированных вычислений Якуба, А.А. Комухаев, Э.И. Рябчун, С.Г. Обчислювальні системи |
| title | Развитие ускорителей специализированных вычислений |
| title_alt | Розвиток прискорювачів для спеціалізованих обчислень Development of accelerators for specialized calculations |
| title_full | Развитие ускорителей специализированных вычислений |
| title_fullStr | Развитие ускорителей специализированных вычислений |
| title_full_unstemmed | Развитие ускорителей специализированных вычислений |
| title_short | Развитие ускорителей специализированных вычислений |
| title_sort | развитие ускорителей специализированных вычислений |
| topic | Обчислювальні системи |
| topic_facet | Обчислювальні системи |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/51613 |
| work_keys_str_mv | AT âkubaaa razvitieuskoriteleispecializirovannyhvyčislenii AT komuhaevéi razvitieuskoriteleispecializirovannyhvyčislenii AT râbčunsg razvitieuskoriteleispecializirovannyhvyčislenii AT âkubaaa rozvitokpriskorûvačívdlâspecíalízovanihobčislenʹ AT komuhaevéi rozvitokpriskorûvačívdlâspecíalízovanihobčislenʹ AT râbčunsg rozvitokpriskorûvačívdlâspecíalízovanihobčislenʹ AT âkubaaa developmentofacceleratorsforspecializedcalculations AT komuhaevéi developmentofacceleratorsforspecializedcalculations AT râbčunsg developmentofacceleratorsforspecializedcalculations |