Supercomputing 2023: NVIDIA представила ускоритель H200 и рассказала о решениях на Grace Hopper

На конференции Supercomputing 2023 NVIDIA представила ускоритель H200, который станет преемником или улучшенной версией H100. Он базируется на прежней архитектуре Hopper, и, судя по имеющимся данным, NVIDIA будет использовать даже прежний чип. Но ускоритель будет оснащаться большим объемом памяти и будет работать еще быстрее. Возможен апгрейд существующих систем H100 на H200. Причем модуль SXM4 вписывается в существующие системы по своим электрическим и тепловым требованиям.

Сама NVIDIA говорит о вычислительной мощности в 32 PFLOPS для кластера, состоящего из восьми ускорителей H200. Соответственно, при пересчете на один ускоритель мы получаем около 4 TFLOPS. То есть вычислительная производительность GPU идентична ускорителю H100, что не удивляет – ведь речь идет об одном и том же чипе. Поэтому и максимальный TDP будет составлять до 700 Вт.

Однако NVIDIA заявляет об увеличении в 1,6 раза производительности вычислений для сетей GPT-3 со 175 млрд. параметров по сравнению с H100. Для модели Llama2 с 70 млрд. параметров производительность должна вырасти даже в 1,9 раза. Причина в более емкой и быстрой памяти HBM3E. Теперь ее объем составляет 141 Гбайт вместо прежних 80 Гбайт HBM2E, при скорости 4,8 Тбайт/с она также значительно быстрее, чем 3,35 Тбайт/с у H100.

Сравнение GH200, H100 и H200
	GH200	GH200 (2024)	H100 SXM	H200 SXM
Производительность FP64 (GPU)	34 TFLOPS	34 TFLOPS	34 TFLOPS	34 TFLOPS
Производительность FP32 (GPU)	67 TFLOPS	67 TFLOPS	67 TFLOPS	67 TFLOPS
Производительность FP8 (GPU)	3,958 TFLOPS	3,958 TFLOPS	3,958 TFLOPS	3,958 TFLOPS
Производительность INT8 (GPU)	3,958 TOPS	3,958 TOPS	3,958 TOPS	3,958 TOPS
Память CPU	480 GB (LPDDR5X)	480 GB (LPDDR5X)	-	-
Память GPU	96 GB (HBM3)	141 GB (HBM3E)	80 GB (HBM2E)	141 GB (HBM3E)
Пропускная способность памяти (GPU)	4 Тбайт/с	4,9 Тбайт/с	3,35 Тбайт/с	4,8 Тбайт/с
TDP	от 450 до 1.000 Вт	от 450 до 1.000 Вт	до 700 Вт	до 700 Вт

Как и обновленная версия Grace Hopper Superchip (GH200) в 2024 году, которая также оснащена HBM3E, H200 может ускорить работу некоторых приложений за счет использования более быстрой памяти с большим объемом. NVIDIA еще на стадии проектирования разработала контроллер памяти для работы с HBM2E и HBM3E.

Ожидается, что OEM- и CSP-партнеры начнут поставлять системы HGX-H200 со второго квартала 2024 года.

NVIDIA также показала предварительный вариант B100, выход которого также запланирован на 2024 год. Он будет основан на совершенно новой архитектуре и, как ожидается, тоже значительно увеличит производительность LLM.

Grace Hopper Superchip выходит на рынок в 2024 году

Grace Hopper Superchip (GH200), первоначально оснащенный HBM2E и запланированный на 2023 год, все же должен выйти на рынок в 2024 году. Ускоритель будет использоваться в различных системах HPC и AI. На одном модуле работают чип Grace ARM с 72 ядрами и 480 Гбайт LPDDR5X и GPU Hopper с 96 или 141 Гбайт HBM3(E).

Первой крупной системой на GH200 станет анонсированный ранее boost-модуль для первого европейского экзафлопсного суперкомпьютера JUPITER (Joint Undertaking Pioneer for Innovative and Transformative Exascale Research). Здесь будут использоваться ускорители GH200 с 96 Гбайт HBM3. Всего будет установлено почти 24.000 GH200. Таким образом, вычислительная производительность JUPITER составит один экзафлопс для вычислений FP64 и 93 экзафлопса для приложений ИИ. Потребляемая мощность составит 18,2 МВт.

Модули GH200 используются в JUPITER в кластерах Quad GH200. Таким образом, каждый из этих кластеров обладает вычислительной производительностью 16 PFLOPS для приложений ИИ и суммарной пропускной способностью памяти 2,3 ТБ/с. Компания ATOS разработала для JUPITER узлы Eviden Bull Sequana XH3000.

Другие партнеры NVIDIA, такие как HPE, также будут использовать Quad GH200 - в том числе в суперкомпьютере Daw, анонс которого состоялся на прошлой неделе.

Поставки ускорителей GH200 в 2024 году должны быть весьма масштабными, проблем с доступностью будет меньше. Они выйдут параллельно с чистыми GPU-решениями H100, а затем, позднее в 2024 году, и с H200.

Обновление: дополнительная информация об аппаратном обеспечении

Суперкомпьютерный центр Юлиха (Jülich Supercomputing Centre, JSC) опубликовал дополнительную информацию о структуре JUPITER (Joint Undertaking Pioneer for Innovative and Transformative Exascale Research). Основную вычислительную производительность обеспечивает booster-модуль. Он содержит 5.938 узлов, каждый из которых оснащен четырехъядерным кластером Quad GH200 и, соответственно, четырьмя ускорителями GH200. Таким образом, общее количество ускорителей GH200 составляет 23.752. В совокупности они обеспечивают вычислительную мощность 1 EFLOP/s в FP64/HPL и теоретически 70 EFLOPS с точностью FP8. Ускорители GH200 оснащены, в общей сложности, 2,28 Тбайт быстрой памяти HBM3.

Помимо GPU Hopper, вторым компонентом ускорителя GH200 является процессор Grace. В каждом GH200 установлен чип с 72 ядрами Neoverse V2. Таким образом, общее количество ядер составляет 1,7 млн. Каждый процессор имеет в своем распоряжении 480 Гбайт памяти LPDDR5X, т.е. в общей сложности около 11,4 Тбайт.

Память LPDDR5X процессора подключена с пропускной способностью 500 ГБ/с в обоих направлениях, HBM3 подключена к GPU со скоростью 400 ГБ/с. Между CPU и GPU в обоих направлениях данные могут передаваться со скоростью 450 ГБ/с. В модуле Quad процессоры могут обмениваться данными друг с другом со скоростью 50 ГБ/с в каждом направлении, а GPU - 150 ГБ/с. Внешний обмен данными происходит из корпусировки CPU с пропускной способностью 64 ГБ/с в каждом направлении.

Кластерный модуль вмещает более 1.300 узлов, каждый из которых оснащен двумя процессорами Rhea1. Ожидается, что их производительность составит 5 PFLOP/s для вычислений FP64/HPL. То есть всего 0,5% от того, на что способен модуль Booster.

Каждый узел соединен с четырьмя адаптерами InfiniBand (HCA) со скоростью передачи данных 200 Гбит/с. Везде используется интерконнект Mellanox InfiniBand NDR в топологии DragonFly+. Вся сеть состоит из 51.000 каналов и 102.000 логических портов с 25.400 конечными точками и 867 коммутаторами.

Что касается быстрой системы хранения данных, то она имеет полезную емкость 21 ПБ и обеспечивает пропускную способность 2 ТБ/с при записи и 3 ТБ/с при чтении. Кроме того, имеется модуль хранения емкостью 300 ПБ, а еще 700 ПБ доступны для резервного копирования и архива.