MLPerf Training 4.1: первое появление NVIDIA B200 и Google Trillium в обучении ИИ

Сегодня MLCommons представила актуальные результаты тренировки, которые впервые включают ускорители NVIDIA B200 и Google TPUv6p Trillium. И B200, и TPUv6e дебютировали в тестах Inference 4.1. Однако к инференсу предъявляют другие требования, чем к обучению. NVIDIA изначально разрабатывала GPU Blackwell с основным фокусом на инференсе. Но, конечно, с тренировкой он тоже должен справляться.

В то время как для инференса в версии 4.1 мы впервые увидели результаты Instinct MI300X, они отсутствуют в результатах обучения. Здесь в бенчмарках доминируют NVIDIA и Google, которые используют огромные кластеры для обучения. Например, для TPUv5 это 1.024 узла (Pod) с общим числом 4.096 ускорителей. У NVIDIA речь идёт даже о суперкомпьютере EOS с 1.452 узлами и 11.616 ускорителями H100.

Для предварительной версии TPUv6p, также известного как Trillium, Google пошла настолько далеко, что здесь работают вместе 768 узлов с 3.072 ускорителями. NVIDIA, в свою очередь, уже использует восемь узлов нового суперкомпьютера Nyx с 64 ускорителями Blackwell.

Llama2 70B Lora

NVIDIA NeMO

8x NVIDIA B200 (B200-SXM-180GB)

12.958XX

8x NVIDIA H200 (H200-SXM5-141GB)

24.116XX

8x NVIDIA H100 (H100-SXM5-80GB)

27.928XX

минуты

Меньше - лучше

Stable Diffusion

NVIDIA NeMO, Google MaxDiffusion

8x NVIDIA B200 (B200-SXM-180GB)

19.517XX

8x NVIDIA H200 (H200-SXM5-141GB)

30.489XX

8x NVIDIA H100 (H100-SXM5-80GB)

33.967XX

8x Google TPUv5p

49.677XX

минуты

Меньше - лучше

В то время как разница в производительности между ускорителями H100 и H200 для частичного обучения Llama 2 с 70 миллиардами параметров лишь незначительна, восемь ускорителей B200 справляются с этой задачей почти вдвое быстрее. Для Stable Diffusion Google предоставила собственные результаты для TPUv5p, но NVIDIA здесь явно лидирует.

Прогресс достигли не только по аппаратному, но и по программному обеспечению. Особенно с Blackwell NVIDIA хочет добиться дополнительных улучшений во взаимодействии аппаратного и программного обеспечения, которые станут заметны только тогда, когда оборудование начнут использовать в больших объёмах «в поле». Мы уже знакомы с этим развитием по предыдущим поколениям ускорителей. В некоторых случаях производительность ускорителей получалось увеличить на 30% и более только за счёт оптимизации программного обеспечения.

GPT3

NVIDIA NeMO, Google MaxDiffusion

11.616x NVIDIA H100 (H100-SXM5-80GB)

3.444XX

6.144x Google TPUv5p

11.765XX

3.072x NVIDIA H100 (H100-SXM5-80GB)

12.092XX

4.096x Google TPUv5p

16.255XX

1.536x NVIDIA H100 (H100-SXM5-80GB)

19.690XX

3.072x Google TPUv6p (Trillium)

20.761XX

2.048x Google TPUv6p (Trillium)

27.329XX

2.048x Google TPUv5p

29.616XX

512x NVIDIA H100 (H100-SXM5-80GB)

49.795XX

1.024x Google TPUv6p (Trillium)

50.628XX

256x NVIDIA H100 (H100-SXM5-80GB)

96.664XX

512x Google TPUv6p (Trillium)

102.079XX

минуты

Меньше - лучше

Результаты для TPUv6p следует рассматривать прежде всего с точки зрения масштабируемости, и, по-видимому, ускорители работают в инфраструктуре Google довольно хорошо. Что касается общей производительности, полный суперкомпьютер EOS с 11.000 ускорителей, конечно, быстрее. Но вопрос также в том, сколько энергии потребовалось для обучения. Результаты TPUv5p показывают, что у Google здесь ещё есть потенциал для дальнейшей оптимизации.

Производительность систем искусственного интеллекта замедляется

Если посмотреть на предыдущие результаты обучения, новые данные также показывают тенденцию: хотя дальнейшее увеличение производительности всё ещё превышает закон Мура, но темп замедляется.

Одна из причин – модели становятся всё больше и сложнее. Аппаратное обеспечение не может здесь успевать, даже если объём памяти на ускоритель продолжает неуклонно расти: 80 ГБ, 141 ГБ, 180 ГБ, а со следующего года и 288 ГБ. Llama 3.1 теперь имеет до 405 миллиардов параметров, и в следующем году ожидаются ещё более крупные модели.

NVIDIA раскрывает новый суперкомпьютер для ИИ

Для первой серии бенчмарков с ускорителем B200 NVIDIA в основном ещё использовала системы DGX-B200, но в настоящее время компания также строит суперкомпьютер Nyx как преемник EOS, который состоит из систем DGX-B200. Среди прочего, показали результат с восемью узлами и, соответственно, 64 ускорителями B200.

NVIDIA не предоставила никакой информации о планируемом расширении суперкомпьютера Nyx. EOS состоит из 1.452 узлов с общим числом 11.616 ускорителей. Неизвестно, планирует ли NVIDIA подобное масштабное расширение.