Сегодня MLCommons представила актуальные результаты тренировки, которые впервые включают ускорители NVIDIA B200 и Google TPUv6p Trillium. И B200, и TPUv6e дебютировали в тестах Inference 4.1. Однако к инференсу предъявляют другие требования, чем к обучению. NVIDIA изначально разрабатывала GPU Blackwell с основным фокусом на инференсе. Но, конечно, с тренировкой он тоже должен справляться.
В то время как для инференса в версии 4.1 мы впервые увидели результаты Instinct MI300X, они отсутствуют в результатах обучения. Здесь в бенчмарках доминируют NVIDIA и Google, которые используют огромные кластеры для обучения. Например, для TPUv5 это 1.024 узла (Pod) с общим числом 4.096 ускорителей. У NVIDIA речь идёт даже о суперкомпьютере EOS с 1.452 узлами и 11.616 ускорителями H100.
Для предварительной версии TPUv6p, также известного как Trillium, Google пошла настолько далеко, что здесь работают вместе 768 узлов с 3.072 ускорителями. NVIDIA, в свою очередь, уже использует восемь узлов нового суперкомпьютера Nyx с 64 ускорителями Blackwell.
Llama2 70B Lora
NVIDIA NeMO
8x NVIDIA B200 (B200-SXM-180GB)
12.958XX
8x NVIDIA H200 (H200-SXM5-141GB)
24.116XX
8x NVIDIA H100 (H100-SXM5-80GB)
27.928XX
минуты
Меньше - лучше
Stable Diffusion
NVIDIA NeMO, Google MaxDiffusion
8x NVIDIA B200 (B200-SXM-180GB)
19.517XX
8x NVIDIA H200 (H200-SXM5-141GB)
30.489XX
8x NVIDIA H100 (H100-SXM5-80GB)
33.967XX
49.677XX
минуты
Меньше - лучше
В то время как разница в производительности между ускорителями H100 и H200 для частичного обучения Llama 2 с 70 миллиардами параметров лишь незначительна, восемь ускорителей B200 справляются с этой задачей почти вдвое быстрее. Для Stable Diffusion Google предоставила собственные результаты для TPUv5p, но NVIDIA здесь явно лидирует.
Прогресс достигли не только по аппаратному, но и по программному обеспечению. Особенно с Blackwell NVIDIA хочет добиться дополнительных улучшений во взаимодействии аппаратного и программного обеспечения, которые станут заметны только тогда, когда оборудование начнут использовать в больших объёмах «в поле». Мы уже знакомы с этим развитием по предыдущим поколениям ускорителей. В некоторых случаях производительность ускорителей получалось увеличить на 30% и более только за счёт оптимизации программного обеспечения.
GPT3
NVIDIA NeMO, Google MaxDiffusion
11.616x NVIDIA H100 (H100-SXM5-80GB)
3.444XX
11.765XX
3.072x NVIDIA H100 (H100-SXM5-80GB)
12.092XX
16.255XX
1.536x NVIDIA H100 (H100-SXM5-80GB)
19.690XX
3.072x Google TPUv6p (Trillium)
20.761XX
2.048x Google TPUv6p (Trillium)
27.329XX
29.616XX
512x NVIDIA H100 (H100-SXM5-80GB)
49.795XX
1.024x Google TPUv6p (Trillium)
50.628XX
256x NVIDIA H100 (H100-SXM5-80GB)
96.664XX
102.079XX
минуты
Меньше - лучше
Результаты для TPUv6p следует рассматривать прежде всего с точки зрения масштабируемости, и, по-видимому, ускорители работают в инфраструктуре Google довольно хорошо. Что касается общей производительности, полный суперкомпьютер EOS с 11.000 ускорителей, конечно, быстрее. Но вопрос также в том, сколько энергии потребовалось для обучения. Результаты TPUv5p показывают, что у Google здесь ещё есть потенциал для дальнейшей оптимизации.
Производительность систем искусственного интеллекта замедляется
Если посмотреть на предыдущие результаты обучения, новые данные также показывают тенденцию: хотя дальнейшее увеличение производительности всё ещё превышает закон Мура, но темп замедляется.
Одна из причин – модели становятся всё больше и сложнее. Аппаратное обеспечение не может здесь успевать, даже если объём памяти на ускоритель продолжает неуклонно расти: 80 ГБ, 141 ГБ, 180 ГБ, а со следующего года и 288 ГБ. Llama 3.1 теперь имеет до 405 миллиардов параметров, и в следующем году ожидаются ещё более крупные модели.
NVIDIA раскрывает новый суперкомпьютер для ИИ
Для первой серии бенчмарков с ускорителем B200 NVIDIA в основном ещё использовала системы DGX-B200, но в настоящее время компания также строит суперкомпьютер Nyx как преемник EOS, который состоит из систем DGX-B200. Среди прочего, показали результат с восемью узлами и, соответственно, 64 ускорителями B200.
NVIDIA не предоставила никакой информации о планируемом расширении суперкомпьютера Nyx. EOS состоит из 1.452 узлов с общим числом 11.616 ускорителей. Неизвестно, планирует ли NVIDIA подобное масштабное расширение.