Анализ производительности ускорителей NVIDIA Hopper с графическими процессорами H100 и H200 и AMD Instinct MI300X выявил главные слабости программной экосистемы AMD. Instinct MI300X на теоретическом уровне конкурирует с решениями NVIDIA, а в некоторых аспектах даже превосходит их. AMD планирует представить Instinct MI325X в ближайшие месяцы, увеличив объем памяти до 256 ГБ HBM3E вместо 192 ГБ. На презентации компания заявила, что Instinct MI300X опережает ускоритель NVIDIA H200 в ряде задач.
Однако тестирование, проведенное SemiAnalysis для задач обучения ИИ, показало другую картину. Результаты совпали с данными MLPerf, где ускорители NVIDIA H200 превзошли AMD Instinct MI300X на 50%. Еще хуже AMD показала себя в сравнении с NVIDIA B200, который продемонстрировал в три раза более высокую производительность.
Эксперты SemiAnalysis выделили несколько причин, почему ускорители Instinct показывают высокие результаты в теории, но уступают конкурентам в реальных задачах. Программное обеспечение играет ключевую роль. Система с ускорителями NVIDIA достигает заявленной производительности сразу после установки. В случае оборудования AMD требуется дополнительная настройка.
Стабильная версия PyTorch требует ручных изменений, чтобы начать работать. Даже с поддержкой AMD ожидаемые показатели остаются недостижимыми. Хотя NVIDIA тоже не достигает теоретического максимума, результаты AMD значительно отстают от заявленных целей.
На большинстве тестов стабильная версия PyTorch от AMD продолжает работать с ошибками, из-за чего мы использовали обходные пути.
Программное обеспечение AMD ограничивает производительность MI300X. Ветви разработки BF16 показывают лучшие результаты, но изменения еще не вошли в основную ветку репозитория AMD.
- говорится в анализе SemiAnalysis
AMD давно осознает проблемы с программной экосистемой. Эксперты неоднократно называли это слабым звеном компании. Лиза Су заявила, что AMD планирует сосредоточиться на решении этих вопросов после общения с Диланом Пателем из SemiAnalysis.
Компании придется перейти от планов к конкретным действиям, поскольку восстановить отставание в области программного обеспечения будет нелегко. NVIDIA благодаря многолетней стратегии разработок в области вычислений сохранила значительное преимущество.
Кроме того, проблемы AMD с качеством программного обеспечения выходят за рамки ядер и API для задач искусственного интеллекта. Трудности часто возникают и в программных продуктах, предназначенных для конечных пользователей.