В этом квартале NVIDIA планирует увеличивать поставки ускорителей Blackwell. В прошлом месяце компания объявила, что производство графических процессоров Blackwell запущено в полном объеме. Однако теперь Reuters и The Informant сообщают о возможных проблемах, связанных с перегревом этих ускорителей.
Проблемы, по-видимому, затрагивают серверы в формате полной стойки GB200 NVL72. Это полноценный сервер с 36 процессорами Grace CPU и 72 графическими процессорами Blackwell, все они расположены в одной стойке и связаны между собой через NVLink. Потребляемая мощность такой системы составляет 120 кВт, поэтому ее полностью охлаждают водой. У 36 вычислительных модулей GB200 Grace Blackwell Superchip TDP можно настраивать до 2.700 Вт. Только эти модули потребляют 97,2 кВт — остальные 20 кВт приходятся на коммутаторы NVLink для межсоединений и сетевые коммутаторы для связи вне стойки.
С выпуском GB200 NVL72 NVIDIA ставит новые задачи перед инфраструктурой центров обработки данных в отношении веса, питания, охлаждения и других аспектов. Однако необычно, что такие проблемы возникают на позднем этапе, поскольку первую стойку GB200 NVL72 представили публике на конференции GTC весной 2024 года. Если проблемы возникли несколько месяцев назад, то соответствующие корректировки уже должны быть внесены.
NVIDIA не дала конкретных комментариев по поводу проблемы перегрева. Представитель компании заявил агентству Reuters:
NVIDIA работает с ведущими поставщиками облачных услуг, это неотъемлемая часть нашей инженерной команды и процессов. Инженерные итерации – вполне нормальное и прогнозируемое явление.
- ответ представителя NVIDIA на запрос Reuters
Ускорители NVIDIA устанавливают на большие платы (в случае GB200) или используют в составе компактных модулей формата SXM5. Эти модули имеют настраиваемый TDP, что позволяет адаптировать энергопотребление к системе охлаждения. В случае GB200 Grace Blackwell Superchip речь идет о потреблении модуля до 2.700 Вт. Ускоритель B200 потребляет до 1.000 Вт. Теоретически, проблемы с охлаждением можно решить за счет снижения энергопотребления, однако это приведет к снижению производительности всей системы.
Подобные сообщения, конечно, не в интересах NVIDIA. Неясно, перегреваются ли сами графические процессоры Blackwell, или же система охлаждения не справляется с отводом тепла при длительной нагрузке.
В августе стало известно о конструктивной ошибке в графических процессорах Blackwell, которая приводила к крайне низкому выходу годных чипов. Совместно с TSMC NVIDIA смогла устранить эту проблему, но потребовались новые маски для экспонирования, что задержало запуск финальной версии. С середины октября NVIDIA поставляет первые системы Blackwell своим ключевым клиентам, таким как OpenAI, Microsoft и Google. Ожидается, что в первом квартале 2025 объемы поставок значительно увеличат.