MLPerf HPC: тесты HPC ставят под сомнение рейтинг суперкомпьютеров Top500

@HardwareLUXX Russia
mlperf

На этой неделе проходит конференция Supercomputing 2021, на ней был представлен и обновленный список суперкомпьютеров Top500. Оценка производительности выполняется с помощью теста Linpack, который учитывает только вычисления FP64. Конечно, они остаются важной мерой вычислительной производительности суперкомпьютеров во многих сценариях.

С шестимесячным циклом MLCommons публикует результаты HPC версии 1.0. В случае HPC результаты вносят не производители (NVIDIA можно назвать исключением), а операторы суперкомпьютеров. Среди них Аргоннская национальная лаборатория (США), Швейцарский национальный суперкомпьютерный центр (CSCS) с системой Piz Daint, Юлихский исследовательский центр с суперкомпьютером JUWELS, Департамент энергетики США с Perlmutter, Национальный центр суперкомпьютерных приложений с HAL, Техасский суперкомпьютерный центр с Frontera. Также напомним, что самым быстрым суперкомпьютером остается RIKEN Fugaku из Японии, оператор внес результаты и для него. Наконец, NVIDIA, производитель ускорителей для суперкомпьютеров, добавила свою систему Selene.

Участники тестирования имеют возможность проверить результаты других систем. Конечно, разработчик тестов MLCommons тоже выполняет аудит. Тесты искусственного интеллекта и машинного обучения не такие простые, как запуск 3DMark, например. Для проведения серверных тестов нам уже приходится выполнять немало дополнительной работы. А тесты HPC еще сложнее. Поэтому они разбиты их на две категории по сильному и слабому масштабированию "Strong Scaling" и "Weak Scaling". В случае "Strong Scaling" в центре внимание масштабирование результатов, насколько хорошо они увеличиваются, если удвоить число процессоров/GPU-ускорителей. В случае "Weak Scaling" цель в том, чтобы показать, насколько успешно суперкомпьютеры решают те или иные задачи. Все же нагрузить несколько тысяч вычислительных узлов, GPU-ускорителей и миллионы вычислительных ядер - задача не такая простая.

Для хороших результатов требуется сочетание мощных аппаратных компонентов и оптимизированного программного обеспечения. Системы с удвоенным числом процессоров/GPU-ускорителей далеко не всегда показывают удвоение результатов. Кроме того, другие оценки, помимо теста Linpack, позволяют разделить системы на разные категории. Fugaku потребовалось 114 минуты на выполнение теста CosmoFlow на 512 процессорах Fujitsu. Суперкомпьютеру JUWELS с 512 процессорами EPYC и 1.024 ускорителями NVIDIA A100 потребовалось всего 16 минут.

Результаты "Weak Scaling" впечатляют. Здесь ресурсы Fugaku, JUWELS, Perlmutter и Selene полностью задействованы. И между двумя используемыми тестами (CosmoFlow и DeepCAM) прослеживаются существенные отличия. Суперкомпьютер Fugaku явно выходит вперед в тесте CosmoFlow, вычисляя в два раза больше моделей в минуту, однако NVIDIA демонстрирует весьма сильные результаты DeepCAM благодаря оптимизации Selene.

Тесты Weak Scaling
CPUs/GPUsCosmoFlow
(модели/минуты)
Fugaku82.944x Fujitsu A64FX1,29
Perlmutter1.280x AMD EPYC 77425.120x NVIDIA A1000,68
Selene1.024x AMD EPYC 77424.096x NVIDIA A1000,73

Приведенные результаты наглядно показывают, что по одному лишь показателю/тесту суперкомпьютеры оценивать не стоит.

Тесты Strong Scaling
CPUs/GPUsCosmoFlow
(минуты)
DeepCAM
(минуты)
OpenCatalyst
(минуты)
NVIDIA Selene32x AMD EPYC 7742128x NVIDIA A1008,04
128x AMD EPYC 7742512x NVIDIA A1002,65
256x AMD EPYC 77421.024x NVIDIA A10025,78
512 AMD EPYC 77422.048x NVIDIA A1001,67
Fugaku512x Fujitsu A64FX114,35
Frontera64x IBM Power9128 NVIDIA V100140,45
Theta32x AMD EPYC 7742128x NVIDIA A100256,27
Piz Diant32x AMD EPYC 774264x NVIDIA A100753,11
HAL64x IBM Power9128 NVIDIA V1001021,8
Perlmutter128x AMD EPYC 7742512x NVIDIA A100111,86

Чем меньше времени требуется, чем быстрее система. Тем лучше могут совместно работать программное и аппаратное обеспечение. Полные результаты MLPerf 1.0 можно посмотреть здесь.

Конечно, список Top500 важен для сравнительной оценки производительности суперкомпьютеров, но следует учитывать и другие бенчмарки. В том числе и MLPerf, который следует рассматривать вместе с тестами Linpack и HPCG.

Данные о правообладателе фото и видеоматериалов взяты с сайта «HardwareLUXX Russia», подробнее в Правилах сервиса