Google TPU Trillium: для больших языковых моделей ИИ

На вчерашней конференции Google I/O основное внимание было уделено моделям искусственного интеллекта Gemini, которые должны работать на устройствах под управлением Android, хотя и с вычислительной поддержкой со стороны ЦОД. Для этих целей Google использует TPU собственной разработки. Теперь представлено следующее поколение Trillium. Оно призвано заменить текущий TPU v5e, расширить аппаратную составляющую ЦОД для решения современных задач.

В частности, модели ИИ становятся все более крупными и сложными. Google объясняет это в своем блоге, посвященном Trillium. Google не предоставляет много технических подробностей. Однако утверждается, что Trillium в 5,7 раза быстрее TPU v5e и на 67% эффективнее. Более высокая тактовая частота и более крупные матричные вычислительные блоки играют самую важную роль в увеличении производительности. К сожалению, подробностей нет.

Однако Google не масштабирует чипы Trillium в больших системах так же эффективно, как TPU v5p. Вместо нескольких тысяч TPU в Pod, поколение Trillium ограничено планкой 256. Также произошли небольшие сдвиги в объеме памяти и ее пропускной способности внутри Pod. Похоже, что Google переключает свое аппаратное обеспечение с тренировки моделей ИИ на инференс – v5p для тренировки, v5e для инференса, а Trillium - это чип для инференса.

Изначально только Google будет использовать чипы Trillium. Позднее соответствующие инстансы также будут доступны клиентам через облачные сервисы. Заявки для предварительного знакомства уже можно подавать, доступность ожидается в ближайшие месяцы.

Сравнение TPU от Google
	TPU v4	TPU v5e	TPU v5p	Trillium
TPUs на Pod	4.096	256	8.960	256
Емкость памяти	32 Гбайт	16 Гбайт	95 Гбайт	32 Гбайт
Пропускная способность памяти	1.128 Гбайт/с	820 Гбайт/с	2.765 Гбайт/с	1.40 Гбайт/с
Соединение C2C	2,4 TB/s	1,6 TB/s	4,8 TB/s	3,2 TB/s
Вычислительная производительность BF16	275 TFLOPS	197 TFLOPS	459 TFLOPS	?
Вычислительная производительность INT8	-	394 TOPS	918 TOPS	1.852 TOPS