На вчерашней конференции Google I/O основное внимание было уделено моделям искусственного интеллекта Gemini, которые должны работать на устройствах под управлением Android, хотя и с вычислительной поддержкой со стороны ЦОД. Для этих целей Google использует TPU собственной разработки. Теперь представлено следующее поколение Trillium. Оно призвано заменить текущий TPU v5e, расширить аппаратную составляющую ЦОД для решения современных задач.
В частности, модели ИИ становятся все более крупными и сложными. Google объясняет это в своем блоге, посвященном Trillium. Google не предоставляет много технических подробностей. Однако утверждается, что Trillium в 5,7 раза быстрее TPU v5e и на 67% эффективнее. Более высокая тактовая частота и более крупные матричные вычислительные блоки играют самую важную роль в увеличении производительности. К сожалению, подробностей нет.
Однако Google не масштабирует чипы Trillium в больших системах так же эффективно, как TPU v5p. Вместо нескольких тысяч TPU в Pod, поколение Trillium ограничено планкой 256. Также произошли небольшие сдвиги в объеме памяти и ее пропускной способности внутри Pod. Похоже, что Google переключает свое аппаратное обеспечение с тренировки моделей ИИ на инференс – v5p для тренировки, v5e для инференса, а Trillium - это чип для инференса.
Изначально только Google будет использовать чипы Trillium. Позднее соответствующие инстансы также будут доступны клиентам через облачные сервисы. Заявки для предварительного знакомства уже можно подавать, доступность ожидается в ближайшие месяцы.
TPU v4 | TPU v5e | TPU v5p | Trillium | |
TPUs на Pod | 4.096 | 256 | 8.960 | 256 |
Емкость памяти | 32 Гбайт | 16 Гбайт | 95 Гбайт | 32 Гбайт |
Пропускная способность памяти | 1.128 Гбайт/с | 820 Гбайт/с | 2.765 Гбайт/с | 1.40 Гбайт/с |
Соединение C2C | 2,4 TB/s | 1,6 TB/s | 4,8 TB/s | 3,2 TB/s |
Вычислительная производительность BF16 | 275 TFLOPS | 197 TFLOPS | 459 TFLOPS | ? |
Вычислительная производительность INT8 | - | 394 TOPS | 918 TOPS | 1.852 TOPS |