Google выпустила седьмое поколение руководства по обучению разработчиков TPU Ironwood, подробно описывающее оптимизацию системных характеристик

MeNews · 2026-04-10T12:12:55+00:00

Google выпустила руководство для разработчиков по обучению седьмого поколения Ironwood TPU, предназначенное для помощи разработчикам в эффективном обучении и развертывании моделей ИИ. Руководство описывает ряд ключевых стратегий оптимизации, таких как обучение FP8, оптимизированная для TPU библиотека ядров JAX, разгрузка коммуникаций с помощью разреженных ядер, настройка распределения памяти и другие, чтобы повысить системную производительность Ironwood TPU.

MeNews

2026-04-10 12:12:55

Генерация тезисов в процессе

МЕ Новости, 2 апреля (UTC+8), официальное подразделение Google недавно опубликовало руководство для разработчиков по обучению седьмого поколения TPU Ironwood.
Это руководство предназначено для помощи разработчикам в полном использовании системных возможностей TPU Ironwood для эффективного обучения и развертывания передовых моделей искусственного интеллекта.
TPU Ironwood — это специализированная инфраструктура ИИ, разработанная для удовлетворения потребностей в вычислительной мощности моделей с триллионами параметров, которая благодаря межчиповой связке (ICI), оптическому коммутатору (OCS), сети дата-центра (DCN) и объединенной памяти с высокой пропускной способностью (HBM) создает полноценную систему, поддерживающую до 9216 чипов.
В статье подробно описаны ключевые стратегии оптимизации для этого оборудования, включая: использование встроенного блока матричных умножений (MXU) для поддержки обучения FP8 с целью повышения пропускной способности; применение специально оптимизированной для TPU библиотеки ядер JAX Tokamax, которая обрабатывает длинные контексты и неравномерные тензоры в гибридных моделях экспертов с помощью “прыжкового внимания” и “группового матричного умножения Megablox”; использование четвертого поколения разреженных ядер (SparseCore) для разгрузки операций коллективной коммуникации с целью скрытия задержек; тонкую настройку распределения быстрой внутренней памяти TPU (VMEM) для уменьшения задержек памяти; а также выбор оптимальной стратегии разбиения (например, FSDP, TP, EP) в зависимости от размера модели, архитектуры и длины последовательности. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков