A Google lançou o Guia de Treinamento para Desenvolvedores do sétimo geração do TPU Ironwood, detalhando otimizações de desempenho a nível de sistema

MeNews · 2026-04-01T22:03:18+00:00

A Google lançou um guia de treino para desenvolvedores do 7ª geração de TPU Ironwood, com o objetivo de ajudar os desenvolvedores a treinar e implementar modelos de IA de forma eficiente. O guia apresenta várias estratégias de otimização essenciais, como treino FP8, biblioteca de núcleo JAX otimizada para TPU, descarregamento de comunicação de núcleos esparsos, ajuste de alocação de memória, entre outras, para melhorar o desempenho do sistema do TPU Ironwood.

MeNews

2026-04-01 22:03:18

Geração de resumo em curso

Notícias ME, mensagem de 2 de abril (UTC+8): recentemente, a Google publicou oficialmente um guia de formação para programadores destinado à sétima geração do Ironwood TPU. O guia pretende ajudar os programadores a tirar pleno partido do desempenho ao nível de sistema do Ironwood TPU, para treinar e implementar eficientemente modelos de IA de ponta. O Ironwood TPU é uma infraestrutura de IA personalizada, concebida para satisfazer as necessidades de computação de modelos com biliões de parâmetros; através de tecnologias como interligações entre chips (ICI), switches de troca de caminhos ópticos (OCS), rede de centros de dados (DCN) e memória de banda alta agregada (HBM), constrói um sistema completo que suporta até 9.216 chips. O texto descreve detalhadamente várias estratégias de optimização fundamentais para este hardware, incluindo: tirar partido do suporte nativo das suas unidades de multiplicação de matrizes (MXU) para treinos FP8 para aumentar o débito; utilizar a biblioteca de kernels Tokamax, optimizada para TPU, desenvolvida para JAX, através de “atenção salpicada” e “multiplicação de matrizes agrupadas Megablox” para processar tensores irregulares em longos contextos e em modelos de especialistas mistos; recorrer ao quarto núcleo esparso (SparseCore) para descarregar operações de comunicação colectivas e ocultar a latência; ajustar com precisão a alocação da SRAM rápida em chip do TPU (VMEM) para reduzir a paragem da memória; e, consoante a dimensão do modelo, a arquitectura e o comprimento da sequência, seleccionar a melhor estratégia de particionamento (como FSDP, TP, EP). (Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

2 gostos