Google publica detalles de la arquitectura de red de la octava generación de TPU 8t a nivel de rack

robot
Generación de resúmenes en curso
Mensaje AIMPACT, 16 de mayo (UTC+8), Google reveló detalles de la arquitectura de conexión en rack de la octava generación de TPU (TPU 8t) a la red Virgo.
La red utiliza conmutadores de alta cardinalidad y una topología de dos capas sin bloqueo y plana, elevando el ancho de banda de la red del centro de datos a 4 veces la generación anterior, con una sola estructura capaz de conectar más de 134,000 chips TPU 8t, proporcionando un ancho de banda bidireccional sin bloqueo de 47 Pb/s y un rendimiento de casi 1.7K ExaFlops con escalabilidad casi lineal.
El TPU 8t en sí mismo utiliza una topología de anillo 3D, con un solo módulo superconector escalable hasta 9600 chips, y soporta expansión a más de un millón de chips mediante JAX y Pathways.
Las tecnologías clave incluyen aceleradores SparseCore, superposición y escalado equilibrado de VPU/MXU, soporte nativo para FP4, y CPU Axion basada en Arm integrada para eliminar cuellos de botella en la host.
Este diseño está dirigido a la evolución de modelos de IA desde modelos de lenguaje grande y denso hacia modelos de expertos híbridos a gran escala y arquitecturas intensivas en inferencia.
(Fuente: InFoQ)
GOOGLX0,39%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
L2LunchBoy
· hace6h
¿La capacitación de precisión FP4 puede mantenerse estable, o solo se usa para inferencia?
Ver originalResponder0
NeonIceMelt
· hace6h
13.4 millones de chips en estructura, cómo dividir el dominio de fallos es un conocimiento especializado
Ver originalResponder0
LatencyLullaby
· hace7h
SparseCore y FP4 soportados de forma nativa, Google realmente está apretando al máximo los costos de inferencia.
Ver originalResponder0
GateUser-ebdc7d3a
· hace7h
Un módulo único de cápsula 9600 chip, tengo mucha curiosidad sobre cómo se hace la disipación de calor a esa densidad
Ver originalResponder0
ByteBard
· hace7h
Arm Axion CPU integrado, la computación heterogénea se vuelve cada vez más hábil
Ver originalResponder0