Felicitaciones al equipo de investigación por avanzar en la inferencia de DeepSeek V3/R1.
En NVIDIA GB200 NVL72, están logrando 26k tokens de entrada/s y 13k tokens de salida/s por GPU, lo que representa una aceleración de casi 4× / 5× en comparación con H100.
Lograron esto con NVFP4 MoE, atención FP8, disminución de la paralelización de expertos.
Ver originales