Parabéns à equipe de pesquisa por avançar a inferência do DeepSeek V3/R1.
Na NVIDIA GB200 NVL72, estão a alcançar 26k tokens de entrada/s e 13k tokens de saída/s por GPU — uma aceleração de quase 4× / 5× em comparação com H100.
Eles conseguiram isso com NVFP4 MoE, atenção FP8, paralelismo de especialistas em redução de escala.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Parabéns à equipe de pesquisa por avançar a inferência do DeepSeek V3/R1.
Na NVIDIA GB200 NVL72, estão a alcançar 26k tokens de entrada/s e 13k tokens de saída/s por GPU — uma aceleração de quase 4× / 5× em comparação com H100.
Eles conseguiram isso com NVFP4 MoE, atenção FP8, paralelismo de especialistas em redução de escala.