Parabéns à equipe de pesquisa por avançar a inferência do DeepSeek V3/R1.



Na NVIDIA GB200 NVL72, estão a alcançar 26k tokens de entrada/s e 13k tokens de saída/s por GPU — uma aceleração de quase 4× / 5× em comparação com H100.

Eles conseguiram isso com NVFP4 MoE, atenção FP8, paralelismo de especialistas em redução de escala.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)