2025-09-29 21:48:48

恭喜研究团队推进 DeepSeek V3/R1 推理。

在NVIDIA GB200 NVL72上，他们实现了每个GPU 26k输入tokens/s和13k输出tokens/s的性能——相比H100，速度提升近4×/5×。

他们通过 NVFP4 MoE、FP8 注意力和缩减专家并行性实现了这一目标。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

13人点赞了这条动态

0/400

MEV受害者互助会

· 6小时前

4倍提升太猛了吧

shadowy_supercoder

· 6小时前

这也太卷了吧

DeFi老顽童

· 6小时前

老头子见惯大风大浪 GPU也能一秒起飞咯

DAO Therapy

· 6小时前

又是科技革新的一哆嗦

MerkleDreamer

· 6小时前

内味儿不错啊速度上天了

纸手恐慌侠

· 6小时前

又不够跑 3090

0xLuckbox

· 7小时前

牛啊 AI跑这么快