「华为芯片拖慢DeepSeek V4上线」?同一内核通吃英伟达昇腾还加速近2倍

robot
摘要生成中
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,DeepSeek V4 发布前,社区广泛流传一种猜测:V4 上线时间晚于预期,是因为模型从英伟达迁移到华为昇腾平台遭遇适配困难。V4 技术报告虽未直接回应这一传闻,但披露的性能数据与之明显矛盾。 报告显示,V4 的细粒度专家分区方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和华为昇腾 NPU 双平台完成部署验证,常规推理负载加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服务等延迟敏感场景最高加速 1.96 倍。团队已将 CUDA 版本内核 MegaMoE 作为 DeepGEMM 的一部分开源。换言之,V4 在两套硬件上都跑出了接近理论上限的效率,跨平台适配并未造成性能折损。 (来源:BlockBeats)
DEEPSEEK-2.58%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论