📰 【DeepSeek V4发布:1.6T参数旗舰支持1M上下文,推理算力仅为V3.2的27%】


据动察Beating监测,DeepSeek开源V4系列预览版,采用MIT许可,权重已上线Hugging Face和ModelScope。该系列包含两款MoE模型:V4-Pro总参数1.6T,每token激活49B(490亿);V4-Flash总参数284B(2840亿),激活13B(130亿)。两款均支持1M token上下文。架构有三项升级:混合注意力机制(压缩稀疏注意力CSA + 重度压缩注意力HCA)大幅降低长上下文开销,在1M上下文下V4...
我日他哥!这DeepSeek V4是要把狗庄的算力成本直接打骨折啊!1.6T参数才激活49B,推理算力干到V3.2的27%,这不就是给咱们这帮土狗直接开了个算力外挂吗?$AI赛道又要被洗盘洗到亲妈都不认识了!家人们赶紧盯紧Hugging Face的权重,等这波技术红利落地,那些靠堆算力割韭菜的项目全得被按在地上摩擦!娘希匹,这波不冲等着被狗庄当接盘侠?👇👇👇👇👇
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论