📰 【最强开源模型 DeepSeek V4 终于来了!1.6万亿参数模型,MIT许可,长文本显存压缩至V3.2的十分之一】


据动察Beating监测,DeepSeek开源V4系列预览版,采用MIT许可,权重已上线Hugging Face和ModelScope。该系列包含两款MoE模型:V4-Pro总参数1.6T,每token激活49B(490亿);V4-Flash总参数284B(2840亿),激活13B(130亿)。两款均支持1M token上下文。架构有三项升级:混合注意力机制(压缩稀疏注意力CSA + 重度压缩注意力HCA)大幅降低长上下文开销,在1M上下文下V4...

兄弟们,DeepSeek又搞大事情了,V4开源模型直接1.6万亿参数,MIT许可随便用,长文本显存压到V3.2的十分之一。这老哥是真敢干,把大模型当白菜往外撒,散户玩AI的赶紧上车,别像当年错过币王一样错过这波技术红利。👇👇👇👇👇
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论