Zyphra开源ZAYA1-74B预览版:全AMD硬件端到端训练,4B激活74B总参数

币界网消息,Zyphra开源的ZAYA1-74B预览版采用全AMD硬件进行端到端训练,模型总参数达到740亿,单次激活40亿。该模型基于混合专家(MoE)架构,预训练和上下文扩展全流程均在AMD MI300X加速卡上完成。为优化长文本效率,模型将全局注意力层替换为4K窗口大小的滑动窗口注意力(SWA),官方测试显示这一设计在不牺牲性能的前提下,显著减少了KV缓存的占用。训练过程中使用了15万亿token的预训练语料,并在3万亿token的中间训练中逐步将上下文窗口扩展至256K。Zyphra选择公布PASS成绩,以证明该基座具备产生正确推理步骤的能力,完整的满血版ZAYA1-74B预计将在未来几周内发布。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论