Zyphra aperçu de la version préliminaire open source de ZAYA1-74B : entraînement de bout en bout sur tout le matériel AMD, 4B d'activations pour 74B de paramètres totaux

CoinWorld消息,Zyphra开源的ZAYA1-74B预览版采用全AMD硬件进行端到端训练,模型总参数达到740亿,单次激活40亿。该模型基于混合专家(MoE)架构,预训练和上下文扩展全流程均在AMD MI300X加速卡上完成。为优化长文本效率,模型将全局注意力层替换为4K窗口大小的滑动窗口注意力(SWA),官方测试显示这一设计在不牺牲性能的前提下,显著减少了KV缓存的占用。训练过程中使用了15万亿token的预训练语料,并在3万亿token的中间训练中逐步将上下文窗口扩展至256K。Zyphra选择公布PASS成绩,以证明该基座具备产生正确推理步骤的能力,完整的满血版ZAYA1-74B预计将在未来几周内发布。

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler