Zyphra открытый предварительный просмотр ZAYA1-74B: полностью на аппаратном обеспечении AMD для обучения от начала до конца, 4B активных, 74B общих параметров

币界网消息,Zyphra开源的ZAYA1-74B预览版采用全AMD硬件进行端到端训练,模型总参数达到740亿,单次激活40亿。该模型基于混合专家(MoE)架构,预训练和上下文扩展全流程均在AMD MI300X加速卡上完成。为优化长文本效率,模型将全局注意力层替换为4K窗口大小的滑动窗口注意力(SWA),官方测试显示这一设计在不牺牲性能的前提下,显著减少了KV缓存的占用。训练过程中使用了15万亿token的预训练语料,并在3万亿token的中间训练中逐步将上下文窗口扩展至256K。Zyphra选择公布PASS成绩,以证明该基座具备产生正确推理步骤的能力,完整的满血版ZAYA1-74B预计将在未来几周内发布。

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить