Zyphra відкриває попередню версію ZAYA1-74B: повне тренування на апаратному забезпеченні AMD, 4B активованих, 74B загальних параметрів

Криптовалютна новинна мережа, Zyphra відкрила попередню версію ZAYA1-74B, яка використовує повністю апаратне забезпечення AMD для кінцевого тренування, загальна кількість параметрів моделі досягає 74 мільярдів, одна активація — 4 мільярди. Ця модель базується на архітектурі гібридних експертів (MoE), і весь процес попереднього тренування та розширення контексту виконується на прискорювачі AMD MI300X. Для оптимізації ефективності довгих текстів модель замінила глобальний шар уваги на скользяче вікно уваги (SWA) розміром 4K, офіційні тести показали, що ця конструкція суттєво зменшує використання кешу KV без втрати продуктивності. У процесі тренування було використано 150 трильйонів токенів попереднього навчання, а під час проміжного тренування обсяг контекстного вікна поступово розширювався до 256K. Zyphra обрала оприлюднення результату PASS, щоб продемонструвати здатність цієї бази генерувати правильні кроки виведення, повна версія ZAYA1-74B з усіма функціями очікується до випуску протягом наступних кількох тижнів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити