Архитектура ZAYA1-8B довольно интересна, при переходе от автогрессии к MoE-распределению и диффузии она всё ещё может выполнять однократное прямое удаление шума на 16 токенов, ускорение в 7.7 раза действительно превращает нагрузку на видеопамять в вычислительную мощность.

Посмотреть Оригинал
MeNews
Zyphra выпустила первый диффузионный языковой модель в экосистеме AMD, достигнув максимального ускорения в 7,7 раза
Zyphra выпустила ZAYA1-8B-Diffusion-Preview, преобразовав автогрессивную большую языковую модель в гибридную экспертную диффузионную модель, став первой диффузионной языковой моделью, обученной в экосистеме AMD. Благодаря TiDAR пропускает предварительное обучение с нуля, одновременно удаляя шум для 16 токенов за один проход, превращая ограничение по видеопамяти в ограничение по вычислительной мощности. В реальных тестах при использовании внимания CCA + без потерь сэмплирования достигнуто ускорение в 4.6 раза, а при переключении на гибридный логит-сэмплер — до 7.7 раза.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено