Zyphra выпустила первый диффузионный языковой модель в экосистеме AMD, достигнув максимального ускорения в 7,7 раза

robot
Генерация тезисов в процессе

AIMPACT сообщение, 15 мая (UTC+8), согласно мониторингу 动察 Beating, Zyphra выпустила гибридную экспертную (MoE) диффузионную модель ZAYA1-8B-Diffusion-Preview, основанную на автогрессивной большой языковой модели. Хотя в официальной рекламе заявлено, что это «первая» модель, реализующая такую архитектуру, данный подход был впервые реализован командами SDAR и LLaDA 2.0 в конце прошлого года. Единственная уникальная характеристика ZAYA1 заключается в том, что это первая диффузионная языковая модель, обученная в экосистеме аппаратного обеспечения AMD.

Отделяя маркетинговые слова, эта модель всё равно подтверждает эффективность инженерных решений архитектуры диффузии. Традиционные автогрессивные модели ограничены последовательным по символам генерацией, накопление кеша KV приводит скорость генерации к физическому пределу. Как недавно показала команда Хэ Кайминга с их чистой диффузионной моделью ELF, параллельное удаление шума — ключ к преодолению этого узкого места. ZAYA1 использует схему TiDAR, пропуская этап предварительного обучения с нуля, и за один проход может одновременно удалять шум из 16 кандидатных токенов, полностью превращая узкое место по пропускной способности видеопамяти в узкое место по вычислительным мощностям.

Практические тесты показали, что в сочетании с эксклюзивной механизмом внимания CCA для ZAYA1, использование стандартного без потерь сэмплера позволяет достичь ускорения в 4,6 раза без снижения качества генерации. Переключение на гибридный логит-сэмплер увеличило ускорение до 7,7 раз, что обеспечивает существенную экономию при выполнении ресурсоемких задач масштабного вывода.
(Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GateUser-9008328f
· 6ч назад
TiDAR сэкономленные затраты на предварительное обучение достаточно для обучения множества downstream задач
Посмотреть ОригиналОтветить0
CrystalBallForSentiment
· 6ч назад
Модель диффузионного языка наконец-то больше не зависит от настроения NV, это хорошо
Посмотреть ОригиналОтветить0
GateUser-eccf92a1
· 6ч назад
TiDAR пропуск предварительной тренировки — это очень экономично, наконец-то в экосистеме AMD появился конкурентоспособный диффузионный модель.
Посмотреть ОригиналОтветить0
GateUser-4aa73916
· 6ч назад
Одноразовый прямой проход может обрабатывать 16 токенов, что вызывает восторг в сценариях, чувствительных к задержкам.
Посмотреть ОригиналОтветить0
Semi-MeltedIceCream
· 6ч назад
CCA внимание без потерь выборка 4.6x, детали проекта хочу написать технический блог
Посмотреть ОригиналОтветить0
MosaicButterfly
· 6ч назад
16 токенов одновременно удаляют шум, обмен памяти на вычислительную мощность — эта идея очень дружелюбна к потребительским видеокартам
Посмотреть ОригиналОтветить0
LookingAtTheCandlestickChart
· 6ч назад
Обучение на AMD вместо портирования, контроль над экосистемой начал меняться
Посмотреть ОригиналОтветить0
  • Закреплено