Zyphra выпустила ZAYA1-8B-Diffusion-Preview, преобразовав автогрессивную большую языковую модель в гибридную экспертную диффузионную модель, став первой диффузионной языковой моделью, обученной в экосистеме AMD. Благодаря TiDAR пропускает предварительное обучение с нуля, одновременно удаляя шум для 16 токенов за один проход, превращая ограничение по видеопамяти в ограничение по вычислительной мощности. В реальных тестах при использовании внимания CCA + без потерь выборки достигнуто ускорение в 4.6 раза, а при переключении на гибридный логит-выборщик — до 7.7 раз.

MeNews

2026-05-23 09:07:37

Генерация тезисов в процессе

AIMPACT сообщение, 15 мая (UTC+8), согласно мониторингу 动察 Beating, Zyphra выпустила гибридную экспертную (MoE) диффузионную модель ZAYA1-8B-Diffusion-Preview, основанную на автогрессивной большой языковой модели. Хотя в официальной рекламе заявлено, что это «первая» модель, реализующая такую архитектуру, данный подход был впервые реализован командами SDAR и LLaDA 2.0 в конце прошлого года. Единственная уникальная характеристика ZAYA1 заключается в том, что это первая диффузионная языковая модель, обученная в экосистеме аппаратного обеспечения AMD.

Отделяя маркетинговые слова, эта модель всё равно подтверждает эффективность инженерных решений архитектуры диффузии. Традиционные автогрессивные модели ограничены последовательным по символам генерацией, накопление кеша KV приводит скорость генерации к физическому пределу. Как недавно показала команда Хэ Кайминга с их чистой диффузионной моделью ELF, параллельное удаление шума — ключ к преодолению этого узкого места. ZAYA1 использует схему TiDAR, пропуская этап предварительного обучения с нуля, и за один проход может одновременно удалять шум из 16 кандидатных токенов, полностью превращая узкое место по пропускной способности видеопамяти в узкое место по вычислительным мощностям.

Практические тесты показали, что в сочетании с эксклюзивной механизмом внимания CCA для ZAYA1, использование стандартного без потерь сэмплера позволяет достичь ускорения в 4,6 раза без снижения качества генерации. Переключение на гибридный логит-сэмплер увеличило ускорение до 7,7 раз, что обеспечивает существенную экономию при выполнении ресурсоемких задач масштабного вывода.
(Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

8 Лайков

Награда
8
7
2
Поделиться

комментарий

Добавить комментарий

GateUser-9008328f

· 6ч назад

TiDAR сэкономленные затраты на предварительное обучение достаточно для обучения множества downstream задач

Посмотреть ОригиналОтветить0

CrystalBallForSentiment

· 6ч назад

Модель диффузионного языка наконец-то больше не зависит от настроения NV, это хорошо

Посмотреть ОригиналОтветить0

GateUser-eccf92a1

· 6ч назад

TiDAR пропуск предварительной тренировки — это очень экономично, наконец-то в экосистеме AMD появился конкурентоспособный диффузионный модель.

Посмотреть ОригиналОтветить0

GateUser-4aa73916

· 6ч назад

Одноразовый прямой проход может обрабатывать 16 токенов, что вызывает восторг в сценариях, чувствительных к задержкам.

Посмотреть ОригиналОтветить0

Semi-MeltedIceCream

· 6ч назад

CCA внимание без потерь выборка 4.6x, детали проекта хочу написать технический блог

Посмотреть ОригиналОтветить0

MosaicButterfly

· 6ч назад

16 токенов одновременно удаляют шум, обмен памяти на вычислительную мощность — эта идея очень дружелюбна к потребительским видеокартам

Посмотреть ОригиналОтветить0

LookingAtTheCandlestickChart

· 6ч назад

Обучение на AMD вместо портирования, контроль над экосистемой начал меняться

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
TradfiTradingChallenge
305.43K Популярность
#
PlatinumCardCreatorExclusive
93.44K Популярность
#
IsraelStrikesIranBTCPlunges
48.8K Популярность
#
#DailyPolymarketHotspot
1.04M Популярность
#
GateSquarePizzaDay
1.77M Популярность

Закреплено

Карта сайта

Zyphra выпустила первый диффузионный языковой модель в экосистеме AMD, достигнув максимального ускорения в 7,7 раза

Популярные темы

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закреплено