Zyphra випустила ZAYA1-8B-Diffusion-Preview, перетворюючи автогресивну велику мовну модель у гібридну експертну дифузійну модель, ставши першою дифузійною мовною моделлю, навченою в екосистемі обладнання AMD. За допомогою TiDAR пропускає попереднє навчання з нуля, одноразовим проходженням може одночасно видаляти шум з 16 токенів, перетворюючи обмеження пам’яті на обчислювальні обмеження. У реальних тестах при використанні уваги CCA + беззбиткової вибірки досягнуто прискорення у 4.6 рази, а при переключенні на гібридний логіт-генератор — до 7.7 разів.

MeNews

2026-05-23 09:07:37

Генерація анотацій у процесі

AIMPACT повідомлення, 15 травня (UTC+8), згідно з моніторингом Датчі Beating, Zyphra випустила гібридну експертну модель (MoE) розповсюдження ZAYA1-8B-Diffusion-Preview, створену за допомогою автогенного великого мовного моделювання. Хоча офіційно стверджується, що це «перша» модель, яка реалізує цю архітектуру, цей підхід був вперше запроваджений командами SDAR і LLaDA 2.0 наприкінці минулого року. Єдине справжнє унікальне позначення ZAYA1 полягає в тому, що це перша розповсюджувальна мовна модель, навчена в екосистемі апаратного забезпечення AMD. Відмовившись від маркетингових слоганів, ця модель все одно підтверджує цінність інженерної ефективності архітектури розповсюдження. Традиційні автогенні моделі обмежені послідовним генеруванням слова за словом, а накопичення кешу KV може довести швидкість генерації до фізичних меж. Як показано в нещодавньому дослідженні команди Хе Кайміна щодо чистої моделі розповсюдження ELF, паралельне видалення шуму є ключем до подолання цього бар’єру. ZAYA1 використовує схему TiDAR, яка пропускає початкове попереднє навчання і дозволяє одночасно очищати 16 кандидатів токенів за один прохід, повністю перетворюючи вузьке місце пропускної здатності пам’яті на обчислювальну потужність. Експериментальні дані показують, що з використанням спеціальної уваги CCA для ZAYA1 і стандартного беззбиткового сэмплера можна досягти прискорення до 4,6 разів без зниження якості генерації. Перехід на гібридний логіт-скаутер підвищує прискорення до 7,7 разів, що створює суттєві можливості для зниження витрат при великих обчислювальних задачах. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

8 лайків

Нагородити
8
7
2
Поділіться

Прокоментувати

Додати коментар

GateUser-9008328f

· 6год тому

TiDAR зекономлені витрати на попереднє навчання достатні для тренування скільки завдань нижчого рівня