Zyphra випустила першу дифузійну мовну модель екосистеми AMD, з максимальною швидкістю до 7,7 разів.

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 15 травня (UTC+8), згідно з моніторингом Датчі Beating, Zyphra випустила гібридну експертну модель (MoE) розповсюдження ZAYA1-8B-Diffusion-Preview, створену за допомогою автогенного великого мовного моделювання. Хоча офіційно стверджується, що це «перша» модель, яка реалізує цю архітектуру, цей підхід був вперше запроваджений командами SDAR і LLaDA 2.0 наприкінці минулого року. Єдине справжнє унікальне позначення ZAYA1 полягає в тому, що це перша розповсюджувальна мовна модель, навчена в екосистемі апаратного забезпечення AMD. Відмовившись від маркетингових слоганів, ця модель все одно підтверджує цінність інженерної ефективності архітектури розповсюдження. Традиційні автогенні моделі обмежені послідовним генеруванням слова за словом, а накопичення кешу KV може довести швидкість генерації до фізичних меж. Як показано в нещодавньому дослідженні команди Хе Кайміна щодо чистої моделі розповсюдження ELF, паралельне видалення шуму є ключем до подолання цього бар’єру. ZAYA1 використовує схему TiDAR, яка пропускає початкове попереднє навчання і дозволяє одночасно очищати 16 кандидатів токенів за один прохід, повністю перетворюючи вузьке місце пропускної здатності пам’яті на обчислювальну потужність. Експериментальні дані показують, що з використанням спеціальної уваги CCA для ZAYA1 і стандартного беззбиткового сэмплера можна досягти прискорення до 4,6 разів без зниження якості генерації. Перехід на гібридний логіт-скаутер підвищує прискорення до 7,7 разів, що створює суттєві можливості для зниження витрат при великих обчислювальних задачах. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
GateUser-9008328f
· 6год тому
TiDAR зекономлені витрати на попереднє навчання достатні для тренування скільки завдань нижчого рівня
Переглянути оригіналвідповісти на0
CrystalBallForSentiment
· 6год тому
Модель розповсюдження мов нарешті більше не залежить від настрою NV, це добре
Переглянути оригіналвідповісти на0
GateUser-eccf92a1
· 6год тому
TiDAR пропуск попереднього навчання — це дуже економно, екосистема AMD нарешті має потужну дифузійну модель.
Переглянути оригіналвідповісти на0
GateUser-4aa73916
· 6год тому
Одноразовий прямий проход може обробити 16 токенів, сцени, чутливі до затримки, радіють
Переглянути оригіналвідповісти на0
Semi-MeltedIceCream
· 6год тому
CCA увага беззбитковий зразок 4.6x, технічні деталі хочеться написати технічний блог
Переглянути оригіналвідповісти на0
MosaicButterfly
· 6год тому
16 токенів одночасно видаляють шум, обмін пам’яті на обчислювальну потужність — ця ідея дуже дружня до споживчих карт.
Переглянути оригіналвідповісти на0
LookingAtTheCandlestickChart
· 6год тому
Навчання на AMD замість портативності, починає змінюватися екологічна дискурсивна влада
Переглянути оригіналвідповісти на0
  • Закріплено