У екосистемі AMD перша дифузійна мовна модель, TiDAR, безпосередньо пропускає попереднє навчання, ідея паралельного очищення 16 токенів досить крута, операція, що перетворює відеопам'ять у обчислювальну потужність, — цьому я навчився.

Переглянути оригінал
MeNews
Zyphra випустила першу дифузійну мовну модель екосистеми AMD, з максимальною швидкістю до 7,7 разів.
Zyphra випустила ZAYA1-8B-Diffusion-Preview, перетворюючи автогресивну велику мовну модель у гібридну модель дифузії експертів, ставши першою дифузійною мовною моделлю, навченою в екосистемі обладнання AMD. За допомогою TiDAR пропускає попереднє навчання з нуля, одноразовим проходженням може одночасно видаляти шум з 16 токенів, перетворюючи обмеження відеопам’яті у обмеження обчислювальної потужності. У реальних тестах при використанні уваги CCA + беззбиткової вибірки досягнуто прискорення у 4.6 рази, а при переключенні на гібридний логіт-генератор швидкість зросла до 7.7 разів.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено