Transformer зроблений у вигляді чистого апаратного схеми, без використання GPU, щоб досягти 50 000 токенів/сек.

Китайська мережа повідомляє, що розробники Luthira Abeykoon і Krish Chhajer перенесли MicroGPT Карпачі (лише 4 192 параметри) на FPGA за допомогою SystemVerilog, швидкість генерації понад 50 000 токенів/сек. Цей проект Talos-V2 (Tensor Accelerated Logic for On-Chip Systems) вже відкритий на GitHub і працює на навчальному рівні Intel FPGA Cyclone V на DE1-SOC, ваги зберігаються у внутрішньому ROM у форматі Q4.12 з фіксованою точністю. Реалізація матричного векторного множення у моделі виконана у вигляді 16-канального пульсуючого масиву (Systolic Array), проекції Q/K/V, MLP і LM Head використовують цей один блок, що працює по черзі. Реалізація механізму уваги вимагає розбиття на вісім кроків. Автори зазначають, що проект має на меті перетворити кожен крок трансформерного виведення у візуалізоване апаратне забезпечення: пам’ять, лічильники, стан машини та таблиці пошуку.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити