Transformer làm thành mạch phần cứng thuần túy, không dùng GPU đạt 50.000 tokens/giây

Thông báo từ CoinWorld, các nhà phát triển Luthira Abeykoon và Krish Chhajer đã chuyển MicroGPT của Karpathy (chỉ 4.192 tham số) sang FPGA bằng SystemVerilog, tốc độ sinh ra hơn 50.000 tokens/giây. Dự án Talos-V2 (Logic tăng tốc tensor cho hệ thống trên chip) đã được mở mã nguồn trên GitHub, chạy trên FPGA Intel Cyclone V của DE1-SOC dành cho mục đích giảng dạy, trọng số được lưu trữ trong ROM trên chip ở định dạng cố định Q4.12. Phần nhân ma trận-véc tơ trong mô hình được thực hiện bằng mảng xung động theo chiều 16 kênh (Systolic Array), các phép chiếu Q/K/V, MLP, LM Head chia sẻ cùng một đơn vị, luân phiên chạy. Việc thực hiện cơ chế chú ý cần được chia thành tám bước. Các tác giả cho biết, dự án nhằm chuyển từng bước của suy luận Transformer thành phần cứng có thể trực quan hóa: bộ nhớ, bộ đếm, máy trạng thái và bảng tra cứu.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim