Meta đã giới thiệu phương pháp tăng tốc BLT, giảm băng thông bộ nhớ lên đến 92%

AIMPACT Tin nhắn, ngày 12 tháng 5 (UTC+8), nhóm nghiên cứu của Meta, Đại học Stanford và Đại học Washington gần đây đã giới thiệu ba phương pháp mới, giúp tăng tốc đáng kể tốc độ suy luận của Byte Latent Transformer (BLT). BLT là một mô hình ngôn ngữ hoạt động trực tiếp trên các byte gốc, phân chia các byte theo chiến lược phân đoạn dựa trên entropy để nhóm các byte thành các mảnh có độ dài biến đổi, phù hợp với hiệu suất của mô hình dựa trên phân đoạn từ. Do giải mã tự hồi quy từng byte cần nhiều lần truyền tiến, băng thông bộ nhớ trở thành nút thắt chính. Ba phương pháp tăng tốc như sau: BLT-D sử dụng phân đoạn rời rạc phân tán, huấn luyện kết hợp dự đoán byte tiếp theo và mất mát dự đoán byte bị che, mỗi lần truyền tiến tạo ra nhiều byte, kích thước khối 4 làm giảm băng thông bộ nhớ còn một nửa so với BLT, kích thước khối 16 giảm 87-92%; BLT-S tận dụng bộ giải mã cục bộ nhẹ làm bộ dự đoán tạm thời, không cần huấn luyện thêm, trong giải mã tham lam cho ra kết quả hoàn toàn nhất quán với BLT tiêu chuẩn, có thể giảm 77% băng thông bộ nhớ; BLT-DV kết hợp dự thảo phân tán và xác nhận tự hồi quy, cùng một trọng số mô hình có thể sử dụng hai chiều, giảm băng thông bộ nhớ 81%. Tất cả các phương pháp đều mang lại lợi ích lớn nhất trong các nhiệm vụ dịch thuật, nhiệm vụ mã hóa nhạy cảm hơn với kích thước khối. Trên các benchmark dựa trên khả năng như ARC-Easy, ARC-Challenge, PIQA, HellaSwag, MMLU, BLT-D đạt điểm gần bằng mức cơ sở của BLT, khả năng suy luận vẫn duy trì ổn định.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim