Nous Research phát hành Lighthouse Attention, tăng tốc tiền huấn luyện chuỗi dài 1.4-1.7 lần

AIMPACT Tin nhắn, ngày 17 tháng 5 (UTC+8), Nghiên cứu Nous giới thiệu phương pháp Lighthouse Attention, giải quyết vấn đề tăng gấp đôi chi phí tính toán chú ý trong huấn luyện tiền huấn luyện chuỗi dài bằng cách chọn lọc cơ chế chú ý theo cấp độ. Phương pháp này thực hiện pooling đối xứng cho Query, Key, Value, logic chọn lọc nằm ngoài nhân chú ý có thể tái sử dụng nhân FlashAttention, sử dụng chiến lược huấn luyện hai giai đoạn. Thử nghiệm trên NVIDIA B200, với độ dài ngữ cảnh khoảng 512K, tốc độ truyền tiến tăng 21 lần, tốc độ kết hợp truyền tiến + ngược lại tăng 17.3 lần, thông lượng giai đoạn đầu đạt 126,000 tokens/s/GPU (so với SDPA dày đặc là 46,000), tăng tốc end-to-end từ 1.40× đến 1.69×, đồng thời duy trì hoặc giảm thấp hơn loss huấn luyện. Được xác nhận trên mô hình kiểu Llama-3 với 530 triệu tham số, ba nhóm Lighthouse chạy cuối cùng loss (0.698-0.71) tốt hơn chuẩn SDPA huấn luyện từ đầu (0.7237), tiết kiệm 22.5-27 giờ huấn luyện. Bài báo arXiv:2605.06554.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim