Lighthouse Attention ý tưởng này khá hay, trước tiên lọc sơ rồi tinh toán, đưa ngữ cảnh dài vào vùng thoải mái của FlashAttention, còn không cần sửa đổi phần nền CUDA, chạy trên một card B200 với 512K nhanh gấp 17 lần, khi kết thúc huấn luyện sẽ chuyển lại toàn bộ chú ý để giữ độ chính xác, cảm giác kỹ thuật rất đúng chuẩn

Xem bản gốc
MeNews
Nous mở nguồn Lighthouse Attention: Một B200 đơn chạy 512K tăng tốc 17 lần
AIMPACT cho biết, Nous Research đã mở nguồn cơ chế tiền huấn luyện dài ngữ cảnh Lighthouse Attention. Một card B200 xử lý 512K văn bản nhanh gấp khoảng 17 lần, khi 98K thì tăng tốc toàn bộ 1.4–1.7 lần. Cơ chế này trước tiên sơ bộ lọc rồi tinh chỉnh, qua nhiều cấp độ tóm tắt để chọn ra các đoạn cốt lõi rồi ghép thành văn bản ngắn, sau đó giao cho FlashAttention xử lý; logic lọc nằm ngoài nhân, không cần mã nền tảng và mục tiêu huấn luyện bổ sung. Để tránh mô hình bỏ qua khả năng đọc từng chữ khi nhảy qua các phần, trong huấn luyện ban đầu sử dụng chế độ tăng tốc để hoàn thành phần lớn, rồi cuối cùng tạm thời chuyển về chú ý toàn phần. Trong thử nghiệm với 5.3 tỷ tham số, 500 tỷ token, thời gian tiêu tốn giảm rõ rệt và hiệu suất cuối cùng tương đương hoặc vượt qua các cơ sở truyền thống.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim