Tăng tốc 17 lần mà vẫn không cần sửa đổi nền tảng CUDA, thiết kế của Nous thực sự mở ra một con đường gần hơn cho suy luận văn bản dài, và chi tiết chuyển về toàn bộ chú ý ở cuối quá trình huấn luyện cũng rất ổn định.

Xem bản gốc
MeNews
Nous mở nguồn Lighthouse Attention: đơn B200 chạy 512K tăng tốc 17 lần
AIMPACT cho biết, Nous Research đã mở nguồn cơ chế tiền huấn luyện dài ngữ cảnh Lighthouse Attention. Một card B200 xử lý 512K văn bản nhanh gấp khoảng 17 lần, khi 98K thì tăng tốc toàn diện 1.4–1.7 lần. Cơ chế này trước tiên lọc sơ qua rồi tính toán chính xác, qua nhiều cấp tóm tắt để chọn ra các đoạn trọng tâm rồi ghép thành văn bản ngắn, sau đó giao cho FlashAttention xử lý; logic lọc này nằm ngoài nhân, không cần mã nền tảng hay mục tiêu huấn luyện bổ sung. Để tránh mô hình bỏ qua khả năng đọc từng từ khi nhảy qua các đoạn, trong huấn luyện, trước tiên dùng chế độ tăng tốc để hoàn thành phần lớn, cuối cùng tạm thời chuyển về toàn bộ chú ý. Trong thử nghiệm với 5.3 tỷ tham số, 500 tỷ Token, thời gian tiêu tốn giảm rõ rệt và hiệu suất cuối cùng tương đương hoặc vượt qua các phương pháp truyền thống.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim