Chú ý kép hai lớp với lọc sơ bộ + tính toán chính xác, trong giai đoạn cuối của quá trình huấn luyện chuyển trở lại chú ý toàn phần để tránh bỏ qua, hiệu suất của mô hình 5.3B không giảm mà còn tăng lên. Ngữ cảnh dài cuối cùng không cần phải dùng thẻ cứng để đối phó nữa.

Xem bản gốc
MeNews
Nous mã nguồn mở Lighthouse Attention: đơn B200 chạy 512K tăng tốc 17 lần
AIMPACT cho biết, Nous Research đã mở nguồn cơ chế tiền huấn luyện dài ngữ cảnh Lighthouse Attention. Một card B200 xử lý 512K văn bản nhanh gấp khoảng 17 lần, với 98K thì tốc độ end-to-end tăng 1.4–1.7 lần. Cơ chế này trước tiên sơ bộ lọc rồi tinh chỉnh, qua nhiều cấp độ tóm tắt để chọn ra các đoạn trọng tâm rồi ghép thành văn bản ngắn, sau đó giao cho FlashAttention xử lý; logic lọc nằm ngoài nhân, không cần mã nền và mục tiêu huấn luyện bổ sung. Để tránh mô hình bỏ qua khả năng đọc từng chữ khi nhảy qua các đoạn, trong quá trình huấn luyện, phần lớn được hoàn thành bằng chế độ tăng tốc, cuối cùng tạm thời chuyển về toàn bộ chú ý. Trong thử nghiệm với 5.3 tỷ tham số, 500 tỷ token, thời gian tiêu hao giảm rõ rệt và hiệu suất cuối cùng tương đương hoặc vượt qua các phương pháp truyền thống.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim