Nous mã nguồn mở Lighthouse Attention: đơn B200 chạy 512K tăng tốc 17 lần

robot
Đang tạo bản tóm tắt
AIMPACT Tin nhắn, ngày 16 tháng 5 (UTC+8), theo theo dõi Beating của Dongcha, Nous Research đã mở nguồn cơ chế tiền huấn luyện dài ngữ cảnh Lighthouse Attention. Khi xử lý văn bản dài 512K trên một card đồ họa B200, phương pháp này nhanh hơn khoảng 17 lần so với cơ chế truyền thống, và đạt tốc độ huấn luyện toàn bộ từ 1.4 đến 1.7 lần ở độ dài 98K.
Cơ chế chú ý truyền thống cần tính toán mối quan hệ từng cặp giữa tất cả các từ, văn bản càng dài, tiêu thụ năng lượng tính toán sẽ tăng theo cấp số nhân.
Lighthouse Attention thay thế bằng cách sơ bộ lọc rồi tính toán chính xác. Nó sẽ nhanh chóng duyệt qua tóm tắt nén của văn bản ở các cấp độ khác nhau, qua việc chấm điểm chọn ra các đoạn trọng tâm ghép thành văn bản ngắn, rồi trực tiếp giao cho các bộ xử lý hiệu quả hiện có là FlashAttention để xử lý.
Do logic lọc đã hoàn toàn tách khỏi lõi, các nhà phát triển tiết kiệm được công sức viết mã nền tảng, cũng không cần thêm mục tiêu huấn luyện mới.
Các phương pháp tăng tốc tương tự trong quá khứ thường gây ra tác dụng phụ, mô hình quen đọc lướt dễ mất khả năng đọc kỹ từng từ ban đầu.
Để tránh cái bẫy này, nhóm phát triển đã cho mô hình chạy chế độ tăng tốc để hoàn thành phần lớn tiến trình, chỉ cuối cùng mới tạm thời chuyển về tính toán chú ý toàn phần truyền thống để thích nghi.
Trong thử nghiệm với mô hình có quy mô 5.3 tỷ tham số, huấn luyện với dữ liệu 50 tỷ token, mô hình được huấn luyện theo cách này không chỉ rút ngắn đáng kể thời gian, mà còn đạt hiệu suất toàn diện ngang bằng hoặc thậm chí vượt qua phiên bản huấn luyện hoàn toàn theo phương pháp truyền thống.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 9
  • 2
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
PartiallyMeltedIceCream
· 1giờ trước
Tăng tốc 17 lần có vẻ hơi phóng đại, nhưng chỉ 1.4-1.7 lần với 98K, có vẻ như lợi ích càng dài càng rõ ràng
Xem bản gốcTrả lời0
ACalmnessWithAHintOfPomelo
· 1giờ trước
Tóm tắt nhiều cấp độ của đoạn văn ngắn rồi bỏ qua FlashAttention, thủ thuật này thật hay.
Xem bản gốcTrả lời0
GateUser-8ca669fd
· 2giờ trước
Cuộc thi ngữ cảnh dài bước vào giai đoạn tối ưu hóa kỹ thuật, hấp dẫn hơn cả các tham số của mô hình.
Xem bản gốcTrả lời0
TidalShell
· 2giờ trước
Việc vượt qua các tiêu chuẩn truyền thống khá bất ngờ, nghĩ rằng tăng tốc sẽ phải hy sinh chất lượng
Xem bản gốcTrả lời0
GateUser-318a7dc8
· 2giờ trước
Chỉ với 5.3 tỷ tham số là có thể xác minh, nhóm nhỏ cũng có thể theo kịp.
Xem bản gốcTrả lời0
GateUser-d6fb8ff1
· 2giờ trước
Đợi mã code để thử xem card 4090 của tôi có thể chịu được bao nhiêu K
Xem bản gốcTrả lời0
Glass-HeartMarketMaker
· 2giờ trước
Bỏ qua mục tiêu đào tạo bổ sung là rất quan trọng, nếu không thì ngay cả khi mở mã nguồn cũng không ai đủ khả năng đào tạo nó
Xem bản gốcTrả lời0
OrderbookOtter
· 2giờ trước
Tên gọi Lighthouse thật hay, trước tiên chiếu sáng điểm chính rồi xem xét kỹ hơn
Xem bản gốcTrả lời0
TokenTinkerTao
· 2giờ trước
B200 đơn card 512K, sau này cá nhân chạy tài liệu dài RAG chi phí đã giảm xuống
Xem bản gốcTrả lời0
Xem thêm
  • Đã ghim