AIMPACT Tin nhắn, ngày 16 tháng 5 (UTC+8), theo theo dõi Beating của Dongcha, Nous Research đã mở nguồn cơ chế tiền huấn luyện dài ngữ cảnh Lighthouse Attention. Khi xử lý văn bản dài 512K trên một card đồ họa B200, phương pháp này nhanh hơn khoảng 17 lần so với cơ chế truyền thống, và đạt tốc độ huấn luyện toàn bộ từ 1.4 đến 1.7 lần ở độ dài 98K.
Cơ chế chú ý truyền thống cần tính toán mối quan hệ từng cặp giữa tất cả các từ, văn bản càng dài, tiêu thụ năng lượng tính toán sẽ tăng theo cấp số nhân.
Lighthouse Attention thay thế bằng cách sơ bộ lọc rồi tính toán chính xác. Nó sẽ nhanh chóng duyệt qua tóm tắt nén của văn bản ở các cấp độ khác nhau, qua việc chấm điểm chọn ra các đoạn trọng tâm ghép thành văn bản ngắn, rồi trực tiếp giao cho các bộ xử lý hiệu quả hiện có là FlashAttention để xử lý.
Do logic lọc đã hoàn toàn tách khỏi lõi, các nhà phát triển tiết kiệm được công sức viết mã nền tảng, cũng không cần thêm mục tiêu huấn luyện mới.
Các phương pháp tăng tốc tương tự trong quá khứ thường gây ra tác dụng phụ, mô hình quen đọc lướt dễ mất khả năng đọc kỹ từng từ ban đầu.
Để tránh cái bẫy này, nhóm phát triển đã cho mô hình chạy chế độ tăng tốc để hoàn thành phần lớn tiến trình, chỉ cuối cùng mới tạm thời chuyển về tính toán chú ý toàn phần truyền thống để thích nghi.
Trong thử nghiệm với mô hình có quy mô 5.3 tỷ tham số, huấn luyện với dữ liệu 50 tỷ token, mô hình được huấn luyện theo cách này không chỉ rút ngắn đáng kể thời gian, mà còn đạt hiệu suất toàn diện ngang bằng hoặc thậm chí vượt qua phiên bản huấn luyện hoàn toàn theo phương pháp truyền thống.
(Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

7 thích

Phần thưởng
7
9
2
Retweed

Bình luận

Thêm một bình luận

PartiallyMeltedIceCream

· 1giờ trước

Tăng tốc 17 lần có vẻ hơi phóng đại, nhưng chỉ 1.4-1.7 lần với 98K, có vẻ như lợi ích càng dài càng rõ ràng

Xem bản gốcTrả lời0

ACalmnessWithAHintOfPomelo

· 1giờ trước

Tóm tắt nhiều cấp độ của đoạn văn ngắn rồi bỏ qua FlashAttention, thủ thuật này thật hay.

Xem bản gốcTrả lời0

GateUser-8ca669fd

· 2giờ trước

Cuộc thi ngữ cảnh dài bước vào giai đoạn tối ưu hóa kỹ thuật, hấp dẫn hơn cả các tham số của mô hình.

Xem bản gốcTrả lời0

TidalShell

· 2giờ trước

Việc vượt qua các tiêu chuẩn truyền thống khá bất ngờ, nghĩ rằng tăng tốc sẽ phải hy sinh chất lượng

Xem bản gốcTrả lời0

GateUser-318a7dc8

· 2giờ trước

Chỉ với 5.3 tỷ tham số là có thể xác minh, nhóm nhỏ cũng có thể theo kịp.

Xem bản gốcTrả lời0

GateUser-d6fb8ff1

· 2giờ trước

Đợi mã code để thử xem card 4090 của tôi có thể chịu được bao nhiêu K

Xem bản gốcTrả lời0

Glass-HeartMarketMaker

· 2giờ trước

Bỏ qua mục tiêu đào tạo bổ sung là rất quan trọng, nếu không thì ngay cả khi mở mã nguồn cũng không ai đủ khả năng đào tạo nó

Xem bản gốcTrả lời0

OrderbookOtter

· 2giờ trước

Tên gọi Lighthouse thật hay, trước tiên chiếu sáng điểm chính rồi xem xét kỹ hơn

Xem bản gốcTrả lời0

TokenTinkerTao

· 2giờ trước

B200 đơn card 512K, sau này cá nhân chạy tài liệu dài RAG chi phí đã giảm xuống

Xem bản gốcTrả lời0

Xem thêm

Chủ đề thịnh hành
Xem thêm
#
WinGoldBarsWithGrowthPoints
1.25M Phổ biến
#
WTICrudeFallsBelow90Dollars
1.21M Phổ biến
#
IsraelStrikesIranBTCPlunges
51.65K Phổ biến
#
StockTradingChallengeUpTo17000U
211.9K Phổ biến
#
USIranNegotiationGame
9.36M Phổ biến

Đã ghim

sơ đồ trang web

Nous mã nguồn mở Lighthouse Attention: đơn B200 chạy 512K tăng tốc 17 lần

Chủ đề thịnh hành

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Đã ghim