Tăng tốc tiền huấn luyện 2 đến 3 lần, phương án mới của Nous TST gặp tranh cãi về "va chạm"

robot
Đang tạo bản tóm tắt

ME Tin tức, ngày 14 tháng 5 (UTC+8), theo theo dõi của Động Chấn Beating, Nous Research đã công bố phương án huấn luyện mô hình lớn mới gọi là ghép từ trong huấn luyện tiền huấn luyện (TST). Phương án này bằng cách đóng gói nén các từ liên tiếp trong giai đoạn đầu của quá trình huấn luyện, có thể rút ngắn thời gian tiền huấn luyện gấp 2 đến 3 lần cùng mức tính toán. TST gồm hai giai đoạn. Trong 20% đến 40% đầu của quá trình huấn luyện, mô hình không còn đọc từng từ riêng lẻ nữa, mà sẽ “đóng gói” các từ liên tiếp để tính trung bình rồi đưa vào, và dự đoán các từ trong gói tiếp theo (không tính thứ tự nội bộ). Sau đó, mô hình trở lại dự đoán từ tiếp theo theo cách thông thường. Vì không sửa đổi kiến trúc nền, mô hình tạo ra khi suy luận hoàn toàn giống với mô hình thông thường. Phương pháp này đã được xác nhận trên mô hình MoE có tối đa 100 tỷ tham số. Bản chất của phương án này là “dùng dữ liệu đổi lấy sức mạnh tính toán”, nhằm rút ngắn thời gian tiêu thụ dữ liệu bằng tốc độ tiêu thụ ngữ liệu nhanh hơn. Nếu trong tương lai, dữ liệu văn bản chất lượng cao cạn kiệt, đặc tính tăng tốc tiêu thụ dữ liệu này có thể trở thành điểm yếu. Ngoài ra, vài giờ sau khi công bố bài báo, một số độc giả chỉ ra rằng cơ chế của TST rất giống với tác phẩm cũ “Beyond Next Token Prediction” được phát hành năm 2024. Nhóm tác giả sau đó đã thừa nhận đây là “sự hội tụ nghiên cứu không may” trên Hugging Face, và cam kết sẽ cập nhật bài báo để bổ sung trích dẫn. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim