Báo cáo cho biết, Nous Research đề xuất TST: gói các từ đồng nghĩa trước khi huấn luyện và lấy trung bình đầu vào, trong giai đoạn 20–40% đầu không đọc từng từ một, dự đoán các từ trong gói, sau đó khôi phục dự đoán từ tiếp theo theo cách thông thường. Cấu trúc nền không đổi, đã được xác nhận trên mô hình MoE có 10 tỷ tham số, thời gian huấn luyện có thể rút ngắn 2–3 lần, thuộc loại đổi dữ liệu lấy sức mạnh tính toán. Nếu dữ liệu chất lượng cao cạn kiệt, phụ thuộc vào dữ liệu có thể trở thành điểm yếu. Giống rất nhiều với 《Beyond Next Token Prediction》, đây là nghiên cứu đồng thuận, sẽ bổ sung trích dẫn.

MeNews

2026-05-17 04:00:22

Đang tạo bản tóm tắt

ME Tin tức, ngày 14 tháng 5 (UTC+8), theo theo dõi của Động Chấn Beating, Nous Research đã công bố phương án huấn luyện mô hình lớn mới gọi là ghép từ trong huấn luyện tiền huấn luyện (TST). Phương án này bằng cách đóng gói nén các từ liên tiếp trong giai đoạn đầu của quá trình huấn luyện, có thể rút ngắn thời gian tiền huấn luyện gấp 2 đến 3 lần cùng mức tính toán. TST gồm hai giai đoạn. Trong 20% đến 40% đầu của quá trình huấn luyện, mô hình không còn đọc từng từ riêng lẻ nữa, mà sẽ “đóng gói” các từ liên tiếp để tính trung bình rồi đưa vào, và dự đoán các từ trong gói tiếp theo (không tính thứ tự nội bộ). Sau đó, mô hình trở lại dự đoán từ tiếp theo theo cách thông thường. Vì không sửa đổi kiến trúc nền, mô hình tạo ra khi suy luận hoàn toàn giống với mô hình thông thường. Phương pháp này đã được xác nhận trên mô hình MoE có tối đa 100 tỷ tham số. Bản chất của phương án này là “dùng dữ liệu đổi lấy sức mạnh tính toán”, nhằm rút ngắn thời gian tiêu thụ dữ liệu bằng tốc độ tiêu thụ ngữ liệu nhanh hơn. Nếu trong tương lai, dữ liệu văn bản chất lượng cao cạn kiệt, đặc tính tăng tốc tiêu thụ dữ liệu này có thể trở thành điểm yếu. Ngoài ra, vài giờ sau khi công bố bài báo, một số độc giả chỉ ra rằng cơ chế của TST rất giống với tác phẩm cũ “Beyond Next Token Prediction” được phát hành năm 2024. Nhóm tác giả sau đó đã thừa nhận đây là “sự hội tụ nghiên cứu không may” trên Hugging Face, và cam kết sẽ cập nhật bài báo để bổ sung trích dẫn. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.93M Phổ biến
#
CLARITYActPassesSenateCommittee
3.57M Phổ biến
#
IsraelStrikesIranBTCPlunges
47.27K Phổ biến
#
#DailyPolymarketHotspot
973.42K Phổ biến
#
BitcoinVShapedReversalBack
227.15M Phổ biến

Đã ghim

sơ đồ trang web

Tăng tốc tiền huấn luyện 2 đến 3 lần, phương án mới của Nous TST gặp tranh cãi về "va chạm"

Chủ đề thịnh hành

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Đã ghim