Mô hình LLM cấp byte cuối cùng cũng có tiến bộ đáng kể, 1.7B có thể gần đạt hiệu quả phân từ, cuộc chiến về từ điển có thể trở nên lỗi thời

Xem bản gốc
CoinNetwork
Nous Research xác nhận lợi ích của phân tách từ có thể được mô phỏng hoàn toàn bằng Byte, mô hình lớn không cần phân tách từ đang đón nhận bước đột phá
Nghiên cứu của Nous Research cho rằng, khả năng phụ thuộc lâu dài vào bộ phân tách từ của các mô hình ngôn ngữ lớn có thể sẽ được thay thế trong tương lai.
Kiểm tra kiểm soát với 1.7 tỷ tham số cho thấy, lợi ích của cơ chế phân tách từ có thể được mô phỏng bằng các phương pháp kỹ thuật ở cấp độ byte thuần túy.
Các thí nghiệm cho thấy, trong mô hình byte nguyên bản, việc nâng cao thông lượng và chèn ranh giới hình thái có thể rút ngắn đáng kể khoảng cách với mô hình phân tách từ;
Trong cùng một năng lực tính toán, việc mô phỏng nén giúp tăng lượng xử lý đạo hàm từng bước, trở thành nguồn đóng góp lớn nhất.
Đồng thời, việc cộng thêm ranh giới từ con vào byte đầu vào đã thiết lập một độ lệch quy nạp lâu dài không tiết lộ thông tin tương lai.
Mặc dù hiệu ứng cộng hưởng của các tham số lớn hơn vẫn cần được xác nhận, nhưng với 1.7 tỷ tham số, các lợi ích như từ điển từ và dự đoán từ con tiếp theo là hạn chế.
Điều này cung cấp một hướng đi mới cho các mô hình lớn không cần phân tách từ, và trong tương lai, kiến trúc nên tập trung vào nâng cao thông lượng và tích hợp rõ ràng các tiền đề hình thái học theo cách không tiết lộ.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim