Phương pháp tự chưng cất chiến lược trực tuyến và mô phỏng giấc mơ có thể trở thành giải pháp mới cho học tập liên tục của mô hình lớn.

robot
Đang tạo bản tóm tắt
币界网消息,OneMillion_AI cho biết, các mô hình ngôn ngữ lớn sau khi triển khai gặp phải vấn đề không thể liên tục tiếp thu kiến thức mới. Các kỹ thuật tối ưu hiện tại chủ yếu tập trung vào mở rộng cửa sổ ngữ cảnh và cải thiện tốc độ tra cứu, nhưng không giải quyết được vấn đề quên kiến thức. Tự chưng cất chính sách trực tuyến (OPSD) cung cấp một con đường cập nhật trọng số mới, thông qua lan truyền ngược để tính toán sự khác biệt xác suất ở cấp độ token giữa trạng thái cơ sở và trạng thái giáo viên, cung cấp tín hiệu giám sát, giúp mô hình cơ sở tiến gần đến trạng thái điểm cao. So với tinh chỉnh có giám sát truyền thống, tự chưng cất chỉ trích xuất kinh nghiệm quyết định cần thiết, tránh quên thảm họa, bảo vệ kiến thức phổ thông của mô hình lớn. Một con đường học tập khác là mô phỏng giấc mơ, mô hình xây dựng môi trường mô phỏng ảo trong các tác vụ phức tạp để thực hiện diễn tập nhiệm vụ, các quỹ đạo thành công sẽ cập nhật trọng số của mô hình cơ sở. Dự kiến từ năm 2027 đến 2028, các tác nhân AI sau khi làm việc cùng con người trong một tuần sẽ được đánh giá công việc, sau khi được công nhận sẽ thông qua tự chưng cất chính sách trực tuyến hoặc mô phỏng giấc mơ để nội hóa kinh nghiệm thực chiến vào trọng số cơ bản của mô hình, đạt được sự mở rộng năng lực trực tuyến.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • 1
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
tvl_down_bad
· 4giờ trước
Liệu lịch trình 2027-2028 này có quá lạc quan không? Cảm thấy vấn đề căn chỉnh vẫn chưa được giải quyết.
Xem bản gốcTrả lời0
GateUser-d6fb8ff1
· 4giờ trước
Mô phỏng giấc mơ khiến tôi nghĩ đến việc AlphaGo tự đấu với chính mình, AI tự cạnh tranh trong môi trường ảo, con người chỉ cần kiểm nghiệm cuối cùng.
Xem bản gốcTrả lời0
OneMoreReorg
· 4giờ trước
Giữ lại kiến thức phổ thông là điểm rất quan trọng, bây giờ tinh chỉnh một nhiệm vụ thì lại quên hết những gì đã học trước đó, thật giống như con cá vàng.
Xem bản gốcTrả lời0
ChillBlock
· 4giờ trước
Ý tưởng OPSD này khá thú vị, lan truyền ngược tính toán sự khác biệt xác suất, thanh lịch hơn nhiều so với việc nhồi nhét dữ liệu mới.
Xem bản gốcTrả lời0
GateUser-8acf43da
· 4giờ trước
Tín hiệu giám sát cấp token được thiết kế rất tinh xảo, nhưng trạng thái giáo viên từ đâu mà có? Tiêu chuẩn điểm cao do ai quyết định?
Xem bản gốcTrả lời0
  • Đã ghim