UCLA+ Princeton mở nguồn SDPG, cơ chế giảng viên nội bộ cho phép trí tuệ nhân tạo tự dạy chính nó, lý luận toán học và lập kế hoạch nhiều bước trực tiếp đánh bại GRPO

Xem bản gốc
CoinNetwork
Thông báo từ Coinjie.com, thuật toán SDPG được mở nguồn bởi nhóm của Liu Yifeng, Zhang Shiyuan của Đại học California, Los Angeles (UCLA) và Zhang Yifan của Đại học Princeton, nhằm giải quyết vấn đề tiến hóa tự thân của các tác nhân khi thiếu hướng dẫn từ mô hình giáo viên bên ngoài. Thuật toán này thông qua cơ chế hướng dẫn của giáo viên nội bộ, sử dụng thông tin đặc quyền để tạo ra các đường dẫn suy luận chất lượng cao, nâng cao hiệu quả huấn luyện và tỷ lệ thành công trong các nhiệm vụ quyết định nhiều bước. Dữ liệu đánh giá cho thấy, SDPG vượt trội hơn GRPO và nhiều thuật toán tự chưng tụ khác trong các nhiệm vụ suy luận toán học và lập kế hoạch nhiều bước.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim