Cảnh báo sụp đổ mô hình: Phần thưởng RL đã tăng lên nhưng giới hạn không đổi, cần nhấn mạnh điểm này

Xem bản gốc
MeNews
Nhóm NLP Stanford trình bày tiến bộ mới trong nghiên cứu AI tự động hóa
NLP Stanford trình bày tại ICML 2026 về việc chuyển đổi quá trình tiền huấn luyện và hậu huấn luyện của LLM thành môi trường thực thi thông qua bộ thực thi tự động, sử dụng phản hồi thực thi để nâng cao hiệu quả nghiên cứu. Hai phương pháp: tìm kiếm tiến hóa vượt trội hơn GRPO (69.4% so với 48.0%) trong các nhiệm vụ hậu huấn luyện, và công thức tìm thấy trong tiền huấn luyện nhanh hơn nanoGPT (19.7 phút so với 35.9 phút), cả hai đều hoàn thành trong mười vòng tìm kiếm; học tăng cường dựa trên phần thưởng thực thi dễ xảy ra sự sụp đổ mẫu, mặc dù nâng cao phần thưởng trung bình nhưng không cải thiện giới hạn. Công trình này chỉ ra hướng đi cho nghiên cứu AI tự động hướng theo thực thi.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim