Nhóm NLP Stanford trình bày tiến bộ mới trong nghiên cứu AI tự động hóa

robot
Đang tạo bản tóm tắt
AIMPACT Tin nhắn, ngày 15 tháng 5 (UTC+8), nhóm NLP của Stanford đã trình bày một công trình nghiên cứu AI tự động mới tại hội nghị ICML 2026, thông qua việc xây dựng bộ thực thi tự động hóa, chuyển đổi việc huấn luyện trước và sau của LLM thành môi trường thực thi, và sử dụng phản hồi thực thi để nâng cao hiệu quả nghiên cứu.
Nghiên cứu phân tích hai phương pháp: tìm kiếm tiến hóa có hiệu quả mẫu cao, các phương pháp tìm thấy trong nhiệm vụ hậu huấn luyện vượt trội so với cơ sở GRPO (69.4% so với 48.0%), các công thức tìm thấy trong nhiệm vụ tiền huấn luyện vượt trội so với cơ sở nanoGPT (19.7 phút so với 35.9 phút), đều hoàn thành trong mười chu kỳ tìm kiếm;
Trong khi đó, học tăng cường dựa trên phần thưởng thực thi đối mặt với vấn đề sụp đổ mẫu, mặc dù tăng phần thưởng trung bình nhưng không nâng cao giới hạn.
Công trình này cung cấp hướng đi cho nghiên cứu AI tự động hướng theo thực thi.
(Nguồn: InFoQ)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • 8
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
MintColdBrew
· 2giờ trước
Công việc của ICML 2026 đã trở nên cực kỳ khắt khe như vậy
Xem bản gốcTrả lời0
QuietRugAlarm
· 3giờ trước
19 phút so với 36 phút, nanoGPT bị đánh bại hoàn toàn
Xem bản gốcTrả lời0
Half-MeltedIceCreamPosition
· 3giờ trước
Tiến hóa tìm kiếm đánh bại GRPO, tốc độ cải thiện thật là phi thường
Xem bản gốcTrả lời0
AirdropOnTheDune
· 3giờ trước
Môi trường thực thi tích hợp huấn luyện trước + huấn luyện sau, đây có phải đang làm AI tự động lặp lại không?
Xem bản gốcTrả lời0
NodeUnderTheAurora
· 3giờ trước
Vấn đề sụp đổ mô hình rất thực tế, hack thưởng đã trở thành chuyện cũ.
Xem bản gốcTrả lời0
SeaSaltMarketMakingNotes
· 3giờ trước
Chỉ sau mười vòng tìm kiếm là hội tụ, hiệu quả mẫu còn cao hơn tôi nghĩ.
Xem bản gốcTrả lời0
YieldNotYell
· 3giờ trước
Phản hồi thực thi vòng kín mới là linh hồn của tự động hóa
Xem bản gốcTrả lời0
  • Đã ghim