Stanford và Berkeley đề xuất LLM-as-a-Verifier, đồng thời thiết lập lại vị trí hàng đầu của Terminal-Bench và SWE-Bench

robot
Đang tạo bản tóm tắt

Thông tin ME News, ngày 14 tháng 4 (UTC+8), theo dõi của 1M AI News, khi AI lập trình đại diện xử lý một nhiệm vụ, chạy nhiều lần thường có thể nhận được các giải pháp khác nhau, trong đó có thể có đúng hoặc sai. Nếu có thể tự động chọn ra giải pháp tốt nhất, tỷ lệ thành công tổng thể sẽ vượt quá lần chạy đơn lẻ. Vấn đề là làm thế nào để chọn: để một mô hình khác làm trọng tài chấm điểm (tức là LLM-as-a-Judge) là phương pháp chủ đạo hiện nay, nhưng việc chấm điểm quá thô, thường cho các giải pháp khác nhau cùng một điểm, không thể phân biệt cao thấp. Phòng thí nghiệm AI Stanford và Phòng thí nghiệm Sky Computing của Berkeley phối hợp với Nvidia đề xuất LLM-as-a-Verifier, cải tiến quá trình lựa chọn này. Không còn chỉ dựa vào điểm cuối cùng do trọng tài đưa ra, mà đọc phân phối xác suất của mô hình ở mỗi mức điểm để tính ra một giá trị thưởng liên tục. Đồng thời, để loại bỏ sai số ngẫu nhiên, trọng tài sẽ lặp lại nhiều lần và lấy trung bình, và toàn bộ đánh giá được chia thành ba chiều độc lập (đáp ứng yêu cầu nhiệm vụ, định dạng đầu ra đúng, có tín hiệu lỗi) để xác minh riêng biệt. Trong thử nghiệm, sử dụng Gemini 2.5 Flash làm bộ xác minh, độ chính xác xác minh một lần đạt 74,7%, trong khi Judge truyền thống chỉ 57,0%; sau 16 lần lặp lại, Verifier đạt 77,4%, Judge là 70,2%. Judge truyền thống có 26,5% các trường hợp kết thúc hòa, trong khi Verifier trong tất cả các cấu hình đều có tỷ lệ hòa là 0%. Hiệu quả thực tế: Trên Terminal-Bench 2, để GPT-5.4 chạy 5 lần cùng một nhiệm vụ, tỷ lệ thành công của một giải pháp ngẫu nhiên là 81,8%, sau khi chọn qua Verifier tăng lên 86,4%. Trên SWE-Bench Verified, lấy 1 giải pháp từ Claude Opus 4.5, Claude Opus 4.6 và Gemini 3 Flash (tổng cộng 3 giải pháp), sau khi chọn, tỷ lệ tăng từ 76,1% lên 77,8%. Tính đến ngày 9 tháng 4 khi công bố, cả hai đều đứng đầu bảng xếp hạng. Khung framework đã mở mã nguồn. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim