Phòng thí nghiệm Stanford và Berkeley hợp tác với Nvidia đề xuất LLM-as-a-Verifier, thông qua phân tích phân phối xác suất điểm số và nhiều lần đánh giá, đã thành công nâng cao độ chính xác trong việc lựa chọn giải pháp của đại lý lập trình AI. Các thử nghiệm cho thấy, so với Judge truyền thống, Verifier thể hiện hiệu quả đánh giá tốt hơn, tỷ lệ thành công được cải thiện rõ rệt, và khung đã được mở mã nguồn.

MeNews

2026-05-01 06:03:18

Đang tạo bản tóm tắt

Tin tức ME News, ngày 14 tháng 4 (UTC+8), theo dõi của 1M AI News, khi xử lý một nhiệm vụ đơn lẻ,代理 lập trình AI thường chạy nhiều lần để tìm ra các giải pháp khác nhau, trong đó có thể có đúng hoặc sai. Nếu có thể tự động chọn ra giải pháp tốt nhất, tỷ lệ thành công tổng thể sẽ vượt quá lần chạy đơn lẻ. Vấn đề là làm thế nào để chọn: cho phép một mô hình khác làm trọng tài đánh giá (tức là LLM-as-a-Judge) là phương pháp chủ đạo hiện nay, nhưng việc đánh giá theo độ chi tiết quá thô, thường cho các giải pháp khác nhau cùng một điểm số, không thể phân biệt cao thấp. Phòng thí nghiệm AI Stanford và Phòng thí nghiệm Sky Computing của Berkeley phối hợp với Nvidia đề xuất LLM-as-a-Verifier, cải tiến quá trình lựa chọn này. Không chỉ dựa vào điểm số cuối cùng do trọng tài đưa ra, mà còn đọc phân phối xác suất của mô hình ở từng mức điểm, từ đó tính ra một giá trị thưởng liên tục. Đồng thời, cho phép trọng tài đánh giá nhiều lần để lấy trung bình nhằm loại bỏ sai lệch ngẫu nhiên, và chia toàn bộ đánh giá thành ba chiều độc lập (đáp ứng yêu cầu nhiệm vụ, định dạng đầu ra đúng, có tín hiệu lỗi) để xác minh riêng biệt. Trong thử nghiệm, sử dụng Gemini 2.5 Flash làm bộ xác minh, độ chính xác của một lần xác minh đạt 74,7%, trong khi Judge truyền thống chỉ 57,0%; sau 16 lần lặp lại, Verifier đạt 77,4%, Judge là 70,2%. Judge truyền thống có 26,5% các trường hợp kết thúc hòa, trong khi Verifier trong tất cả các cấu hình đều có tỷ lệ hòa là 0%. Hiệu quả thực tế: Trên Terminal-Bench 2, cho GPT-5.4 chạy 5 lần cùng một nhiệm vụ, tỷ lệ thành công của việc chọn ngẫu nhiên là 81,8%, sau khi dùng Verifier để chọn, nâng lên 86,4%. Trên SWE-Bench Verified, từ Claude Opus 4.5, Claude Opus 4.6 và Gemini 3 Flash mỗi loại lấy 1 giải pháp (tổng cộng 3 giải pháp), sau khi chọn, tỷ lệ nâng từ 76,1% lên 77,8%. Tính đến ngày 9 tháng 4 khi công bố, cả hai đều đứng đầu bảng xếp hạng. Khung framework đã mở mã nguồn. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
440.74K Phổ biến
#
USSeeksStrategicBitcoinReserve
58.69M Phổ biến
#
IsraelStrikesIranBTCPlunges
37.22K Phổ biến
#
BitcoinETFOptionLimitQuadruples
980.17K Phổ biến
#
#FedHoldsRateButDividesDeepen
30.46K Phổ biến

Ghim

sơ đồ trang web

Stanford và Berkeley đề xuất LLM-as-a-Verifier, đồng thời thiết lập lại vị trí hàng đầu của Terminal-Bench và SWE-Bench

Chủ đề thịnh hành

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Ghim