Khung BinEval sử dụng câu hỏi đúng/sai để tự động chấm điểm AI, giải quyết vấn đề mô hình giám khảo báo cáo điểm tối đa sai và thiếu minh bạch.

ME AI Tin tức, theo sự giám sát của Dong Cha (Beating), nhóm nghiên cứu của Capital One đã đề xuất khung đánh giá BinEval, tự động phân rã các tiêu chí chấm điểm phức tạp thành các câu hỏi lựa chọn "Có hoặc Không" cụ thể, giải quyết vấn đề chấm điểm như hộp đen và điểm số quá cao. Khung này cho phép mô hình đánh giá trả lời từng câu hỏi đúng/sai, cuối cùng tính điểm dựa trên tỷ lệ trả lời đúng. Trong các thử nghiệm trên ba bộ dữ liệu chính thống, chất lượng chấm điểm của BinEval sử dụng các mô hình lớn như Claude Sonnet 4 đã ngang bằng hoặc vượt qua các công cụ đánh giá chính thống như UniEval, đặc biệt giỏi trong việc phát hiện các câu trả lời trông có vẻ trôi chảy nhưng thực tế sai sót. Lấy ví dụ về một bản tóm tắt liên quan đến việc đánh chặn máy bay, mặc dù bản tóm tắt đọc rất mượt mà, các thực thể và kiểu máy bay đều chính xác, nhưng bản tóm tắt đã đảo ngược tuyên bố của Lầu Năm Góc và Nga, đồng thời bịa ra một URL. Trọng tài AI cũ chỉ nhìn bề ngoài và cho điểm tuyệt đối 5.0. Trong khi đó, BinEval với bảy câu hỏi đúng/sai đã phát hiện chính xác bốn lỗi thực tế, đưa ra điểm số 1.57, rất gần với điểm 2.0 do con người đưa ra. Sổ sai của các câu hỏi đúng/sai không chỉ có thể dùng để tối ưu hóa tiêu chí đánh giá của chính mô hình trọng tài mà còn có thể dùng để tự động sửa đổi các gợi ý viết bài. Thí nghiệm cho thấy, trong bài kiểm tra tuân thủ chỉ thị, tối ưu hóa phản hồi có thể nâng tỷ lệ tuân thủ định dạng và cấu trúc câu lên 17 điểm phần trăm. Tuy nhiên, đối với các yêu cầu cứng nhắc cần tính toán toán học như giới hạn số từ, công cụ tối ưu hóa vẫn bó tay, và việc phân rã quá mức yêu cầu có thể khiến tiêu chí đánh giá trở nên quá khắc nghiệt. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim