Khung BinEval sử dụng các câu hỏi đúng sai để tự động chấm điểm AI, giải quyết vấn đề mô hình giám khảo báo điểm tối đa giả và thiếu minh bạch.

robot
Đang tạo bản tóm tắt
Tin tức từ CoinWorld, khung đánh giá BinEval tự động chấm điểm AI thông qua các câu hỏi đúng/sai, nhằm giải quyết vấn đề trọng tài giả điểm tối đa và thiếu minh bạch. Nhóm nghiên cứu của Capital One đã đề xuất khung này, chia nhỏ các tiêu chí đánh giá phức tạp thành các câu hỏi lựa chọn "Có hoặc Không", đảm bảo mô hình đánh giá trả lời từng câu một, cuối cùng tính điểm dựa trên tỷ lệ trả lời đúng. Trong các bài kiểm tra trên ba bộ dữ liệu chính, chất lượng chấm điểm của BinEval sử dụng các mô hình lớn như Claude Sonnet 4 tương đương hoặc vượt qua các công cụ đánh giá chính thống như Unieval, đặc biệt giỏi trong việc nhận diện các câu trả lời có bề mặt trôi chảy nhưng sai thực tế. Lấy ví dụ về đánh giá tóm tắt liên quan đến việc chặn máy bay, trọng tài AI cũ chỉ nhìn bề ngoài và cho điểm tối đa 5.0, trong khi BinEval thông qua bảy câu hỏi đúng/sai đã xác định bốn lỗi thực tế và cho điểm 1.57, gần với điểm 2.0 của con người. Thí nghiệm cho thấy, tối ưu hóa phản hồi có thể cải thiện tỷ lệ tuân thủ định dạng và cấu trúc câu lên 17 điểm phần trăm, nhưng đối với sức mạnh cứng như tính toán hạn chế số từ, các công cụ tối ưu vẫn bất lực.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • 1
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
L2NightCourier
· 2giờ trước
Cải thiện định dạng 17% tốt, nhưng ràng buộc số từ không xử lý được — cảm thấy quy tắc cứng dễ làm hơn, hiểu biết mềm khó.
Xem bản gốcTrả lời0
WalletPermissionAdministrator
· 2giờ trước
Thiết kế câu hỏi đúng sai thực sự thông minh, biến việc chấm điểm chủ quan thành câu hỏi khách quan có thể kiểm toán, không gian báo cáo sai bị nén trực tiếp.
Xem bản gốcTrả lời0
DepegDaydream
· 2giờ trước
Nhiều bộ dữ liệu gần hoặc vượt qua Unieval, khả năng chuyển giao này có chút gì đó, không phải là món đồ chơi của quá khớp.
Xem bản gốcTrả lời0
ForkingDrama
· 2giờ trước
1.57 so với 5.0 khoảng cách này quá thực tế, cuối cùng cũng có thể vạch trần văn bản ảo giác trôi chảy bề ngoài.
Xem bản gốcTrả lời0
MosaicBow
· 2giờ trước
Đánh giá phân tích bảy câu hỏi, chi tiết hơn nhiều so với thang điểm 1-5 tổng quát, ghi chú của con người 2.0 cho thấy hướng đi đúng.
Xem bản gốcTrả lời0
  • Đã ghim