Grok 4.20 Beta đạt độ chính xác 97% trong đánh giá τ²-Bench, xếp hạng thứ hai

Tin tức từ ME News, ngày 5 tháng 4 (UTC+8). Gần đây, phiên bản Grok 4.20 Beta đã đạt 97% độ chính xác trong bài đánh giá τ²-Bench, xếp thứ hai. τ²-Bench là bài đánh giá được xây dựng dựa trên khung đánh giá gốc τ-bench của Sierra, nổi tiếng với tính nghiêm ngặt. Bài đánh giá này không chỉ kiểm tra liệu AI có thể trả lời câu hỏi hay không, mà còn kiểm tra liệu tác nhân (agent) có thể hoàn thành thành công các nhiệm vụ điều hướng hay không. (Nguồn: InFoQ)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.26KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.3KNgười nắm giữ:2
    0.19%
  • Vốn hóa:$2.25KNgười nắm giữ:0
    0.00%
  • Ghim