Grok 4.20 Beta đạt độ chính xác 97% trong đánh giá τ²-Bench, xếp thứ hai

2026-04-09 11:04:48

ME News Tin tức, ngày 5 tháng 4 (UTC+8), gần đây, phiên bản Beta Grok 4.20 đã đạt được độ chính xác 97% trong đánh giá τ²-Bench, xếp thứ hai. τ²-Bench là một bài đánh giá dựa trên khung τ-bench nguyên bản của Sierra, nổi tiếng với tính khắt khe. Bài đánh giá này không chỉ kiểm tra khả năng trả lời câu hỏi của AI mà còn kiểm tra khả năng của các tác nhân thông minh có thể hoàn thành thành công các nhiệm vụ điều hướng. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.