Grok 4.20 Beta đạt độ chính xác 97% trong đánh giá τ²-Bench, xếp hạng thứ hai

MeNews · 2026-04-09T08:17:18+00:00

ME News Tin tức, ngày 5 tháng 4 (UTC+8), gần đây, phiên bản Beta Grok 4.20 đã đạt được độ chính xác 97% trong đánh giá τ²-Bench, xếp thứ hai. τ²-Bench là một nền tảng đánh giá dựa trên khung τ-bench nguyên bản của Sierra, nổi tiếng với tính khắt khe. Bài đánh giá này không chỉ kiểm tra AI

MeNews

2026-04-09 08:17:18

Tin tức từ ME News, ngày 5 tháng 4 (UTC+8). Gần đây, phiên bản Grok 4.20 Beta đã đạt 97% độ chính xác trong bài đánh giá τ²-Bench, xếp thứ hai. τ²-Bench là bài đánh giá được xây dựng dựa trên khung đánh giá gốc τ-bench của Sierra, nổi tiếng với tính nghiêm ngặt. Bài đánh giá này không chỉ kiểm tra liệu AI có thể trả lời câu hỏi hay không, mà còn kiểm tra liệu tác nhân (agent) có thể hoàn thành thành công các nhiệm vụ điều hướng hay không. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích