Grok 4.20 Beta meraih tingkat akurasi 97% dalam penilaian τ²-Bench, menempati posisi kedua

2026-04-09 11:04:48

Berita ME, 5 April (UTC+8). Baru-baru ini, versi Grok 4.20 Beta mencatat akurasi 97% dalam penilaian τ²-Bench, serta meraih peringkat kedua. τ²-Bench adalah penilaian yang dibangun berdasarkan kerangka kerja asli τ-bench Sierra, yang terkenal dengan tingkat ketatnya. Penilaian ini tidak hanya menguji apakah AI mampu menjawab pertanyaan, tetapi juga menguji apakah agen cerdas dapat berhasil menyelesaikan tugas navigasi. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.