Grok 4.20 Beta meraih tingkat akurasi 97% dalam penilaian τ²-Bench, menempati posisi kedua

MeNews · 2026-04-09T05:01:33+00:00

ME News Berita, 5 April (UTC+8), baru-baru ini, versi Beta Grok 4.20 mencapai tingkat akurasi 97% dalam penilaian τ²-Bench, menempati posisi kedua. τ²-Bench adalah platform penilaian yang dibangun berdasarkan kerangka asli Sierra τ-bench, terkenal karena ketatnya. Penilaian ini tidak hanya menguji AI

MeNews

2026-04-09 05:01:33

Berita ME: Pesan, 5 April (UTC+8). Baru-baru ini, versi Beta Grok 4.20 meraih akurasi 97% pada pengujian τ²-Bench, dan menempati peringkat kedua. τ²-Bench adalah pengujian yang dibangun berdasarkan kerangka τ-bench asli dari Sierra, yang dikenal karena keketatannya. Pengujian ini tidak hanya menguji apakah AI dapat menjawab pertanyaan, tetapi juga menguji apakah agen dapat berhasil menyelesaikan tugas navigasi. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.