Grok 4.20 Beta meraih tingkat akurasi 97% dalam penilaian τ²-Bench, menempati posisi kedua

Pesan dari ME News, 5 April(UTC+8), baru-baru ini, versi Grok 4.20 Beta meraih akurasi 97% dalam pengujian τ²-Bench, dan menempati peringkat kedua. τ²-Bench adalah evaluasi yang dibangun berdasarkan kerangka asli τ-bench dari Sierra, yang terkenal dengan ketatnya. Evaluasi ini tidak hanya menguji apakah AI dapat menjawab pertanyaan, tetapi juga menguji apakah agen dapat berhasil menyelesaikan tugas navigasi. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan