Laboratorium AI Stanford merilis kerangka verifikasi umum LLMA-a-Verifier, mencapai SOTA dalam dua pengujian standar

robot
Pembuatan abstrak sedang berlangsung

Berita ME, 10 April (UTC+8), Laboratorium AI Stanford (StanfordAILab) baru-baru ini merilis kerangka verifikasi umum yang disebut “LLM-as-a-Verifier”. Kerangka ini meningkatkan tingkat penilaian, verifikasi berulang, dan dekomposisi standar, dan mencapai tingkat akurasi 86,4% dalam pengujian standar Terminal-Bench 2, serta 77,8% dalam pengujian standar SWE-Bench Verified, keduanya mencapai tingkat tertinggi saat ini (SOTA). Artikel ini menyediakan tautan ke blog dan kode terkait. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan