Laboratorium AI Stanford merilis kerangka verifikasi umum LLMA-a-Verifier, mencapai SOTA dalam dua pengujian standar

2026-04-10 00:23:19

Pembuatan abstrak sedang berlangsung

Berita ME, 10 April (UTC+8), Laboratorium AI Stanford (StanfordAILab) baru-baru ini merilis kerangka verifikasi umum yang disebut “LLM-as-a-Verifier”. Kerangka ini meningkatkan tingkat penilaian, verifikasi berulang, dan dekomposisi standar, dan mencapai tingkat akurasi 86,4% dalam pengujian standar Terminal-Bench 2, serta 77,8% dalam pengujian standar SWE-Bench Verified, keduanya mencapai tingkat tertinggi saat ini (SOTA). Artikel ini menyediakan tautan ke blog dan kode terkait. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka