El Laboratorio de IA de Stanford publica el marco de verificación general LLM-as-a-Verifier, alcanzando el estado del arte en dos pruebas de referencia.

MeNews · 2026-04-10T00:23:19+00:00

El Laboratorio de IA de Stanford publicó un marco de verificación llamado "LLM-as-a-Verifier", que logra la precisión más alta hasta ahora en múltiples pruebas de referencia mediante varios métodos, con tasas del 86.4% y 77.8%. El artículo proporciona enlaces a blogs y código relacionados.

MeNews

2026-04-10 00:23:19

Generación de resúmenes en curso

Noticias de ME, 10 de abril (UTC+8), el Laboratorio de IA de Stanford (StanfordAILab) publicó recientemente un marco de verificación general llamado “LLM-as-a-Verifier”. Este marco, mediante la expansión de la granularidad de puntuación, la verificación repetida y la descomposición de estándares, logró una precisión del 86.4% en la prueba de referencia Terminal-Bench 2, y una precisión del 77.8% en la prueba de referencia verificada SWE-Bench Verified, alcanzando los niveles óptimos actuales (SOTA). El artículo proporciona enlaces a blogs relacionados y al código. (Fuente: InFoQ)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta