Grok 4.20 Beta obtuvo un 97% de precisión en la evaluación τ²-Bench, ocupando el segundo lugar

Noticias de ME, 5 de abril (UTC+8). Recientemente, la versión beta de Grok 4.20 Beta logró un 97% de precisión en la evaluación τ²-Bench, quedando en segundo lugar. τ²-Bench es una evaluación construida a partir del marco original τ-bench de Sierra, conocida por su rigor. Esta evaluación no solo prueba si la IA puede responder preguntas, sino también si los agentes inteligentes pueden completar con éxito tareas de navegación. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado