Grok 4.20 Beta obtuvo un 97% de precisión en la evaluación de τ²-Bench, ocupando el segundo lugar

Noticias de ME: mensaje, el 5 de abril (UTC+8). Recientemente, la versión beta de Grok 4.20 logró un 97% de precisión en la evaluación τ²-Bench, quedando en segundo lugar. τ²-Bench se construye sobre el marco original de τ-bench de Sierra y es conocido por su rigurosidad. Esta evaluación no solo prueba si la IA puede responder preguntas, sino también si los agentes pueden completar con éxito tareas de navegación. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado