Grok 4.20 Beta obtuvo un 97% de precisión en la evaluación de τ²-Bench, ocupando el segundo lugar

MeNews · 2026-04-09T05:01:33+00:00

ME News Noticias, 5 de abril (UTC+8), recientemente, la versión Beta 4.20 de Grok obtuvo una precisión del 97% en la evaluación τ²-Bench, ubicándose en segundo lugar. τ²-Bench es una evaluación basada en el marco original τ-bench de Sierra, conocido por su rigor. Esta evaluación no solo prueba la inteligencia artificial

MeNews

2026-04-09 05:01:33

Noticias de ME: mensaje, el 5 de abril (UTC+8). Recientemente, la versión beta de Grok 4.20 logró un 97% de precisión en la evaluación τ²-Bench, quedando en segundo lugar. τ²-Bench se construye sobre el marco original de τ-bench de Sierra y es conocido por su rigurosidad. Esta evaluación no solo prueba si la IA puede responder preguntas, sino también si los agentes pueden completar con éxito tareas de navegación. (Fuente: InFoQ)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.