Grok 4.20 Beta obtuvo un 97% de precisión en la evaluación de τ²-Bench, ocupando el segundo lugar

MeNews · 2026-04-09T08:17:18+00:00

ME News Noticias, 5 de abril (UTC+8), recientemente, la versión Beta 4.20 de Grok obtuvo una precisión del 97% en la evaluación τ²-Bench, ubicándose en segundo lugar. τ²-Bench es una evaluación basada en el marco original τ-bench de Sierra, conocido por su rigor. Esta evaluación no solo prueba la inteligencia artificial

MeNews

2026-04-09 08:17:18

Noticias de ME: Mensaje, 5 de abril (UTC+8). Recientemente, la versión beta de Grok 4.20 logró un 97% de precisión en la evaluación de τ²-Bench, quedando en el segundo lugar. τ²-Bench es un benchmark construido sobre el marco original τ-bench de Sierra, conocido por su rigurosidad. Esta evaluación no solo prueba si la IA puede responder preguntas, sino también si los agentes pueden completar con éxito tareas de navegación. (Fuente: InFoQ)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta