Examen de ingreso del agente: La tarea más difícil de Fable 5 aún se entrega en blanco, el costo por pregunta es de 4 a 12 veces mayor

robot
Generación de resúmenes en curso
ME AI Mensaje, según la monitorización de Beating, la Universidad de California en Berkeley, liderada por RDI y en colaboración con cientos de expertos de la industria, ha lanzado un nuevo estándar de evaluación de agentes inteligentes llamado Agents' Last Exam (ALE), para evaluar la capacidad de los agentes inteligentes para realizar trabajos profesionales digitales reales. ALE cubre 55 subcampos de especialización digital, recopilando más de 1500 tareas de verificación provenientes de proyectos reales de expertos humanos, y soporta la validación de resultados en entornos de interacción GUI y CLI. La primera fase de pruebas incluyó sistemas de vanguardia como Fable 5, GPT-5.5 y Composer 2.5. La comparación con la versión oficial más reciente muestra que, en las tareas más difíciles que requieren razonamiento continuo y conocimientos especializados profundos, la tasa de éxito de todos los agentes evaluados fue del 0%, y Fable 5, que se lanzó esta semana, también entregó un resultado en blanco. Esto se debe principalmente a que la evaluación activó políticas de seguridad, haciendo que aproximadamente el 35% de las tareas en Fable 5 se revertieran y se ejecutaran en la versión anterior Opus 4.8, lo que provocó que su rendimiento general fuera mucho menor que otros sistemas destacados. En cuanto al costo por tarea API, Fable 5 cuesta aproximadamente 15.70 dólares, mucho más que los 3.80 dólares de GPT-5.5 y los 1.33 dólares de Composer 2.5, con un gasto 4 a 12 veces mayor en tareas similares. Las pruebas también revelaron que la causa más común de fallo en los agentes inteligentes es declarar éxito demasiado pronto, terminando apresuradamente sin verificar realmente los resultados, e incluso omitiendo archivos o calculando mal los datos. Para los agentes de línea de comandos, el equipo de evaluación lanzó simultáneamente un subconjunto llamado ALE-CLI. En comparación con Terminal-Bench y SWE-bench-Pro, ALE-CLI cubre 40 subcampos, y el tiempo promedio que un humano tarda en completar tareas individuales puede ser de varias horas o incluso semanas. En las evaluaciones de línea de comandos, la tasa de éxito del mejor agente fue solo del 25.2%. El equipo de evaluación señaló que la era de los agentes fáciles de usar ya ha llegado, pero todavía queda mucho camino por recorrer para que puedan reemplazar completamente a los humanos en el trabajo. (Fuente: MLion)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado