El marco de optimización automática de IA hace que el rendimiento del terminal Haiku 4.5 ocupe el primer lugar: Lin Junyang afirma que esto es precisamente el giro en la «diseño del entorno» que él predijo

robot
Generación de resúmenes en curso

Noticias de CoinCircle. Según el monitoreo de 1M AI News, investigadores de Stanford, MIT y de la empresa de juegos coreana KRAFTON publicaron Meta-Harness, un conjunto de métodos para que la IA optimice automáticamente los marcos de ejecución (harness, es decir, un “andamiaje” que envuelve el modelo y sirve como soporte de ejecución para que los Agent impulsen acciones; incluye el diseño de prompts, la llamada a herramientas y la gestión de contexto). A diferencia de los marcos de ejecución escritos manualmente, Meta-Harness hace que un agente de codificación lea el código, los registros de ejecución y las puntuaciones de marcos candidatos anteriores, y los optimice iterativamente de forma automática. En el benchmark de operaciones en terminal TerminalBench-2, Meta-Harness llevó la tasa de aprobación de Claude Haiku 4.5 a 37.6%, superando a Goose (35.5%) y a Claude Code (27.5%); y quedó en el primer lugar entre todos los marcos de ejecución de Haiku 4.5 que se han reportado. En Claude Opus 4.6, la tasa de aprobación fue de 76.4%, quedando en segundo lugar. El responsable técnico de Qianwen de Tongyi, Lin Junyang, compartió la publicación del autor del artículo y comentó: «“Modelo + marco de ejecución” ya superó a “solo ver el modelo”. El rendimiento de los Agent se ve afectado de manera significativa por el diseño y la calidad del marco; de verdad creo que esta es una dirección correcta». En un artículo largo publicado por Lin Junyang el 27 de marzo (que actualmente ya fue eliminado), anticipó que el diseño de entornos pasaría de ser un subproyecto a convertirse en una categoría de emprendimiento real. Meta-Harness utilizó datos experimentales para respaldar esa afirmación: con el mismo modelo, al cambiar a un marco de ejecución que fue optimizado por IA, la diferencia de resultados puede llegar a 10 puntos porcentuales.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado