O quadro de otimização automática por IA colocou o desempenho do terminal Haiku 4.5 em primeiro lugar: Lin Junyang afirma que esta é exatamente a mudança de "design de ambiente" que ele previu.

robot
Geração de resumo em curso

Notícia do Coinjiexing: de acordo com o monitorização da 1M AI News, investigadores de Stanford, do MIT e da empresa sul-coreana de jogos KRAFTON publicaram o Meta-Harness, um conjunto de métodos para uma estrutura de execução em que a IA otimiza automaticamente (harness, ou seja, um “arcaboiço” que envolve o modelo e o andaime de execução que orienta as ações de um agente, incluindo design de prompts, chamadas a ferramentas e gestão de contexto). Ao contrário das estruturas de execução escritas manualmente, o Meta-Harness faz com que um agente de codificação leia o código, os registos de execução e as classificações de sucessivos quadros de candidatos, para iterar e otimizar automaticamente. No benchmark de operação em terminal TerminalBench-2, o Meta-Harness conseguiu elevar a taxa de aprovação do Claude Haiku 4.5 para 37,6%, acima da Goose (35,5%) e do Claude Code (27,5%), ficando em primeiro lugar entre todas as estruturas de execução de Haiku 4.5 reportadas. No Claude Opus 4.6, a taxa de aprovação é de 76,4%, ficando em segundo lugar. O responsável técnico da Tongyi Qianwen, Lin Junyang, republicou a publicação dos autores do artigo e comentou: “‘Modelo + estrutura de execução’ já ultrapassou ‘olhar apenas para o modelo’; o desempenho do agente é significativamente afetado pelo design e pela qualidade do arcaboiço; eu acredito mesmo que este é um rumo correto.” Num artigo longo publicado a 27 de março (actualmente removido), Lin Junyang tinha já antecipado que o design de ambientes passaria de um subprojeto para uma verdadeira categoria de produto de empreendedorismo. O Meta-Harness confirmou essa avaliação com dados experimentais: o mesmo modelo, ao trocar para uma estrutura de execução otimizada por IA, pode gerar uma diferença de resultados até 10 pontos percentuais.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar