Exame de entrada do agente: A tarefa mais difícil de Fable 5 ainda é entregue em branco, com um custo por questão 4 a 12 vezes maior

robot
Geração de resumo em curso
ME AI Mensagem, de acordo com o monitoramento Beating, liderado pela Universidade da Califórnia, Berkeley, RDI, em colaboração com centenas de especialistas do setor, lançou o novo padrão de avaliação de agentes inteligentes Agents' Last Exam (ALE), para avaliar a capacidade de agentes inteligentes de realizar trabalhos profissionais digitais reais. ALE cobre 55 subcampos de profissões digitais, coletou mais de 1500 tarefas de validação provenientes de projetos reais de especialistas humanos, e suporta validação de resultados em ambientes de interação GUI e CLI. Os primeiros testes cobriram sistemas de ponta como Fable 5, GPT-5.5 e Composer 2.5. Segundo o comparativo do site oficial mais recente, nas tarefas mais difíceis que exigem raciocínio contínuo e conhecimento profissional profundo, a taxa de sucesso de todos os agentes testados foi de 0%, e o Fable 5, lançado nesta semana, também apresentou uma folha em branco. Isso se deve principalmente ao acionamento de políticas de segurança durante a avaliação, fazendo com que cerca de 35% das tarefas do Fable 5 fossem revertidas para a versão antiga Opus 4.8, resultando em desempenho geral muito inferior ao de outros rankings. Quanto ao custo por API de tarefa única, o Fable 5 custa cerca de 15,70 dólares, muito acima dos 3,80 dólares do GPT-5.5 e dos 1,33 dólares do Composer 2.5, representando um gasto de 4 a 12 vezes maior para a mesma tarefa. Os testes também revelaram que a causa mais comum de falha dos agentes é declarar sucesso prematuramente, encerrando o trabalho sem verificar resultados reais, ou até mesmo omitindo arquivos ou calculando dados incorretamente. Para os agentes de linha de comando, a equipe de avaliação lançou simultaneamente uma versão subset do ALE-CLI. Em comparação com o Terminal-Bench e o SWE-bench-Pro existentes, o ALE-CLI cobre 40 subcampos, e o tempo médio humano para tarefas individuais chega a várias horas ou semanas. Nos testes de linha de comando, a taxa de sucesso dos agentes com melhor desempenho foi de apenas 25,2%. A equipe de avaliação afirmou que a era de agentes úteis já chegou, mas ainda há um longo caminho até que eles possam realmente substituir humanos no trabalho. (Fonte: MLion)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado