Prova de entrada do agente: A tarefa mais difícil de Fable 5 ainda foi devolvida em branco, com um custo por questão 4 a 12 vezes maior

robot
Geração do resumo em andamento
ME AI Mensagem, de acordo com o monitoramento Beating, liderado pela Universidade da Califórnia, Berkeley, RDI, em parceria com centenas de especialistas do setor, lançou um novo padrão de avaliação de agentes inteligentes chamado Agents' Last Exam (ALE), para avaliar a capacidade de agentes inteligentes de realizar trabalhos profissionais digitais reais. ALE cobre 55 subcampos de profissões digitais, coletou mais de 1500 tarefas de validação provenientes de projetos reais de especialistas humanos, e suporta validação de resultados em ambientes de interação GUI e CLI. Os primeiros testes cobriram sistemas de ponta como Fable 5, GPT-5.5 e Composer 2.5. De acordo com a comparação recente do site oficial, nas tarefas mais difíceis que exigem raciocínio contínuo e conhecimento profundo, a taxa de sucesso de todos os agentes testados foi de 0%, e o Fable 5, lançado nesta semana, também apresentou uma folha em branco. Isso se deve principalmente ao fato de que a avaliação acionou políticas de segurança, fazendo com que cerca de 35% das tarefas do Fable 5 fossem revertidas para a versão antiga Opus 4.8, resultando em desempenho geral muito inferior aos outros rankings. Em termos de custo por API de tarefa única, o Fable 5 custa cerca de 15,70 dólares, muito mais alto do que os 3,80 dólares do GPT-5.5 e os 1,33 dólares do Composer 2.5, representando um custo de 4 a 12 vezes maior para a mesma tarefa. Os testes também revelaram que a causa mais comum de falha dos agentes é declarar sucesso prematuro, encerrando o trabalho apressadamente sem verificar resultados reais, ou até mesmo omitindo arquivos ou calculando dados incorretamente. Para os agentes de linha de comando, a equipe de avaliação lançou simultaneamente uma versão subset chamada ALE-CLI. Comparado ao Terminal-Bench e SWE-bench-Pro existentes, o ALE-CLI cobre 40 subcampos, e o tempo médio humano para tarefas individuais chega a várias horas ou até semanas. Nos testes de linha de comando, a taxa de sucesso dos agentes com melhor desempenho foi de apenas 25,2%. A equipe de avaliação afirmou que a era de agentes úteis já chegou, mas ainda há um longo caminho até que eles possam realmente substituir humanos no trabalho. (Fonte: MLion)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado