Olhei para o resultado, o melhor modelo ainda está bem longe dos humanos, fiquei mais calmo.

Ver original
MeNews
Equipe NUS lança o padrão GameWorld, avaliando agentes de IA multimodais em 34 jogos de navegador
A equipe da NUS lançou o benchmark GameWorld, que inclui 34 jogos de navegador, 170 tarefas, com métricas verificáveis para uma avaliação objetiva. Testou duas categorias de interfaces de proxy: a interface de uso de computador com comandos de teclado e mouse diretamente e um proxy multimodal geral que opera no espaço semântico. A evidência empírica de 18 combinações de modelos e interfaces mostra que, mesmo o melhor desempenho, ainda fica muito atrás dos humanos, além de apresentar desafios em latência em tempo real, sensibilidade à memória de contexto e eficácia das ações. O artigo relacionado e o código estão disponíveis publicamente no HuggingFace e no GitHub.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado