Testei todas as 18 combinações, o volume de experimentos não foi pequeno, a equipe do NUS realmente faz o que é preciso

Ver original
MeNews
Equipe NUS lança o padrão GameWorld, avaliando agentes de IA multimodais em 34 jogos de navegador
A equipe da NUS lançou o benchmark GameWorld, que inclui 34 jogos de navegador, 170 tarefas, com métricas verificáveis para uma avaliação objetiva. Testa duas categorias de interfaces de proxy: a interface de uso de computador com comandos de teclado e mouse diretamente e um proxy multimodal geral que opera no espaço semântico. A evidência empírica de 18 combinações de modelos e interfaces mostra que, mesmo os melhores desempenhos, estão longe do desempenho humano, além de apresentarem desafios em latência em tempo real, sensibilidade à memória de contexto e eficácia das ações. O artigo relacionado e o código já estão disponíveis no HuggingFace e no GitHub.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado