uso de computador vs. proxy semântico, duas rotas tecnológicas em confronto direto, os dados falam por si

Ver original
MeNews
Equipe NUS lança o padrão GameWorld, avaliando agentes de IA multimodais em 34 jogos de navegador
A equipe NUS lançou o benchmark GameWorld, que inclui 34 jogos de navegador, 170 tarefas, com métricas verificáveis para uma avaliação objetiva. Testou duas categorias de interfaces de agente: a interface de uso de computador com comandos de teclado e mouse diretamente e a interface multimodal geral que opera no espaço semântico. Os resultados empíricos de 18 combinações de modelos e interfaces mostram que, mesmo o melhor desempenho, ainda fica muito atrás do humano, além de apresentarem desafios em latência em tempo real, sensibilidade à memória de contexto e eficácia das ações. Os artigos relacionados e o código estão disponíveis publicamente no HuggingFace e no GitHub.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado