Equipe NUS lança o padrão GameWorld, avaliando agentes de IA multimodais em 34 jogos de navegador

robot
Geração do resumo em andamento
ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a equipe da Universidade Nacional de Cingapura (NUS) lançou o GameWorld, uma referência para padronizar a avaliação da capacidade de modelos de linguagem multimodal (MLLM) como agentes universais em videogames. O estudo aponta que, embora os videogames ofereçam uma plataforma ideal para testes de ciclo fechado, as avaliações existentes frequentemente enfrentam limitações devido à interface de operação não padronizada e à validação heurística manual. O GameWorld inclui 34 jogos de navegador variados e 170 tarefas, além de fornecer métricas verificáveis baseadas no estado subjacente do jogo para cada tarefa, permitindo uma avaliação objetiva dos resultados. A equipe de pesquisa testou duas interfaces de agentes: uma é o agente de "uso de computador" que envia comandos de teclado e mouse diretamente, e a outra é um agente multimodal geral que opera no espaço de ações semânticas por meio de análise semântica. Em um teste em larga escala com 18 combinações de "modelo-interface", os resultados mostraram que, mesmo o melhor agente de IA atualmente, ainda está longe de alcançar o nível humano em habilidades de jogo. O estudo também revelou desafios severos enfrentados pelos agentes de jogo em relação à latência de interação em tempo real, sensibilidade à memória de contexto e eficácia das ações. O artigo relacionado e o código do projeto estão disponíveis publicamente no Hugging Face e no GitHub. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 5
  • 7
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
FrontrunTherapy
· 5h atrás
Atraso em tempo real e memória de contexto, esses dois problemas, provavelmente levarão pelo menos seis meses para serem resolvidos.
Ver originalResponder0
GateUser-c4e25c95
· 5h atrás
Os comandos de teclado e mouse são muito agressivos, a multimodalidade universal é a verdadeira solução
Ver originalResponder0
StakingDaydreamer
· 5h atrás
A baixa efetividade das ações indica que a camada de planejamento ainda é fraca, a cadeia de percepção-decisão não está conectada.
Ver originalResponder0
ExitLiquidityPoet
· 5h atrás
Código aberto recebe boas avaliações, a barreira para reprodução diminui, a comunidade pode iterar junto.
Ver originalResponder0
RevokingPermissionsOnARainy
· 5h atrás
O ambiente do navegador é mais difícil do que se imagina, as mudanças no DOM são rápidas, o estado é implícito, e o agente fica facilmente confuso
Ver originalResponder0
  • Fixado