A equipe da NUS lançou o benchmark GameWorld, que inclui 34 jogos de navegador, 170 tarefas, com métricas verificáveis para uma avaliação objetiva. Testa duas categorias de interfaces de proxy: a interface de uso de computador com comandos de teclado e mouse diretamente e um proxy multimodal geral que opera no espaço semântico. A evidência empírica de 18 combinações de modelos e interfaces mostra que, mesmo os melhores desempenhos, estão longe do desempenho humano, além de apresentarem desafios em latência em tempo real, sensibilidade à memória de contexto e eficácia das ações. O artigo relacionado e o código já estão disponíveis no HuggingFace e no GitHub.

MeNews

2026-05-21 11:56:03

Geração do resumo em andamento

ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a equipe da Universidade Nacional de Cingapura (NUS) lançou o GameWorld, uma referência para padronizar a avaliação da capacidade de modelos de linguagem multimodal (MLLM) como agentes universais em videogames. O estudo aponta que, embora os videogames ofereçam uma plataforma ideal para testes de ciclo fechado, as avaliações existentes frequentemente enfrentam limitações devido à interface de operação não padronizada e à validação heurística manual.
O GameWorld inclui 34 jogos de navegador variados e 170 tarefas, e fornece métricas verificáveis baseadas no estado subjacente do jogo para cada tarefa, a fim de alcançar uma avaliação objetiva dos resultados.
A equipe de pesquisa testou duas interfaces de agentes: uma é o agente de "uso de computador" que envia comandos de teclado e mouse diretamente, e a outra é um agente multimodal geral que opera no espaço de ações semânticas por meio de análise semântica.
Em um teste em larga escala com 18 combinações de "modelo-interface", os resultados mostraram que, mesmo o melhor agente de IA atualmente, ainda está longe do nível humano em habilidades de jogo.
O estudo também revelou desafios severos enfrentados pelos agentes de jogo em relação à latência de interação em tempo real, sensibilidade à memória de contexto e validade das ações.
O artigo relacionado e o código do projeto estão disponíveis publicamente no Hugging Face e no GitHub. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

11 Curtidas

Recompensa
11
10
7
Compartilhar

Comentário

Adicionar um comentário

FeeswitchWhisperer

· 4h atrás

Este benchmark foi lançado, a corrida dos agentes de jogos finalmente vai começar, aguardando as grandes empresas acompanharem

Ver originalResponder0

SeaSaltSparklingWater

· 12h atrás

Indicadores verificáveis são essenciais, antes muitas avaliações subjetivas causavam confusão e não tinham precisão.

Ver originalResponder0

PickingUpAirdropsInTheFog

· 13h atrás

Escolher o cenário de jogos de navegador foi uma jogada inteligente, pois oferece desafios visuais, complexidade de interação e ainda evita a complicação de configurar ambientes.

Ver originalResponder0

VintageKeychain

· 13h atrás

HuggingFace e GitHub abriram o código, parabéns, reduzir a barreira de reprodução pode impulsionar a participação da comunidade

Ver originalResponder0

LiquidationRaincoat

· 13h atrás

computer-use vs. uso geral de múltiplos modos esse contraste de design é bem interessante, quero ver em quais cenários específicos o espaço semântico acaba sendo prejudicado

Ver originalResponder0

TidalShellReflection

· 13h atrás

18 tipos de combinações de modelos e interfaces, os experimentos de ablação são bastante detalhados, o estilo de trabalho da equipe NUS é do meu agrado

Ver originalResponder0

OwlAuthorizationMonitor

· 13h atrás

A métrica de validade da ação foi bem projetada, muitos benchmarks se preocupam apenas com a pontuação final, independentemente de o processo ser elegante ou não.

Ver originalResponder0

Paper-CutOctopusMarketAnalysis

· 13h atrás

Mesmo o melhor desempenho ainda fica longe do humano, parece que os agentes de jogo ainda têm um longo caminho a percorrer, não é algo que apenas ajustar parâmetros possa resolver

Ver originalResponder0

0xLateDinner

· 13h atrás

Sensibilidade à latência em tempo real e à memória de contexto, esses dois pontos problemáticos são muito reais, quem já jogou jogos de ritmo acelerado entende

Ver originalResponder0

PixelatedDriedFish

· 13h atrás

Finalmente, uma equipe está levando a sério o desenvolvimento de um benchmark de agentes para jogos de navegador, com 34 jogos e 170 tarefas, essa cobertura é excelente.

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
TradfiTradingChallenge
239.54K Popularidade
#
HYPEOutperformsAgain
16.33M Popularidade
#
IsraelStrikesIranBTCPlunges
48.54K Popularidade
#
#DailyPolymarketHotspot
1.02M Popularidade
#
GateSquarePizzaDay
1.71M Popularidade

Fixado

sitemap

Equipe NUS lança o padrão GameWorld, avaliando agentes de IA multimodais em 34 jogos de navegador

Tendências

TradfiTradingChallenge

HYPEOutperformsAgain

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado