ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a equipe da Universidade Nacional de Cingapura (NUS) lançou o GameWorld, uma referência destinada a padronizar a avaliação da capacidade de modelos de linguagem multimodal (MLLM) como agentes universais em jogos de vídeo. O estudo aponta que, embora os jogos de vídeo ofereçam um campo de testes ideal de ciclo fechado, as avaliações existentes frequentemente enfrentam limitações devido à interface de operação não padronizada e à validação heurística manual. O GameWorld inclui 34 jogos de navegador variados e 170 tarefas, e fornece métricas verificáveis baseadas no estado subjacente do jogo para cada tarefa, a fim de alcançar uma avaliação objetiva dos resultados. A equipe de pesquisa testou duas interfaces de agentes: uma é o agente de "uso de computador" que envia comandos de teclado e mouse diretamente, e a outra é um agente multimodal geral que opera no espaço de ações semânticas por meio de análise semântica. Em um teste em larga escala de 18 combinações de "modelo-interface", os resultados mostraram que, mesmo o melhor agente de IA atualmente, ainda está longe de alcançar o nível humano em habilidades de jogo. A pesquisa também revelou desafios severos enfrentados pelos agentes de jogo em relação à latência de interação em tempo real, sensibilidade à memória de contexto e eficácia das ações. O artigo relacionado e o código do projeto estão disponíveis publicamente no Hugging Face e no GitHub. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
10
7
Partilhar

Comentar

Adicionar um comentário

FeeswitchWhisperer

· 37m atrás

Este benchmark foi lançado, a competição na pista de agentes de jogos finalmente vai ficar acirrada, aguardando as principais empresas acompanharem.

Ver originalResponder0

SeaSaltSparklingWater

· 9h atrás

Indicadores verificáveis são essenciais, anteriormente muitas avaliações subjetivas causaram confusão e não eram precisas

Ver originalResponder0

PickingUpAirdropsInTheFog

· 9h atrás

Escolher o cenário de jogos no navegador foi uma jogada inteligente, pois oferece desafios visuais e complexidade de interação, além de não exigir configuração de ambiente.

Ver originalResponder0

VintageKeychain

· 9h atrás

HuggingFace e GitHub ambos abriram o código, ótimo, reduzir a barreira de reprodução só assim a comunidade pode acompanhar

Ver originalResponder0

LiquidationRaincoat

· 10h atrás

computer-use vs. multimodal geral é um contraste interessante, quero ver em quais cenários específicos o espaço semântico acaba sendo prejudicado

Ver originalResponder0

TidalShellReflection

· 10h atrás

18 tipos de combinações de modelos e interfaces, os experimentos de ablação são bastante detalhados, gosto do estilo de trabalho da equipe NUS

Ver originalResponder0

OwlAuthorizationMonitor

· 10h atrás

A eficácia do indicador de validade das ações está bem desenhada, muitas referências apenas se preocupam com a pontuação final, sem considerar se o processo foi elegante.

Ver originalResponder0

Paper-CutOctopusMarketAnalysis

· 10h atrás

Mesmo o melhor desempenho ainda fica longe do humano, parece que os agentes de jogo ainda têm um longo caminho a percorrer, não é algo que se resolva apenas ajustando parâmetros

Ver originalResponder0

0xLateDinner

· 10h atrás

Sensibilidade à latência em tempo real e à memória de contexto, esses dois pontos problemáticos são muito reais, quem já jogou jogos de ritmo acelerado entende.

Ver originalResponder0

PixelatedDriedFish

· 10h atrás

Finalmente, há uma equipe a sério a criar um benchmark de agentes para jogos de navegador, com 34 jogos e 170 tarefas, essa cobertura é boa

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
235.7K Popularidade
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M Popularidade
#
IsraelStrikesIranBTCPlunges
48.52K Popularidade
#
#DailyPolymarketHotspot
1.02M Popularidade
#
SpaceXOfficiallyFilesforIPO
751.67K Popularidade

Fixado

A equipa NUS lançou o benchmark GameWorld, avaliando agentes de IA multimodais em 34 jogos de navegador

Tópicos em destaque

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Fixado