ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a equipe da Universidade Nacional de Cingapura (NUS) lançou o GameWorld, uma referência destinada a padronizar a avaliação da capacidade de modelos de linguagem multimodal (MLLM) como agentes universais em jogos de vídeo. O estudo aponta que, embora os jogos de vídeo ofereçam um campo de testes ideal de interação em ciclo fechado, as avaliações existentes frequentemente enfrentam limitações devido à interface de operação não padronizada e à validação heurística manual. O GameWorld inclui 34 jogos de navegador variados e 170 tarefas, e fornece métricas verificáveis baseadas no estado subjacente do jogo para cada tarefa, a fim de alcançar uma avaliação objetiva dos resultados. A equipe de pesquisa testou duas interfaces de agentes: uma é o agente de "uso de computador" que envia comandos de teclado e mouse diretamente, e a outra é um agente multimodal geral que opera no espaço de ações semânticas por meio de análise semântica. Em um teste em larga escala de 18 combinações de "modelo-interface", os resultados mostraram que, mesmo o melhor agente de IA atualmente, ainda está longe de alcançar o nível humano em habilidades de jogo. A pesquisa também revelou desafios severos em aspectos como latência de interação em tempo real, sensibilidade à memória de contexto e eficácia das ações dos agentes de jogo. O artigo relacionado e o código do projeto estão disponíveis publicamente no Hugging Face e no GitHub. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

13 gostos

Recompensa
13
5
7
Partilhar

Comentar

Adicionar um comentário

FrontrunTherapy

· 3h atrás

Atraso em tempo real e memória de contexto, esses dois problemas, provavelmente vão levar pelo menos meio ano para serem resolvidos.

Ver originalResponder0

GateUser-c4e25c95

· 3h atrás

As instruções de teclado e rato são demasiado agressivas, a multimodalidade universal é a verdadeira solução

Ver originalResponder0

StakingDaydreamer

· 3h atrás

A baixa eficácia das ações indica que a camada de planeamento ainda é fraca, a cadeia de percepção-decisão não está conectada.

Ver originalResponder0

ExitLiquidityPoet

· 3h atrás

Código aberto recebe boas críticas, a barreira para reprodução diminui, a comunidade pode iterar junto

Ver originalResponder0

RevokingPermissionsOnARainy

· 3h atrás

O ambiente do navegador é mais difícil do que se imagina, as mudanças no DOM são rápidas, o estado é implícito, e o agente fica facilmente confuso

Ver originalResponder0

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
236.31K Popularidade
#
GrayscaleBuysAndStakesOver510KHYPE
8.92M Popularidade
#
IsraelStrikesIranBTCPlunges
48.54K Popularidade
#
#DailyPolymarketHotspot
1.01M Popularidade
#
SpaceXOfficiallyFilesforIPO
751.82K Popularidade

Fixado

A equipa NUS lançou o benchmark GameWorld, avaliando agentes de IA multimodais em 34 jogos de navegador

Tópicos em destaque

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Fixado