L'équipe NUS a publié le benchmark GameWorld, comprenant 34 jeux de navigateur, 170 tâches, avec des indicateurs vérifiables pour une évaluation objective. Elle teste deux types d'interfaces d'agents : l'interface computer-use utilisant des commandes clavier-souris directes, et l'interface multimodale générale opérant dans l'espace sémantique. Les résultats empiriques de 18 combinaisons de modèles et d'interfaces montrent que même le meilleur performeur est loin de l'humain, et que des défis subsistent en termes de latence en temps réel, de sensibilité à la mémoire contextuelle et d'efficacité des actions. La publication et le code associés sont disponibles sur HuggingFace et GitHub.

MeNews

2026-05-21 19:59:48

Création du résumé en cours

ME News Actualités, le 17 avril (UTC+8), selon le suivi de Beating, une équipe de l'Université nationale de Singapour (NUS) a publié GameWorld, un benchmark visant à standardiser l’évaluation de la capacité des grands modèles multilingues multimodaux (MLLM) en tant qu’agents universels dans les jeux vidéo. La recherche indique que, bien que les jeux vidéo offrent un terrain d’essai idéal pour des interactions en boucle fermée, les évaluations existantes sont souvent limitées par des interfaces d’opération non uniformes et une validation heuristique manuelle. GameWorld comprend 34 jeux de navigateur variés et 170 tâches, chacune équipée d’indicateurs vérifiables basés sur l’état sous-jacent du jeu, afin d’obtenir une évaluation objective des résultats. L’équipe de recherche a testé deux types d’interfaces pour les agents : d’une part, l’agent « utilisation de l’ordinateur (computer-use) » qui donne directement des instructions clavier-souris, et d’autre part, un agent multimodal universel opérant dans un espace d’actions sémantiques via une analyse sémantique. Lors d’un test à grande échelle de 18 combinaisons « modèle-interface », les résultats montrent que même le meilleur agent IA actuel ne parvient pas encore à atteindre le niveau humain en termes de compétences de jeu. La recherche met également en évidence de sérieux défis pour les agents de jeu en termes de latence d’interaction en temps réel, de sensibilité à la mémoire contextuelle et d’efficacité des actions. La publication et le code du projet sont disponibles publiquement sur Hugging Face et GitHub. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

13 J'aime

Récompense
13
5
7
Partager

Commentaire

Ajouter un commentaire

FrontrunTherapy

· Il y a 3h

Le retard en temps réel et la mémoire contextuelle, ces deux pièges, il est probable qu'ils ne soient pas comblés d'ici six mois.

Voir l'originalRépondre0

GateUser-c4e25c95

· Il y a 3h

Les commandes clavier-souris sont trop brutales, la multimodalité universelle est la bonne solution.

Voir l'originalRépondre0

StakingDaydreamer

· Il y a 3h

La faible efficacité des actions indique que la couche de planification est encore faible, la chaîne perception-décision n'est pas connectée.

Voir l'originalRépondre0

ExitLiquidityPoet

· Il y a 3h

Code source ouvert, la barrière pour la reproduction est abaissée, la communauté peut itérer ensemble

Voir l'originalRépondre0

RevokingPermissionsOnARainy

· Il y a 3h

L'environnement du navigateur est plus difficile que prévu, les changements DOM sont rapides, l'état est implicite, et l'agent peut facilement être perdu.

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
236.28K Popularité
#
GrayscaleBuysAndStakesOver510KHYPE
8.92M Popularité
#
IsraelStrikesIranBTCPlunges
48.54K Popularité
#
#DailyPolymarketHotspot
1.01M Popularité
#
SpaceXOfficiallyFilesforIPO
751.82K Popularité

Épinglé

L'équipe NUS publie le benchmark GameWorld, évaluant des agents IA multimodaux dans 34 jeux de navigateur

Sujets populaires

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Épinglé