L'équipe NUS a publié le benchmark GameWorld, comprenant 34 jeux de navigateur, 170 tâches, avec des indicateurs vérifiables pour une évaluation objective. Elle teste deux types d'interfaces d'agents : l'interface computer-use utilisant des commandes clavier-souris directes, et l'interface multimodale générale opérant dans l'espace sémantique. Les résultats empiriques de 18 combinaisons de modèles et d'interfaces montrent que même le meilleur performeur est loin de l'humain, et que des défis subsistent en termes de latence en temps réel, de sensibilité à la mémoire contextuelle et d'efficacité des actions. La publication et le code associés sont disponibles sur HuggingFace et GitHub.

MeNews

2026-05-21 11:56:03

Création du résumé en cours

ME News Actualités, le 17 avril (UTC+8), selon le suivi de Beating, une équipe de l'Université nationale de Singapour (NUS) a publié GameWorld, une référence visant à standardiser l’évaluation des grands modèles de langage multimodaux (MLLM) en tant que capacités d’agents universels dans les jeux vidéo. La recherche indique que, bien que les jeux vidéo offrent un terrain d’essai idéal pour des interactions en boucle fermée, les évaluations existantes sont souvent limitées par des interfaces d’opération non uniformes et une validation heuristique manuelle.
GameWorld comprend 34 jeux de navigateur variés et 170 tâches, et fournit pour chaque tâche des indicateurs vérifiables basés sur l’état sous-jacent du jeu, afin d’obtenir une évaluation objective des résultats.
L’équipe de recherche a testé deux interfaces d’agent : d’une part, l’agent « utilisation de l’ordinateur (computer-use) » qui donne directement des instructions clavier-souris, et d’autre part, un agent multimodal universel opérant dans un espace d’action sémantique via une analyse sémantique.
Lors d’un test à grande échelle sur 18 combinaisons « modèle-interface », les résultats montrent que même le meilleur agent IA actuel ne possède pas encore des capacités de jeu proches de celles des humains.
La recherche met également en évidence de sérieux défis pour les agents de jeu en termes de latence d’interaction en temps réel, de sensibilité à la mémoire contextuelle et d’efficacité des actions.
Les articles de recherche et le code du projet sont disponibles publiquement sur Hugging Face et GitHub.
(Origine : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

11 J'aime

Récompense
11
10
7
Partager

Commentaire

Ajouter un commentaire

FeeswitchWhisperer

· Il y a 1h

Ce benchmark est sorti, la compétition pour la piste des agents de jeu va enfin s'intensifier, j'attends avec impatience que les grandes entreprises suivent le mouvement

Voir l'originalRépondre0

SeaSaltSparklingWater

· Il y a 10h

Les indicateurs vérifiables sont essentiels, trop d'évaluations subjectives ont causé des disputes sans jamais être précises.

Voir l'originalRépondre0

PickingUpAirdropsInTheFog

· Il y a 10h

Le choix de ce scénario de jeu dans le navigateur est excellent, il offre à la fois un défi visuel et une complexité d'interaction, tout en évitant de devoir se soucier de la configuration de l'environnement.

Voir l'originalRépondre0

VintageKeychain

· Il y a 10h

HuggingFace et GitHub ont tous deux été open source, bravo, la réduction des barrières à la reproduction peut favoriser la participation de la communauté

Voir l'originalRépondre0

LiquidationRaincoat

· Il y a 11h

computer-use vs. multimodal généraliste, cette conception de comparaison est assez intéressante, je veux voir dans quels scénarios spécifiques l'espace sémantique pourrait en fait être désavantagé

Voir l'originalRépondre0

TidalShellReflection

· Il y a 11h

18 modèles-interfaces combinés, les expériences d'ablation sont suffisamment détaillées, j'aime le style de travail de l'équipe NUS

Voir l'originalRépondre0

OwlAuthorizationMonitor

· Il y a 11h

La conception de cet indicateur d'efficacité des actions est bonne, beaucoup de benchmarks ne se soucient que du score final sans se soucier de la finesse du processus

Voir l'originalRépondre0

Paper-CutOctopusMarketAnalysis

· Il y a 11h

Même les meilleures performances restent bien en deçà de celles des humains, il semble que les agents de jeu aient encore un long chemin à parcourir, ce qui ne peut pas être résolu simplement en accumulant des paramètres.

Voir l'originalRépondre0

0xLateDinner

· Il y a 11h

La latence en temps réel et la sensibilité à la mémoire contextuelle, ces deux points douloureux sont tellement réels, tous ceux qui ont joué à des jeux à rythme rapide le savent.

Voir l'originalRépondre0

PixelatedDriedFish

· Il y a 11h

Enfin, une équipe a sérieusement travaillé sur le benchmark d'agents pour les jeux de navigateur, 34 jeux et 170 tâches, cette couverture est impressionnante.

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
237.07K Popularité
#
GrayscaleBuysAndStakesOver510KHYPE
8.92M Popularité
#
IsraelStrikesIranBTCPlunges
48.54K Popularité
#
#DailyPolymarketHotspot
1.01M Popularité
#
SpaceXOfficiallyFilesforIPO
751.82K Popularité

Épinglé

L'équipe NUS publie le benchmark GameWorld, évaluant des agents IA multimodaux dans 34 jeux de navigateur

Sujets populaires

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Épinglé