L'équipe NUS publie le benchmark GameWorld, évaluant des agents IA multimodaux dans 34 jeux de navigateur

robot
Création du résumé en cours
ME News Actualités, le 17 avril (UTC+8), selon le suivi de Beating, une équipe de l'Université nationale de Singapour (NUS) a publié GameWorld, une référence visant à standardiser l’évaluation des grands modèles de langage multimodaux (MLLM) en tant que capacités d’agents universels dans les jeux vidéo. La recherche indique que, bien que les jeux vidéo offrent un terrain d’essai idéal pour des interactions en boucle fermée, les évaluations existantes sont souvent limitées par des interfaces d’opération non uniformes et une validation heuristique manuelle.
GameWorld comprend 34 jeux de navigateur variés et 170 tâches, et fournit pour chaque tâche des indicateurs vérifiables basés sur l’état sous-jacent du jeu, afin d’obtenir une évaluation objective des résultats.
L’équipe de recherche a testé deux interfaces d’agent : d’une part, l’agent « utilisation de l’ordinateur (computer-use) » qui donne directement des instructions clavier-souris, et d’autre part, un agent multimodal universel opérant dans un espace d’action sémantique via une analyse sémantique.
Lors d’un test à grande échelle sur 18 combinaisons « modèle-interface », les résultats montrent que même le meilleur agent IA actuel ne possède pas encore des capacités de jeu proches de celles des humains.
La recherche met également en évidence de sérieux défis pour les agents de jeu en termes de latence d’interaction en temps réel, de sensibilité à la mémoire contextuelle et d’efficacité des actions.
Les articles de recherche et le code du projet sont disponibles publiquement sur Hugging Face et GitHub.
(Origine : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 10
  • 7
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
FeeswitchWhisperer
· Il y a 1h
Ce benchmark est sorti, la compétition pour la piste des agents de jeu va enfin s'intensifier, j'attends avec impatience que les grandes entreprises suivent le mouvement
Voir l'originalRépondre0
SeaSaltSparklingWater
· Il y a 10h
Les indicateurs vérifiables sont essentiels, trop d'évaluations subjectives ont causé des disputes sans jamais être précises.
Voir l'originalRépondre0
PickingUpAirdropsInTheFog
· Il y a 10h
Le choix de ce scénario de jeu dans le navigateur est excellent, il offre à la fois un défi visuel et une complexité d'interaction, tout en évitant de devoir se soucier de la configuration de l'environnement.
Voir l'originalRépondre0
VintageKeychain
· Il y a 10h
HuggingFace et GitHub ont tous deux été open source, bravo, la réduction des barrières à la reproduction peut favoriser la participation de la communauté
Voir l'originalRépondre0
LiquidationRaincoat
· Il y a 11h
computer-use vs. multimodal généraliste, cette conception de comparaison est assez intéressante, je veux voir dans quels scénarios spécifiques l'espace sémantique pourrait en fait être désavantagé
Voir l'originalRépondre0
TidalShellReflection
· Il y a 11h
18 modèles-interfaces combinés, les expériences d'ablation sont suffisamment détaillées, j'aime le style de travail de l'équipe NUS
Voir l'originalRépondre0
OwlAuthorizationMonitor
· Il y a 11h
La conception de cet indicateur d'efficacité des actions est bonne, beaucoup de benchmarks ne se soucient que du score final sans se soucier de la finesse du processus
Voir l'originalRépondre0
Paper-CutOctopusMarketAnalysis
· Il y a 11h
Même les meilleures performances restent bien en deçà de celles des humains, il semble que les agents de jeu aient encore un long chemin à parcourir, ce qui ne peut pas être résolu simplement en accumulant des paramètres.
Voir l'originalRépondre0
0xLateDinner
· Il y a 11h
La latence en temps réel et la sensibilité à la mémoire contextuelle, ces deux points douloureux sont tellement réels, tous ceux qui ont joué à des jeux à rythme rapide le savent.
Voir l'originalRépondre0
PixelatedDriedFish
· Il y a 11h
Enfin, une équipe a sérieusement travaillé sur le benchmark d'agents pour les jeux de navigateur, 34 jeux et 170 tâches, cette couverture est impressionnante.
Voir l'originalRépondre0
Afficher plus
  • Épinglé