L'équipe NUS publie le benchmark GameWorld, évaluant des agents IA multimodaux dans 34 jeux de navigateur

robot
Création du résumé en cours
ME News Actualités, le 17 avril (UTC+8), selon le suivi de Beating, une équipe de l'Université nationale de Singapour (NUS) a publié GameWorld, un benchmark visant à standardiser l’évaluation de la capacité des grands modèles multilingues multimodaux (MLLM) en tant qu’agents universels dans les jeux vidéo. La recherche indique que, bien que les jeux vidéo offrent un terrain d’essai idéal pour des interactions en boucle fermée, les évaluations existantes sont souvent limitées par des interfaces d’opération non uniformes et une validation heuristique manuelle. GameWorld comprend 34 jeux de navigateur variés et 170 tâches, chacune équipée d’indicateurs vérifiables basés sur l’état sous-jacent du jeu, afin d’obtenir une évaluation objective des résultats. L’équipe de recherche a testé deux types d’interfaces pour les agents : d’une part, l’agent « utilisation de l’ordinateur (computer-use) » qui donne directement des instructions clavier-souris, et d’autre part, un agent multimodal universel opérant dans un espace d’actions sémantiques via une analyse sémantique. Lors d’un test à grande échelle de 18 combinaisons « modèle-interface », les résultats montrent que même le meilleur agent IA actuel ne parvient pas encore à atteindre le niveau humain en termes de compétences de jeu. La recherche met également en évidence de sérieux défis pour les agents de jeu en termes de latence d’interaction en temps réel, de sensibilité à la mémoire contextuelle et d’efficacité des actions. La publication et le code du projet sont disponibles publiquement sur Hugging Face et GitHub. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • 7
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
FrontrunTherapy
· Il y a 3h
Le retard en temps réel et la mémoire contextuelle, ces deux pièges, il est probable qu'ils ne soient pas comblés d'ici six mois.
Voir l'originalRépondre0
GateUser-c4e25c95
· Il y a 3h
Les commandes clavier-souris sont trop brutales, la multimodalité universelle est la bonne solution.
Voir l'originalRépondre0
StakingDaydreamer
· Il y a 3h
La faible efficacité des actions indique que la couche de planification est encore faible, la chaîne perception-décision n'est pas connectée.
Voir l'originalRépondre0
ExitLiquidityPoet
· Il y a 3h
Code source ouvert, la barrière pour la reproduction est abaissée, la communauté peut itérer ensemble
Voir l'originalRépondre0
RevokingPermissionsOnARainy
· Il y a 3h
L'environnement du navigateur est plus difficile que prévu, les changements DOM sont rapides, l'état est implicite, et l'agent peut facilement être perdu.
Voir l'originalRépondre0
  • Épinglé