Espace d'action sémantique vs contrôle direct clavier-souris, comparaison des deux interfaces pour voir les données

Voir l'original
MeNews
L'équipe NUS publie le benchmark GameWorld, évaluant des agents IA multimodaux dans 34 jeux de navigateur
ME News Actualités, le 17 avril (UTC+8), selon le suivi de Beating, l'équipe de l'Université nationale de Singapour (NUS) a publié GameWorld, un benchmark visant à standardiser l’évaluation de la capacité des grands modèles multilingues multimodaux (MLLM) en tant qu’agents universels dans les jeux vidéo. La recherche indique que, bien que les jeux vidéo offrent un terrain d’essai idéal pour des interactions en boucle fermée, les évaluations existantes sont souvent limitées par des interfaces d’opération non standardisées et une validation heuristique manuelle. GameWorld comprend 34 jeux de navigateur variés et 170 tâches, et fournit pour chaque tâche des indicateurs vérifiables basés sur l’état sous-jacent du jeu, afin d’obtenir une évaluation objective des résultats. L’équipe de recherche a testé deux interfaces d’agent : la première étant un agent « utilisation de l’ordinateur (computer-use) » qui envoie directement des commandes clavier-souris, et la seconde étant une interface basée sur une analyse sémantique dans un espace d’actions sémantiques.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé