Contrôle direct par clavier et souris ou sémantique de haut niveau, quelle interface a le plus d'avenir ?

Voir l'original
MeNews
L'équipe NUS publie le benchmark GameWorld, évaluant des agents IA multimodaux dans 34 jeux de navigateur
L'équipe NUS a publié la référence GameWorld, comprenant 34 jeux de navigateur, 170 tâches, avec des indicateurs vérifiables pour une évaluation objective. Teste deux types d'interfaces proxy : l'interface computer-use utilisant des commandes clavier-souris directes, et un agent multimodal général opérant dans l'espace sémantique. Les résultats empiriques sur 18 combinaisons modèle-interface montrent que même le meilleur performeur est loin derrière l'humain, avec des défis en termes de latence en temps réel, de sensibilité à la mémoire contextuelle et d'efficacité des actions. La publication et le code associés sont disponibles sur HuggingFace et GitHub.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé