J'ai regardé le résultat, le meilleur modèle est encore loin de l'humain, je me suis calmé.

Voir l'original
MeNews
L'équipe NUS publie le benchmark GameWorld, évaluant des agents IA multimodaux dans 34 jeux de navigateur
L'équipe NUS a publié la référence GameWorld, comprenant 34 jeux de navigateur, 170 tâches, avec des indicateurs vérifiables pour une évaluation objective. Teste deux types d'interfaces proxy : l'interface computer-use utilisant des commandes clavier-souris directes, et un agent multimodal général opérant dans l'espace sémantique. Les résultats empiriques sur 18 combinaisons modèle-interface montrent que même le meilleur performeur est loin derrière l'humain, avec des défis en termes de latence en temps réel, de sensibilité à la mémoire contextuelle et d'efficacité des actions. La publication et le code associés sont disponibles sur HuggingFace et GitHub.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé