HuggingFace et GitHub ont tous deux été open source, abaissant la barrière pour la reproduction, la communauté peut suivre.

Voir l'original
MeNews
L'équipe NUS publie le benchmark GameWorld, évaluant des agents IA multimodaux dans 34 jeux de navigateur
L'équipe NUS a publié le benchmark GameWorld, comprenant 34 jeux de navigateur, 170 tâches, avec des indicateurs vérifiables pour une évaluation objective. Elle teste deux types d'interfaces d'agents : l'interface computer-use utilisant des commandes clavier-souris directes, et l'interface multimodale générale opérant dans l'espace sémantique. Les résultats empiriques de 18 combinaisons de modèles et d'interfaces montrent que même le meilleur performeur est loin de l'humain, et que des défis subsistent en termes de latence en temps réel, de sensibilité à la mémoire contextuelle et d'efficacité des actions. La publication et le code associés sont disponibles sur HuggingFace et GitHub.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé