Grok 4.20 Beta a obtenu un taux de précision de 97 % dans le test τ²-Bench, se classant en deuxième position

Actualités ME : message du 5 avril (UTC+8). Récemment, la version bêta de Grok 4.20 Beta a obtenu 97 % de précision lors de l’évaluation sur τ²-Bench, se classant deuxième. τ²-Bench est une évaluation construite à partir du cadre original τ-bench de Sierra, réputé pour sa rigueur. Cette évaluation teste non seulement si l’IA peut répondre à des questions, mais aussi si les agents peuvent réussir à accomplir des tâches de navigation. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler