Le laboratoire d'intelligence artificielle de Stanford a publié un cadre de validation universel LLM-as-a-Verifier, atteignant le meilleur résultat dans deux tests de référence.

robot
Création du résumé en cours

ME News Actualités, le 10 avril (UTC+8), le Stanford AI Lab (StanfordAILab) a récemment publié un cadre de vérification universel appelé “LLM-as-a-Verifier”. Ce cadre améliore la granularité de l’évaluation, la vérification répétée et la décomposition des standards, atteignant une précision de 86,4 % sur le benchmark Terminal-Bench 2, et 77,8 % sur le benchmark SWE-Bench Verified, tous deux au niveau optimal actuel (SOTA). L’article fournit des liens vers le blog et le code associés. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler