L’évaluation de référence SOOHAK révèle des défauts des modèles d’IA : leur capacité à identifier des problèmes mathématiques sans solution ne dépasse pas 50 %.

robot
Création du résumé en cours

AIMPACT message, le 17 mai (UTC+8), le nouveau test de référence mathématique IA SOOHAK, créé par l’alliance de 64 mathématiciens, révèle des défauts clés des modèles d’IA.
Ce test comprend 439 tâches manuscrites, dont 99 ont été délibérément conçues comme insolubles.
Google Gemini 3 Pro domine sur des problèmes de niveau recherche, atteignant une précision de 30 %, mais aucun modèle ne dépasse 50 % dans la reconnaissance des tâches sans solution.
Il a été constaté que davantage de ressources de calcul peuvent améliorer la capacité des modèles à résoudre des problèmes, mais ne renforcent pas leur capacité à reconnaître l’absence de solution.
SOOHAK vise à quantifier l’écart entre les quelques résultats remarquables de l’IA et les compétences de recherche encore largement manquantes dans le système.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé