OpenAI lance le benchmark de biologie computationnelle GeneBench-Pro, le taux de précision de la version complète de GPT-5.6 n'est que de 30%.

robot
Création du résumé en cours
Message de CoinWorld, OpenAI a publié le benchmark de biologie computationnelle GeneBench-Pro, utilisé pour tester la capacité de prise de décision multi-étape des agents IA face à des scénarios de recherche scientifique complexes tels que la génomique et la médecine translationnelle. Le nouveau benchmark contient un total de 129 questions (dont 82 ont été examinées par des experts externes), générant des données avec des relations causales claires par simulation informatique, afin d'empêcher les modèles de tricher en prenant des raccourcis ou en répondant aux préférences des concepteurs de questions. Les résultats des tests montrent que les modèles de pointe ont encore beaucoup de difficultés à effectuer des raisonnements scientifiques impliquant des incertitudes quantitatives. Le plus puissant GPT-5.6 en mode Pro n'atteint qu'un taux de réussite de 31,5 %, tandis que Claude Opus 4.8 n'atteint que 16,0 %. L'équipe de recherche souligne que les modèles présentent généralement un phénomène de déconnexion où « ils peuvent détecter des anomalies mais ne savent pas corriger les analyses ultérieures », choisissant souvent la mauvaise méthode statistique ou persistant dans une direction de recherche erronée.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 3
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
ShellsLeftBehindByTheReceding
· Il y a 2h
Ce score me rend silencieux, Claude Opus n'est qu'à 16% ?
Voir l'originalRépondre0
Salt-BakedSentimentChart
· Il y a 2h
Sur 129 questions, 82 ont été examinées par des experts. L'effort anti-triche est bien réel, mais le modèle a même choisi la mauvaise méthode statistique, ce qui montre que la logique sous-jacente fait encore défaut.
Voir l'originalRépondre0
PixelMetaverseRaccoon
· Il y a 2h
Les décisions multiples sont faciles, mais quand on découvre qu'on s'est trompé et qu'on insiste quand même, n'est-ce pas là l'image de mes expériences ?
Voir l'originalRépondre0
  • Épinglé