Anthropic publie BioMysteryBench : une question biologique que 5 experts ne peuvent pas répondre, Claude Mythos peut en résoudre 30 %

robot
Création du résumé en cours
AIMPACT message, le 30 avril (UTC+8), selon la surveillance de Beatting de Dongcha, Anthropic a publié BioMysteryBench, un ensemble d’évaluations de référence en bioinformatique comprenant 99 questions.
Les questions sont rédigées par des experts du domaine sur la base de jeux de données réels (séquençage ADN/ARN, protéomique, métabolomique, etc.), et les réponses proviennent des propriétés objectives des données ou de métadonnées vérifiées expérimentalement, sans dépendre du jugement subjectif des chercheurs.
Des questions typiques incluent : déterminer quel gène a été knock-outé dans un groupe expérimental à partir de données RNA-seq, ou inférer une relation parentale à partir de données de séquençage du génome entier.
L’environnement d’évaluation fournit à Claude un conteneur, préinstallant des outils bioinformatiques courants, avec possibilité d’installer des logiciels via pip et conda, et d’accéder à des bases de données publiques telles que NCBI, Ensembl pour télécharger des génomes de référence, en ne considérant que la réponse finale, sans limite sur le chemin d’analyse.
Parmi les 99 questions, 76 ont été résolues par au moins un expert humain (décodable par l’humain), tandis que les 23 restantes n’ont été résolues par aucun des jusqu’à 5 experts du domaine (difficile pour l’humain).
Sur les questions accessibles à l’humain, Claude Opus 4.6 affiche une précision de 77,4 %, Mythos Preview s’améliore encore.
Sur les 23 questions difficiles pour l’humain, Sonnet 4.6 et des modèles plus puissants peuvent en résoudre une proportion significative, Mythos Preview atteint 30 %.
L’analyse des trajectoires montre que Claude adopte deux stratégies principales : d’une part, invoquer les connaissances intégrées dans les données d’entraînement, pour effectuer directement des raisonnements nécessitant une méta-analyse humaine ; d’autre part, en cas d’incertitude, exécuter simultanément plusieurs méthodes d’analyse et prendre l’intersection des chaînes de preuves.
L’analyse de fiabilité révèle une différence subtile : pour les questions accessibles à l’humain, 86 % des réponses correctes de Opus 4.6 sont correctes au moins 4 fois sur 5 essais, avec une stabilité ; pour les questions difficiles, ce ratio tombe à 44 %, la moitié des réponses correctes ne sont obtenues qu’une ou deux fois sur 5, ressemblant davantage à une coïncidence dans une voie de raisonnement.
Derrière cette différence de précision, la différence de fiabilité illustre mieux la limite des capacités.
Genentech et Roche ont publié simultanément CompBioBench, un ensemble de 100 questions en biologie computationnelle, avec une conception similaire, dans lequel Claude Opus 4.6 atteint globalement 81 %, et 69 % pour les questions les plus difficiles, confirmant les conclusions de BioMysteryBench.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé