Mythos 5 permet aux docteurs généralistes de rattraper les experts de haut niveau, mais ils ne peuvent toujours pas devenir des scientifiques autonomes

robot
Création du résumé en cours
Selon la surveillance Beating, Anthropic a révélé dans le cadre des systèmes Claude Fable 5 et Claude Mythos 5 que Mythos 5 montre une forte capacité d’assistance d’experts dans l’évaluation de la biosécurité. Lors d’un exercice de red team en pathologie végétale, 6 doctorants en biologie ont été appariés avec des experts en grands modèles, utilisant Mythos 5 pour concevoir une solution complète de résistance biologique contre un agent pathogène agricole fictif. Parmi eux, 3 équipes comprenaient des spécialistes en pathologie végétale, tandis que les 3 autres étaient composées de doctorants en microbiologie généraliste.

Les résultats ont montré qu’en 16 heures, 2 des 3 équipes de doctorants généralistes surpassaient toutes les 3 équipes d’experts en termes de qualité scientifique et de faisabilité. Selon une évaluation d’experts, sans outils d’IA, la réalisation de ces stratégies et protocoles d’implémentation nécessiterait généralement entre 40 et 95 jours ouvrables, avec une moyenne d’environ 72,5 jours. Anthropic considère que c’est l’une des preuves les plus solides que Mythos 5 approche le seuil de risque CB-2, indiquant que le modèle peut déjà fournir à des chercheurs généralistes un soutien en connaissances de domaine proche de celui d’experts de classe mondiale pour certaines tâches.

Mais cela ne signifie pas que Mythos 5 peut autonomiser la recherche de pointe. Anthropic souligne également que le modèle dépend encore de l’intervention d’experts humains pour filtrer les idées, qu’il a une capacité de conception ouverte relativement faible, qu’il a tendance à recombiner la littérature existante en solutions complexes sans proposer de véritables idées innovantes ; il a aussi tendance à poursuivre dans la voie d’un cadre erroné fourni par l’utilisateur, et même lorsqu’il détecte des défauts dans une solution, il peut continuer à l’exécuter.

Ce jugement fait également écho à la référence de prédiction scientifique CUSP. CUSP couvre 4760 événements scientifiques, évaluant la capacité du modèle à juger de la faisabilité des progrès scientifiques, à identifier des mécanismes, à générer des solutions et à prévoir le calendrier. Les résultats montrent que GPT-5.4 atteint 81,9 % en reconnaissance de mécanismes à choix multiple, contre 72,4 % pour Claude S4.5, mais en ce qui concerne la tâche de classification binaire pour déterminer si un progrès scientifique sera réellement réalisé, la précision des modèles n’est que de 45,3 % à 51,9 %, proche du hasard. En d’autres termes, les grands modèles actuels sont déjà très compétents pour compléter des étapes locales de recherche, mais restent peu fiables pour juger si une voie scientifique aboutira réellement au succès.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé