Mythos 5 permet aux docteurs généralistes de rattraper les experts de haut niveau, mais ils ne peuvent toujours pas devenir des scientifiques autonomes

Selon la surveillance Beating, Anthropic a révélé dans le cadre des systèmes Claude Fable 5 et Claude Mythos 5 que Mythos 5 montre une forte capacité d’assistance d’experts dans l’évaluation de la biosécurité. Lors d’un exercice de red teaming en pathologie végétale, six doctorants en biologie ont été appariés avec des experts en grands modèles, utilisant Mythos 5 pour concevoir une solution complète de résistance biologique contre un agent pathogène agricole fictif. Parmi eux, trois équipes comprenaient des spécialistes en pathologie végétale, tandis que les trois autres étaient composées de doctorants en microbiologie généraliste. Les résultats ont montré qu’en 16 heures, deux des trois équipes de doctorants généralistes surpassaient toutes les trois équipes d’experts en termes de qualité scientifique et de faisabilité. Selon une évaluation d’experts, sans outils d’IA, la conception de ces stratégies et protocoles d’implémentation nécessiterait généralement entre 40 et 95 jours ouvrables, avec une moyenne d’environ 72,5 jours. Anthropic considère que c’est l’une des preuves les plus solides que Mythos 5 approche le seuil de risque CB-2, indiquant que le modèle peut déjà fournir à des chercheurs généralistes un soutien en connaissances de domaine proche de celui d’experts de classe mondiale pour certaines tâches. Mais cela ne signifie pas que Mythos 5 peut autonomement réaliser la recherche de pointe. Anthropic souligne également que le modèle dépend encore de l’intervention d’experts humains pour filtrer les idées, qu’il a une capacité de conception ouverte relativement faible, qu’il a tendance à recombiner la littérature existante en solutions complexes sans proposer de véritables idées innovantes, et qu’il continue souvent dans la mauvaise direction donnée par l’utilisateur, même lorsqu’il détecte des défauts dans la solution proposée. Cette évaluation fait également écho à la référence de prédiction scientifique CUSP. CUSP couvre 4760 événements scientifiques et évalue la capacité du modèle à juger de la faisabilité des progrès scientifiques, à identifier des mécanismes, à générer des solutions et à prévoir le calendrier. Les résultats montrent que GPT-5.4 atteint 81,9 % en reconnaissance de mécanismes à choix multiple, contre 72,4 % pour Claude S4.5, mais en ce qui concerne la tâche binaire de prédiction de la réalisation réelle des progrès scientifiques, la précision des modèles n’est que de 45,3 % à 51,9 %, proche du hasard. En d’autres termes, les grands modèles actuels sont déjà très compétents pour compléter des étapes locales de la recherche, mais restent peu fiables pour juger si une voie scientifique aboutira réellement.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé