4 760 jalons alimentés, la prédiction de nouvelles découvertes reste au niveau du lancer de pièce. Même avec une forte capacité de raisonnement mécaniste, face à un domaine inconnu sans réponse standard, on reste perdu.

Voir l'original
CoinNetwork
L'IA ne peut toujours pas être considérée comme un scientifique autonome, l'évaluation CUSP révèle que les grands modèles manquent de vision prospective en recherche scientifique
Stanford/Oxford/Allen Institute for AI ont lancé le benchmark temporel CUSP, évaluant la capacité de l'IA à prévoir les progrès scientifiques.
Les tests sur GPT-5.4, Claude Sonnet 4.5, DeepSeek R1, etc., montrent de bonnes performances dans la compréhension des mécanismes de raisonnement des voies technologiques existantes, mais la prévision de nouvelles découvertes est presque aléatoire, avec un retard systématique sur le moment des percées.
CUSP se limite aux connaissances temporelles, en compilant les avancées de pointe de Nature/Science, avec un benchmark couvrant 4 760 jalons et 17 429 tâches.
La conclusion est que, dans la recherche scientifique sans réponses standardisées, les modèles actuels ne peuvent pas fournir de prévisions fiables.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé