DeepMind lance un assistant de recherche en mathématiques basé sur l'IA : un cadre multi-agent dépasse GPT-5.5 Pro et résout des problèmes auparavant insolubles

Selon la surveillance de Dongcha Beating, Google DeepMind a lancé un co-mathématicien IA, une plateforme de recherche interactive pour les mathématiciens utilisant une architecture multi-agents. Le système a atteint un taux de précision de 47,9 % sur le benchmark mathématique le plus difficile à l’heure actuelle, FrontierMath Tier 4 (résolvant 23 sur 48 problèmes), dépassant directement le record précédent de 39,6 % établi par GPT-5.5 Pro. Ce système n’a pas utilisé un modèle de fondation de nouvelle génération mais a plutôt utilisé Gemini 3.1 Pro. Le modèle lui-même n’a obtenu qu’un taux de précision de 19 % sur le Tier 4, mais avec l’ajout du cadre d’agents, ses performances ont plus que doublé. DeepMind l’a équipé d’une architecture à plusieurs couches : au niveau supérieur, un « coordinateur de projet » décompose les tâches de recherche en plusieurs flux de travail, qui sont ensuite distribués à des sous-agents responsables de la récupération de littérature, du codage et du raisonnement. Les preuves générées doivent passer par un processus de revue par plusieurs « agents de revue » avant d’être soumises. Cette structure lourde démontre que les capacités incrémentielles extraites par orchestration peuvent potentiellement dépasser celles obtenues par la simple mise à niveau des modèles en raisonnement mathématique de haut niveau. Le test à l’aveugle a été réalisé par Epoch AI, et pour éviter la triche, l’équipe de DeepMind n’a pas vu les questions tout au long du processus, chaque question étant autorisée à fonctionner pendant 48 heures. Les résultats ont non seulement dominé le classement, mais ont également résolu trois problèmes qui avaient auparavant bloqué tous les modèles. Bien qu’il soit désigné comme un assistant, il fonctionne davantage comme un collègue créatif. L’expert en théorie des groupes Marc Lackenby l’a utilisé dans une recherche réelle pour résoudre une conjecture publique du cahier Kourovka. Fait intéressant, la stratégie initiale proposée par le système a été qualifiée de « défectueuse » par son propre agent de revue, mais Lackenby a reconnu l’idée ingénieuse cachée dans la proposition rejetée, a comblé lui-même les lacunes, et a finalement terminé la preuve. Actuellement, le co-mathématicien IA n’est disponible que pour des tests internes par un nombre limité de mathématiciens.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler