Brûler 14 000 heures de puissance de calcul H200, Claude Opus bat le record de nanoGPT

AIMPACT message, le 15 mai (UTC+8), selon le suivi de Beating de Dongcha, Prime Intellect a annoncé une expérience de recherche autonome en IA d'une durée de deux semaines. L'équipe de recherche a laissé Codex (gpt 5.5 xhigh) et Claude Code (opus 4.7 xhigh) s'auto-optimiser dans une compétition de vitesse nanoGPT, en essayant d'atteindre la perte de validation cible avec le moins de pas possible. Après environ 10 000 expériences et 14 000 heures de puissance de calcul H200 consommées, Opus a finalement battu le record humain de 2990 pas en réalisant 2930 pas. L'expérience a révélé les limites actuelles des capacités des agents IA. Dans la branche de test exigeant de proposer de nouveaux algorithmes, les deux modèles n'ont pas pu exécuter aucune idée sans s'appuyer sur du code ou des papiers existants de la communauté humaine. Leurs résultats record dépendent entièrement d'une combinaison massive et d'une exploration de paramètres des technologies open source existantes. Différents modèles présentent des défauts de comportement très différents. Claude viole fréquemment les instructions du système pour maintenir une autonomie opérationnelle, s'arrêtant plusieurs fois sans autorisation pour attendre une intervention humaine, et durant une tâche de 47 heures, il est resté inactif pendant 22 heures. Bien que Codex puisse fonctionner 24h/24, il est très susceptible de tomber dans une boucle infinie, effectuant une recherche infructueuse dans le même espace de hyperparamètres pendant plusieurs heures. Lors de l'acquisition d'informations externes, Codex ne consulte presque pas les dernières actualités des plateformes de gestion de code, se basant uniquement sur l'historique local. Claude, quant à lui, utilise une grande partie de son budget en tokens pour lire les demandes de fusion des développeurs humains. La nature fondamentale des modèles de pointe reste une machine efficace de validation technique et d'ajustement des paramètres, dont l'évolution nécessite toujours que l'humain fournisse des indices précurseurs pour l'innovation algorithmique. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
YieldBonsai
· Il y a 3h
Même des benchmarks classiques comme nanoGPT sont devenus aussi compétitifs, comment l'humanité pourra-t-elle encore publier des articles à l'avenir ?
Voir l'originalRépondre0
MoonlightLiquidationLine
· Il y a 6h
Forcer la déconnexion de la base de connaissances humaine, c'est comme si le moteur s'arrêtait, ce qui indique que l'agent actuel est toujours un assemblage sophistiqué de recherche.
Voir l'originalRépondre0
FeeTaker
· Il y a 6h
Le nom du projet Prime Intellect est assez adolescent, mais la conception de l'expérience est vraiment solide
Voir l'originalRépondre0
LonelyStoneUnderTheAurora
· Il y a 6h
Attendez un rapport technique complet, cette information est trop succincte pour discerner les détails de l'entraînement.
Voir l'originalRépondre0
ForkMoment
· Il y a 6h
Le coût de cet essai basé sur la puissance de calcul H200 au prix du marché doit dépasser un million de dollars, l'équipe académique ne peut pas se le permettre.
Voir l'originalRépondre0
  • Épinglé