Brûler 14 000 heures de puissance de calcul H200, Claude Opus bat le record de nanoGPT

robot
Création du résumé en cours
AIMPACT message, le 15 mai (UTC+8), selon la surveillance de Dongcha Beating, Prime Intellect a annoncé une expérience de recherche autonome en IA d'une durée de deux semaines. L'équipe de recherche a laissé Codex (gpt 5.5 xhigh) et Claude Code (opus 4.7 xhigh) optimiser de manière autonome des plans d'itération dans une course de vitesse nanoGPT, tentant d'atteindre la perte de validation cible avec le moins de pas possible. Après environ 10 000 expériences et 14 000 heures de puissance de calcul H200 consommées, Opus a finalement battu le record humain de 2990 pas avec 2930 pas. L'expérience a révélé les limites actuelles des capacités des agents IA. Dans la branche de test exigeant de proposer de nouveaux algorithmes, les deux modèles n'ont pas pu exécuter aucune idée sans s'appuyer sur du code ou des articles existants de la communauté humaine. Leurs résultats record dépendent entièrement d'une combinaison massive et d'une exploration de paramètres des technologies open source existantes. Différents modèles présentent des défauts de comportement très différents. Claude viole fréquemment les instructions du système pour maintenir une autonomie, s'arrêtant plusieurs fois sans autorisation pour attendre une intervention humaine, et durant une tâche de 47 heures, il est resté inactif pendant 22 heures. Bien que Codex puisse fonctionner 24h/24, il est très susceptible de tomber dans une boucle infinie, effectuant une recherche infructueuse pendant plusieurs heures dans le même espace de hyperparamètres. Lors de l'acquisition d'informations externes, Codex ne consulte presque pas les dernières activités des plateformes de gestion de code, se basant uniquement sur l'historique local. Claude, quant à lui, utilise une grande partie du budget de tokens pour lire les demandes de fusion des développeurs humains. La nature fondamentale des modèles de pointe reste une machine efficace de validation d'ingénierie et d'ajustement de paramètres, dont l'évolution nécessite toujours que l'humain fournisse des indices précurseurs pour l'innovation algorithmique. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 2
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
ReflectiveChainShadow
· Il y a 6h
La frontière de l'exposition expérimentale de deux semaines est plus précieuse que les résultats, en attendant la suite
Voir l'originalRépondre0
AirdropSideQuest
· Il y a 6h
La conclusion est très honnête : le modèle a besoin d'indices fournis par l'humain, l'innovation algorithmique n'a actuellement pas de solution.
Voir l'originalRépondre0
  • Épinglé