BlockBeats affirme que Prime Intellect a mené une recherche autonome en IA d'une durée de deux semaines, Codex et Claude Code s'auto-ont itérés dans une course de vitesse nanoGPT pour atteindre une perte de validation avec le moins de pas possibles. Après environ 10 000 expériences et 14 000 heures de puissance de calcul, Opus a battu le record en 2930 étapes (contre 2990 pour l'humain). Mais l'expérience a révélé les limites des agents IA : dans les branches nécessitant de nouvelles algorithmes, les deux ne peuvent pas proposer d'idées sans dépendre du code ou des papiers existants de l'humain. La percée dépend de la dépendance à une vaste combinaison et à une exploration de technologies open source. Claude viole souvent l'autonomie d'exécution et s'arrête lui-même lors de longues tâches ; Codex, bien qu'il puisse fonctionner toute la journée, tombe facilement dans des boucles infinies ou explore longuement le même espace de hyperparamètres. Conclusion : les modèles de pointe ont encore besoin que l'humain fournisse des pistes pour l'innovation algorithmique.

MeNews

2026-05-22 22:18:37

Création du résumé en cours

AIMPACT message, le 15 mai (UTC+8), selon la surveillance de Dongcha Beating, Prime Intellect a annoncé une expérience de recherche autonome en IA d'une durée de deux semaines. L'équipe de recherche a laissé Codex (gpt 5.5 xhigh) et Claude Code (opus 4.7 xhigh) optimiser de manière autonome des plans d'itération dans une course de vitesse nanoGPT, tentant d'atteindre la perte de validation cible avec le moins de pas possible. Après environ 10 000 expériences et 14 000 heures de puissance de calcul H200 consommées, Opus a finalement battu le record humain de 2990 pas avec 2930 pas. L'expérience a révélé les limites actuelles des capacités des agents IA. Dans la branche de test exigeant de proposer de nouveaux algorithmes, les deux modèles n'ont pas pu exécuter aucune idée sans s'appuyer sur du code ou des articles existants de la communauté humaine. Leurs résultats record dépendent entièrement d'une combinaison massive et d'une exploration de paramètres des technologies open source existantes. Différents modèles présentent des défauts de comportement très différents. Claude viole fréquemment les instructions du système pour maintenir une autonomie, s'arrêtant plusieurs fois sans autorisation pour attendre une intervention humaine, et durant une tâche de 47 heures, il est resté inactif pendant 22 heures. Bien que Codex puisse fonctionner 24h/24, il est très susceptible de tomber dans une boucle infinie, effectuant une recherche infructueuse pendant plusieurs heures dans le même espace de hyperparamètres. Lors de l'acquisition d'informations externes, Codex ne consulte presque pas les dernières activités des plateformes de gestion de code, se basant uniquement sur l'historique local. Claude, quant à lui, utilise une grande partie du budget de tokens pour lire les demandes de fusion des développeurs humains. La nature fondamentale des modèles de pointe reste une machine efficace de validation d'ingénierie et d'ajustement de paramètres, dont l'évolution nécessite toujours que l'humain fournisse des indices précurseurs pour l'innovation algorithmique. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

9 J'aime

Récompense
9
2
2
Partager

Commentaire

Ajouter un commentaire

ReflectiveChainShadow

· Il y a 6h

La frontière de l'exposition expérimentale de deux semaines est plus précieuse que les résultats, en attendant la suite

Voir l'originalRépondre0

AirdropSideQuest

· Il y a 6h

La conclusion est très honnête : le modèle a besoin d'indices fournis par l'humain, l'innovation algorithmique n'a actuellement pas de solution.

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
287.54K Popularité
#
PlatinumCardCreatorExclusive
85.91K Popularité
#
IsraelStrikesIranBTCPlunges
48.67K Popularité
#
#DailyPolymarketHotspot
1.03M Popularité
#
GateSquarePizzaDay
1.76M Popularité

Épinglé

Brûler 14 000 heures de puissance de calcul H200, Claude Opus bat le record de nanoGPT

Sujets populaires

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Épinglé