Laissez l'IA modifier elle-même le code d'entraînement, rafraîchissement récursif des trois algorithmes d'optimisation des records

robot
Création du résumé en cours
ME AI Message, selon le monitoring de Beating, la startup d'IA Recursive a publié les premiers résultats expérimentaux de son système de recherche scientifique.
Le système peut proposer automatiquement des idées, écrire du code, exécuter des expériences et effectuer des vérifications, surpassant tous les résultats de référence dans trois benchmarks : entraînement à budget fixe, entraînement ultra-rapide NanoGPT et optimisation du kernel GPU.
Les expériences montrent que, dans des tâches avec des objectifs clairs et des retours rapides, le système a déjà identifié des espaces d’optimisation que l’humain aurait manqués.
Lors de l’entraînement NanoChat Autoresearch limité à 5 minutes, le système a réduit la perte de validation BPB à 0,9109, raccourcissant d’environ 23 % le temps d’entraînement pour atteindre une perte équivalente (accélération de 1,3 fois).
La modification clé consiste à renforcer la mémoire à court terme en hachant des combinaisons de tokens binaires et ternaires dans une table d’embedding fixe, puis en intégrant un mécanisme de porte apprenable dans le chemin de la valeur d’attention, permettant d’utiliser directement des informations locales à très faible coût.
Dans le Speedrun NanoGPT, optimisé par la communauté depuis plus de deux ans, le temps pour atteindre une perte cible est passé de 79,7 secondes à 77,5 secondes.
Les méthodes d’optimisation incluent l’accélération du calcul FP8 en amont du chemin d’attention pour augmenter le débit, ainsi que la réécriture du kernel MLP fusionné, ne conservant que la ReLU au carré et recalculant les variables intermédiaires lors de la rétropropagation pour réduire la lecture/écriture de la mémoire vidéo.
Dans le benchmark d’optimisation des kernels GPU SOL-ExecBench, le système a amélioré le score moyen SOL (rapport avec la limite théorique) sur le NVIDIA B200 de 0,699 à 0,754, réduisant l’écart avec la limite physique de 18 %.
Les solutions incluent l’intégration de la mise à l’échelle GRN dans les poids des couches linéaires suivantes, le regroupement des scores et indices de routage expert en paires clé-valeur pour la réduction intra-warp, et l’utilisation d’instructions PTX de bas niveau dans le kernel NVFP4 MoE pour packager FP4, tout en conservant FP32 lors des calculs intermédiaires pour réduire l’accumulation d’erreurs.
Pour prévenir la triche par exploitation de vulnérabilités AI, le système introduit une vérification de la correction à plusieurs niveaux afin de filtrer les accélérations invalides.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé