ME AI Message, selon la surveillance Beating, Prime Intellect a publié la version 0.6.0 du cadre d'entraînement par apprentissage par renforcement distribué prime-rl, ayant surmonté le seuil d'entraînement en RL pour le modèle hybride d'experts à un billion de paramètres MoE dans des tâches d'agents à contexte ultra-long.
Les grands modèles pouvant lire des textes ultra-long de 256k ne sont pas rares, mais lors de l'entraînement en apprentissage par renforcement, afin que le modèle puisse effectuer des exercices de raisonnement par essais et erreurs de manière autonome, la mémoire vidéo doit conserver en permanence les valeurs d'activation intermédiaires volumineuses sur une longueur de 131k, ce qui entraîne une explosion des coûts de mémoire vidéo par centaines ou milliers de fois.
Auparavant, cela nécessitait un grand cluster de milliers de cartes graphiques, mais prime-rl 0.6.0 a permis à seulement 28 serveurs H200 d'exécuter l'entraînement RL en contexte 131k de GLM-5, avec un temps par étape contrôlé en moins de 5 minutes.
Pour résoudre le problème de tâches longues et rares comme la génération de code complexe, qui bloquent le rythme global en raison de leur durée, et causent une inactivité prolongée des ressources GPU, le cadre a rompu avec le mécanisme traditionnel d'attente synchrone, adoptant une architecture RL asynchrone complètement découplée.
Après le calcul des nouveaux poids, le formateur en arrière-plan n'a pas besoin d'attendre la fin des tâches d'essais et erreurs en cours, et peut directement déployer en temps réel les mises à jour pendant la génération de texte du modèle.
Les tâches déjà distribuées continuent d'utiliser l'ancienne stratégie pour garantir la vitesse, tandis que les nouvelles tâches injectent un cache KV-salé pour forcer la reconstruction du cache.
Pour éviter que la désynchronisation entre entraînement et inférence dans la mise à jour asynchrone ne cause une confusion logique du modèle, le cadre introduit la technologie de routage et de reproduction R3, traitant directement la distribution des experts au niveau inférieur, évitant ainsi la latence système causée par la conversion des données, et réduisant le désalignement entre les deux extrémités à un dixième, stabilisant grandement l'entraînement asynchrone.
En termes d'optimisation des ressources, le cadre a résolu de manière approfondie le problème de la saturation de la mémoire GPU par de longs textes grâce à une conception fine.
L'inférence adopte une architecture séparant lecture et écriture, empêchant un grand modèle de se bloquer lors de la lecture d'une grande quantité de contexte, ce qui pourrait interrompre la génération de texte suivante ;
il partage également la connaissance des experts entre plusieurs GPU, et utilise la technologie Mooncake pour assembler la mémoire et le disque inutilisés de plusieurs serveurs en un cache partagé.
Pour le calcul parallèle de textes ultra-longs, en tenant compte du mécanisme d'attention creuse DSA unique de GLM-5, le cadre a conçu une solution parallèle dédiée, garantissant que le modèle puisse avoir une vue d'ensemble tout en réduisant la communication de données entre chaque couche de GPU à une seule fois.
Du côté de l'entraînement, il combine DeepGEMM pour réaliser le entraînement en FP8 à mise à l'échelle par blocs proposé par DeepSeek V3, permettant d'utiliser la même précision et le même noyau de calcul pour l'entraînement et l'inférence, éliminant fondamentalement les crashs dus aux déviations de précision.
(Origine : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
SKHynixTopsKOSPIByMarketCap
145,16K Popularité
#
GateStocks7x24Trading
8,76M Popularité
#
IsraelStrikesIranBTCPlunges
62,23K Popularité
#
PredictWorldCup🇺🇸vs🇵🇾
910,82K Popularité
#
TradFiCFDGoldMaster
2,07M Popularité

Épinglé

Franchir le seuil des modèles de grande taille de plus de mille milliards de paramètres en apprentissage par renforcement : l'open source prime-rl permet à 28 serveurs d'entraîner 131k contextes

Sujets populaires

SKHynixTopsKOSPIByMarketCap

GateStocks7x24Trading

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Épinglé