罗福莉:L'ère de l'après-entraînement pour les grands modèles, le rapport de puissance de calcul entre pré-entraînement et post-entraînement dans les équipes de pointe atteint 1:1.

robot
Création du résumé en cours
ME News Message, 24 avril (UTC+8), selon le suivi de Beating, Luo Fuli, responsable de l'équipe du grand modèle de Xiaomi, a souligné que la concurrence des grands modèles est passée de l'ère Chat dominée par le pré-entraînement à l'ère Agent dominée par le post-entraînement (Post-train). Le point clé actuel est « comment réaliser le scaling de l'apprentissage par renforcement (RL) sur l'Agent ». Ce changement de paradigme entraîne directement une restructuration de l'allocation des ressources de calcul. Luo Fuli a révélé qu'à l'ère Chat, la proportion des ressources de calcul allouées à la recherche, au pré-entraînement et au post-entraînement était d'environ 3:5:1 ; tandis qu'à l'ère Agent actuelle, la proportion raisonnable d'allocation des ressources de calcul devient 3:1:1, c'est-à-dire que les investissements en calcul pour le pré-entraînement et le post-entraînement sont désormais à peu près équivalents. Actuellement, les équipes de modèles de pointe ont déjà atteint un ratio de 1:1 pour ces deux aspects. En même temps, les exigences en matière d'architecture système ont également subi des changements majeurs. L'infrastructure RL précédente était principalement centrée sur le « moteur d'inférence de modèle », traitant des calculs de texte pur ; l'infrastructure actuelle doit être centrée sur l'« Agent », capable de supporter l'ordonnancement de clusters hétérogènes et de tolérer l'ambiguïté des interruptions causées par divers facteurs incontrôlables dans les workflows complexes des Agents. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé