Lofli : Les grands modèles entrent dans l'ère post-entraînement, avec un rapport de puissance de pré-entraînement et de post-entraînement de 1:1 pour les équipes de pointe

robot
Création du résumé en cours

Actualités ME News, le 24 avril (UTC+8), selon le monitoring de Dongcha Beating, Luo Fuli, responsable de l’équipe du grand modèle de Xiaomi, a indiqué que la compétition sur les grands modèles est passée d’une ère dominée par la pré-formation de Chat à une ère dominée par l’Agent après la formation (Post-train). Le point clé actuel est « comment faire une mise à l’échelle efficace de l’apprentissage par renforcement (RL) sur l’Agent ». Ce changement de paradigme entraîne directement une reconstruction de l’allocation des ressources de calcul. Luo Fuli a révélé qu’à l’époque de Chat, la proportion de puissance de calcul utilisée pour la recherche, la pré-formation et la post-formation était d’environ 3:5:1 ; tandis qu’à l’ère actuelle de l’Agent, la répartition raisonnable des ressources de calcul est devenue 3:1:1, c’est-à-dire que l’investissement en puissance de calcul pour la pré-formation et la post-formation est désormais à peu près équivalent, et que les meilleures équipes de modèles investissent désormais dans ces deux aspects à un ratio de 1:1. Par ailleurs, les exigences en matière d’architecture système ont également énormément changé. L’infrastructure RL précédente était principalement centrée sur « le moteur d’inférence du modèle », traitant des calculs en texte pur ; la nouvelle infrastructure doit être centrée sur « l’Agent », supportant la planification de clusters hétérogènes, et capable de tolérer l’interruption de l’Agent dans des flux de travail complexes en raison de divers facteurs incontrôlables. (Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler