L'équipe du grand modèle de Xiaomi a déclaré que la compétition est passée de l'ère du chat principalement basé sur la préformation à l'ère des agents principalement axée sur la formation ultérieure, le cœur étant la mise à l'échelle de l'apprentissage par renforcement sur les agents. La répartition des calculs est passée de 3:5:1 (recherche / préformation / post-formation) à 3:1:1, les deux premières étant à peu près équivalentes, et les équipes de pointe atteignent déjà 1:1. L'infrastructure est également passée d'un moteur d'inférence centré, à un centre d'agents, nécessitant de supporter la planification de clusters hétérogènes et de tolérer les interruptions incontrôlables des agents dans le flux de travail.

MeNews

2026-04-24 06:20:36

Création du résumé en cours

Actualités ME News, le 24 avril (UTC+8), selon le monitoring de Dongcha Beating, Luo Fuli, responsable de l’équipe du grand modèle de Xiaomi, a indiqué que la compétition sur les grands modèles est passée d’une ère dominée par la pré-formation de Chat à une ère dominée par l’Agent après la formation (Post-train). Le point clé actuel est « comment faire une mise à l’échelle efficace de l’apprentissage par renforcement (RL) sur l’Agent ». Ce changement de paradigme entraîne directement une reconstruction de l’allocation des ressources de calcul. Luo Fuli a révélé qu’à l’époque de Chat, la proportion de puissance de calcul utilisée pour la recherche, la pré-formation et la post-formation était d’environ 3:5:1 ; tandis qu’à l’ère actuelle de l’Agent, la répartition raisonnable des ressources de calcul est devenue 3:1:1, c’est-à-dire que l’investissement en puissance de calcul pour la pré-formation et la post-formation est désormais à peu près équivalent, et que les meilleures équipes de modèles investissent désormais dans ces deux aspects à un ratio de 1:1. Par ailleurs, les exigences en matière d’architecture système ont également énormément changé. L’infrastructure RL précédente était principalement centrée sur « le moteur d’inférence du modèle », traitant des calculs en texte pur ; la nouvelle infrastructure doit être centrée sur « l’Agent », supportant la planification de clusters hétérogènes, et capable de tolérer l’interruption de l’Agent dans des flux de travail complexes en raison de divers facteurs incontrôlables. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
136.58K Popularité
#
CryptoMarketSeesVolatility
206.93K Popularité
#
IsraelStrikesIranBTCPlunges
30.82K Popularité
#
rsETHAttackUpdate
60.16K Popularité
#
US-IranTalksStall
163.91K Popularité

Épingler

Lofli : Les grands modèles entrent dans l'ère post-entraînement, avec un rapport de puissance de pré-entraînement et de post-entraînement de 1:1 pour les équipes de pointe

Sujets populaires

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Épingler