ロフリー:大規模モデルは後訓練時代に入り、トップチームの事前訓練と後訓練の計算能力比は1:1になった

robot
概要作成中

MEニュース 4月24日(UTC+8)、動察Beatingの監視によると、小米の大規模モデルチーム責任者の羅福莉は、大規模モデルの競争は事前学習主導のChat時代から、完全に後訓練(Post-train)主導のエージェント時代に移行したと指摘した。現在の核心の焦点は「エージェント上で強化学習(RL)のスケーリングをいかに行うか」である。このパラダイムシフトは、計算資源の配分の再構築を直接引き起こしている。羅福莉は、Chat時代には研究、事前学習、後訓練に使われる計算資源の比率がおよそ3:5:1であったと明らかにした。一方、現在のエージェント時代では、合理的な計算資源の配分比率は3:1:1に変わり、事前学習と後訓練の計算投入はほぼ同等となっている。現在、トップレベルのモデルチームはこの二つの投入比率を1:1にまで高めている。 同時に、システムアーキテクチャの要求も大きく変化している。過去のRL基盤は主に「モデル推論エンジン」を中心としており、純粋なテキスト演算を処理していたが、今のインフラは「エージェント」を中心に据え、異種クラスターのスケジューリングをサポートし、複雑なワークフローの中でさまざまな不可抗力による中断の曖昧さを許容できる必要がある。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン