広場
最新
注目
ニュース
プロフィール
ポスト
AI自身で訓練コードを改良し、Recursiveリフレッシュによる三つのアルゴリズム最適化記録
MeNews
2026-06-11 17:21:49
フォロー
概要作成中
ME AI
メッセージ、動察 Beating 監測によると、AIスタートアップのRecursiveは、自社の研究システムの最初の実験結果を発表しました。システムは自動的にアイデアを提案し、コードを書き、実験を実行し、検証することができ、固定予算のトレーニング、NanoGPTの高速トレーニング、GPUカーネルの最適化の3つの基準で公開された最良の結果を超えています。実験は、目標が明確でフィードバックが迅速なタスクにおいて、システムが人間が見落とした最適化の余地を見つけられるようになったことを示しています。
制限時間5分のNanoChat Autoresearchトレーニングでは、システムは損失BPBを0.9109にまで検証し、同等の損失を達成するためのトレーニング時間を約23%短縮(速度向上1.3倍)しました。
重要な変更点は、短いコンテキストの記憶を強化し、二元および三元トークンの組み合わせをハッシュして固定の埋め込み表に格納し、その後、学習可能なゲートを通じてアテンション値の経路に混入させ、局所情報を非常に低コストで直接利用できるようにしたことです。
コミュニティによって2年以上最適化されているNanoGPT Speedrunでは、システムは指定された損失に到達するまでの時間を79.7秒から77.5秒に短縮しました。最適化手法には、FP8の前方計算をアテンション経路に進めてスループットを向上させることや、fused MLPカーネルを書き換え、平方ReLU活性化のみを保存し、逆伝播時に中間変数を再計算してメモリの読み書きを削減することが含まれます。
GPUカーネルの最適化基準SOL-ExecBenchでは、システムはNVIDIA B200上で平均SOLスコア(理論限界に達する割合)を0.699から0.754に向上させ、物理的限界との差を18%縮小しました。生成方案には、GRNのスケーリングを後続の線形層の重みに吸収させること、エキスパートルーティングのスコアとインデックスをペアにしてキー値にまとめ、warp内で規約を行うこと、NVFP4 MoEカーネルで底層のPTX命令を用いてFP4をパッケージ化し、中間計算でFP32を保持して誤差の蓄積を低減させることが含まれます。
AIの脆弱性を悪用した不正スコア付けを防ぐため、システムは多段階の正確性監査を導入し、無効な高速化をフィルタリングしています。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
MyGateTradeStory
79.26K 人気度
#
USMayCPIHitsThreeYearHigh
314.18K 人気度
#
IsraelStrikesIranBTCPlunges
57.29K 人気度
#
USIranConflictEscalates
711.66K 人気度
#
GateLaunchesHongKongStockTrading
674.54K 人気度
ピン留め
サイトマップ
AI自身で訓練コードを改良し、Recursiveリフレッシュによる三つのアルゴリズム最適化記録
制限時間5分のNanoChat Autoresearchトレーニングでは、システムは損失BPBを0.9109にまで検証し、同等の損失を達成するためのトレーニング時間を約23%短縮(速度向上1.3倍)しました。
重要な変更点は、短いコンテキストの記憶を強化し、二元および三元トークンの組み合わせをハッシュして固定の埋め込み表に格納し、その後、学習可能なゲートを通じてアテンション値の経路に混入させ、局所情報を非常に低コストで直接利用できるようにしたことです。
コミュニティによって2年以上最適化されているNanoGPT Speedrunでは、システムは指定された損失に到達するまでの時間を79.7秒から77.5秒に短縮しました。最適化手法には、FP8の前方計算をアテンション経路に進めてスループットを向上させることや、fused MLPカーネルを書き換え、平方ReLU活性化のみを保存し、逆伝播時に中間変数を再計算してメモリの読み書きを削減することが含まれます。
GPUカーネルの最適化基準SOL-ExecBenchでは、システムはNVIDIA B200上で平均SOLスコア(理論限界に達する割合)を0.699から0.754に向上させ、物理的限界との差を18%縮小しました。生成方案には、GRNのスケーリングを後続の線形層の重みに吸収させること、エキスパートルーティングのスコアとインデックスをペアにしてキー値にまとめ、warp内で規約を行うこと、NVFP4 MoEカーネルで底層のPTX命令を用いてFP4をパッケージ化し、中間計算でFP32を保持して誤差の蓄積を低減させることが含まれます。
AIの脆弱性を悪用した不正スコア付けを防ぐため、システムは多段階の正確性監査を導入し、無効な高速化をフィルタリングしています。
(出典:BlockBeats)