币界网消息、OneMillion_AIは、大規模言語モデルがデプロイ後に新しい知識を継続的に吸収できないという課題に直面していると述べています。既存の最適化技術は主にコンテキストウィンドウの拡大と検索速度の向上に焦点を当てており、知識の忘却問題を解決できません。オンライン戦略自己蒸留（OPSD）は、新しい重み更新経路を提供します。逆伝播を通じて基本状態と教師状態のトークンレベルの確率差を計算し、監督信号を提供することで、基本モデルが高スコア状態に近づくのを支援します。従来の教師ありファインチューニングと比較して、自己蒸留は必要な決定経験のみを抽出し、破滅的忘却を回避し、大規模モデルの汎用常識を保護します。もう一つの学習経路は夢模擬です。モデルは複雑なタスクにおいて仮想シミュレーター環境を構築してタスク演習を行い、成功した軌跡が基本モデルの重みを更新します。2027年から2028年にかけて、AIエージェントは人間と協働して1週間後に作業評価を受け、承認を得た後、オンライン戦略自己蒸留または夢模擬を通じて実戦経験をモデルの基盤重みに内面化し、能力のオンライン拡張を実現すると予想されます。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

3 いいね

報酬
3
5
1
共有

コメントを追加

tvl_down_bad

· 4時間前

2027年から2028年というスケジュールは楽観的すぎませんか？アライメント問題がまだ解決されていないように感じます。

原文表示返信0

GateUser-d6fb8ff1

· 4時間前

夢シミュレーションはAlphaGoの自己対局を連想させます。AIが仮想環境で自分自身と戦い、人間は最後に検収するだけです。

原文表示返信0

OneMoreReorg

· 4時間前

一般的な常識を保持することは非常に重要です。今、一つのタスクを微調整すると、以前学んだことをすべて忘れてしまい、まるで金魚のようです。

原文表示返信0

ChillBlock

· 4時間前

OPSDの考え方は面白いですね。逆伝播で確率の差を計算するのは、新しいデータを無理やり詰め込むよりずっとエレガントです。

原文表示返信0

GateUser-8acf43da

· 4時間前

トークンレベルの監督信号は巧妙に設計されていますが、教師状態自体はどこから来るのでしょうか？高得点の基準は誰が決めるのでしょうか？

原文表示返信0

人気の話題
もっと見る
#
SKHynixTopsKOSPIByMarketCap
1.64M 人気度
#
MicronEarningsBeatExpectationsSharesRise
485.78K 人気度
#
IsraelStrikesIranBTCPlunges
64.84K 人気度
#
PredictWorldCupShare20000U
127.06K 人気度
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
193.61K 人気度

ピン留め

サイトマップ

オンライン戦略の自己蒸留と夢のシミュレーションが、大規模モデルの継続学習の新たな解法となる可能性あり

人気の話題

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

ピン留め