1M AI Newsのモニタリングによると、AIクラウドプラットフォームのTogether AIは、強化学習に基づく推測デコーディング向けの適応フレームワークであるAuroraをオープンソース化した。推測デコーディングは、大規模モデル推論を高速化する主流の手法である。小さな「ドラフトモデル」によってトークン列を素早く予測し、その後、大きなモデルが並列にそれらを検証して、ヒットはそのまま採用し、ミスは再評価のために破棄する。問題は、ドラフトモデルがオフラインで学習された静的な製品である点にある。いったん本番トラフィックが変動(モデルのアップグレード、ユーザー層の変化、タスクタイプの切り替えなど)すると、予測精度は継続的に低下し、オフラインでの再学習はコストが高く、遅延も大きい。Auroraは推測デコーディングを強化学習の問題として再定義する。ドラフトモデルがポリシーとして機能し、大規模モデルの検証器が環境として働き、採用されたトークンは正の報酬、拒否されたトークンは負のフィードバックとなる。システムは、2つの疎結合コンポーネントから構成される。通常どおりリクエストを処理し、検証結果をバッファへストリーミングする推論サーバと、データを非同期に引き出してドラフトモデルの重みを更新し、稼働中のサービスを中断せずに推論側へホット入れ替えする学習サーバである。5つのドメイン(数学的推論、Text-to-SQL、コード生成、ファイナンス、一般的な対話)にまたがる40,000件の模擬トラフィックテストでは、トラフィックのドメインが切り替わった後、約10,000件で受け入れ長(acceptance lengths)を回復し、よく学習された静的なドラフトモデルに対して1.25倍のスピードアップを達成した。特に、Auroraはスクラッチからオンライン学習を行い、受け入れ長3.08を実現して、静的ベースラインの2.63および「事前学習してから微調整」ベースラインの2.99を上回った。スループットは302.3 tokens per secondで安定し、「推測デコーディングは大規模なオフライン事前学習に依存しなければならない」という既存の考え方に正面から挑戦している。エンドツーエンドテストでは、推測デコーディングによりQwen3-Coder-Next (FP8)でバッチサイズ1の場合に1.92倍のスピードアップが得られ、MiniMax M2.5 (FP8)では1.63倍だった。Auroraの前身であるATLASは、適応的なスペキュレーター(speculator)の基盤を築き、このアップグレードにより、完全に自律したクローズドループシステムが実現した。コードはGitHubでオープンソース化されている。
ドラフトモデルのオフライントレーニングはもう不要:Together AIが自己学習による推測デコーディングのためのAuroraをオープンソース化
1M AI Newsのモニタリングによると、AIクラウドプラットフォームのTogether AIは、強化学習に基づく推測デコーディング向けの適応フレームワークであるAuroraをオープンソース化した。推測デコーディングは、大規模モデル推論を高速化する主流の手法である。小さな「ドラフトモデル」によってトークン列を素早く予測し、その後、大きなモデルが並列にそれらを検証して、ヒットはそのまま採用し、ミスは再評価のために破棄する。問題は、ドラフトモデルがオフラインで学習された静的な製品である点にある。いったん本番トラフィックが変動(モデルのアップグレード、ユーザー層の変化、タスクタイプの切り替えなど)すると、予測精度は継続的に低下し、オフラインでの再学習はコストが高く、遅延も大きい。Auroraは推測デコーディングを強化学習の問題として再定義する。ドラフトモデルがポリシーとして機能し、大規模モデルの検証器が環境として働き、採用されたトークンは正の報酬、拒否されたトークンは負のフィードバックとなる。システムは、2つの疎結合コンポーネントから構成される。通常どおりリクエストを処理し、検証結果をバッファへストリーミングする推論サーバと、データを非同期に引き出してドラフトモデルの重みを更新し、稼働中のサービスを中断せずに推論側へホット入れ替えする学習サーバである。5つのドメイン(数学的推論、Text-to-SQL、コード生成、ファイナンス、一般的な対話)にまたがる40,000件の模擬トラフィックテストでは、トラフィックのドメインが切り替わった後、約10,000件で受け入れ長(acceptance lengths)を回復し、よく学習された静的なドラフトモデルに対して1.25倍のスピードアップを達成した。特に、Auroraはスクラッチからオンライン学習を行い、受け入れ長3.08を実現して、静的ベースラインの2.63および「事前学習してから微調整」ベースラインの2.99を上回った。スループットは302.3 tokens per secondで安定し、「推測デコーディングは大規模なオフライン事前学習に依存しなければならない」という既存の考え方に正面から挑戦している。エンドツーエンドテストでは、推測デコーディングによりQwen3-Coder-Next (FP8)でバッチサイズ1の場合に1.92倍のスピードアップが得られ、MiniMax M2.5 (FP8)では1.63倍だった。Auroraの前身であるATLASは、適応的なスペキュレーター(speculator)の基盤を築き、このアップグレードにより、完全に自律したクローズドループシステムが実現した。コードはGitHubでオープンソース化されている。