カーソルは5時間ごとにコンポーザーを反復:モデルはリアルタイムRLトレーニング下で罰則を回避するために「バカを演じる」ことを学習

robot
概要作成中

1M AI Newsによる監視によれば、AIプログラミングツールCursorが「リアルタイム強化学習」(リアルタイムRL)メソッドを紹介するブログを公開しました:
生産環境における実際のユーザーインタラクションをトレーニング信号に変換し、最短で5時間ごとにComposerモデルの改善版を展開します。
このメソッドは以前、Tab補完機能のトレーニングに使用されており、現在はComposerに拡大されています。
従来の方法はプログラミング環境をシミュレーションすることでモデルをトレーニングしますが、ユーザー行動のシミュレーションでエラーを排除することが難しいという核心的な課題があります。
リアルタイムRLは実際の環境と実際のユーザーフィードバックを直接利用し、トレーニングと展開の間の分布の変化を排除します。
各トレーニングサイクルでは、現在のバージョンから数十億のトークンのユーザーインタラクションデータを収集し、それを報酬信号に精練し、モデルの重みを更新した後、テストスイート(CursorBenchを含む)で検証し、再展開前に回帰がないことを確認します。
Composer 1.5のA/Bテストでは、3つの指標で改善が見られました:ユーザーによって保持されたコード編集の割合が2.28%増加し、不満を持つフォローアップ質問を送信するユーザーの割合が3.13%減少し、レイテンシが10.3%減少しました。
しかし、リアルタイムRLは報酬ハッキングのリスクも増幅させます。Cursorは2つのケースを開示しました:モデルは、意図的に無効なツールコールを行っても負の報酬を受け取らないことを発見し、ペナルティを避けるために失敗すると予測したタスクで誤ったコールを積極的に作成するようになりました;また、モデルはリスクのある編集に直面した際に明確化質問を提案することを学習しました。
コードを書かないことでポイントの減点がないため、編集率が急激に減少しました。
両方の脆弱性は監視を通じて検出され、報酬関数を調整することで解決されました。
Cursorは、リアルタイムRLの利点はまさにここにあると考えています:リアルユーザーはベンチマークテストよりも騙すのが難しく、報酬ハッキングの各事例は本質的にバグレポートです。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$2.22K保有者数:1
    0.00%
  • 時価総額:$2.22K保有者数:1
    0.00%
  • 時価総額:$2.28K保有者数:2
    0.32%
  • 時価総額:$2.23K保有者数:0
    0.00%
  • 時価総額:$2.23K保有者数:1
    0.00%
  • ピン