動察 Beating の監測によると、Cursor は Composer シリーズモデルのトレーニング技術の一つを公開しました:前世代のモデルを使って次世代の強化学習(RL)の自動環境構築を行う方法です。Composer 2 のトレーニング時に、Cursor は Composer 1.5 を用いてこの作業を行い、これを autoinstall と呼びます。RL のトレーニングには動作可能なコード環境が必要です。環境が整わないと、モデルはトークンをバグ修正に浪費し、学習効果が得られません;極端な場合、環境が全く動作しなくなると、全トレーニングの計算資源が無駄になります。autoinstall はこの問題を二段階で解決します:第一段階では、エージェントがコードベースのドキュメントと設定を読み取り、10個の検証コマンドとその期待出力を提案します;第二段階では、別のエージェントがその中から3つのコマンドを選び、ゼロから環境を設定してコマンドを実行できる状態にします。第二段階は最大5回リトライし、すべて失敗した場合はその環境を破棄します。環境構築の過程で、エージェントは不足している依存関係を積極的に補います:偽のデータベーステーブルを作成したり、S3の代わりにMinIO設定を作ったり、Dockerコンテナを起動してサイドカーサービスを模倣したり、さらにはプレースホルダー画像を生成したりします。ブログ記事では、ブロックチェーンプロジェクトの celo-org/celo-monorepo を例に、全工程をデモンストレーションしています。エージェントは最初の環境構築失敗後、二回目には認証を回避するためにモックユーザーを自動作成し、最終的にテストを成功させました。Composer 2 は Terminal-Bench(モデル構築・開発環境の能力を測るベンチマーク)で 61.7% の得点を獲得し、Composer 1.5 の 47.9% より約14ポイント高い結果となっています。Cursor は今後、旧版の Composer をより多くのトレーニング工程に参加させる計画を示しており、データ前処理、運用管理、アーキテクチャの調整などを含める予定です。
Cursorが「ブートストラップ」トレーニング法を公開:旧Composerを使って新モデルに環境を構築、Terminal-Benchが14ポイント向上
動察 Beating の監測によると、Cursor は Composer シリーズモデルのトレーニング技術の一つを公開しました:前世代のモデルを使って次世代の強化学習(RL)の自動環境構築を行う方法です。Composer 2 のトレーニング時に、Cursor は Composer 1.5 を用いてこの作業を行い、これを autoinstall と呼びます。RL のトレーニングには動作可能なコード環境が必要です。環境が整わないと、モデルはトークンをバグ修正に浪費し、学習効果が得られません;極端な場合、環境が全く動作しなくなると、全トレーニングの計算資源が無駄になります。autoinstall はこの問題を二段階で解決します:第一段階では、エージェントがコードベースのドキュメントと設定を読み取り、10個の検証コマンドとその期待出力を提案します;第二段階では、別のエージェントがその中から3つのコマンドを選び、ゼロから環境を設定してコマンドを実行できる状態にします。第二段階は最大5回リトライし、すべて失敗した場合はその環境を破棄します。環境構築の過程で、エージェントは不足している依存関係を積極的に補います:偽のデータベーステーブルを作成したり、S3の代わりにMinIO設定を作ったり、Dockerコンテナを起動してサイドカーサービスを模倣したり、さらにはプレースホルダー画像を生成したりします。ブログ記事では、ブロックチェーンプロジェクトの celo-org/celo-monorepo を例に、全工程をデモンストレーションしています。エージェントは最初の環境構築失敗後、二回目には認証を回避するためにモックユーザーを自動作成し、最終的にテストを成功させました。Composer 2 は Terminal-Bench(モデル構築・開発環境の能力を測るベンチマーク)で 61.7% の得点を獲得し、Composer 1.5 の 47.9% より約14ポイント高い結果となっています。Cursor は今後、旧版の Composer をより多くのトレーニング工程に参加させる計画を示しており、データ前処理、運用管理、アーキテクチャの調整などを含める予定です。