動察 Beating 監測によると、Cursor は Composer シリーズモデルのトレーニングテクニックの一つを公開しました:前世代のモデルを使って次世代の強化学習(RL)のために自動的に動作環境を構築する方法です。Composer 2 のトレーニング時、Cursor は Composer 1.5 を用いてこの作業を行い、これを autoinstall と呼びます。RL のトレーニングには動作可能なコード環境が必要です。環境が整わないと、モデルはトークンをバグ修正に無駄に使い、学習効果が得られません;極端な場合、環境が全く動作しなくなり、トレーニング全体の計算資源が無駄になります。autoinstall はこの問題を二段階で解決します:第一段階では、エージェントがコードリポジトリのドキュメントと設定を読み取り、検証コマンドとその期待出力を10個提案します;第二段階では、別のエージェントがその中から3つのコマンドを選び、ゼロから環境を構築してコマンドを実行できる状態にします。第二段階は最大5回リトライし、すべて失敗した場合はその環境を破棄します。環境構築の過程で、エージェントは不足している依存関係を積極的に補います:偽のデータベーステーブルを作成したり、S3の代わりに MinIO の設定を作成したり、Docker コンテナをサイドカーサービスとして起動したり、さらにはプレースホルダー画像を生成したりします。この全工程を、ブロックチェーンプロジェクトの celo-org/celo-monorepo を例に示し、エージェントが最初の環境構築失敗後に、二回目には認証を回避するためのモックユーザーを自動作成し、最終的にテストを成功させる様子を解説しています。Composer 2 は Terminal-Bench(モデル構築・開発環境の能力を測るベンチマーク)で 61.7% の得点を獲得し、Composer 1.5 の 47.9% より約 14ポイント高い結果を出しました。Cursor は今後、旧版の Composer もより多くのトレーニング工程に参加させる計画を示しており、データ前処理、運用管理、アーキテクチャの調整などを含める予定です。
Cursorが「ブートストラップ」トレーニング法を公開:旧Composerを使って新モデルに環境を構築、Terminal-Benchが14ポイント向上
動察 Beating 監測によると、Cursor は Composer シリーズモデルのトレーニングテクニックの一つを公開しました:前世代のモデルを使って次世代の強化学習(RL)のために自動的に動作環境を構築する方法です。
Composer 2 のトレーニング時、Cursor は Composer 1.5 を用いてこの作業を行い、これを autoinstall と呼びます。
RL のトレーニングには動作可能なコード環境が必要です。環境が整わないと、モデルはトークンをバグ修正に無駄に使い、学習効果が得られません;極端な場合、環境が全く動作しなくなり、トレーニング全体の計算資源が無駄になります。
autoinstall はこの問題を二段階で解決します:第一段階では、エージェントがコードリポジトリのドキュメントと設定を読み取り、検証コマンドとその期待出力を10個提案します;第二段階では、別のエージェントがその中から3つのコマンドを選び、ゼロから環境を構築してコマンドを実行できる状態にします。
第二段階は最大5回リトライし、すべて失敗した場合はその環境を破棄します。
環境構築の過程で、エージェントは不足している依存関係を積極的に補います:偽のデータベーステーブルを作成したり、S3の代わりに MinIO の設定を作成したり、Docker コンテナをサイドカーサービスとして起動したり、さらにはプレースホルダー画像を生成したりします。
この全工程を、ブロックチェーンプロジェクトの celo-org/celo-monorepo を例に示し、エージェントが最初の環境構築失敗後に、二回目には認証を回避するためのモックユーザーを自動作成し、最終的にテストを成功させる様子を解説しています。
Composer 2 は Terminal-Bench(モデル構築・開発環境の能力を測るベンチマーク)で 61.7% の得点を獲得し、Composer 1.5 の 47.9% より約 14ポイント高い結果を出しました。
Cursor は今後、旧版の Composer もより多くのトレーニング工程に参加させる計画を示しており、データ前処理、運用管理、アーキテクチャの調整などを含める予定です。