誰が最もClaude Codeを使いこなすのか?答えはおそらくプログラマーではない

> 原文タイトル:Agentic coding and persistent returns to expertise
> 原文作者:Anthropoic
> 编译:Peggy
>

編者注:このレポートは約40万回のClaude Code会話に基づき、AIプログラミングツールが人とコードの関係をどのように変えているかを議論している。

記事の最も核心的な発見は:エージェントプログラミングにおいて、人間は主に「何をするか」を決定し、Claudeは主に「どうやって行うか」を担当していること。ユーザーは大部分の計画決定を担い、Claudeは大部分の実行作業を行う。つまり、AIはコードを書く、ファイルを修正する、コマンドを実行する、デバッグするなどの実現段階を引き受けているが、目標設定や結果判断は依然として人に依存している。

さらに重要なのは、Claude Codeの使用効果は、ユーザーがプログラマーかどうかだけに依存しないこと。レポートによると、コード生成のタスクにおいて、法律、金融、管理、研究などの非技術職のユーザーの成功率はすでにソフトウェアエンジニアに近づいている。結果に最も影響を与えるのは、ユーザーが解決すべき問題を理解しているかどうかである。

これは、AIプログラミングが実現のハードルを下げる一方で、判断のハードルを下げているわけではないことを意味する。将来的には、ビジネスやシナリオを理解し、ニーズや結果を明確に提示できる人が、単にコードを書ける人よりもAIを効果的に使える可能性が高い。AIは分野知識を自動的に置き換えるものではなく、むしろ分野知識の価値を拡大する。

以下は原文です。

重要な発見

既存の研究を踏まえ、我々はインタラクティブなエージェントプログラミングを研究するためのフレームワークを提案する。このフレームワークは、2025年10月から2026年4月までの約40万回のClaude Code会話のプライバシー保護分析に基づき、タスクの構成、人間とAIの協働方式、成功率を評価している。

典型的な会話の中で、人間は大部分の計画決定、すなわち「何をするか」を担当し、Claudeは大部分の実行決定、すなわち「どうやってやるか」を担当する。特定分野の専門知識が高いほど、各指示によってClaudeが行う作業量は増える。コーディングタスクにおいて、主要な職業群の平均成功率――すなわち、ユーザーが意図したことを完了し、テストやコード提出などの検証証拠を得ている割合――は、ほぼソフトウェアエンジニアと同等である。

ユーザーの分野専門能力が高いほど、会話は成功に近づく可能性が高い。ただし、中級者とエキスパートの差はそれほど大きくない。我々が観察した7か月間で、デバッグに使われる会話の割合はほぼ半減し、使い方もエンドツーエンドのインテリジェントエージェントの利用にシフトしている:コードの展開と実行、データ分析、非コードドキュメントの作成などだ。

この7か月間で、典型的なタスクの価値はほぼすべての職種で上昇した。自由職業の求人情報と比較して、タスクの価値の平均上昇率は約25%である。

序論

エージェントプログラミングは急速に台頭している。2025年末以降、GitHubのプロジェクトにおいてコーディングエージェントの活動比率は倍増し、Claude Codeのユーザーは平均して週20時間このツールを使用している。未経験者が複雑な技術作業をエージェントに指示できるのか?これらのツールの迅速な採用と能力向上は、より広範な知識労働にどのような影響を与えるのか?我々は完全な答えを持たないが、Claude Codeの使用データからいくつかの早期兆候を見て取れる。

本レポートは、2025年10月から2026年4月までの約23.5万人のユーザーと約40万回のインタラクティブ会話のプライバシー保護分析に基づき、Claude Codeの実際の使用状況の証拠を提供する。これまでのClaude Code会話における自主性指標や、Claude CodeがAnthropic内部の働き方をどう変えているかに関する研究を継続している。本稿では、インタラクティブAIプログラミングアシスタントの利用状況を記述するフレームワークを提案する:人々は何をしているのか、誰がそれを行っているのか、そして仕事は成功しているのか。特に、コマンドラインインターフェース(CLI)、Claude.ai、またはClaude Codeデスクトップアプリを通じてClaude Codeを使用する状況に注目する。モデル能力の向上に伴い、エージェントプログラミングの利用方法がどのように変化しているかを追跡することで、これらのツールがプログラミング専門家や知識労働者の労働市場に与える影響を理解できる。

Claude Codeで起きていることは、知識労働の未来を予示しているかもしれない:エージェントは次第に非コーディング作業に埋め込まれていく。私たちは、Claudeがより複雑で価値の高いタスクを処理していることを発見した。同時に、エージェントプログラミングには明確な労働分担が存在している:人間は何を構築するかを決め、エージェントはどうやって構築するかを決める。

また、ツールの効果を拡大するのは、プログラミング熟練度ではなく、むしろ分野の専門知識である証拠も見つかった。特に、専門家は成功しやすく、誤りや誤解からの回復も早い。ただし、エキスパートと中級者の差はそれほど大きくない。これは、特定分野に十分な熟練度があれば、深い専門家とほぼ同じようにこれらのツールを効果的に使えることを示している。

これらの発見により、労働市場の潜在的な変化を初期的に観察できる。私たちのデータでは、成功は本人が解決すべき問題を理解しているかどうかに依存しており、プログラミング訓練の有無にはあまり関係しない。もしこれらのパターンが経済全体に当てはまるなら、エージェントプログラミングツールは、一部の実現志向の仕事を吸収しつつも、実際に問題を理解している人を評価する仕組みになっていることを意味する。コードエージェントは分野知識を置き換えるのではなく、むしろその価値を増幅させる。分野の理解を深めるほど、エージェントはより高品質な仕事をこなせる。分野の理解が乏しい人は、同じツールを使っても得られる成果は少なくなる。利益は、熟練度ではなく、理解と判断に依存している。

労働分業

人々がClaude Codeを使う目的

人々の使い方を理解するために、各会話を最もよく表す単一の活動に分類した。その中で、コードの作成や保守に直接関わるのは4つのモード:新規構築、破損修復、テスト、他のインテリジェントエージェントや自動化パイプラインの調整。もう一つはソフトウェア操作:展開、設定、パイプラインの実行、システム監視。さらに、「何をすべきか」を理解するための2つのモード:既存システムの動作理解と、変更前の計画立案。最後の2つはコードに関係しない、またはコードは補助的な役割を果たす:データ分析と、プレゼンテーションや文章によるコミュニケーション。

約56%の会話は、コード作成(25%)、コード修復(26%)、またはテスト・調整(5%)で構成される。ソフト操作は17%、計画・探索は14%、分析や文章作成は13%(図1参照)である。

> 図1:九つの作業モード。各インタラクティブ会話は、その目的を最もよく表す単一の作業モードに分類される。

まずモデルに会話記録を読ませ、それに基づいて分類を行う。その後、我々のプライバシー保護分析ツールを用いて、分類結果と各会話のリモートテレメトリーデータ(コードの追加・削除の有無など)をクロス検証する。両者は高い一致を示す。例えば、コードの作成や修正と分類された会話のうち、90%以上がリモートテレメトリーデータにもコードの変更を示している。詳細は付録参照。

誰が決定を下すのか

Claude Codeの自主性はどの程度か?能力評価は、その上限がすでに高く、なお上昇中であることを示している。例えば、METRの時間範囲評価などのベンチマークでは、最先端モデルはもはや人間が数時間かかるソフトウェア作業を自律的に完了し、途中で障害を克服できるレベルに達している。しかし、実際の使用ではどうか?ここでは、実際の会話において、人間とClaudeがどれだけ誘導を担っているかに焦点を当てる。

この問題を二つの観点から調査する。第一に、どの程度人々が決定をClaudeに委ねているか。第二に、どれだけの行動をClaudeに割り当てているか。会話の決定分担を理解するために、会話内容に基づきプライバシー保護の決定帰属分類器を構築した。分類器には、会話中のすべての意味のある決定を列挙させ、それらを計画決定と実行決定に分ける。計画決定には、「何をするか」「どの方法を採用するか」「何をもって完了とみなすか」が含まれ、実行決定には、「どのファイルを修正するか」「何のコードを書くか」「どの言語で書くか」「どのコマンドを実行するか」が含まれる。次に、分類器は各決定をClaudeまたはユーザーに帰属させ、各会話について、ユーザーが担った計画決定の割合と実行決定の割合の二つの数値を生成する。

平均して、人間は約70%の計画決定を行うが、実行決定は20%にとどまる(図2参照)。実際の使用では、エージェントプログラミングは明確な労働分担を形成している:人間は何を構築するかを決め、エージェントはどうやって構築するかを決める。

会話中の行動の委任度を理解するために、内容ではなく会話の構造を見る。Claude Codeの会話は、Claudeとユーザーのやりとりからなる:ユーザーがプロンプトを送り、Claudeが動作を行い、その後ユーザーが次のプロンプトを送る、という繰り返しだ。典型的な会話では、こうしたラウンドは約4回。2025年10月から2026年4月までのデータでは、ユーザーが1つのプロンプトを送ると、平均してClaudeは約10の動作を行い、時には100を超えることもある。各ラウンドで、Claudeはファイルを読む、コードを編集する、コマンドを実行するなどし、平均して2,400語を出力する。

Claudeがユーザーの確認の間にどれだけ仕事を進めるかは、誰が決定を下すかに大きく依存する。ユーザーが実行過程をコントロールしている場合、すなわち80%以上の実行決定をユーザーが担うと、Claudeの1ラウンドあたりの動作数は少なく、約8個となる。一方、Claudeが計画のコントロールを握る場合、すなわち80%以上の計画決定をClaudeが行うと、その動作数は最大の約16個に達する。

> 図2:Claudeの計画決定と実行決定に占める割合。会話中の計画決定(何をするか)と実行決定(どうやってやるか)が、Claudeに帰属する割合を示す。典型的な会話では、ユーザーが約70%の計画決定を行い、Claudeは約80%の実行決定を担う。

専門レベル

各会話記録に基づき、Claudeはユーザーの表面的な専門レベルを、初心者からエキスパートまでの五段階で評価する。専門レベル分類器は、次の三つの信号に注目する:ユーザーの指示の正確さ、ユーザーがClaudeに何を検証させるか、そしてユーザーがClaudeを訂正する頻度と、Claudeがユーザーを訂正する頻度。ここでの専門レベルは、職位や一般的な能力とは全く異なる概念であり、重要なのは、特定のタスクに対してのものであることだ。経験豊富なエンジニアがRustの質問を初めてした場合、そのタスクでは初心者とみなされる可能性がある。会計士がPythonを一度も使ったことがなくても、Claudeに特定のPythonスクリプトの会計ルールを正確に伝え、月末の決算時の誤処理の境界条件を把握できれば、そのタスクのエキスパートとみなせる。

表1は、分類器が定義した各レベルの専門性の基準と、公開されたコーディングエージェント会話データセットSWE-chatの例示リクエストを示す。 「初心者」と分類された会話は、一般的な指示であり、特定の分野知識を示さない。一方、「エキスパート」と分類された会話は、コードベースや技術環境に深い理解を示している。

> 表1:専門レベル分類器。実際の会話を改変・匿名化・圧縮した例。これらの会話は、我々の分類器によってラベル付けされた。多くの例は、公開されたエージェントプログラミング会話データセットSWE-chatからのもの。

我々は、専門レベルとClaudeの各指示による出力や活動量の関係を定量化した。典型的な初心者会話では、各指示がClaudeに約5つの動作を引き起こし、約600語を出力する。一方、エキスパート会話では、動作の連鎖長は2倍以上になり、約12動作、出力は約3,200語に達し、初心者の5倍となる(図3参照)。この初心者とエキスパートの差は、すべての作業タイプとタスク価値区分において見られる。

これらの指標は、以前のClaude Codeの自主性に関する研究を補完するものである。以前の研究は、エージェントの稼働時間や、ユーザーがどれだけ頻繁に自動的に承認しているかを追跡していた。一方、我々の決定帰属指標は、会話全体において誰が実質的な決定を下しているかを捉え、各指示による出力や動作数は、人間の指示がClaudeにどれだけ自主的な活動を引き起こすかを示す。

> 図3:より専門的なユーザーに対して、Claudeは各指示でより多くの作業を完了させる。専門レベルが高いほど、Claudeが1指示あたりに行う動作数(左の棒グラフ)と出力量(右の棒グラフ)が増加。箱は四分位範囲を示し、中位数で区切る。ひげ線は第5パーセンタイルから第95パーセンタイルまでを表す。白点は幾何平均値。両者の上昇傾向は統計的に有意(p < 0.001)であり、隣接する専門レベル間の差も有意である。作業モード、タスク価値、月、職業、モデル系列を制御し、ユーザークラスターの標準誤差を考慮しても、この傾向は有意:専門レベルが1段階上がるごとに、動作数は9%増加し、出力量は13%増加。

誰がClaude Codeを使っているのか、何をしているのか

ユーザー

誰がこれらの仕事をしているのか理解するために、会話記録から各ユーザーの職業を推定し、それを米国労働統計局の主要職業分類(SOC)体系の23のカテゴリーの一つにマッピングした。分類器は、次の信号だけに基づいて判断を下す:会話開始時にエージェントが読み込むコンテキスト、ファイル名と構造、ユーザーが引用する資料や成果物(法律文書、臨床データ、財務報告、コース資料など)、および使用する語彙。分類器には、「コードを書いている」こと自体を、ユーザーのプログラミング職業の証拠とみなさないように明示的に指示している。ソフトウェアやデータ作業が明確に示されている場合のみ、その会話は「計算機・数学職」に分類される。例えば、弁護士が契約書の特定条項の欠落を自動検査するスクリプトを作成した場合、その会話はソフトウェア作業が主でも、法律職に分類される。職業に関する明確な信号がなければ、その会話は分類されない。

約70%の会話から職業を推定できる。分類可能な会話の中で、「計算機・数学職」が最も多く、これはソフトウェア関連の仕事を多く含むため自然な結果だ。次いで、ビジネス・金融運営、アート・デザイン・メディア、管理、生命科学・物理科学・社会科学の順。サンプル中で最も成長が早い非ソフトウェア職群は、管理、販売、法律職である。

仕事

2025年10月から2026年4月までの間に、Claude Codeを用いた仕事の構成に顕著な変化が見られる。最も明らかな変化は、破損したコードの修復に関する会話の割合が33%から19%に減少したこと(図4)。代わりに、コードに関する作業が増加している。ソフトウェア操作の割合は14%から21%に上昇。文章作成とデータ分析はほぼ倍増し、10%から20%に増加した。

タスク自体の価値も上昇している。これを推定するために、同様の仕事のフリーランスマーケットでのコストを用いて、各会話の経済的価値を近似的に測定し、実際の公開求人データセットで校正した。この指標によると、平均会話の推定価値は10月から4月までの期間で27%上昇した。これは、多様な仕事タイプで見られる。構築、操作、修復の各タスクの価値は、それぞれ約43%、34%、32%増加した。これらの価格推定は粗いため、主に時間経過による異なるタスク間の比較に用いており、直接的なドル価値としては見なさない。詳細は付録参照。

> 図4:2025年10月から2026年4月までのClaude Codeの仕事構成と価値の変化。七か月間の期間内における各作業モードの会話中占める割合を示す。破損コード修復の割合は33%から19%に減少し、ソフト操作、データ分析、ドキュメント作成の割合が増加。

成功はユーザーがもたらすもの次第

タスクの価値を推定することは、Claude Codeが人々の仕事をどのように支援しているかを理解する一つの方法だ。もう一つは、会話の成功率と、その特徴に関する観察である。すべての成功指標において、明確なパターンが見られる:会話中のユーザーの専門レベルが高いほど、成功の可能性が高まる。特に、低レベルから中級への向上が最も大きな利益をもたらし、中級からエキスパートへの差はそれほど大きくない。

成功会話の特徴を分析する前に、成功をどう測るかを正確に定義する必要がある。ユーザーの実世界の結果を観測できないため、Claudeを通じてやりたいことを完了したかどうかを直接尋ねることもできない。そこで、会話記録に基づく二つの補完的な指標を用いる。一つは「成功判定」で、分類器が会話全体を読んで、ユーザーが元々設定した目標を達成したかどうかを判断する。選択肢は成功、部分成功、失敗、明確な目標なし。次に、二つの補助分類器が、その判断の証拠の強さを評価し、「検証済み成功」を決定する。成功の証拠は、該当作業に合ったgit活動(コミットやプルリクエスト、テストの成功、ユーザーの明示的承認)などの検証可能な証拠を探す。これらは、「信号なし」から「弱い信号」(1点)、「複数の硬い信号」(5点)までのレベルで会話にスコアを付ける。もう一つの並行する失敗信号分類器は、エラーやテスト失敗、再試行、出力に対する反対意見などの証拠を評価する。検証済み成功は、両方の条件を満たす場合に成立:会話が成功と判定され、かつ少なくとも一つの硬い成功証拠が存在する。これにより、成功または失敗の程度を分析できる。なお、「明確な目標なし」と判定された会話は除外し、全体の7.7%を占める。

専門レベルのリターン

では、どの会話が最も成功しやすいのか?結果は、前述の専門レベル評価が成功に大きく影響していることを示している。

一部の人は、専門レベルは実際の成功要因ではないと懸念するかもしれない。もしかすると、エキスパートは異なるタスクを選び、他の差異があるのかもしれない。本節では、同じ作業タイプ、同じ推定価値、同じ月、同じテーマ、同じ職業群の会話を比較し、そうした懸念に一部応答し、ユーザーの専門レベルの違いが結果にどう影響するかを検証する。

> 表2:分類器による成功と失敗の定義例。実際の会話例を改変・匿名化・圧縮し、我々の分類器がラベル付けしたもの。多くは公開されたSWE-chatデータセットからの例。

すべての成功指標において、会話中のユーザーの専門レベルが高いほど、成功の可能性が高まる。初心者と評価された会話は、「検証済み成功」の割合が15%、少なくとも部分成功は77%に達する。一方、中級以上と評価された会話は、検証済み成功率が28%から33%、部分成功率は91%から92%(図5参照)だ。

各指標において、最も大きな利益は初心者から中級への向上に由来し、中級からエキスパートへの差は緩やかになる。図5の回帰分析の詳細は付録参照。

> 図5:専門レベルと会話結果の関係。ユーザーのタスクにおける専門レベル評価(初心者からエキスパートまで五段階)に応じて、会話の結果を示す。左は全会話、中央と右は問題に直面した会話(失敗信号が3を超えるもの)だけを抽出し、これらの会話が最終的に異なる成功・失敗定義に達した割合を示す。各点は調整済み比率を表し、同じ作業モード、タスク価値、月、テーマ、ユーザータイプ(ソフト関連職かどうか)を揃えた上で、回帰分析の結果を示す。信頼区間は誤差線で示すが、多くは小さすぎて見えない。これらの図は、「明確な目標なし」と判定された会話を除外している。

課題に直面した会話でも、同様の傾向が見られる。失敗信号が検証済みの失敗証拠を伴う場合、その会話は「問題に直面」とみなす。これにはエラー、テスト失敗、同じことを何度も試す、出力に対する不満や反対意見などが含まれる。検証済み成功の割合は、初心者会話の4%からエキスパート会話の15%に上昇(図5参照)。より緩やかな成功指標を用いると、少なくとも部分成功の割合は、初心者で60%、中級・エキスパートで80%から81%に達する。

また、専門レベルと各種失敗指標の逆関係も追跡した。注意点として、この分析では、失敗と判定された会話は、部分成功すら達成していないものを指す。問題に直面した会話が失敗と判定され、かつコードを書いていなければ、「放棄」とみなす。ユーザーが初心者とみなす会話では、最終的に放棄された割合は19%、他の職業群では5%から7%である。つまり、経験の少ないユーザーは、困難に直面したときに放棄しやすい。専門性の価値の一部は、エージェントを正しい方向に導く能力にあると考えられる。

職業よりも専門レベルの方が重要性は低い

ソフトウェア関連職の会話における検証済み成功率は約30%、その他の職業は約26%。コード生成の会話(少なくとも一行の追加・修正を伴う)では、それぞれ34%と29%(図6)。より緩やかな成功定義を用いると、ソフト関連職と他職種の差はさらに縮小する。コード生成会話において、少なくとも部分成功を達成した割合は、ソフト関連職が89%、他職が88%であり、差はわずか5ポイントで、7か月間に拡大も縮小もしていない。両群とも成功率は向上している。データセット中、最大規模の10職種群では、すべてエンジニアと成功率の差は7ポイント以内だ。管理職は検証済み成功率が最も高く、ソフトウェア職をわずかに上回る。管理職の高い成功率は、管理スキルがエージェント指揮に応用できることを反映している可能性もあるが、測定方法の影響もある。検証は会話中の明示的な確認に依存しており、管理職は結果を得たときに表現する習慣があるためとも考えられる。

> 図6:推定職業別のコード会話の成功率と検証済み成功率。成功と判定された会話のうち、少なくとも一行の追加・修正を伴うものを、職業推定に基づき厳格に成功と定義した割合を示す。上位10職種の群ごとに示し、計算は異なるアカウントの95%信頼区間を誤差線で表す。計算結果は、すべての職種で、計算機・数学職(SOC分類)と成功率の差は7ポイント以内に収まる。

展望

本レポートの結果は、形成されつつある全体像を描いている:エージェントプログラミングは、特定の知識やスキルを拡大し、他のスキルを置き換えつつある。コード生成の会話では、主要な職業の成功率はソフト関連職と大差ない。これは、コーディングエージェントが、プログラミング背景の有無に関わらず、成功に必要な要素を変えつつあることを示唆している。

同時に、成功する会話はより多くの分野知識を示す傾向がある。エキスパートと評価された会話は、初心者の2倍以上の検証済み成功率を持つ。問題に直面したとき、初心者は他のユーザーよりも放棄率が高い。協働の仕方もこの図を明確にしている:分野のエキスパートは、指示ごとにClaudeにより多くの作業をさせることができる。したがって、Claudeを成功に導く能力は、コードを書く能力よりも、特定分野の理解に依存している。ある分野の理解を深めている人は、過去にはできなかった技術作業もこなせるようになる。逆に、こうした理解が乏しい人は、同じツールを使っても成果は少なくなる。利益は、熟練度ではなく、理解と判断に依存している。

これらの発見はまだ初期段階である。多くの研究と同様に、実世界の結果(例:会話で書かれたコードが実際に使われるか、廃棄されるか、経済的価値を生むか)を測定できていない。さらに、非インタラクティブな利用も全体の活動のかなりの部分を占めており、その測定フレームワークの構築も今後の課題だ。会話のすべての分類は、モデルによる会話記録の読解に依存している。付録では、分類器と独立したリモートテレメトリーデータが、予想通り一致し、多くの会話で強い参照モデルと一致していることを示す。ただし、大規模なシナリオでは、検証分類器の精度は依然として課題であり、Claude Codeの会話は長く複雑になりやすいため、人工的なラベリングによる基準も難しい。

モデル、ユーザー、そして両者の労働分担の変化に伴い、本レポートの図も更新され続けるだろう。これらの指標は、重要な変化を追跡する助けとなることを期待している。例えば、将来的に専門レベルのリターンが低下し始めたら、それはモデルがユーザーの判断を代替し始めたサインかもしれない。これにより、これらのツールの利益は、分野の専門家からより広範な人々へと拡大していく可能性がある。ソフトウェア

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め