Claude Codeはアップデート後に大規模な信頼危機に直面、認知深度が67%低下

robot
概要作成中

1M AIニュースによるモニタリングによれば、AnthropicのAIプログラミングツールであるClaude Codeは、深刻な評判危機に直面しています。今年2月以降、数万件の会話ログに基づく定量分析によって、Claude Codeが体系的に能力が低下していると非難する問題報告を、AMDのAIディレクターが公式GitHubリポジトリに公に提出しました。この報告では、認知の深さが67%低下し、モデルの挙動が大きく逸脱したと主張されています。この報告はすぐに開発者コミュニティで議論を呼び、Anthropicが注目を集めました。6,852件の会話ログの分析によると、中央値の認知の深さは67%低下しており、コード変更前の研究投資は約70%減少しており、回避や早期終了といった否定的な振る舞いの発生は17日間で173倍に急増しました。AMDのAIディレクターは、「Claudeは複雑なエンジニアリング作業を実行するために、もはや信頼できません」と述べ、チームは他のサービス提供者へ切り替えています。AnthropicのチームメンバーBorisは、問題は2月9日に「adaptive thinking」メカニズムが導入されたことと、3月3日にデフォルトの思考レベルを高から中へ調整したことに起因すると回答し、これはモデルの中核的な能力低下ではないとして、性能を回復するためにユーザーが手動で努力レベルを上げるよう提案しました。しかし、多くの開発者は、パラメータを最高レベルに設定しても、「タスク完了に急ぐ」傾向が依然として明確だと報告しており、公式の説明では問題の本質に対処できていないと考えています。この報告は開発者コミュニティから強い反応を引き出し、多くのユーザーがサブスクリプションを解約し、OpenAI Codexのような代替ツールへ切り替えたと述べています。一方で、劣化はAPIコストの壊滅的な増加にもつながっています。質問ボリュームが安定しているにもかかわらず、月額コストは$345から$42,121へと急騰し、122倍の増加となりました。分析では、以前にリリースされた「hide thinking content」機能が、この劣化プロセスを客観的に見えにくくしており、ユーザーの不信をさらに悪化させたことも指摘されました。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン