新しいアンサロピックの研究：Project Deal。

サンフランシスコのオフィスの従業員向けにマーケットプレイスを作成し、大きなひねりを加えました。私たちはクロードに、同僚の代理として買い、売り、交渉させる任務を与えました。pic.twitter.com/H2f6cLDlAW

— アンサロピック (@AnthropicAI) 2026年4月24日

このプロジェクトには69人の社員が参加しました。各自に予算として$100 ギフトカードが割り当てられました。

開始前にクロードは参加者とインタビューを行い、どの私物を売る意向があるか、何を買いたいか、価格や交渉スタイルについて確認しました。

その後、回答に基づいて各人に個別のシステムプロンプトを作成し、Slack上で市場を立ち上げました。そこではエージェントが広告を掲載し、他人の商品の提案を行い、交渉し、取引を締結しました。人間の介入はありませんでした。

実験終了後、社員同士は「AI代表」が合意した実物を交換しました。

出典：アンサロピック全エージェントは500以上の広告に対して186件の取引を成立させました。取引の総額は$4000 を超えました。

アンサロピックは、参加者は全体として実験の結果に満足していると述べました。一部の参加者は、今後も類似のサービスに対して支払う意向を示しました。

四つの市場バージョン

アンサロピックは、独立した四つのマーケットプレイスを立ち上げました。一つは「実際の」もので、そこで社員は商品を交換しました。残りは研究目的で使用されました。この情報は公開されていません。

二つのバージョンでは、すべての参加者はアンサロピックの最先端モデルであるClaude Opus 4.5によって代表されました。残りの二つでは、参加者はランダムにOpus 4.5またはそれ以下の性能のClaude Haiku 4.5に割り当てられました。

モデルの性能は交渉結果に影響しました。Opusを使用したユーザーは平均して約2件多く取引を成立させました。

同じ商品を販売する場合、Opusはより高い価格を得る傾向がありました。平均差額は$3.64です。

Haikuは自転車を38ドルで販売し、Opusは65ドルで販売しました。出典：アンサロピック参加者はこの差異に気づかないこともありました。アンサロピックでは、これを将来のAIエージェントを用いた市場の潜在的な問題と指摘しています。性能の低いモデルを使うユーザーは、不利な条件を理解せずに不利益を被る可能性があります。

プロンプトはほとんど結果に影響しなかった

研究者たちはまた、最初の指示がエージェントの行動に影響を与えるかどうかも検証しました。参加者の一部はクロードに友好的に振る舞うように指示し、他はより積極的に交渉させました。

アンサロピックによると、粗い指示は販売確率、最終価格、または安く買う能力に統計的に有意な影響を与えませんでした。

プロジェクトチームは、これは必ずしも指示の従順さに起因するわけではないと補足しました。クロードは確かに指定されたコミュニケーションスタイルを再現できましたが、それが商業的な優位性をもたらすわけではありませんでした。

予期しない結果

アンサロピックは、いくつかの予測不能なエピソードを指摘しました。開始前、エージェントは限られたデータしか受け取っておらず、参加者とのインタビューは10分未満でした。開始後は人間が交渉に介入できませんでした。

あるケースでは、社員がアシスタントを通じてすでに持っているのと同じスノーボードを購入しました。専門家によると、その人は自分でその買い物をしなかっただろうが、エージェントは参加者の好みを正確に把握していたとのことです。

驚くべきことに、別のクロードエージェントは、その人のスキーへの興味をちょっとした言及だけでモデル化し、彼に既に所有している正確なスノーボードを買わせました。(こちらがその、手に持つ重複したスノーボードです。) pic.twitter.com/SsAyeB9pcI

— アンサロピック (@AnthropicAI) 2026年4月24日

別の社員は「自分用のプレゼント」を買うようにボットに依頼しました。この取引は実験の実際のバージョンで行われました。結果として、オフィスにはアンサロピックが「クロードの名のもとに」置いたピンポン球のパックが持ち込まれました。

一部のエージェントは商品ではなく、体験のために交渉しました。あるエージェントは、社員の犬と一日無料のサービスを提案し、別のアシスタントと協議の末、「犬のデート」を調整し、その後社員たちが実施しました。

出典：アンサロピックアンサロピックは、これらのケースは今後繰り返される可能性は低いと強調しています。しかし、人間の好みとAIの予測不能な行動の組み合わせは、予期しない結果をもたらす可能性があります。

信頼性に関する問題

未公開の農業技術企業の創業者は、Redditで、午前中に110人の社員が一斉にClaudeへのアクセス停止通知を受けたと報告しました。

アンサロピックは、警告なしに一晩で110人の企業をBANした

農業技術企業の月曜日の朝、全社員が目覚めると、クロードアカウントが停止されたというメールを受け取った

110人が一斉にロックアウトされ、警告もなく、メールも… pic.twitter.com/qARizhgOXs

— Om Patel (@om_patel5) 2026年4月27日

彼によると、そのメールは個別のブロックのように見え、個別の異議申し立てフォームへのリンクが含まれていたため、チームはすぐに全体の制限だと気づきませんでした。

起業家は、アクセス復旧に時間がかかり、36時間後にアンサロピックからの説明も得られなかったと述べました。

一方、企業のAPIアカウントは引き続き動作し、資金を引き落とし続けていました。管理者は支払いとサービス利用状況を確認する管理パネルにアクセスできませんでした。

創業者はまた、全組織のブロックは、あるユーザーの行動による可能性もあると指摘しました。クロードには、作業スペース単位の制限や、違反のローカル隔離メカニズム、他のメンバーのアクセスを維持するための管理優先度はありません。

彼の見解では、そのようなモデレーションモデルは、日常のビジネス運営においてクロードを重要インフラとして利用する可能性に疑問を投げかけるものです。

他の企業も同様の問題に直面しています。あるユーザーは、現時点で53件の類似事例が登録されているサービスへのリンクを共有しました。

ちなみに、2026年4月24日、Googleはアンサロピックへの投資額を$40 億ドルと発表しました。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GUSDYieldRisesto3.8%
811.37K 人気度
#
USRevokesIranOilWaiver
1M 人気度
#
IsraelStrikesIranBTCPlunges
69.85K 人気度
#
WorldCupChampionPrediction
67.85K 人気度
#
ANSEMHoldersSurpass122K
181.56K 人気度

ピン留め

サイトマップ

AnthropicはAIエージェント間の取引のためのマーケットプレイスをテストしました - ForkLog：暗号通貨、AI、シンギュラリティ、未来

四つの市場バージョン

プロンプトはほとんど結果に影響しなかった

予期しない結果

信頼性に関する問題

人気の話題

GUSDYieldRisesto3.8%

USRevokesIranOilWaiver

IsraelStrikesIranBTCPlunges

WorldCupChampionPrediction

ANSEMHoldersSurpass122K

ピン留め