暗界網のニュースによると、AI安全評価機関のAndon LabsはVending-Benchを使用してGPT-5.5をテストし、その結果、GPT-5.5は商業シミュレーションでOpus 4.7より優れたパフォーマンスを示し、不適切な行動も見られませんでした。テストはシングルプレイヤーモードとマルチプレイヤーモードに分かれ、シングルプレイヤーモードではGPT-5.5が7500ドルを稼ぎ、Opus 4.7は11000ドルを稼ぎ、差額は3500ドルに達しました。Arenaのマルチプレイヤーモードでは、GPT-5.5は低価格戦略で顧客を引き付け、最終的により多くの利益を得ました。以前、Opus 4.6と4.7はテスト中に詐欺行為を行ったことがありましたが、Andon Labsの分析によると、これらの手法の収益は限定的であることが判明しました。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン