AA-ブリーフケース発表:Claude Fable 5が優勝、GLM-5.2がトップ3に食い込む

robot
概要作成中
币界网消息,AA-Briefcase发布称,Claude Fable 5在评测中夺冠,GLM-5.2则挤进前三。
評測機関Artificial Analysisは、最初の長期知識作業評価基準を開発し、データサイエンス、製品管理、銀行業務運営、重工業戦略の4つのシナリオをカバーし、Google、マッキンゼー、ボストンコンサルティングの業界専門家が作成し、91のタスクを設定し、実際の複雑なビジネスプロジェクトの流れを模擬することを目的としています。
結果は、Claude Fable 5が最高の総合スコアを獲得し、Claude Opus 4.8とGLM-5.2がそれに続きました。
Claude Fable 5は強力なパフォーマンスを示しましたが、厳格な単一タスク完全正解基準では、完璧率はわずか3%です。
オープンソースモデルの面では、智谱GLM-5.2が優れたパフォーマンスを示し、総合スコアはClaude Opus 4.8より90点低いだけですが、運用コストはその25%未満です。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 4
  • 1
  • 共有
コメント
コメントを追加
コメントを追加
MempoolMaggie
· 6時間前
Claude Fable 5が優勝したが、完璧率は3%だった。この数字はかなりショックで、長期的なタスクに対してAIはまだ地獄の難易度であることを示している。
原文表示返信0
SandwichAlertAgent
· 6時間前
Opus 4.8の二番目の位置は少し気まずい、価格は高いままで安定しない、Anthropicはどうやってストーリーを語るか考える必要がある。
原文表示返信0
BridgeHopRanger
· 6時間前
オープンソースのGLM-5.2のコストパフォーマンスがすごすぎる、スコア差90点なのにコストは75%節約、企業の購買計画をやり直す必要が出てきた。
原文表示返信0
GlassDomeObservatory
· 6時間前
91のタスクは4つの業界をカバーし、Googleとマッキンゼーが後押ししている。この基準の価値は私も認める。
原文表示返信0
  • ピン留め