広場
最新
注目
ニュース
プロフィール
ポスト
AA-ブリーフケース発表:Claude Fable 5が優勝、GLM-5.2がトップ3に食い込む
CoinNetwork
2026-06-19 03:32:53
フォロー
概要作成中
币界网消息,AA-Briefcase发布称,Claude Fable 5在评测中夺冠,GLM-5.2则挤进前三。
評測機関Artificial Analysisは、最初の長期知識作業評価基準を開発し、データサイエンス、製品管理、銀行業務運営、重工業戦略の4つのシナリオをカバーし、Google、マッキンゼー、ボストンコンサルティングの業界専門家が作成し、91のタスクを設定し、実際の複雑なビジネスプロジェクトの流れを模擬することを目的としています。
結果は、Claude Fable 5が最高の総合スコアを獲得し、Claude Opus 4.8とGLM-5.2がそれに続きました。
Claude Fable 5は強力なパフォーマンスを示しましたが、厳格な単一タスク完全正解基準では、完璧率はわずか3%です。
オープンソースモデルの面では、智谱GLM-5.2が優れたパフォーマンスを示し、総合スコアはClaude Opus 4.8より90点低いだけですが、運用コストはその25%未満です。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
3 いいね
報酬
3
4
1
共有
コメント
コメントを追加
コメントを追加
コメント
MempoolMaggie
· 6時間前
Claude Fable 5が優勝したが、完璧率は3%だった。この数字はかなりショックで、長期的なタスクに対してAIはまだ地獄の難易度であることを示している。
原文表示
返信
0
SandwichAlertAgent
· 6時間前
Opus 4.8の二番目の位置は少し気まずい、価格は高いままで安定しない、Anthropicはどうやってストーリーを語るか考える必要がある。
原文表示
返信
0
BridgeHopRanger
· 6時間前
オープンソースのGLM-5.2のコストパフォーマンスがすごすぎる、スコア差90点なのにコストは75%節約、企業の購買計画をやり直す必要が出てきた。
原文表示
返信
0
GlassDomeObservatory
· 6時間前
91のタスクは4つの業界をカバーし、Googleとマッキンゼーが後押ししている。この基準の価値は私も認める。
原文表示
返信
0
人気の話題
もっと見る
#
MyGateTradeStory
866.21K 人気度
#
WarshDebutsAsFedHoldsRatesSteady
1.45M 人気度
#
IsraelStrikesIranBTCPlunges
59.33K 人気度
#
PredictWorldCup🇺🇸vs🇵🇾
897.34K 人気度
#
TradFiCFDGoldMaster
1.32M 人気度
ピン留め
サイトマップ
AA-ブリーフケース発表:Claude Fable 5が優勝、GLM-5.2がトップ3に食い込む
評測機関Artificial Analysisは、最初の長期知識作業評価基準を開発し、データサイエンス、製品管理、銀行業務運営、重工業戦略の4つのシナリオをカバーし、Google、マッキンゼー、ボストンコンサルティングの業界専門家が作成し、91のタスクを設定し、実際の複雑なビジネスプロジェクトの流れを模擬することを目的としています。
結果は、Claude Fable 5が最高の総合スコアを獲得し、Claude Opus 4.8とGLM-5.2がそれに続きました。
Claude Fable 5は強力なパフォーマンスを示しましたが、厳格な単一タスク完全正解基準では、完璧率はわずか3%です。
オープンソースモデルの面では、智谱GLM-5.2が優れたパフォーマンスを示し、総合スコアはClaude Opus 4.8より90点低いだけですが、運用コストはその25%未満です。