オープンソースのGLM-5.2はコストパフォーマンスが抜群で、コストはOpus 4.8の4分の1にも満たないのに、スコアはわずか90点差しかない。この評価を見て、私は思わず「本当に素晴らしい」と叫んでしまった。

原文表示
CoinNetwork
AA-ブリーフケース発表:Claude Fable 5が優勝、GLM-5.2がトップ3に食い込む
Artificial Analysisは、大規模モデルのインテリジェントエージェント向けの長期知識作業評価基準を初めて発表し、データサイエンス、プロダクトマネジメント、銀行運営、重工業戦略の4つのシナリオをカバーし、91のタスクを設定し、Google、McKinsey、Boston Consultingの専門家が開発した。結果は、Claude Fable 5が優勝し、Opus 4.8が次点、GLM-5.2がトップ3に入った;しかし、単一項目の完全正解基準では、Fable 5の完璧率はわずか3%だった。オープンソースのGLM-5.2の総合スコアはOpus 4.8よりわずか90点低いが、コストはその25%未満だった。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め