Anthropic はついに Mythos モデルの安全版 Fable-5 をリリースしました。


パラメータについてはネット上ですでに多く語られていますので、私は繰り返しません。より注目すべきは、サードパーティのプログラミングツール Augment Code による実際のタスクテストです。
このテストは合計489のプログラミングタスクを実行し、その結果は非常に興味深いものです:
Fable-5 は全体的なパフォーマンスと正確性の両面で明らかにリードしています。総合スコア +0.224、正確性 +0.191、現時点で最も強力なモデルの一つと見なせます。
しかし、もう一つの重要な細部もあります:GPT-5.5 は依然として Opus-4.8 をしっかりと上回っています。
総合スコアは GPT-5.5 が +0.164、Opus-4.8 が +0.128;正確性は GPT-5.5 が +0.141、Opus-4.8 が +0.092です。
これが私の最近の感覚を説明しています:Opus-4.8 が登場しても、私は明らかに GPT-5.5 より優れていると感じません。少なくとも実際のプログラミングタスクでは、その感覚は幻覚ではありません。
より現実的な問題はコストです。Fable-5 は強力ですが、トークン消費とコストも高いです:1つのタスクあたり約14.6kトークン、コストは$3.09;それに比べて GPT-5.5 は7.5kトークン、$1.52です。確かに強力ですが、その分高価です。
結局のところ、やはりこの一言に尽きます:GPT-5.6 の早期リリースを期待しています。
もし Fable-5 がサブスクリプションプランで10日間しか使えず、その後はAPIの通常料金で呼び出す必要があるなら、それは一般ユーザーの日常的な生産性ツールではなく、ごく少数の人や少数のシナリオでの「贅沢品モデル」になる可能性が高いです。
AIモデルの利用も、いよいよ階級分けが始まるかもしれません。
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし