広場
最新
注目
ニュース
プロフィール
ポスト
GateUser-ebc4af76
2026-06-09 18:25:19
フォロー
Anthropic はついに Mythos モデルの安全版 Fable-5 をリリースしました。
パラメータについてはネット上ですでに多く語られていますので、私は繰り返しません。より注目すべきは、サードパーティのプログラミングツール Augment Code による実際のタスクテストです。
このテストは合計489のプログラミングタスクを実行し、その結果は非常に興味深いものです:
Fable-5 は全体的なパフォーマンスと正確性の両面で明らかにリードしています。総合スコア +0.224、正確性 +0.191、現時点で最も強力なモデルの一つと見なせます。
しかし、もう一つの重要な細部もあります:GPT-5.5 は依然として Opus-4.8 をしっかりと上回っています。
総合スコアは GPT-5.5 が +0.164、Opus-4.8 が +0.128;正確性は GPT-5.5 が +0.141、Opus-4.8 が +0.092です。
これが私の最近の感覚を説明しています:Opus-4.8 が登場しても、私は明らかに GPT-5.5 より優れていると感じません。少なくとも実際のプログラミングタスクでは、その感覚は幻覚ではありません。
より現実的な問題はコストです。Fable-5 は強力ですが、トークン消費とコストも高いです:1つのタスクあたり約14.6kトークン、コストは$3.09;それに比べて GPT-5.5 は7.5kトークン、$1.52です。確かに強力ですが、その分高価です。
結局のところ、やはりこの一言に尽きます:GPT-5.6 の早期リリースを期待しています。
もし Fable-5 がサブスクリプションプランで10日間しか使えず、その後はAPIの通常料金で呼び出す必要があるなら、それは一般ユーザーの日常的な生産性ツールではなく、ごく少数の人や少数のシナリオでの「贅沢品モデル」になる可能性が高いです。
AIモデルの利用も、いよいよ階級分けが始まるかもしれません。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
GateIPOAccessSpaceX
6.63M 人気度
#
StrategyAdds1550BTCatLowerPrices
2.89M 人気度
#
IsraelStrikesIranBTCPlunges
56.87K 人気度
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.82M 人気度
#
PredictNBAChampionWin20000U
854.63K 人気度
ピン留め
サイトマップ
Anthropic はついに Mythos モデルの安全版 Fable-5 をリリースしました。
パラメータについてはネット上ですでに多く語られていますので、私は繰り返しません。より注目すべきは、サードパーティのプログラミングツール Augment Code による実際のタスクテストです。
このテストは合計489のプログラミングタスクを実行し、その結果は非常に興味深いものです:
Fable-5 は全体的なパフォーマンスと正確性の両面で明らかにリードしています。総合スコア +0.224、正確性 +0.191、現時点で最も強力なモデルの一つと見なせます。
しかし、もう一つの重要な細部もあります:GPT-5.5 は依然として Opus-4.8 をしっかりと上回っています。
総合スコアは GPT-5.5 が +0.164、Opus-4.8 が +0.128;正確性は GPT-5.5 が +0.141、Opus-4.8 が +0.092です。
これが私の最近の感覚を説明しています:Opus-4.8 が登場しても、私は明らかに GPT-5.5 より優れていると感じません。少なくとも実際のプログラミングタスクでは、その感覚は幻覚ではありません。
より現実的な問題はコストです。Fable-5 は強力ですが、トークン消費とコストも高いです:1つのタスクあたり約14.6kトークン、コストは$3.09;それに比べて GPT-5.5 は7.5kトークン、$1.52です。確かに強力ですが、その分高価です。
結局のところ、やはりこの一言に尽きます:GPT-5.6 の早期リリースを期待しています。
もし Fable-5 がサブスクリプションプランで10日間しか使えず、その後はAPIの通常料金で呼び出す必要があるなら、それは一般ユーザーの日常的な生産性ツールではなく、ごく少数の人や少数のシナリオでの「贅沢品モデル」になる可能性が高いです。
AIモデルの利用も、いよいよ階級分けが始まるかもしれません。