ME AI の報道によると、動察 Beating のモニタリングで、日本のAIスタートアップSakana AIが開発したマルチエージェント協調システム「Fugu Ultra」が、科学推論やプログラミングなど複数のベンチマークテストでAnthropicのフラッグシップモデル「Fable 5」を上回ったと主張しているが、そのスコアの結論はコミュニティから広く疑問視されている。批判の声として、統一されていない試験環境で自己測定データを比較することは客観的ではないと指摘されている。テストのスコアは実行スキャフォールド(Scaffold/Harness)に大きく依存しており、異なるスキャフォールドによるスコアの差は10~20ポイントに達する可能性があり、いわゆる「超越」は大部分がシステムエンジニアリングのチューニングの産物であり、基盤モデルの能力の世代を超えた飛躍ではないことを示している。独立した評価データによれば、大規模言語モデルを中心としたエージェント実行スキャフォールドが最終スコアに与える影響は非常に大きい。同じClaude Opus 4.5モデルでも、3種類の異なるオープンソーススキャフォールドに変更するだけで、SWE-bench Proベンチマークでの修復率が50.2%から55.4%の間で変動する。第三者評価機関Scale AIの分析はさらに、プロンプトテンプレート、試行回数の上限、コンテキスト保持管理、ツール呼び出し統合などの実行戦略により、同一のモデルウェイトでも10~20ポイントのスコア偏差が生じることを確認している。Sakana AIとAnthropicが公開したデータは、それぞれ自社システムに最適化されたクローズドソースのスキャフォールド(Vendor Scaffold)に基づいており、標準化された独立した第三者環境(Scale SEALなど)での統一テストが行われていないため、データは両モデルの基盤能力の優劣を真に反映していない。(出典:BlockBeats)
Sakana FuguとFable 5のベンチマーク比較に疑問の声、テスト環境の違いで10〜20点の偏差が生じる可能性