ME AI の報道によると、動察 Beating のモニタリングで、日本のAIスタートアップSakana AIが開発したマルチエージェント協調システム「Fugu Ultra」が、科学推論やプログラミングなど複数のベンチマークテストでAnthropicのフラッグシップモデル「Fable 5」を上回ったと主張しているが、そのスコアの結論はコミュニティから広く疑問視されている。批判の声として、統一されていない試験環境で自己測定データを比較することは客観的ではないと指摘されている。テストのスコアは実行スキャフォールド（Scaffold/Harness）に大きく依存しており、異なるスキャフォールドによるスコアの差は10～20ポイントに達する可能性があり、いわゆる「超越」は大部分がシステムエンジニアリングのチューニングの産物であり、基盤モデルの能力の世代を超えた飛躍ではないことを示している。独立した評価データによれば、大規模言語モデルを中心としたエージェント実行スキャフォールドが最終スコアに与える影響は非常に大きい。同じClaude Opus 4.5モデルでも、3種類の異なるオープンソーススキャフォールドに変更するだけで、SWE-bench Proベンチマークでの修復率が50.2%から55.4%の間で変動する。第三者評価機関Scale AIの分析はさらに、プロンプトテンプレート、試行回数の上限、コンテキスト保持管理、ツール呼び出し統合などの実行戦略により、同一のモデルウェイトでも10～20ポイントのスコア偏差が生じることを確認している。Sakana AIとAnthropicが公開したデータは、それぞれ自社システムに最適化されたクローズドソースのスキャフォールド（Vendor Scaffold）に基づいており、標準化された独立した第三者環境（Scale SEALなど）での統一テストが行われていないため、データは両モデルの基盤能力の優劣を真に反映していない。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
SKHynixTopsKOSPIByMarketCap
1.55M 人気度
#
MicronEarningsBeatExpectationsSharesRise
338.42K 人気度
#
IsraelStrikesIranBTCPlunges
63.72K 人気度
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
335.8K 人気度
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
556.19K 人気度

ピン留め

サイトマップ

Sakana FuguとFable 5のベンチマーク比較に疑問の声、テスト環境の違いで10〜20点の偏差が生じる可能性

人気の話題

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

ピン留め