GPT-5.5 『9.7兆パラメータ』再評価:約1.5兆に修正

Beatingによる監視によると、AI研究者のローレンス・チャンとベンノ・スターゲンは、Pine AIのチーフサイエンティスト李博杰による論文「非圧縮知識プローブ:事実容量に基づくブラックボックス大規模言語モデルのパラメータ数推定」のレビューを公開しました。元の論文では、GPT-5.5は約9.7兆、Claude Opusは4.7兆程度、o1は約3.5兆と推定し、1,400のトリビア質問を用いて「閉源モデルの重さ」を測定しました。レビュアーは、このアプローチ自体は価値があると考える一方で、元の数値は採点基準と質問の質により大幅に膨らんでいたと指摘しています。主な問題は「フロアスコア」にあります。元の論文では質問を7つの難易度レベルに分けており、あるレベルでモデルが多くの誤答をした場合、理論上スコアは負になる可能性がありましたが、実際のコードでは各レベルの最小スコアを0に引き戻していました。これにより、難問に対する最先端モデルの性能差が誇張され、推定パラメータ数も増加しました。論文ではこれが適切に処理されていなかったと述べていますが、コードと公開結果はこの処理を採用していました。「フロアスコア」を除去すると、フィッティングの傾きは6.79から3.56に低下しました。この傾きは「スコアの1ポイント増加に対してどれだけパラメータの増加が反映されるか」を示しており、値が小さくなるほど、同じスコア差がそれほど誇張されたパラメータ差に対応しなくなります。決定係数R²も0.917から0.815に低下し、「スコアとパラメータ数」のフィッティング曲線の安定性が低下しました。90%予測区間は3.0倍から5.7倍に拡大し、誤差の幅が広がり、単一の数値だけを信頼すべきではないことを示しています。レビューではまた、1,400問中131問(9.4%)に曖昧さや誤答があったことも指摘しています。これらの問題は主に難問に集中しており、GPT-5.5やClaude Opus 4.7のような最先端の閉源モデルの差別化に用いられました。修正基準によると、GPT-5.5の推定値は元の論文の9659Bから1458Bに減少し、90%予測区間は256Bから8311Bに設定されました。Claude Opus 4.7は4042Bから1132Bに、GPT-5は4088Bから1330Bに減少しました。レビュアーはまた、1.5兆はGPT-5.5の真のパラメータ数として見なすべきではないと強調しています。より正確な結論は、この「トリビア重み付け法」がスコアの詳細や質問の質に非常に敏感であり、9.7兆といった数字は閉源モデルの重み付け指標として直接使用できないということです。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし