Beatingによる監視によると、AI研究者のローレンス・チャンとベンノ・スターゲンは、パインAIのチーフサイエンティスト李博杰の論文「非圧縮知識プローブ:事実容量に基づくブラックボックス大規模言語モデルのパラメータ数推定」のレビューを公開しました。元の論文では、GPT-5.5は約9.7T、クロード・オーパス4.7は約4.0T、o1は約3.5Tと推定され、1,400のトリビア質問を用いて「クローズドソースモデルの重さ」を測定しました。レビュアーは、このアプローチ自体は価値があると考える一方で、元の数値は採点基準と質問の質により大幅に膨らんでいたと指摘しています。主な問題は「フロアスコア」にあります。元の論文では質問を7つの難易度レベルに分けており、あるレベルでモデルが多くの誤答をした場合、理論上スコアは負になる可能性がありましたが、実際のコードでは各レベルの最小スコアを0に引き戻していました。これにより、難問に対する最先端モデルの性能差が誇張され、推定パラメータ数も増加しました。論文ではこれが適切に処理されていなかったと述べていますが、実際のコードと公開結果ではこの処理が行われていました。「フロアスコア」を除去すると、フィッティングの傾きは6.79から3.56に低下しました。この傾きは「スコアの1ポイント増加に対してどれだけパラメータの増加が反映されるか」を示し、値が小さくなるほど、同じスコア差がそれほど誇張されたパラメータ差に対応しなくなることを意味します。決定係数R²も0.917から0.815に低下し、「スコアとパラメータ数」のフィッティング曲線の安定性が低下していることを示しています。90%予測区間は3.0倍から5.7倍に拡大し、誤差の範囲が広がり、単一の数値だけを重視すべきではないことを示唆しています。レビューでは、1,400問中131問(9.4%)に曖昧さや誤答があったことも指摘しています。これらの問題は主に難問に集中しており、GPT-5.5やクロード・オーパス4.7のような最先端のクローズドソースモデルの差別化に用いられました。修正基準によると、GPT-5.5の推定値は元の論文の9659Bから1458Bに減少し、90%予測区間は256Bから8311Bに設定されました。クロード・オーパス4.7は4042Bから1132Bに、GPT-5は4088Bから1330Bに減少しました。レビュアーはまた、1.5TはGPT-5.5の真のパラメータ数とみなすべきではないと強調しています。より正確な結論は、この「トリビア重み付け法」はスコアの詳細や質問の質に非常に敏感であり、9.7Tのような数字はクローズドソースモデルの重さの指標として直接使用できないということです。
GPT-5.5 『9.7兆パラメータ』再評価:約1.5兆に修正
Beatingによる監視によると、AI研究者のローレンス・チャンとベンノ・スターゲンは、パインAIのチーフサイエンティスト李博杰の論文「非圧縮知識プローブ:事実容量に基づくブラックボックス大規模言語モデルのパラメータ数推定」のレビューを公開しました。元の論文では、GPT-5.5は約9.7T、クロード・オーパス4.7は約4.0T、o1は約3.5Tと推定され、1,400のトリビア質問を用いて「クローズドソースモデルの重さ」を測定しました。レビュアーは、このアプローチ自体は価値があると考える一方で、元の数値は採点基準と質問の質により大幅に膨らんでいたと指摘しています。主な問題は「フロアスコア」にあります。元の論文では質問を7つの難易度レベルに分けており、あるレベルでモデルが多くの誤答をした場合、理論上スコアは負になる可能性がありましたが、実際のコードでは各レベルの最小スコアを0に引き戻していました。これにより、難問に対する最先端モデルの性能差が誇張され、推定パラメータ数も増加しました。論文ではこれが適切に処理されていなかったと述べていますが、実際のコードと公開結果ではこの処理が行われていました。「フロアスコア」を除去すると、フィッティングの傾きは6.79から3.56に低下しました。この傾きは「スコアの1ポイント増加に対してどれだけパラメータの増加が反映されるか」を示し、値が小さくなるほど、同じスコア差がそれほど誇張されたパラメータ差に対応しなくなることを意味します。決定係数R²も0.917から0.815に低下し、「スコアとパラメータ数」のフィッティング曲線の安定性が低下していることを示しています。90%予測区間は3.0倍から5.7倍に拡大し、誤差の範囲が広がり、単一の数値だけを重視すべきではないことを示唆しています。レビューでは、1,400問中131問(9.4%)に曖昧さや誤答があったことも指摘しています。これらの問題は主に難問に集中しており、GPT-5.5やクロード・オーパス4.7のような最先端のクローズドソースモデルの差別化に用いられました。修正基準によると、GPT-5.5の推定値は元の論文の9659Bから1458Bに減少し、90%予測区間は256Bから8311Bに設定されました。クロード・オーパス4.7は4042Bから1132Bに、GPT-5は4088Bから1330Bに減少しました。レビュアーはまた、1.5TはGPT-5.5の真のパラメータ数とみなすべきではないと強調しています。より正確な結論は、この「トリビア重み付け法」はスコアの詳細や質問の質に非常に敏感であり、9.7Tのような数字はクローズドソースモデルの重さの指標として直接使用できないということです。