根據Beating的監測,AI研究人員Lawrence Chan和Benno Sturgeon已發表對Pine AI首席科學家李博杰的論文《不可壓縮知識探針:基於事實容量估算黑盒大型語言模型的參數數量》的評論。原始論文使用1,400個琐事問題來“衡量”封閉源模型,估算GPT-5.5約為9.7T,Claude Opus約4.7T,o1約3.5T。評論者認為,儘管該方法本身具有價值,但原始數據被大幅高估,原因在於評分標準和問題質量。主要問題在於“底分”。原始論文將問題分為七個難度等級,當模型在某一等級回答錯誤過多時,理論上得分可能變為負數;但實際上,代碼將每個等級的最低分數拉回到0。這使得在困難問題上的尖端模型表現差距被誇大,進而推高了推測的參數數量。論文聲稱並未如此處理,但實際代碼和發表結果卻採用了這種做法。去除“底分”後,擬合斜率從6.79降至3.56。這個斜率可以理解為“每增加一分,參數增長的轉換比例”;斜率越小,表示相同的分數差不再對應如此誇張的參數差異。R²值從0.917降至0.815,表明“分數與參數數量”擬合曲線的穩定性降低。90%的預測區間從3.0倍擴展到5.7倍,顯示誤差範圍更大,單點數據不應被過度重視。評論還指出,在1,400個問題中,有131題存在歧義或錯誤答案,占比9.4%。這些問題主要集中在用於區分尖端封閉源模型(如GPT-5.5和Claude Opus 4.7)的困難問題上。根據修正標準,GPT-5.5的估算由原論文的9659B降至1458B,90%預測區間為256B至8311B;Claude Opus 4.7由4042B降至1132B;GPT-5由4088B降至1330B。評論者還強調,1.5T不應被視為GPT-5.5的真實參數數量。一個更為準確的結論是,這種“琐事衡量法”對評分細節和問題質量高度敏感,像9.7T這樣的數字不能直接用作封閉源模型的權重衡量標準。
GPT-5.5「9.7兆參數」重新評估:修訂為約1.5兆