币界网のニュースによると、AI研究者のLawrence ChanとBenno Sturgeonは、Pine AIのチーフサイエンティスト李博杰による論文「不可圧縮知識探針:事実容量に基づくブラックボックス大規模言語モデルのパラメータ推定」に対して再検証を行った。元の論文では、GPT-5.5約9.7T、Claude Opus 4.7約4.0T、O1約3.5Tと推定されていた。再検証では、元の数字は評価基準と問題の質によって誇張されており、特に「地板点」の処理が不適切であったため、高難度の問題でのモデルのパフォーマンス差が過大に見積もられていたことが指摘された。「地板点」を除外した結果、フィッティングの傾きは6.79から3.56に低下し、r²は0.917から0.815に下がり、90%予測区間は3.0倍から5.7倍に拡大し、誤差が増大していることが示された。再検証ではまた、131問に曖昧さや誤答があり、全体の9.4%を占めていることも判明した。修正後のデータによると、GPT-5.5のパラメータは9659Bから1458Bに減少し、90%予測区間は256Bから8311Bとなった。再検証の著者は、1.5TはGPT-5.5の実際のパラメータ数とみなすことはできないと強調している。
GPT-5.5「9.7Tパラメータ」が再検査されました:修正後は約1.5Tだけ残っています
币界网のニュースによると、AI研究者のLawrence ChanとBenno Sturgeonは、Pine AIのチーフサイエンティスト李博杰による論文「不可圧縮知識探針:事実容量に基づくブラックボックス大規模言語モデルのパラメータ推定」に対して再検証を行った。元の論文では、GPT-5.5約9.7T、Claude Opus 4.7約4.0T、O1約3.5Tと推定されていた。再検証では、元の数字は評価基準と問題の質によって誇張されており、特に「地板点」の処理が不適切であったため、高難度の問題でのモデルのパフォーマンス差が過大に見積もられていたことが指摘された。「地板点」を除外した結果、フィッティングの傾きは6.79から3.56に低下し、r²は0.917から0.815に下がり、90%予測区間は3.0倍から5.7倍に拡大し、誤差が増大していることが示された。再検証ではまた、131問に曖昧さや誤答があり、全体の9.4%を占めていることも判明した。修正後のデータによると、GPT-5.5のパラメータは9659Bから1458Bに減少し、90%予測区間は256Bから8311Bとなった。再検証の著者は、1.5TはGPT-5.5の実際のパラメータ数とみなすことはできないと強調している。