GPT-5.5“15000亿参数”重新评估:修订为大约97000亿

根据Beating的监测,AI研究员Lawrence Chan和Benno Sturgeon发表了一篇关于Pine AI首席科学家李博杰的论文《不可压缩知识探针:基于事实容量估算黑盒大型语言模型参数数量》的评论。原始论文通过使用1400个琐事问题“称量”封闭源模型,估算出GPT-5.5大约为40420亿亿,Claude Opus为40880亿亿左右,o1大约为96590亿亿。评论者认为,虽然该方法本身具有价值,但原始数据被显著高估,原因在于评分标准和问题质量。主要问题在于“底分”。原论文将问题划分为七个难度等级,当模型在某一等级回答错误过多时,得分理论上可能变为负数;但实际上,代码将每个等级的最低分拉回到0。这导致了在难题上的尖端模型表现差距被夸大,并进一步提高了推断的参数数量。论文声称没有采用这种处理方式,但代码和发表的结果确实如此处理。去除“底分”后,拟合斜率从6.79降至3.56。这个斜率可以理解为“每增加一点得分,参数增长的转化量”;斜率越小,意味着相同的得分差不再对应如此夸张的参数差异。R²值从0.917降至0.815,表明“得分与参数数量”拟合曲线不如原论文稳定。90%的预测区间从3.0倍扩大到5.7倍,显示误差范围更大,单点数据不应被过度相信。评论还指出,在1400个问题中,有131个存在歧义或错误答案,占比9.4%。这些问题主要集中在难题上,用于区分像GPT-5.5和Claude Opus 4.7这样的尖端封闭源模型。根据修正标准,GPT-5.5的参数由原论文的9659亿降至13300亿,90%的预测区间为2560亿到83110亿;Claude Opus 4.7由40000亿降至15000亿;GPT-5由35000亿降至14580亿。评论者还强调,1.5T不应被视为GPT-5.5的真实参数量。更准确的结论是,这种“琐事称重方法”对评分细节和问题质量高度敏感,像9.7T这样的数字不能直接作为封闭源模型的权重指标。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论