📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
Gate.io News 网站,OpenAI 研究员诺亚姆·布朗(Noam Brown)发表看法,指出随着人工智能模型性能的提升,衡量模型质量的各项标准化测试分数正逐步向主导推理能力的算力账户靠拢。
固定且单一的评分已无法反映强大模型的真实水平,未来的评估标准应当转向一条性能曲线,其随推理能力或生成的代币(tokens)数量而延展。
以新模型 GPT-5.5 的测试为例,在传统的初始测试中,GPT-5.5 相比 GPT-5.4 并没有表现出明显优势,但一旦分配了更多的推理算力,它的表现便开始出现爆发式增长。
诺亚姆·布朗提醒称,当前对生物安全或网络安全的评估往往不包含固定的推理预算,当对手在国家层面为某项任务投入超过 100 万美元时,看似安全的模型可能就会越过危险的红线。