#OpenAIGPT5.6


GPT-5.6 已发布。但你现在用不了。

三天前,OpenAI 发布了其迄今为止最强大的模型系列——但几乎没人能用上。

6月26日,OpenAI 推出了 GPT-5.6:三个模型分别命名为 Sol、Terra 和 Luna。Sol 是旗舰版,Terra 是均衡中端款,Luna 是快速低价选项。从纸面上看,这完全符合市场在 GPT-5.5 之后的预期——更紧凑的命名方案、清晰的价格梯度,以及 Sol 上新增的“Ultra”推理模式,可为复杂任务启动子代理。定价清楚地表明了 OpenAI 对各层级的定位:Sol 保持每百万 tokens 5/30 美元(与 GPT-5.5 相同),Terra 减半至 2.50/15 美元,Luna 降至 1/6 美元。这并非对旧能力的降价——OpenAI 将 Terra 定位为 GPT-5.5 级别智能,价格减半;而 Luna 则是面向无需前沿推理的大批量任务的走量选手。

命名本身就是一个微妙的信号。OpenAI 放弃了“mini”和“nano”的称呼,因为内部看来,这些模型实际上并未缩小——它们只是针对不同任务进行了调优。5.6 是一个系列;Sol、Terra 和 Luna 是三个独立向前演进的位置。这与 Anthropic 对 Opus、Sonnet 和 Haiku 的产品拆分如出一辙,只是从音乐名称换成了天体名称。

真正重要的基准——以及那个不重要的

OpenAI 选择只发布一项基准:Terminal-Bench 2.1,它测试终端环境下的真实编码任务——计划、迭代、工具协调。Sol 得分 91.9%,超过了 Claude Mythos 5 的 88.0%,在该特定基准上创下新纪录。

问题在于:Terminal-Bench 2.1 是 OpenAI 在自己选定的基准上报告的自有分数。当 Anthropic 用其 mini-SWE-agent 框架运行相同模型时,GPT-5.5 从 88 分降至约 81-83 分——当所有模型在同一评估器上运行时,领先优势缩小甚至逆转。OpenAI 并未发布 SWE-Bench Pro、FrontierCode 或 Humanity's Last Exam——这些基准上,Claude Fable 5(与 Mythos 5 共享权重)在撤回前均创下了纪录。因此,Sol 在 Terminal-Bench 上确实击败了 Mythos。但它是否在广泛意义上击败了 Mythos,这是一个 OpenAI 用限定措辞谨慎提出的说法。

还有一个插曲。OpenAI 的系统卡将全部三个 GPT-5.6 模型——不仅仅是 Sol——在网络能力和生物/化学能力方面均列为“高风险”级别。在人工智能自我改进方面,它们低于该阈值。OpenAI 还指出,Sol“更擅长帮助人们发现和修复漏洞,而非可靠地执行端到端攻击”——这是一句谨慎措辞的保证,并未说明它无法执行攻击,只是说它在防御方面更出色。此外,OpenAI 在四月份修订了其准备框架,取消了一些之前的研究领域。这些细节没能成为标题新闻,但政策制定者正在仔细研读。

真实故事:华盛顿现在进入了发布流程

你现在无法使用 GPT-5.6 的原因并非工程问题,而是政策问题。

在这次发布两周前,特朗普政府向 Anthropic 发布了一项出口管制指令,迫使该公司在全球范围内禁用对 Fable 5 和 Mythos 5 的所有访问——不仅针对外国公民,而是针对所有人,因为技术上无法隔离外国访问。据报道,触发因素是一起 Fable 5 的越狱事件,展示了可提取出网络武器级别能力。据政府前人工智能主管 David Sacks 称,Anthropic 首席执行官 Dario Amodei 在指令发布前拒绝修补该越狱漏洞或撤回模型。

当 OpenAI 准备发布 GPT-5.6 时,白宫国家网络主管办公室和科技政策办公室要求 OpenAI 将发布范围限制在大约 20 个政府批准的合作伙伴,之后才能进行更广泛的发布。政府认为 GPT-5.6 的能力“与 Mythos 级别相当”。OpenAI 同意了——但附带了一次显著的反弹。Sam Altman 向员工表示,这种做法“并非我们偏好的长期模式”,并称 OpenAI 将努力“为未来发布找到更可持续的方法”。该公司自己的博客将受限发布称为“不可持续”。

因此,我们现在面临一个事实上的新门槛:前沿模型在公开发布前必须经过政府审批流程。目前尚无正式框架——网络行政令仍在起草中。OpenAI 将受限预览视为“短期步骤”,并承诺“在未来几周内”实现更广泛的可用性。Altman 告诉记者,政府已表示该时间表很可能可接受。与此同时,Anthropic 获得了部分豁免——Mythos 5 现在可以重新部署给运营关键基础设施的美国组织,尽管 Fable 5 仍完全暂停。

为何这比基准测试更重要

GPT-5.6 的发布实际上不是一个技术故事。它是一个用产品公告包装的治理故事。

看看时间线:Anthropic 于 6 月 9 日发布 Fable 5。几天内,越狱演示出现。到 6 月 13 日,出口管制指令迫使全面关闭。随后是两周的谈判,Anthropic 员工驻留华盛顿。到 6 月 26 日,OpenAI 在与其政府协调下推出了受限预览的 GPT-5.6。向每个人工智能实验室发出的信息很明确:如果你的模型达到 Mythos 级别能力,美国政府将介入你的发布流程,无论你是否愿意。

这就是没人命名的转变。我们从“实验室决定何时及如何发布”转向了“政府决定谁先获得访问权限”。框架尚未建立。流程是临时性的。标准不透明。OpenAI 之所以合作,是因为它认为这是最终实现广泛发布的最快路径。Anthropic 反抗了,但失败了。下一个实验室——Google DeepMind,或者其他——将面临同样的门槛。

对于开发者和企业来说,实际影响是立竿见影的。你的 ChatGPT 仍然运行在 GPT-5.5 上。你的 API 没有 GPT-5.6 的端点。大约 20 个获批合作伙伴是经过政府审查的大型组织。如果你正在构建依赖于前沿模型访问的产品,你的路线图现在有了一个你无法控制的变量:华盛顿的审批时间表。

定价激进——且具有战略意义

Terra 以旗舰版一半的价格提供 GPT-5.5 级别的能力,这不仅仅是划算的交易。这是一项护城河举措。OpenAI 对 Terra 和 Luna 的定价,旨在让所有其他中端和经济型模型失去经济可行性。如果 Terra 以 2.50/15 美元的价格提供 GPT-5.5 质量,那么 Anthropic 的 Sonnet 层级和 Google 的中端模型将面临真正的利润压力。Luna 以 1/6 美元的价格,直接瞄准大批量部署——呼叫中心、内容流水线、分类任务——这些场景中每 token 成本比峰值智能更重要。

这种定价只有在 OpenAI 的规模下才有效,而且只有广泛接入很快到来时才有效。一个只有 20 家公司能用的模型不是定价武器——它是个演示。真正的竞争影响取决于 GPT-5.6 是否如承诺那样在数周内进入通用可用状态,还是政府门槛会拖得更久。

我接下来关注什么

“未来几周”的承诺能否兑现。7 月中旬是传闻中更广泛的 ChatGPT 和 API 访问的目标时间。任何延迟都会重塑竞争窗口。

Anthropic 的下一步行动。Mythos 5 已获得针对关键基础设施组织的部分豁免。Fable 5 仍然下线。据报道,Anthropic 的 IPO 计划仍有望在今年晚些时候推进——但你不可能在旗舰模型受到出口管制的情况下上市。

行政令框架。目前,流程是逐案处理,没有公开标准。一旦正式规则出台,它们将定义每个实验室的发布门槛,而不仅仅是 OpenAI 和 Anthropic。

基准交叉验证。Sol 在 Terminal-Bench 上的 91.9% 得分令人印象深刻。在 Anthropic 的测试框架和更广泛的基准套件上的独立评估,将决定这是真正的能力飞跃,还是一个有范围限制的声明。

GPT-5.6 是 OpenAI 有史以来构建的最强模型。这一点没有争议。但这次发布的重点不是模型本身——而是门槛。这是第一次,前沿人工智能发布没有直接面向用户,而是先去了华盛顿,由华盛顿决定谁能进入。这个门槛如何演变,将在未来十年里比任何基准分数都更能塑造人工智能部署的格局。
查看原文
post-image
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 置顶