GPT-5.6 已发布。但你现在用不了。

三天前，OpenAI 发布了其迄今为止最强大的模型系列——但几乎没人能用上。

6月26日，OpenAI 推出了 GPT-5.6：三个模型分别命名为 Sol、Terra 和 Luna。Sol 是旗舰版，Terra 是均衡中端款，Luna 是快速低价选项。从纸面上看，这完全符合市场在 GPT-5.5 之后的预期——更紧凑的命名方案、清晰的价格梯度，以及 Sol 上新增的“Ultra”推理模式，可为复杂任务启动子代理。定价清楚地表明了 OpenAI 对各层级的定位：Sol 保持每百万 tokens 5/30 美元（与 GPT-5.5 相同），Terra 减半至 2.50/15 美元，Luna 降至 1/6 美元。这并非对旧能力的降价——OpenAI 将 Terra 定位为 GPT-5.5 级别智能，价格减半；而 Luna 则是面向无需前沿推理的大批量任务的走量选手。

命名本身就是一个微妙的信号。OpenAI 放弃了“mini”和“nano”的称呼，因为内部看来，这些模型实际上并未缩小——它们只是针对不同任务进行了调优。5.6 是一个系列；Sol、Terra 和 Luna 是三个独立向前演进的位置。这与 Anthropic 对 Opus、Sonnet 和 Haiku 的产品拆分如出一辙，只是从音乐名称换成了天体名称。

真正重要的基准——以及那个不重要的

OpenAI 选择只发布一项基准：Terminal-Bench 2.1，它测试终端环境下的真实编码任务——计划、迭代、工具协调。Sol 得分 91.9%，超过了 Claude Mythos 5 的 88.0%，在该特定基准上创下新纪录。

问题在于：Terminal-Bench 2.1 是 OpenAI 在自己选定的基准上报告的自有分数。当 Anthropic 用其 mini-SWE-agent 框架运行相同模型时，GPT-5.5 从 88 分降至约 81-83 分——当所有模型在同一评估器上运行时，领先优势缩小甚至逆转。OpenAI 并未发布 SWE-Bench Pro、FrontierCode 或 Humanity's Last Exam——这些基准上，Claude Fable 5（与 Mythos 5 共享权重）在撤回前均创下了纪录。因此，Sol 在 Terminal-Bench 上确实击败了 Mythos。但它是否在广泛意义上击败了 Mythos，这是一个 OpenAI 用限定措辞谨慎提出的说法。

还有一个插曲。OpenAI 的系统卡将全部三个 GPT-5.6 模型——不仅仅是 Sol——在网络能力和生物/化学能力方面均列为“高风险”级别。在人工智能自我改进方面，它们低于该阈值。OpenAI 还指出，Sol“更擅长帮助人们发现和修复漏洞，而非可靠地执行端到端攻击”——这是一句谨慎措辞的保证，并未说明它无法执行攻击，只是说它在防御方面更出色。此外，OpenAI 在四月份修订了其准备框架，取消了一些之前的研究领域。这些细节没能成为标题新闻，但政策制定者正在仔细研读。

真实故事：华盛顿现在进入了发布流程

你现在无法使用 GPT-5.6 的原因并非工程问题，而是政策问题。

在这次发布两周前，特朗普政府向 Anthropic 发布了一项出口管制指令，迫使该公司在全球范围内禁用对 Fable 5 和 Mythos 5 的所有访问——不仅针对外国公民，而是针对所有人，因为技术上无法隔离外国访问。据报道，触发因素是一起 Fable 5 的越狱事件，展示了可提取出网络武器级别能力。据政府前人工智能主管 David Sacks 称，Anthropic 首席执行官 Dario Amodei 在指令发布前拒绝修补该越狱漏洞或撤回模型。

当 OpenAI 准备发布 GPT-5.6 时，白宫国家网络主管办公室和科技政策办公室要求 OpenAI 将发布范围限制在大约 20 个政府批准的合作伙伴，之后才能进行更广泛的发布。政府认为 GPT-5.6 的能力“与 Mythos 级别相当”。OpenAI 同意了——但附带了一次显著的反弹。Sam Altman 向员工表示，这种做法“并非我们偏好的长期模式”，并称 OpenAI 将努力“为未来发布找到更可持续的方法”。该公司自己的博客将受限发布称为“不可持续”。

因此，我们现在面临一个事实上的新门槛：前沿模型在公开发布前必须经过政府审批流程。目前尚无正式框架——网络行政令仍在起草中。OpenAI 将受限预览视为“短期步骤”，并承诺“在未来几周内”实现更广泛的可用性。Altman 告诉记者，政府已表示该时间表很可能可接受。与此同时，Anthropic 获得了部分豁免——Mythos 5 现在可以重新部署给运营关键基础设施的美国组织，尽管 Fable 5 仍完全暂停。

为何这比基准测试更重要

GPT-5.6 的发布实际上不是一个技术故事。它是一个用产品公告包装的治理故事。

看看时间线：Anthropic 于 6 月 9 日发布 Fable 5。几天内，越狱演示出现。到 6 月 13 日，出口管制指令迫使全面关闭。随后是两周的谈判，Anthropic 员工驻留华盛顿。到 6 月 26 日，OpenAI 在与其政府协调下推出了受限预览的 GPT-5.6。向每个人工智能实验室发出的信息很明确：如果你的模型达到 Mythos 级别能力，美国政府将介入你的发布流程，无论你是否愿意。

这就是没人命名的转变。我们从“实验室决定何时及如何发布”转向了“政府决定谁先获得访问权限”。框架尚未建立。流程是临时性的。标准不透明。OpenAI 之所以合作，是因为它认为这是最终实现广泛发布的最快路径。Anthropic 反抗了，但失败了。下一个实验室——Google DeepMind，或者其他——将面临同样的门槛。

对于开发者和企业来说，实际影响是立竿见影的。你的 ChatGPT 仍然运行在 GPT-5.5 上。你的 API 没有 GPT-5.6 的端点。大约 20 个获批合作伙伴是经过政府审查的大型组织。如果你正在构建依赖于前沿模型访问的产品，你的路线图现在有了一个你无法控制的变量：华盛顿的审批时间表。

定价激进——且具有战略意义

Terra 以旗舰版一半的价格提供 GPT-5.5 级别的能力，这不仅仅是划算的交易。这是一项护城河举措。OpenAI 对 Terra 和 Luna 的定价，旨在让所有其他中端和经济型模型失去经济可行性。如果 Terra 以 2.50/15 美元的价格提供 GPT-5.5 质量，那么 Anthropic 的 Sonnet 层级和 Google 的中端模型将面临真正的利润压力。Luna 以 1/6 美元的价格，直接瞄准大批量部署——呼叫中心、内容流水线、分类任务——这些场景中每 token 成本比峰值智能更重要。

这种定价只有在 OpenAI 的规模下才有效，而且只有广泛接入很快到来时才有效。一个只有 20 家公司能用的模型不是定价武器——它是个演示。真正的竞争影响取决于 GPT-5.6 是否如承诺那样在数周内进入通用可用状态，还是政府门槛会拖得更久。

我接下来关注什么

“未来几周”的承诺能否兑现。7 月中旬是传闻中更广泛的 ChatGPT 和 API 访问的目标时间。任何延迟都会重塑竞争窗口。

Anthropic 的下一步行动。Mythos 5 已获得针对关键基础设施组织的部分豁免。Fable 5 仍然下线。据报道，Anthropic 的 IPO 计划仍有望在今年晚些时候推进——但你不可能在旗舰模型受到出口管制的情况下上市。

行政令框架。目前，流程是逐案处理，没有公开标准。一旦正式规则出台，它们将定义每个实验室的发布门槛，而不仅仅是 OpenAI 和 Anthropic。

基准交叉验证。Sol 在 Terminal-Bench 上的 91.9% 得分令人印象深刻。在 Anthropic 的测试框架和更广泛的基准套件上的独立评估，将决定这是真正的能力飞跃，还是一个有范围限制的声明。

GPT-5.6 是 OpenAI 有史以来构建的最强模型。这一点没有争议。但这次发布的重点不是模型本身——而是门槛。这是第一次，前沿人工智能发布没有直接面向用户，而是先去了华盛顿，由华盛顿决定谁能进入。这个门槛如何演变，将在未来十年里比任何基准分数都更能塑造人工智能部署的格局。

查看原文