GPT-5.6 來了。但你無法使用它。

三天前，OpenAI 推出了至今最強大的模型系列，但幾乎沒有人能夠碰觸到。

6 月 26 日，OpenAI 發表了 GPT-5.6：三個模型分別命名為 Sol、Terra 和 Luna。Sol 是旗艦款，Terra 是平衡的中階款，Luna 則是快速且便宜的選項。從規格上看，這正是市場在 GPT-5.5 後所預期的——更緊湊的命名方式、清晰的定價階梯，以及 Sol 上全新「Ultra」推理模式，能為複雜任務啟動子代理。從定價就能清楚看出 OpenAI 如何看待這些階級：Sol 維持每百萬 tokens $5/$30（與 GPT-5.5 相同），Terra 降為 $2.50/$15，Luna 則降到 $1/$6。這不是對舊有能力的折扣——OpenAI 將 Terra 定位為 GPT-5.5 等級的智力，價格卻只有一半；而 Luna 則是主打大量運用的角色，適用於不需要頂尖推理的所有任務。

命名本身傳達了一個低調的訊號。OpenAI 不再使用「mini」和「nano」，因為在內部，這些模型實際上並沒有變小——它們只是針對不同任務進行了調校。5.6 是整個系列；Sol、Terra 和 Luna 是不同定位，將會各自獨立持續進步。這與 Anthropic 使用 Opus、Sonnet 和 Haiku 的產品劃分如出一轍，只是用了天體名稱而非音樂名稱。

重要的基準測試——以及不重要的那個

OpenAI 選擇只公布一項基準：Terminal-Bench 2.1，該測試評估終端環境中的真實世界程式碼任務——規劃、迭代、工具協調。Sol 得分 91.9%。這超越了 Claude Mythos 5 的 88.0%，並在該特定基準上創下新紀錄。

問題在於：Terminal-Bench 2.1 是 OpenAI 在其自選基準上發布的自家報告分數。當 Anthropic 使用自家的 mini-SWE-agent 測試框架運行相同模型時，GPT-5.5 從 88 分下降到約 81-83 分——當每個模型都在同一個評估者上運行時，領先差距會縮小甚至逆轉。OpenAI 沒有發布 SWE-Bench Pro、FrontierCode 或 Humanity's Last Exam——這些都是 Claude Fable 5（與 Mythos 5 共享權重）在被下架前創下紀錄的基準測試。因此，Sol 確實在 Terminal-Bench 上超越了 Mythos。但廣義上是否超越 Mythos，則是 OpenAI 以審慎措辭、限於特定範圍的宣稱。

還有另一個變數。OpenAI 的系統卡將所有三個 GPT-5.6 模型——不僅是 Sol——歸類為網路安全及生物/化學能力的「高」風險。在 AI 自我改進方面則低於該門檻。OpenAI 也指出，Sol「在幫助人們尋找與修復漏洞方面，比可靠地執行端到端攻擊更為擅長」——這是一種謹慎措辭的保證，沒有說它不能執行攻擊，只是說它在防禦面上更強。此外，OpenAI 在四月修訂了其準備框架，移除了部分先前的研究領域。這些細節不會成為頭條新聞，但卻是政策制定者正在仔細研讀的內容。

真正的故事：華盛頓現在已進入發布流程

你現在無法使用 GPT-5.6 的原因，並非工程問題，而是政策問題。

在這次發布的兩週前，川普政府對 Anthropic 發布了一項出口管制指令，強迫該公司在全球範圍內禁用所有對 Fable 5 和 Mythos 5 的存取——不僅是外國公民，而是所有人，因為要隔離外國存取在技術上不可行。觸發點是一起據報的 Fable 5 越獄事件，顯示可以從中提取出網路武器級別的能力。根據政府前 AI 主管 David Sacks 的說法，Anthropic 執行長 Dario Amodei 在指令發布前拒絕修補該越獄漏洞或下架模型。

當 OpenAI 準備推出 GPT-5.6 時，白宮國家網路總監辦公室和科學與技術政策辦公室要求 OpenAI 將發布範圍限制在大約 20 個政府批准的夥伴，然後才能進行更廣泛的發布。政府認為 GPT-5.6 的能力「與 Mythos 級別相當」。OpenAI 同意了——但附帶了顯著的抗議。Sam Altman 告訴員工，這種做法「並非我們偏好的長期模式」，OpenAI 將努力「為未來的發布找到更可持續的方法」。該公司自己的部落格將這種受限發布稱為「不可持續的」。

因此，我們實際上看到了一個新的關卡：前沿模型現在在公開存取之前必須經過政府批准程序。目前還沒有正式框架——網路行政命令仍在起草中。OpenAI 將有限的預覽視為「短期步驟」，並承諾「在未來幾週內」提供更廣泛的存取，Altman 告訴記者，政府已表示這個時間表很可能可以接受。同時，Anthropic 剛剛獲得部分例外——Mythos 5 現在可以重新部署給營運關鍵基礎設施的美國組織，但 Fable 5 仍完全暫停。

為什麼這比基準測試更重要

GPT-5.6 的發布從根本上來說不是一個科技故事。它是一個包裹在產品公告中的治理故事。

看看時間線：Anthropic 於 6 月 9 日發布 Fable 5。幾天內，就出現了越獄演示。到 6 月 13 日，出口管制命令迫使全面關閉。隨後進行了兩週的談判，Anthropic 員工駐紮在華盛頓。到 6 月 26 日，OpenAI 推出了 GPT-5.6，並與同一個政府協調進行有限預覽。這給每個 AI 實驗室發出了一個明確的訊息：如果你的模型達到 Mythos 級別的能力，美國政府將會介入你的發布流程，不管你喜不喜歡。

這就是沒有人命名但卻發生的轉變。我們從「實驗室決定何時以及如何發布」轉變為「政府決定誰先獲得存取權限」。框架還不存在。流程是臨時性的。標準是不透明的。OpenAI 之所以合作，是因為它認為這是通往最終廣泛發布的最快路徑。Anthropic 反抗了，並失敗了。下一個實驗室——Google DeepMind，或其他——將會面臨同樣的關卡。

對於開發者和企業來說，實際影響是立即的。你的 ChatGPT 仍在 GPT-5.5 上。你的 API 沒有 GPT-5.6 的端點。那大約 20 個批准的夥伴是經過政府審查的大型組織。如果你正在建構依賴前沿模型存取的產品，你的路線圖現在有了一個你無法控制的變數：華盛頓的批准時間表。

定價極具侵略性——而且這是策略性的

Terra 以旗艦款一半的價格提供 GPT-5.5 級別的能力，這不僅僅是划算。這是一個護城河策略。OpenAI 正在為 Terra 和 Luna 定價，使得所有其他中階和預算模型都變得不經濟。如果 Terra 以 $2.50/$15 的價格提供 GPT-5.5 的品質，那麼 Anthropic 的 Sonnet 級別和 Google 的中階模型的利潤壓力就會非常真實。Luna 定價 $1/$6 則是直接瞄準大量部署——客服中心、內容管道、分類任務——在這些場景中，每個 token 的成本比頂尖智慧更重要。

這種定價只有在 OpenAI 的規模下才有效，而且只有在廣泛存取很快到來的情況下才有效。一個只有 20 家公司能使用的模型不是定價武器，它只是一個展示。真正的競爭影響取決於 GPT-5.6 是否能在幾週內如承諾般全面上市，還是政府的關卡會拖延更久。

我接下來關注的是

• 「未來幾週」的承諾是否會實現。七月中旬是傳聞中更廣泛的 ChatGPT 和 API 存取的目標時間。任何延遲都會重塑競爭窗口。

• Anthropic 的下一步行動。Mythos 5 已獲得關鍵基礎設施組織的部分例外。Fable 5 仍被暫停。Anthropic 的 IPO 計畫據報導仍預計在今年稍晚進行——但你不能在旗艦模型受到出口管制的情況下上市。

• 行政命令框架。目前流程是逐案處理，沒有公布的標準。一旦正式規則制定出來，它們將定義每個實驗室的發布關卡，而不僅僅是 OpenAI 和 Anthropic。

• 基準測試的交叉驗證。Sol 在 Terminal-Bench 上的 91.9% 令人印象深刻。在 Anthropic 的測試框架以及更廣泛的基準套件上的獨立評估，將決定這是否是真正的能力飛躍，還是範圍受限的宣稱。

GPT-5.6 是 OpenAI 有史以來最強大的模型。這點沒有爭議。但這次發布的故事不是模型本身——而是那道關卡。這是第一次，前沿 AI 的發布沒有直接面向使用者。它首先去了華盛頓，而華盛頓決定了誰能進入。那道關卡如何演變，將比任何基準分數更能塑造未來十年的 AI 部署。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
0成本拿2股SK海力士
169.73萬熱度
#
Saylor暗示增持BTC
850.29萬熱度
#
預測世界盃巴西vs日本
49.07萬熱度
#
Solana生態ANSEM暴漲
2196.91萬熱度
#
USD1鏈上質押享年化7.66%
101.35萬熱度

已置頂

#OpenAIGPT5.6

熱門話題

0成本拿2股SK海力士

Saylor暗示增持BTC

預測世界盃巴西vs日本

Solana生態ANSEM暴漲

USD1鏈上質押享年化7.66%

已置頂