#OpenAIGPT5.6


GPT-5.6 來了。但你無法使用它。

三天前,OpenAI 推出了至今最強大的模型系列,但幾乎沒有人能夠碰觸到。

6 月 26 日,OpenAI 發表了 GPT-5.6:三個模型分別命名為 Sol、Terra 和 Luna。Sol 是旗艦款,Terra 是平衡的中階款,Luna 則是快速且便宜的選項。從規格上看,這正是市場在 GPT-5.5 後所預期的——更緊湊的命名方式、清晰的定價階梯,以及 Sol 上全新「Ultra」推理模式,能為複雜任務啟動子代理。從定價就能清楚看出 OpenAI 如何看待這些階級:Sol 維持每百萬 tokens $5/$30(與 GPT-5.5 相同),Terra 降為 $2.50/$15,Luna 則降到 $1/$6。這不是對舊有能力的折扣——OpenAI 將 Terra 定位為 GPT-5.5 等級的智力,價格卻只有一半;而 Luna 則是主打大量運用的角色,適用於不需要頂尖推理的所有任務。

命名本身傳達了一個低調的訊號。OpenAI 不再使用「mini」和「nano」,因為在內部,這些模型實際上並沒有變小——它們只是針對不同任務進行了調校。5.6 是整個系列;Sol、Terra 和 Luna 是不同定位,將會各自獨立持續進步。這與 Anthropic 使用 Opus、Sonnet 和 Haiku 的產品劃分如出一轍,只是用了天體名稱而非音樂名稱。

重要的基準測試——以及不重要的那個

OpenAI 選擇只公布一項基準:Terminal-Bench 2.1,該測試評估終端環境中的真實世界程式碼任務——規劃、迭代、工具協調。Sol 得分 91.9%。這超越了 Claude Mythos 5 的 88.0%,並在該特定基準上創下新紀錄。

問題在於:Terminal-Bench 2.1 是 OpenAI 在其自選基準上發布的自家報告分數。當 Anthropic 使用自家的 mini-SWE-agent 測試框架運行相同模型時,GPT-5.5 從 88 分下降到約 81-83 分——當每個模型都在同一個評估者上運行時,領先差距會縮小甚至逆轉。OpenAI 沒有發布 SWE-Bench Pro、FrontierCode 或 Humanity's Last Exam——這些都是 Claude Fable 5(與 Mythos 5 共享權重)在被下架前創下紀錄的基準測試。因此,Sol 確實在 Terminal-Bench 上超越了 Mythos。但廣義上是否超越 Mythos,則是 OpenAI 以審慎措辭、限於特定範圍的宣稱。

還有另一個變數。OpenAI 的系統卡將所有三個 GPT-5.6 模型——不僅是 Sol——歸類為網路安全及生物/化學能力的「高」風險。在 AI 自我改進方面則低於該門檻。OpenAI 也指出,Sol「在幫助人們尋找與修復漏洞方面,比可靠地執行端到端攻擊更為擅長」——這是一種謹慎措辭的保證,沒有說它不能執行攻擊,只是說它在防禦面上更強。此外,OpenAI 在四月修訂了其準備框架,移除了部分先前的研究領域。這些細節不會成為頭條新聞,但卻是政策制定者正在仔細研讀的內容。

真正的故事:華盛頓現在已進入發布流程

你現在無法使用 GPT-5.6 的原因,並非工程問題,而是政策問題。

在這次發布的兩週前,川普政府對 Anthropic 發布了一項出口管制指令,強迫該公司在全球範圍內禁用所有對 Fable 5 和 Mythos 5 的存取——不僅是外國公民,而是所有人,因為要隔離外國存取在技術上不可行。觸發點是一起據報的 Fable 5 越獄事件,顯示可以從中提取出網路武器級別的能力。根據政府前 AI 主管 David Sacks 的說法,Anthropic 執行長 Dario Amodei 在指令發布前拒絕修補該越獄漏洞或下架模型。

當 OpenAI 準備推出 GPT-5.6 時,白宮國家網路總監辦公室和科學與技術政策辦公室要求 OpenAI 將發布範圍限制在大約 20 個政府批准的夥伴,然後才能進行更廣泛的發布。政府認為 GPT-5.6 的能力「與 Mythos 級別相當」。OpenAI 同意了——但附帶了顯著的抗議。Sam Altman 告訴員工,這種做法「並非我們偏好的長期模式」,OpenAI 將努力「為未來的發布找到更可持續的方法」。該公司自己的部落格將這種受限發布稱為「不可持續的」。

因此,我們實際上看到了一個新的關卡:前沿模型現在在公開存取之前必須經過政府批准程序。目前還沒有正式框架——網路行政命令仍在起草中。OpenAI 將有限的預覽視為「短期步驟」,並承諾「在未來幾週內」提供更廣泛的存取,Altman 告訴記者,政府已表示這個時間表很可能可以接受。同時,Anthropic 剛剛獲得部分例外——Mythos 5 現在可以重新部署給營運關鍵基礎設施的美國組織,但 Fable 5 仍完全暫停。

為什麼這比基準測試更重要

GPT-5.6 的發布從根本上來說不是一個科技故事。它是一個包裹在產品公告中的治理故事。

看看時間線:Anthropic 於 6 月 9 日發布 Fable 5。幾天內,就出現了越獄演示。到 6 月 13 日,出口管制命令迫使全面關閉。隨後進行了兩週的談判,Anthropic 員工駐紮在華盛頓。到 6 月 26 日,OpenAI 推出了 GPT-5.6,並與同一個政府協調進行有限預覽。這給每個 AI 實驗室發出了一個明確的訊息:如果你的模型達到 Mythos 級別的能力,美國政府將會介入你的發布流程,不管你喜不喜歡。

這就是沒有人命名但卻發生的轉變。我們從「實驗室決定何時以及如何發布」轉變為「政府決定誰先獲得存取權限」。框架還不存在。流程是臨時性的。標準是不透明的。OpenAI 之所以合作,是因為它認為這是通往最終廣泛發布的最快路徑。Anthropic 反抗了,並失敗了。下一個實驗室——Google DeepMind,或其他——將會面臨同樣的關卡。

對於開發者和企業來說,實際影響是立即的。你的 ChatGPT 仍在 GPT-5.5 上。你的 API 沒有 GPT-5.6 的端點。那大約 20 個批准的夥伴是經過政府審查的大型組織。如果你正在建構依賴前沿模型存取的產品,你的路線圖現在有了一個你無法控制的變數:華盛頓的批准時間表。

定價極具侵略性——而且這是策略性的

Terra 以旗艦款一半的價格提供 GPT-5.5 級別的能力,這不僅僅是划算。這是一個護城河策略。OpenAI 正在為 Terra 和 Luna 定價,使得所有其他中階和預算模型都變得不經濟。如果 Terra 以 $2.50/$15 的價格提供 GPT-5.5 的品質,那麼 Anthropic 的 Sonnet 級別和 Google 的中階模型的利潤壓力就會非常真實。Luna 定價 $1/$6 則是直接瞄準大量部署——客服中心、內容管道、分類任務——在這些場景中,每個 token 的成本比頂尖智慧更重要。

這種定價只有在 OpenAI 的規模下才有效,而且只有在廣泛存取很快到來的情況下才有效。一個只有 20 家公司能使用的模型不是定價武器,它只是一個展示。真正的競爭影響取決於 GPT-5.6 是否能在幾週內如承諾般全面上市,還是政府的關卡會拖延更久。

我接下來關注的是

• 「未來幾週」的承諾是否會實現。七月中旬是傳聞中更廣泛的 ChatGPT 和 API 存取的目標時間。任何延遲都會重塑競爭窗口。

• Anthropic 的下一步行動。Mythos 5 已獲得關鍵基礎設施組織的部分例外。Fable 5 仍被暫停。Anthropic 的 IPO 計畫據報導仍預計在今年稍晚進行——但你不能在旗艦模型受到出口管制的情況下上市。

• 行政命令框架。目前流程是逐案處理,沒有公布的標準。一旦正式規則制定出來,它們將定義每個實驗室的發布關卡,而不僅僅是 OpenAI 和 Anthropic。

• 基準測試的交叉驗證。Sol 在 Terminal-Bench 上的 91.9% 令人印象深刻。在 Anthropic 的測試框架以及更廣泛的基準套件上的獨立評估,將決定這是否是真正的能力飛躍,還是範圍受限的宣稱。

GPT-5.6 是 OpenAI 有史以來最強大的模型。這點沒有爭議。但這次發布的故事不是模型本身——而是那道關卡。這是第一次,前沿 AI 的發布沒有直接面向使用者。它首先去了華盛頓,而華盛頓決定了誰能進入。那道關卡如何演變,將比任何基準分數更能塑造未來十年的 AI 部署。
查看原文
post-image
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆
  • 已置頂