6月9日，Anthropic上線其成立以來最強模型，Claude Fable 5和Claude Mythos 5，這是Anthropic首個“Mythos-class”模型。Fable 5是面向公眾的版本，帶有安全分類器：在網絡安全、生物學、化學等高敏感領域，查詢會被自動路由到能力較弱的Opus 4.8。Mythos 5則是同一底層模型，但安全限制解除，僅通過Project Glasswing向約150個經過審查的組織提供。

此時，距離Mythos的首個預覽版亮相，已經過去了2個月。

Anthropic在官方博客中提到，“Fable 5系列在經過測試的所有模型中，具備最嚴格的安全防護”。

Pliny the Liberator披露Fable 5“越獄”風險

只是在一天之後，著名AI越獄者Pliny the Liberator在X上發布全大寫帖子：“JAILBREAK ALERT, ANTHROPIC PWNED, FABLE-5 LIBERATED”。他聲稱使用Unicode替換、同形字符、長上下文稀釋和分解-重組技術繞過了Fable 5的安全分類器。

當時阿莫迪可能還沉浸在Fable 5模型“秒天秒地”的喜悅中，還沒注意到Pliny預告的風險，洋洋灑灑地在自己的個人博客上發布了題為“人工智能指數級增長下的政策應對”的長文，主張政府應該有權阻止不安全的AI模型部署。

和Pliny一樣，亞馬遜研究員也發現了模型“越獄”風險，但在處置上略有不同。

亞馬遜CEO安迪·賈西直接選擇跨過Anthropic——這家亞馬遜重金投資的公司——給白宮和美國商務部送去了一份“越獄”報告。

多家外媒披露，在收到亞馬遜“舉報信”的次日（6月12日），Anthropic收到了美國政府的最後通牒，被指示90分鐘內關閉兩款模型的訪問權限，阿莫迪試圖通過一通電話來挽回，但最終還是收到了“緊急出口管制指令”。

6月12日晚間，Anthropic執行了該指令。有意思的是，阿莫迪和他的團隊對指令進行了“加碼”，在全球範圍內對Fable 5和Mythos 5“拔網線”。也就是不管你是不是美國人，全部一刀切不給用。

從6月9日發布，到6月12日緊急下線，堪稱Anthropic的“危情72小時”。

我在朋友圈轉發這條消息的時候，引用了一句香港電影的經典台詞——“難辦，那就都別辦了”。

這裡面有一個可以探討的空間——明明要求的是對“非美籍用戶”斷網，為什麼Anthropic激進地選擇了一刀切？要知道，Anthropic從來就不是“聽話的乖寶寶”，一季度，阿莫迪直接掏出了自己制定的“憲章模型（Constitutional AI）”服務條款，試圖以放棄美國政府合同為代價，捍衛“AI不能用於軍事和監控”的理念。

關於“一刀切”的處理方式，一些分析認為Anthropic缺少應對時間，無法在第一時間去篩選用戶，尤其是很多用戶通過API接入，甚至還有一些中轉API，工程難度巨大。

這個說法有合理性，但如果翻開他們官網的政策頁面，你會發現Anthropic早就在這方面做功課了，其最新發布的隱私政策全文裡面就暗示將要求用戶提交年齡、身份等信息，這也被很多人解讀為Claude後續模型有可能加入“人臉識別”。從這個角度來看，去識別一下用戶身份“美籍”或者“非美籍”，不是什么難題。

難以抗拒的信

“很多人在分析法律基礎，其實就是用了‘Is informed letter’（告知函）機制，”一位長期跟蹤出口管制政策的研究員說。

在美國的出口管制體系中，告知函是美國商務部工業與安全局（BIS）常用的非公開、快速下發的行政執法工具。它允許監管機構不通過立法程序修改《出口管制條例》的情況下，致函目標企業執行特定物項、技術等出口必須申請許可。

2023年底，英偉達針對中國市場推出特供H20產品，以規避《出口管制條例》中對GPU的算力、帶寬等進行限制的細則，隨後BIS向英偉達、AMD等企業下發告知函，要求相關A芯片的出口必須額外申請許可，然後在這個過程中去更新《出口管制條例》。

回到Anthropic身上，在收到限制“非美籍”用戶接入的告知函之前，美國政府明確給了“90分鐘下架”的指示，Politico等多家外媒披露，雙方經過了多輪對話交鋒，覆蓋了美國財政部長、美國商務部長、白宮AI政策顧問等多名官員，但上述指示遭到了Anthropic的拒絕。

一開始拒絕下架，到最後“一刀切”拔網線，這樣的反差很難用“工程無法實現”來解釋。

告知函一般是正式出口管制規則出台的前奏，但前述研究員認為這次不會更新出口管制條例，“說白了就是先把Anthropic攔下來。”

他認為，在大模型發布場景下，要明確到底管制什麼，但這個問題目前並沒有清晰答案。“究竟是模型權重、API訪問、推理服務，還是某種抽象的‘模型能力’？”

過去，出口管制更偏向於實物，即便是技術，最終也是實物商品在提，但模型權重一旦生成，在數字空間中就可以傳播，很難在物理上實現絕對意義的“禁運”。

所以，“先把Anthropic攔下來”是一種合理的推測，而攔下來之後，再討論更妥當的治理和對齊方式，也正是基於這種假設，可以進一步推斷Mythos、Fable即將回歸，這也是為什麼“AI沙皇”大衛·薩克斯強調“禁用”只是暫時限制。

那麼，美國政府為什麼要動用行政手段去干預一家AI實驗室前沿模型的發布？

模型的“漏洞突破”能力。

3月份，在一次和360集團董事長周鴻祎的交流中，他特別提到了“Anthropic基於模型發現漏洞”的能力。“Anthropic通過AI編程、AI查找漏洞，就把很多原來安全上不能解決的問題給解決了。所以我提了一個建議，關注AI（安全）智能體。”

前述研究員也強調，Mythos所涉及的並不是泛泛意義上的聊天機器人能力，而是高度具體的漏洞發現、攻擊路徑分析和進攻性網絡能力。

沒有共識的安全

Anthropic不但選擇了“加碼執行”禁令，也發了一份公開聲明。

“為了確保合規，我們必須立即停止所有用戶的方案。”Anthropic在聲明中寫道，並且補充解釋這是一個誤會，他們認為美國政府及第三方報告的“越獄”方案，只被用於少量先前已知的輕微漏洞，且這些漏洞看起來都相對簡單。

所以回過頭來看，阿莫迪在個人博客中主張政府應該有權阻止不安全的AI模型部署，以及Anthropic在官方博客把Fable 5定義為最安全的模型，都透露著對自家產品安全性的絕對自信。

只不過，Anthropic也留了一句鋪墊“目前任何模型提供商都無法實現完全防越獄”，這句話由於與絕對的安全存在矛盾，甚至有詭辯的成分。

大意是：我們的模型是最安全的，那些不安全的模型，主管部門才應該阻止一下；我們的漏洞很少都是已知的輕量級；我們已經盡最大努力來限制“越獄”，但沒有人能絕對封堵“越獄”。

可一個號稱最安全的模型，為什麼要在已知有漏洞的情況下選擇上線？這難道不是帶傷上陣嗎？既然不能絕對封堵“越獄”，為什麼要呼籲打壓其他模型呢？

熟悉Anthropic這家公司用戶應該都知道，其不僅模型和產品能力出色，實際上在AI的安全與治理上也表現得非常激進，甚至有一種“AI時代規則制定者”的使命感，不斷給自己貼上“安全”光環。

2023年9月19日，Anthropic發布了RSP 1.0（負責任擴展政策），呼籲模型能力越強，安全保障必須越強。在證明安全之前，不發布更強大的模型。該文件中提到了AI安全等級分級機制（ASL），其中ASL-1：無意義災難性風險、ASL-2則顯示出早期危險信號，但無災難性風險、ASL-3顯著增加災難性濫用風險等等。

“如果AI規模擴展超出了我們遵守必要安全程序的能力，ASL框架將要求我們暫時暫停訓練更強大的模型。”Anthropic寫道。

在Fable 5上線之前一周，6月4日，Anthropic發布了《當AI自我塑造》文章，呼籲“主動暫停”以規避AI遞歸改進的風險。

話音剛落，Fable 5系列模型上線了。

如果倒回去看這個時間線，這表現得非常滑稽，就像是學霸告訴你，“我考試從來不複習”，但實際上有瘋狂補課的畫面感。

如果真有擔憂，為什麼在呼籲暫停以後又要把自己“最強模型”發出來？這是其一。實際上“Mythos級”模型的預覽版2個月前就已經亮相，既然能力已經如此具有突破性，為什麼當時不呼籲暫停？

Anthropic看似在安全策略上表現激進，但這種安全呼籲和行動，更像是在約束對手，一邊喊著對不安全的模型監管，呼籲暫停前沿模型訓練，另一邊自己在不斷地迭代、往前推進。

如果說2023年發布的RSP 1.0，Anthropic當時還是一個理想主義者，到了2025年的RSP 2.2，他們就變成了一個現實主義者。

RSP 2.2的Changelog中提到了一個修改：“將sophisticated insiders和state-compromised insiders排除在ASL-3 Security Standard之外”，並“移除ASL-2對蒸餾攻擊（distillation attacks）的保護承諾”。

我特地查了一下，這個修改的意思就是：以後來自內部攻擊、國家力量攻擊等相關防禦，都不作為安全的硬性標準。換句話說，Anthropic悄悄“降低”了其安全防禦的標準，不再承諾去抵禦那些“最頂級、最難防”的安全威脅。

2026年2月9日，Anthropic安全最高負責人Mrinank Sharma辭職。他在公開信中寫道：“世界處於危險中。在我任職期間，我反覆看到讓價值觀真正指導組織行動是多麼困難……我們不斷面臨壓力，要放棄最重要的東西。”

Mrinank Sharma辭職幾天後，2月24日，Anthropic發布了RSP 3.0，全面重寫其安全策略，刪除了所有“暫停”相關的措辭。

本質上就如前面所說，Anthropic從來就沒有觸發過訓練暫停，這其實和2023年3月份那篇知名的“暫停GPT-4以上模型訓練6個月”的公開信一樣，當時馬斯克是重要參與者——先簽署公開信，後宣布xAI成立，然後11月份就發布了Grok-1。

所以，各種大模型實驗室根本就沒有“安全共識”，所謂的暫停，全都是商業策略。

被資本推著跑

Fable 5上線，輸入和輸出定價是每百萬token是10美元和50美元，堪稱Opus 4.8的兩倍，好在快取命中有90%的折扣。

當時和一位AI領域研究員交流，他給的反饋是“好用是好用，貴是真的貴”。一時間也有各種內涵大模型價格越來越貴的段子、短視頻和gif圖，這其實反映出一個趨勢：只要模型能力強，即便是貴，依舊會有很多人用。

這也是為什麼這段時間，國產模型都在嘗試“提速”，給用戶提供更快的推理和TPS（Token/秒），同時適當做一些價格上漲的原因。

回到Anthropic身上。2021年5月，阿莫迪帶著親妹妹和14名研究員出走OpenAI，創立Anthropic，並在A輪融到1.24億美元，估值5.5億美元。5年後的2025年，其H輪融資膨脹至65億美元，估值9650億——以估值計算，5年增長超過1700倍。

比估值膨脹更快的是收入。

2024年初Anthropic的年收入不到10億美元，這個數字在2025年底達到約90億美元（ARR口徑）。2026年一季度Anthropic的營收為48億美元，《華爾街日報》獲取的文件顯示，Anthropic向投資者披露的財務數據，預計第二季度營收將達到109億美元。

根據公開資料，6月1日，Anthropic秘密向SEC提交了IPO註冊文件。目標是搶先於OpenAI在今年第四季度上市，募資600億美元。按照單季度100億美元的收入計算，全年ARR預計超過400億美元，9650億美元的估值，意味着投資者為此要支付24倍ARR估值，這種估值定價要求Anthropic在收入端保持指數級增長。

這種背景下，每一個安全承諾，比如“能力超標就暫停訓練”，都相當於收入增長的刹車。在24倍ARR的估值下，任何“暫停”都會對估值產生災難性影響。

所以，RSP 3.0中刪除暫停字樣，不是像巧合，反而更像是屈服於資本壓力——IPO關鍵階段，任何可能會帶來意外的“刹車”都要被拆除，從招股說明書的合規性來看亦是如此。

如果不去掉硬性“暫停”指標，招股說明書中就要明確“本公司承諾模型能力觸發未知安全紅線，無條件暫停商業化部署”這類風險提示。這相當於告訴投資人，公司營收隨時可能無預警“歸零”。

9650億美元估值和IPO壓力下，Anthropic面臨著股東利益可能會壓倒公共利益的難題。

OpenAI調整架構的時候，討論最激烈的話題就是PBC——公共利益公司，Anthropic也是這樣的治理架構。按照這個架構設計，長期利益信託基金（LTBT）有權指派2-3名董事，但直到2024年底，LTBT才任命了1名董事會成員，2025年也只新指派了1名，直到今年上市壓力逼近，諾華制藥前CEO Vas Narasimhan加入董事會，LTBT的董事席位達到4/7（7個席位到位4人）。

意外就在於，LTBT指派的董事當中，僅任職一年的Jay Kreps（Confluent聯合創始人兼CEO，2024年5月由信託指派加入）官宣辭任相關職務。

“信託派”與“管理層+資方”的投票權比例又退回到了3-3。在下一名LTBT指派的董事就位之前，如果雙方出現明顯分歧，就會出現“治理真空”。

關鍵的“第7人”，會在IPO前到來嗎？

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
我的Gate交易時刻
80.95萬熱度
#
沃什首秀聯準會利率不變
143.74萬熱度
#
預測世界盃加拿大VS卡塔爾
88.47萬熱度
#
TradFiCFD黃金大師賽
105.11萬熱度
#
持有USD1即享收益
5.65萬熱度

芯片禁運“狂熱粉” 遭遇模型封殺

“危機72小時”

難以抗拒的信

沒有共識的安全

被資本推著跑

熱門話題

我的Gate交易時刻

沃什首秀聯準會利率不變

預測世界盃加拿大VS卡塔爾

TradFiCFD黃金大師賽

持有USD1即享收益

已置頂