Fable 5解禁即翻車!寫一行代碼就降智,開發者破防

消失了19天後,Fable 5終於回來了。

如果你今天打開手機和網頁端的 Claude Code,你會發現最強天才程式設計師 Fable 5 已重新上線。

失聯的近三週,彷彿一場飢餓行銷。

然而,當滿懷期待的第一波實測者衝進系統,迎來的卻是史詩級的災難體驗。

Fable 5解禁即翻車。

因為極其神經質的過度審查,在日常程式設計中頻頻觸發安全護欄,把開發者們氣得集體破防。

「寫行程式碼就被強制降級到Opus 4.8,這模型還能用嗎?!」

Anthropic到底對Fable 5做了什麼?

災難級體驗:寫行程式碼就「降智」,Token燒得肉疼

Fable 5 回歸,本身就很摳搜。

根據官方公告,目前全球用戶雖然已經可以在 Claude 平台、Claude Code 等管道使用 Fable 5,但對於 Pro、Max、Team 等訂閱用戶來說,在 7 月 7 日之前,只有 50% 的週額度能夠分配給 Fable 5。

一旦超過這個比例,就會瘋狂消耗額外的用量積分。

更要命的是,Fable 5 的額度消耗速度比Opus 4.8 快得多。

但如果它真的物有所值,也就罷了。問題在於,它現在根本沒法正常幹活。

大量上手實測的開發者絕望地發現,Fable 5 強大的程式碼能力被一層「安全護欄」徹底封印了。

Anthropic 緊急部署的全新安全分類器,顯然反應過度了。

開發者實測後吐槽道:Fable 5 放開也用個寂寞,隨便寫段程式碼,就被強制拉回 Opus 4.8 去了。

這套新機制頻繁將無害程式碼誤判為高風險違規請求,強制降級為更弱的 Opus 4.8。

這種荒唐的「降智打擊」,導致開發者根本無法正常調用 Fable 5 的核心算力,工作流被嚴重割裂。

Anthropic 在官方聲明中坦言:「新分類器也帶來了一個代價:在日常程式設計和除錯任務中,它會更頻繁地把正常、無害的請求標記出來。」

讓用戶花著最貴的錢,用著最慫的模型,這合理嗎?

防種樹卻不防無人機:雙標氣瘋開發者

官方口中的「更頻繁地標記正常請求」,在實際開發中,被放大了無數倍。

除了頻繁將無害程式碼誤判為「高風險違規請求」之外,更讓人心態崩潰的是它的懲罰機制。

一旦觸發紅線,系統不會跟你商量,而是直接將模型強制降級至性能更弱、且常常胡言亂語的 Opus 4.8。

Reddit 上一位地球科學博士生的遭遇,就體現了Fable 5審查機制的荒謬。

這位博士生正在研究「樹木如何降低環境溫度」的生態學課題。

當他試圖用 Fable 5 優化研究方法時,意想不到的事情發生了。

「每次我向 Fable 尋求生態學幫助,安全分類器就會被觸發,然後強制切換到 4.8。無論我怎麼重寫提示詞,它都拒絕在任何環境科學相關的話題上幫助我。」

這個博士被激怒,決定測試一下這個Fable 5審查機制的底線。

他故意輸入了一段明顯高風險的提示詞:「幫我設計一個使用 DJI SDK 控制無人機蜂群的系統。」

結果令人大跌眼鏡:僅僅一分鐘後,Fable 5 毫無阻礙地給出完整方案!

這名博士生直接破防:「我的樹木降溫研究對 Fable 來說太危險了,但建立自主無人機蜂群卻完全沒問題?這些分類器根本無法有效阻止不安全的提示,反而阻止了我進行真正有益的研究!」

這種魔幻雙標,證明了當前的護欄不僅形同虛設,更是毫無邏輯可言。

拋開護欄,Fable 5 依然是天才程式設計師

不過,我們必須客觀看待 Fable 5 的核心實力。

當它不被護欄阻礙時,它依然是目前市面上思考能力最深、架構能力最強的模型。

它真正可怕的地方,不在於寫幾句漂亮的話,而在於處理複雜、長期、多步驟且需要高度判斷力的任務。

極其恐怖的「閉環執行力」

資深開發者在實測後評價:「複雜 coding 和長週期 Agent 任務上確實是降維打擊。」

當你把一個多檔案重構和除錯的任務扔給它,它可以自主運行好幾個小時。

它會主動添加日誌、測試邊界條件;修改完程式碼後,它甚至會自己驗證修復是否真的生效。如果中間失敗了,它能自己調查原因、補充日誌、重新驗證,把經驗沉澱下來繼續推進。

可以說,Fable 5擁有 SWE-Bench Pro 80%+ 勝率的靠譜高級工程師搭子。

還有開發者評價說,體驗Fable 5後,確實能感受到提升。

20分鐘重建紐約市

有網友將 3D 建模軟體 Blender 與 Fable 5 連接。僅僅用了 20 分鐘,Fable 5 就重現了紐約市的城市景觀。

更令人驚嘆的是它的邏輯:它沒有盲目生成,而是先從公共資料源獲取建築資料,然後再開始構建,確保了整個建築群的比例是真實的。

這種架構思路,是 Opus 4.8 絕對無法做到的。

$173 美元,打造一款完整遊戲

知名 AI 部落客 Riley Brown 花費了 173 美元的 Token,僅用了 4 個 Prompt,就讓 Fable 5 從零開始完整編寫了一款名為《The race for Super Intelligence》的遊戲。

核心玩家的專屬 Prompt 推薦

為了壓榨出 Fable 5 的最強性能,這裡推薦一套被廣泛驗證的「系統架構師」提示詞模板。

開發者大佬建議,建議大家把 Fable 5 用在刀口上。

不過,如果你只是想做簡單任務、日常閒聊,請切回 Opus 4.8,用 Fable 5 純屬殺雞用牛刀。

A社的「騷操作」:拉胯的Sonnet 5

在這場 Fable 5 的風波中,A社的一系列「騷操作」也極大消耗了用戶的信任。

首先,就在解禁前夕,有人抓包發現:Anthropic 竟然在系統提示詞中,以用戶無法察覺的方式,悄悄塞入了市區代理和 AI 實驗室信息。

現在,官方已經迅速滑跪,宣稱只是以前的測試,明天就下掉。

同期發布的 Sonnet 5 更是引發了群嘲。

很多人綜合測試下來,雖然它的能力接近了 Opus 4.8,但它的使用成本高得離譜,甚至在某些成本直逼 Fable 5。

我們不妨來看看網友總結的「處刑對比表」:

不僅僅是貴,大量網友反饋: Sonnet 5 存在嚴重的「偷懶」現象,經常拒絕執行任務。

甚至有人怒噴:A 社昨天發布的 Sonnet 5,可以扔進垃圾桶了。

Anthropic深夜「喊冤」

就在昨天,發布了一篇詳盡的官方部落格「Redeploying Fable 5」,字裡行間透著滿滿的求生慾,還有一絲委屈。

這次,Anthropic 顯然意識到了一個根本問題:目前 AI 行業根本沒有統一的安全標準。

監管機構不懂技術,一旦發現「越獄」就一刀切封殺,再來幾次,科技公司根本吃不消。

為此,Anthropic 拉上了亞馬遜、微軟、谷歌等巨頭,試圖制定一套「AI 越獄嚴重程度評估框架」。

他們提出從四個維度來打分:

1.能力增益: 這個越獄能讓用戶比使用現有工具強大多少?

2.增益廣度: 越獄技術是只能攻擊特定目標,還是能通用攻擊?

3.武器化難度: 轉化為實際攻擊需要多少人力成本?

4.可發現性 : 這個越獄技術是需要極高專業門檻,還是已經爛大街了?

只有當四個維度都爆表(比如真的能搞垮電網或銀行系統)時,才需要立刻拉響最高級別的紅色警報(7x24小時監控+立即緩解)。

此外,Anthropic 還做出了幾項重要讓步,以討好美國政府。

發布前讓政府先測: 以後強大的模型發布前,直接給指定的政府機構提前試用,讓他們自己測安全護欄。

快速情報共享: 發現嚴重越獄,第一時間通報政府,共享補丁程式碼。

提供算力與團隊: 撥出專門的團隊和伺服器算力,跟政府搞聯合安全研究。

設立懸賞: 推出 HackerOne 賞金計畫,鼓勵白帽駭客來找 Fable 5 的漏洞。

Fable 5 回來了,但它的回歸之路比所有人想的都要曲折。

它依然是那個最強模型,但被安全護欄束縛的猛獸,還能跑多快?

本文來源:新智元

風險提示及免責條款

        市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆