Anthropic 在 Claude Fable 5 加入蒸馏检测功能,能挡住中国开源模型?

Anthropic 在 Claude Fable 5 中加入蒸餾偵測,第三方一旦試圖提取模型能力,系统就自动退回 Opus 4.8,等於把「禁止蒸餾」从使用條款寫进了模型本體。
(前情提要:Anthropic 怒控 DeepSeek 等中国 AI 偷学 Claude,拿 2.4 万假帳號狂刷 1,600 万问答)
(背景補充:Anthropic:美国 AI 模型领先中国才能守護民主、提议將蒸餾攻擊定为刑事犯罪)

本文目錄

Toggle

  • 从法律威脅到技術封锁
  • 封堵蒸餾,擋的是什麼?
  • 技術封锁的真正边界

Anthropic 的 Claude Fable 5 在今(10)晨正式发布,这是 Anthropic 首个对公眾开放的 Mythos 等級模型,SWE-Bench Pro 跑分 80.3%,同期 Opus 4.8 是 69.2%。定价是每百万 token 输入 10 美元、输出 50 美元,大约是 Opus 4.8 的两倍。

除了模型本身能力之外,还有一个討論焦点在它附帶的那道防護机制,Anthropic 把「禁止蒸餾」寫进了模型本體;但这个动作的象徵意義,可能远大於它的实际效果。

从法律威脅到技術封锁

或許你还記得,今年 2 月,Anthropic 公开指控 DeepSeek、Moonshot AI、MiniMax 透过约 2.4 万个偽造帳號,对 Claude 发起逾 1,600 万次查詢,系统性提取输出用於訓練自家模型。OpenAI 也同步遊说美国立法者立法限制。

延伸阅读:AI 模型蒸餾是什麼?DeepSeek 如何花 600 万,学走 1 亿的本事

四个月后,Fable 5 的做法不同:用 AI 分類器辨识自动三類高风险请求,资安、生物与化学武器、以及蒸餾,当模型偵測到就退回 Opus 4.8 回答。对 prompt 改寫、steering vectors(試圖从外部操控模型输出方向的技術手段)、以及 PEFT 引數高效微调这類提取手法,Anthropic 也稱 Fable 5 会主动降低其有效性。

从「想告你」到「让你拿不到」,这是一次策略升級。但问題在於,Anthropic 自己也承认,逾 95% 的对話完全不受影響。防護机制只覆蓋極窄的场景;攻擊性资安任務的攔截成功率是 100%,但「蒸餾行为」的边界卻是模糊的,合法蒸餾和未授權蒸餾,技術操作幾乎一模一樣。

封堵蒸餾,擋的是什麼?

回到 2 月那份指控。机器学習研究者 Nathan Lambert 事后拆解了实际數字:DeepSeek 的查詢量约 15 万次,針对的是推理与獎勵模型;Moonshot 约 340 万次、MiniMax 约 1,300 万次,后两者合计对应的后訓練资料量约 1,500 至 4,000 亿 token。

Lambert 的判斷是,中国实验室即使在 GPU 受限的環境下,強化学習(RL)基建依然扎实;真正的競爭優勢在於把合成资料的生成「正確地規模化」。白話说就是,让模型在反覆嘗試与獎罰回饋中学会做事,不依賴现成答案。

而且还有一个根本矛盾:只要 Anthropic 还在卖 API,蒸餾就堵不死。开放 API 是 Anthropic 的商业模式,而蒸餾本来就是「开放 API」的自然副产品。这道防護的覆蓋面是 5%,剩下的 95% 对話仍然流动。

技術封锁的真正边界

Lambert 说得很直白:「封堵蒸餾,会比限制 GPU 这類实體货物的出货困难得多。」

从这个角度看,Fable 5 的防護机制有两層意義:对产业是一个訊號,Anthropic 认为技術流出已经到了需要寫进模型本體的程度;对中国开源实验室是一个干擾,但幾乎不是阻礙。即便 Fable 5 的蒸餾防護完全有效,中国实验室仍有 Google、Meta 的开源模型、自有的 RL 基建,以及合成资料管線可以倚賴。

不过 Anthropic 从法律層面升級到技術層面,这个动作的象徵意義仍很重要:它说明了「技術封锁」正在成为 AI 地緣政治的新工具。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论