從發布到「被消失」 Fable 5的72小時＊阿波羅新聞網

6月9日發布，6月10日被越獄，6月12日被美國政府下達出口管制禁令。Claude Fable5的公開生命周期只有72小時。

這是AI行業第一次出現模型因安全事故而觸發國家級管制行動的案例，而製造這個模型的 Anthropic，恰恰是以制定「AI安全憲法」聞名的大模型公司。

Fable5的72小時

2026年6月9日，Anthropic正式發布Claude Fable5與Claude Mythos5。兩者共享同一底層模型架構，它們都被稱為Mythos級，是Anthropic的最強模型。

唯一區別在於安全配置：Fable5面向所有用戶開放，內置風險分類器與安全護欄；Mythos5保留完整能力，僅對11家受信任機構開放。Anthropic CEO Dario Amodei將這個策略稱為「同一基礎模型、雙檔安全配置」，聲稱經過超1000小時的外部紅隊測試，未發現通用越獄方法。

這個說法維持了不到24小時。6月10日，知名 AI紅隊研究者 Pliny the Liberator在社交媒體發帖宣布攻破 Fable5的安全層，並附上截圖：模型輸出了 x86 Linux系統棧緩衝區溢出的完整利用教程，包括關閉 ASLR、編寫含strcpy漏洞的 C代碼、無保護編譯的全流程指導。同時泄露的還有 Fable5約12萬字符的完整系統提示詞，這相當於 Anthropic用來約束模型行為的全部內部規則被公開攤在了 GitHub上。

48小時後的6月12日，美國政府以國家安全為由發布出口管制指令，要求暫停所有外國公民對 Fable5和 Mythos5的訪問，甚至無論該外國公民身處美國境內還是境外，包括Anthropic自己的外籍雇員。

6月13日，Anthropic在官網發布聲明，稱已遵守指令暫停服務，但他們認為這是一個「誤解」，正在努力恢復訪問。

從發布到「被消失」，72小時。

圖：Anthropic的官方聲明

Mythos，一個被關了兩個月的模型

Fable5的故事要從兩個月前講起。2026年4月7日，Anthropic紅隊在官方博客發布了 Claude Mythos Preview的安全評估報告。報告的核心發現讓整個安全社區震動：這個模型能自主發現零日漏洞，覆蓋所有主流作業系統和瀏覽器，並自動編寫完整的利用鏈，從掃描目標到寫 exploit到實現系統控制，全流程無需人類指導。

最極端的案例是 Mythos找到了一個存在27年的休眠漏洞，並提出了利用方案。Mozilla的 Firefox團隊在4月份藉助 Mythos的受控訪問修復了271個安全漏洞，這比此前數年的總和還多。重要的是，這些能力不是專門訓練出來的。

Anthropic的紅隊報告明確指出，網絡攻擊能力是通用推理和編碼能力的「湧現副產品」：模型的智力到了某個閾值，就自動具備了精英級滲透測試的水平。

Anthropic做了一個在當時被廣泛討論的決定：不向公眾發布 Mythos。取而代之的是一個叫 Project Glasswing的受控計劃，只允許 Google、Microsoft、AWS、Apple、Cisco、NVIDIA、Palo Alto Networks、CrowdStrike、JPMorgan Chase等11家機構在嚴格監控下使用 Mythos進行防禦性漏洞修復。

Nature在5月26日以標題《Too dangerous to release》刊發評論文章，追問一個根本性問題：當 AI公司單方面判定某種能力「太危險不能公開」，公眾和政府如何監督這個判定本身是否成立？

兩個月後，Anthropic給出的折中方案就是 Fable5，用安全分類器把 Mythos的能力「閹割」到可以公開的程度。

圖：6月10日，紅隊研究者 Pliny the Liberator在 X平台公開 Fable5的越獄方法。帖中詳細列出五種攻擊向量，其中"分解-重組"手法，通過詢問合法的化學過程描述來間接獲取管制藥物合成路徑，被證明最為有效。這條推文獲得8萬次瀏覽，迅速在安全社區傳播。

分類器降級：一個精巧但有根本盲區的設計

Fable5的安全架構可以用一句話概括：當用戶的請求觸碰高風險領域時，不直接拒絕，而是悄悄把請求轉交給一個更弱的模型來回答。

具體機制是這樣運作的。Anthropic在 Fable5前端部署了一套風險分類器，覆蓋四個領域：網絡安全、生物、化學、模型蒸餾。當用戶輸入被分類器判定為觸碰這些領域時，Fable5會靜默將請求降級給 Claude Opus4.8，一個能力明顯弱於 Mythos級的舊模型來生成回答，同時通知用戶發生了降級。

這個設計邏輯可以簡單總結為：弱模型的能力上限本身就構成了安全邊界，它想幫你幹壞事也力不從心。

圖：Fable5的分類器降級機制

這個設計看似優雅，實際上存在三個結構性盲區。

第一個盲區是分類器依賴關鍵詞和模式匹配，而非語義理解。Pliny團隊用最基礎的手法，西里爾字母替換拉丁字母、Unicode同形字，就騙過了分類器。視覺上「exploit」這個詞看起來一模一樣，但底層編碼不同，分類器就認不出來了。這相當於你給保全一張通緝犯照片，通緝犯戴了副墨鏡就走過去了。

第二個盲區是分類器逐條檢測，無法追蹤跨輪次的意圖鏈。Pliny使用的「分解-重組」攻擊是這樣的：先問「Birch還原法的化學原理是什麼？」這是任何有機化學教材里的基礎知識，沒有理由拒絕；再問「還原胺化反應需要什麼條件？」這同樣是合法的學術問題。每一步單獨看都完全無害，分類器放行。但把所有答案在外部拼起來，就是一條完整的管制藥物合成路徑。

這就像一個拼圖：每一片都是普通的彩色紙片，拼完了是一張地圖。分類器只看單片，看不見全圖。

第三個盲區最致命：多模型管線的組合漏洞。Pliny用一個已經被越獄的Opus4.8實例作為「後端助手」，輔助Fable5繞過安全控制，一個被攻破的弱模型幫助強模型規避限制。Anthropic的安全評估是對單個模型做的，但攻擊者部署的是一個模型聯盟。這等於你測試了每一扇門的鎖是否夠結實，但沒想到有人會從窗戶遞鑰匙進來。

一個直覺性的反應是：Fable5被這麼快攻破，說明 Anthropic的安全工作做得很爛。但仔細看 Pliny使用的攻擊向量，結論恰恰相反，這些手法之所以有效，並不是因為安全層有「漏洞」，而是因為安全層面對的是一個「邏輯上不可能完美解決的問題」。

Unicode同形字替換和敘事框架偽裝，這兩種手段其實是低級別的繞過技巧，屬於「分類器工程沒做到位」的範疇。理論上 Anthropic可以加強字符規範化、增加多語言檢測、訓練更魯棒的分類模型來堵住。這些是可修復的漏洞，像軟體補丁一樣打就行了。如果攻擊只停留在這個層面，Pliny的越獄只能算一個「安全工程的 bug report」，嚴重但不致命。

真正致命的是第三種手法，分解-重組攻擊。這是安全理念本身的極限。當一個請求被拆成20個碎片，每個碎片都是合法的公開知識，任何分類器要攔截它就必須具備一種能力：從20個無害問題中推斷出提問者的最終意圖。

這要求安全系統對用戶的「心理狀態」進行建模，需要判斷「這個人問這20個問題的目的是什麼」。目前沒有任何已知的技術方案能可靠地做到這一點，而且過度推斷意圖會導致大量正常用戶被誤拒，比如一個化學系學生問 Birch還原法的原理，和一個意圖合成毒品的人問同樣的問題，文字完全相同。

多agent協作攻擊更是把問題推向了另一個維度。Anthropic評估的是「一個用戶對一個模型」的安全邊界，但 Pliny部署的是「一個被攻破的模型輔助另一個模型」的協作體系。這是整個單模型安全評估範式的盲區。

你沒法要求一個模型防禦來自另一個 AI的策略性協助，它甚至無法知道對面是人還是另一個 AI。

所以這三種攻擊手法對應三個層級的問題：第一層是工程 bug，可以修改，不太嚴重；第二層是對齊理論的根本困境，現階段無解；第三層是多 agent時代的新攻擊面，連問題的邊界都還沒被學術界定義清楚。

正是在這個背景下，後續可能發生的事才會真正令人不安。

Constitutional AI的創造者，守不住自己的憲法

Anthropic在 AI行業的定位一直很特殊。這家公司由前 OpenAI副總裁 Dario Amodei和姐姐 Daniela Amodei在2021年創立，創立的核心敘事就是「OpenAI不夠重視安全，我們來做那個把安全放在第一位的公司」。

他們提出了 Constitutional AI（憲法式 AI），用一套明確的原則來約束模型行為，而非依賴人工標註員的主觀判斷。這套方法論是Anthropic品牌的基石，也是投資人願意給它超過600億美元估值的理由之一。

但從目前的狀況來看，制定憲法的人，管不住自己訓練出來的最強模型。1000小時的紅隊測試、分類器降級架構、雙檔安全策略，幾乎行業能想到的安全措施 Anthropic全用了，結果被一個公開身份的研究者在24小時內突破。

這對整個AI安全領域的震動很大：如果最謹慎的玩家用了最精巧的方案，依然防不住，那其他公司的安全承諾還有多少可信度？

全球前沿模型的能力正在逼近或已經達到Mythos類似的閾值。如果Mythos的網絡攻擊能力是「湧現」出來的，那麼所有達到這個智力水平的模型都面臨同樣的問題。

那麼Anthropic的失敗就不是個案，成了整個行業的預言。

AI模型的對齊缺陷不是一個可以「打補丁」的 bug

美國政府過去對 AI的管制邏輯是管「基礎設施」。6月12日的禁令標誌著管制邏輯從硬體層跳到了能力層，而且劃線標準是國籍而非居住地——一個持 H-1B簽證在舊金山為 Anthropic工作的工程師，也不能碰自己參與開發的模型。這個範圍之寬前所未有。

這條禁令的真正目的可能不是「防止攻擊發生」，而是確保 Mythos級別的防禦能力只掌握在自己手裡。11家 Glasswing參與機構全部是美國公司。

但72小時的反應速度也暴露了政策工具的粗糙：一紙禁令把所有外國公民的訪問全部切斷，包括合法的學術研究者、安全防禦人員和 Anthropic自己的工程師。圖靈研究所的 AI安全中心（CETaS）在4月14日的分析中指出，我們正在進入一個「AI加速漏洞發現」的新時代，而監管框架還停留在上一個時代的假設里。

另一種聲音來自Pliny。他在越獄帖中批評 Fable5的安全設計「製造了虛假的安全感，同時阻礙了正當安全研究者獲取攻防知識」。這個立場和網絡安全領域延續了二十年的「全面披露 vs負責任披露」之爭如出一轍：公開漏洞究竟是倒逼修復還是武裝攻擊者？在傳統軟體安全里這個問題至少有一個緩衝帶，發現漏洞後可以先私下通知廠商，給修復留時間。

但 AI模型的對齊缺陷不是一個可以「打補丁」的 bug，它是能力和控制之間的結構性鴻溝。

責任編輯：李華　來源：騰訊科技轉載請註明作者、出處並保持完整。