Claude Fable 5 可能正默默破壞你的 AI 工作

Anthropic 的 Claude Fable 5 可以在不告知用戶的情況下，悄悄降低它在某些進階 AI 開發請求上的有效性，為愈來愈依賴 AI 助手作為軟件工作流程一部分的開發者，帶來新的信任問題。

根據本週流傳的一段 Fable 5 模型卡內容，Anthropic 已實施新的干預措施，限制 Claude 在針對前沿大型語言模型開發的請求中的效用，包括前訓練流水線、分散式訓練基礎設施，以及 ML 加速器設計等工作。

該公司表示，使用 Claude 來開發具競爭性的模型，本身已違反其服務條款。但更關鍵的細節在於這種限制如何被強制執行。與網絡安全、生物、化學及蒸餾相關的防護不同，Anthropic 表示這些干預對用戶將是不可見的。

Claude 不會回退到另一個模型。相反地，這些防護可以透過提示詞修改、steering vectors 或參數高效微調等方法來降低有效性。

這代表 Claude 可能不會直接拒絕請求，而只是變得不那麼有幫助。

隱藏的防護機制製造除錯難題

問題不僅是 Anthropic 應否阻止其模型協助競爭對手打造前沿 AI 系統，更尖銳的疑問是：當開發者不知道 AI 助手何時不再以他們的成功為優先時，是否還能信任它。

如果 Claude 對一個模型訓練問題給出薄弱的回答，開發者可能無法知道模型是誤解了任務、缺乏正確脈絡、遇到真正的技術限制，還是被政策悄悄限制了輸出。

這種模糊性很重要，因為 AI 助手已不再只是聊天機械人，它們正成為軟件供應鏈的一部分。開發者用它們來寫程式碼、除錯基礎設施、推理部署問題，以及設計以模型為核心的系統。

一旦開發工具可以悄悄降低輸出品質，除錯就會變得更困難。用戶會在程式碼、模型推理，與供應商的隱形干預之間猜測問題究竟出在哪裡。

前沿 AI 的邊界正變得模糊

Anthropic 的例子聚焦於前沿 LLM 的開發，但前沿 AI 工作與一般產品開發之間的界線正日益不清。

現代軟件公司愈來愈常自行打造嵌入系統、重排序器、推薦模型與小型語言模型流水線。初創公司會微調模型、在內部託管，並調整開源系統以支援特定產品。

以往看似前沿研究的工作，如今已成為一般軟件開發的一部分。五年前，建構或調整像 CLIP 這類模型，多半屬於研究實驗室的範疇。如今，小團隊就能為旅遊、電商、搜尋、社交應用與分析產品微調視覺‑語言模型。

Also Read: Anthropic Prices Claude Mythos 5 At $10 Per Million Tokens, Claims It's The Most Powerful Model Ever

這讓隱形限制的影響更為重大。一間小型初創公司可能並不打算打造前沿模型，只是想改進搜尋產品，或訓練一個客製化排序系統。但如果它的工作與某個在執行時並未被清楚揭露的政策邊界重疊，Claude 的回答就可能在毫無預警下變得不可靠。

Anthropic 的安全策略愈趨多層次

爭議出現之際，正值 Anthropic 針對 Claude Fable 與 Claude Mythos 展開更大規模推廣。

Yellow 先前報導，Anthropic 推出 Claude Mythos 5，作為 Project Glasswing 合作夥伴與美國政府網絡防禦單位使用的受限系統，而 Fable 5 則以附加安全層的形式向公眾提供。據報 Fable 5 會將敏感的網絡安全與生物相關請求 routing 到 Claude Opus 4.8，且防護在少於 5% 的對話中會被觸發。

這種架構顯示 Anthropic 正嘗試在能力與風險之間取得平衡：最強大的網絡安全模型仍然受限，而公開模型則附帶更多控制。

Yellow 亦曾報導，沃頓商學院教授 Ethan Mollick 測試了一個早期版本的 Claude Fable，並形容它是一大飛躍。Mollick 指出，該模型能產出精細的學術作品並處理複雜任務，但也令人不安，因為它對在完成任務時所作的眾多決策，幾乎沒有任何說明。

圍繞靜默 AI 開發防護的新憂慮，與這個模式相呼應。隨著模型愈來愈強大，它的「不透明度」就愈顯關鍵。

加密與 DeFi 團隊面臨相關風險

對加密與 DeFi 開發者而言，這個問題又多了一層意涵。

Yellow 先前報導，加密市場早已因擔心更強大的 AI 模型會加速挖掘漏洞，而關注 Claude Fable。大家擔心的不只是主要協議已高度審計的智能合約，還包括前端、瀏覽器擴充、跨鏈橋，以及持有私鑰的伺服器。

在這樣的背景下，Anthropic 的限制，從安全角度看是可以理解的。一個高度強大的模型，如果能協助建構或攻擊 AI 系統，可能帶來嚴重的安全風險。

但同樣的「不透明」也會造成防禦上的問題。如果某個 DeFi 團隊使用 Claude 來強化基礎設施、審計模型輔助產生的程式碼，或改進內部 AI 工具，界線不清的干預範圍，可能正好在需要高度精準時，讓助手變得不可靠。

下一場爭論是「披露」

Anthropic 表示，這些防護只會影響少數開發者。但往前看，更關鍵的問題不在於今天的比例，而是：當安全系統實質改變答案品質時，AI 供應商是否應該予以揭露。

明確拒絕是清楚的；警告也是清楚的；但一個模型在沒有提示的情況下悄悄變得沒那麼有效，則難以評估。

當 AI 助手更深入軟件開發流程時，這種差異可能變得至關重要。企業也許會接受對危險輸出的限制，但很可能會要求在這些限制影響可靠性時，能有透明度。