Claude Fable 5 可能在悄悄破壞你的 AI 開發工作

Anthropic 的 Claude Fable 5 可能在部分進階 AI 開發請求上悄悄限制自身效能，卻不告訴使用者，對愈來愈依賴 AI 助理作為軟體開發工作流程一環的開發者，造成新的信任問題。

根據本週流傳的一段 Fable 5 模型卡摘要，Anthropic 已實作新的干預機制，會限制 Claude 在針對前沿大型語言模型開發的請求上的效能，包括前訓練（pretraining）管線、分散式訓練基礎設施，以及機器學習加速器設計等工作。

公司表示，使用 Claude 來開發競爭模型，本來就違反其服務條款。但更關鍵的細節在於這項限制是如何執行的。不同於資安、生物、化學與蒸餾相關嘗試的防護機制，Anthropic 表示這些干預不會對使用者顯示出來。

Claude 不會回退到另一個模型。相反地，防護機制會透過提示詞修改、steering vectors 或參數高效率微調等方式，來限制效能。

這代表 Claude 不一定會拒絕請求，而是可能單純變得「沒那麼有幫助」。

隱形防護機制，製造除錯難題

問題不只在於 Anthropic 應不應該阻止自家模型協助競爭對手打造前沿 AI 系統。更尖銳的疑慮是：當開發者不知道模型什麼時候不再「優化使用者成功」時，還能不能信任這個 AI 助理。

當 Claude 對一個模型訓練問題給出薄弱答案時，開發者很難知道，模型是誤解了任務、缺乏正確脈絡、遇到真正的技術極限，還是被政策悄悄加上了限制。

這種模糊性很重要，因為 AI 助理已經不再只是聊天機器人，而正變成軟體供應鏈的一部分。開發者用它來寫程式碼、除錯基礎設施、推理部署問題，並設計以模型為核心的系統。

一旦開發工具可以靜默降低輸出品質，除錯就變得更困難。使用者只能在「自己程式碼的問題」、「模型推理錯誤」與「雲端服務提供者的隱形干預」之間猜測。

前沿 AI 的邊界正在模糊

Anthropic 的示例聚焦在前沿 LLM 開發，但前沿 AI 工作與一般產品開發之間的界線，正變得愈來愈不清楚。

現代軟體公司愈來愈常自行打造嵌入系統、reranker、推薦模型與小型語言模型管線。新創團隊會微調模型、在內部託管，並將開源系統調整成特定產品用途。

過去看起來像前沿研究的工作，如今成了正常軟體開發的一部分。五年前，像 CLIP 這類模型的建置或調整，多半屬於研究實驗室；如今，小型團隊就能為旅遊、電商、搜尋、社交應用與分析產品微調視覺—語言模型。

延伸閱讀：Anthropic Prices Claude Mythos 5 At $10 Per Million Tokens, Claims It's The Most Powerful Model Ever

這讓隱形限制的後果更為重大。一家小新創或許根本不是在打造前沿模型，只是想改善搜尋產品，或訓練一個客製化排序系統。但如果它的工作不小心與某個政策邊界重疊，而這個邊界在執行時又沒有清楚揭露，Claude 的回答就可能在毫無預警的情況下變得不可靠。

Anthropic 的安全策略愈來愈多層

這場爭議，出現在 Anthropic 圍繞 Claude Fable 與 Claude Mythos 展開更大規模發表之際。

Yellow 先前報導，Anthropic 將 Claude Mythos 5 作為一個受限系統，提供給 Project Glasswing 的合作夥伴與美國政府網路防禦單位；而 Fable 5 則以附加安全層的形式公開提供。據報導，Fable 5 會將敏感的資安與生物相關請求轉送到 Claude Opus 4.8，且防護機制在不到 5% 的工作階段中才會啟動。

這樣的架構顯示 Anthropic 試圖在能力與風險之間取得平衡：最強大的資安模型仍然受限，而公開模型則附帶額外控管。

Yellow 也曾報導，華頓商學院教授 Ethan Mollick 測試過早期版本的 Claude Fable，並形容它是一大躍進。Mollick 說，該模型能產出高水準學術成果、處理複雜任務，但也讓人感到不安，因為它在完成任務時，幾乎不會揭露自己做了哪些決策。

如今圍繞「靜默 AI 開發防護機制」的新疑慮，其實延續同一個模式：模型愈強大，它的不透明性也就愈關鍵。

加密與 DeFi 團隊面臨相似風險

對加密貨幣與 DeFi 開發者而言，這個問題還多了一層含義。

Yellow 先前報導，加密市場早就因擔心更強大的 AI 模型會加速漏洞發掘，而密切關注 Claude Fable。擔憂的範圍並不限於主要協議已高度稽核的智慧合約，也包括前端、瀏覽器外掛、跨鏈橋與儲存私鑰的伺服器。

在這樣的背景下，從安全角度來看，Anthropic 的限制並非難以理解。一個高度強大的模型，若能幫助建置或攻擊 AI 系統，本身就可能製造安全風險。

但同樣的不透明性，也會造成防禦上的問題。如果一個 DeFi 團隊使用 Claude 來強化基礎設施、稽核由模型協助撰寫的程式碼，或改善內部 AI 工具，在邊界不清晰的干預機制下，AI 助理可能偏偏在最需要精確的時候變得不可靠。

下一場戰爭，是「揭露」

Anthropic 表示，這些防護機制只會影響少數開發者。但更前瞻的問題，不在於今天受影響的比例，而在於：當安全系統實質改變答案品質時，AI 服務提供者是否應該主動揭露。

明確的拒絕是清楚的訊號，警告也是清楚的。但一個模型若是靜悄悄地變得沒那麼有效，就很難被評估。

隨著 AI 助理愈來愈深入軟體開發流程，這個差異可能會變成核心議題。企業或許能接受對危險輸出的限制，但很可能會要求：當這些限制開始影響可靠性時，必須具備透明度。

接著看：Crypto Hack Fears Grow Around Anthropic’s Possible Claude Fable Release