Anthropic 的 Claude Fable 5 可能在部分進階 AI 開發請求上悄悄限制自身效能,卻不告訴使用者,對愈來愈依賴 AI 助理作為軟體開發工作流程一環的開發者,造成新的信任問題。
根據本週流傳的一段 Fable 5 模型卡摘要,Anthropic 已實作新的干預機制,會限制 Claude 在針對前沿大型語言模型開發的請求上的效能,包括前訓練(pretraining)管線、分散式訓練基礎設施,以及機器學習加速器設計等工作。
公司表示,使用 Claude 來開發競爭模型,本來就違反其服務條款。但更關鍵的細節在於這項限制是如何執行的。不同於資安、生物、化學與蒸餾相關嘗試的防護機制,Anthropic 表示這些干預不會對使用者顯示出來。
Claude 不會回退到另一個模型。相反地,防護機制會透過提示詞修改、steering vectors 或參數高效率微調等方式,來限制效能。
這代表 Claude 不一定會拒絕請求,而是可能單純變得「沒那麼有幫助」。
隱形防護機制,製造除錯難題
問題不只在於 Anthropic 應不應該阻止自家模型協助競爭對手打造前沿 AI 系統。更尖銳的疑慮是:當開發者不知道模型什麼時候不再「優化使用者成功」時,還能不能信任這個 AI 助理。
當 Claude 對一個模型訓練問題給出薄弱答案時,開發者很難知道,模型是誤解了任務、缺乏正確脈絡、遇到真正的技術極限,還是被政策悄悄加上了限制。
這種模糊性很重要,因為 AI 助理已經不再只是聊天機器人,而正變成軟體供應鏈的一部分。開發者用它來寫程式碼、除錯基礎設施、推理部署問題,並設計以模型為核心的系統。
一旦開發工具可以靜默降低輸出品質,除錯就變得更困難。使用者只能在「自己程式碼的問題」、「模型推理錯誤」與「雲端服務提供者的隱形干預」之間猜測。
前沿 AI 的邊界正在模糊
Anthropic 的示例聚焦在前沿 LLM 開發,但前沿 AI 工作與一般產品開發之間的界線,正變得愈來愈不清楚。
現代軟體公司愈來愈常自行打造嵌入系統、reranker、推薦模型與小型語言模型管線。新創團隊會微調模型、在內部託管,並將開源系統調整成特定產品用途。
過去看起來像前沿研究的工作,如今成了正常軟體開發的一部分。五年前,像 CLIP 這類模型的建置或調整,多半屬於研究實驗室;如今,小型團隊就能為旅遊、電商、搜尋、社交應用與分析產品微調視覺—語言模型。
延伸閱讀:Anthropic Prices Claude Mythos 5 At $10 Per Million Tokens, Claims It's The Most Powerful Model Ever
這讓隱形限制的後果更為重大。一家小新創或許根本不是在打造前沿模型,只是想改善搜尋產品,或訓練一個客製化排序系統。但如果它的工作不小心與某個政策邊界重疊,而這個邊界在執行時又沒有清楚揭露,Claude 的回答就可能在毫無預警的情況下變得不可靠。
Anthropic 的安全策略愈來愈多層
這場爭議,出現在 Anthropic 圍繞 Claude Fable 與 Claude Mythos 展開更大規模發表之際。
Yellow 先前報導,Anthropic 將 Claude Mythos 5 作為一個受限系統,提供給 Project Glasswing 的合作夥伴與美國政府網路防禦單位;而 Fable 5 則以附加安全層的形式公開提供。據報導,Fable 5 會將敏感的資安與生物相關請求轉送到 Claude Opus 4.8,且防護機制在不到 5% 的工作階段中才會啟動。
這樣的架構顯示 Anthropic 試圖在能力與風險之間取得平衡:最強大的資安模型仍然受限,而公開模型則附帶額外控管。
Yellow 也曾報導,華頓商學院教授 Ethan Mollick 測試過早期版本的 Claude Fable,並形容它是一大躍進。Mollick 說,該模型能產出高水準學術成果、處理複雜任務,但也讓人感到不安,因為它在完成任務時,幾乎不會揭露自己做了哪些決策。
如今圍繞「靜默 AI 開發防護機制」的新疑慮,其實延續同一個模式:模型愈強大,它的不透明性也就愈關鍵。
加密與 DeFi 團隊面臨相似風險
對加密貨幣與 DeFi 開發者而言,這個問題還多了一層含義。
Yellow 先前報導,加密市場早就因擔心更強大的 AI 模型會加速漏洞發掘,而密切關注 Claude Fable。擔憂的範圍並不限於主要協議已高度稽核的智慧合約,也包括前端、瀏覽器外掛、跨鏈橋與儲存私鑰的伺服器。
在這樣的背景下,從安全角度來看,Anthropic 的限制並非難以理解。一個高度強大的模型,若能幫助建置或攻擊 AI 系統,本身就可能製造安全風險。
但同樣的不透明性,也會造成防禦上的問題。如果一個 DeFi 團隊使用 Claude 來強化基礎設施、稽核由模型協助撰寫的程式碼,或改善內部 AI 工具,在邊界不清晰的干預機制下,AI 助理可能偏偏在最需要精確的時候變得不可靠。
下一場戰爭,是「揭露」
Anthropic 表示,這些防護機制只會影響少數開發者。但更前瞻的問題,不在於今天受影響的比例,而在於:當安全系統實質改變答案品質時,AI 服務提供者是否應該主動揭露。
明確的拒絕是清楚的訊號,警告也是清楚的。但一個模型若是靜悄悄地變得沒那麼有效,就很難被評估。
隨著 AI 助理愈來愈深入軟體開發流程,這個差異可能會變成核心議題。企業或許能接受對危險輸出的限制,但很可能會要求:當這些限制開始影響可靠性時,必須具備透明度。
接著看:Crypto Hack Fears Grow Around Anthropic’s Possible Claude Fable Release





