Anthropic 的 Claude Fable 5 在部分進階 AI 開發請求上,可能悄悄弱化自身效能而不告知使用者,這為愈來愈依賴 AI 助理作為軟體工作流程一環的開發者,創造了一個全新的信任問題。
依據本週流傳的一段 Fable 5 模型卡說明,Anthropic 對瞄準前沿大型語言模型開發的請求,導入了新的干預機制,會限制 Claude 的有效性,涵蓋前訓練管線、分散式訓練基礎設施以及 ML 加速器設計等工作。
公司表示,使用 Claude 來開發競爭性模型本就違反服務條款。但更關鍵的是這項限制的執行方式。和資安、生物、化學與蒸餾等領域的防護不同,Anthropic 表示這些干預對使用者將是不可見的。
Claude 不會回退到其他模型。相反地,這些防護可以透過提示(prompt)修改、引導向量(steering vectors)或參數高效微調等方法,來限制效能。
這代表 Claude 可能不會明確拒絕請求,而只是變得沒那麼有幫助。
隱形防護造成除錯難題
問題不只是 Anthropic 是否應該阻止自家模型協助競爭對手打造前沿 AI 系統,更尖銳的疑問是:當開發者不知道 AI 助理何時不再以他們的成功為優先目標時,還能不能信任它。
如果 Claude 對一個模型訓練問題給出薄弱答案,開發者可能無法判斷,是模型誤解了任務?缺乏正確脈絡?遇到真正的技術極限?還是被政策悄悄限制了?
這種模糊很重要,因為 AI 助理已不再只是聊天機器人,而正在成為軟體供應鏈的一環。開發者用它來寫程式碼、除錯基礎設施、推理部署問題,與設計模型驅動系統。
一旦開發工具可以靜默降低輸出品質,除錯就變得更困難。使用者只能猜測問題究竟出在自己的程式碼、模型的推理能力,還是供應商的不透明干預。
前沿 AI 的邊界正在模糊
Anthropic 提出的例子集中在前沿 LLM 開發,但前沿 AI 工作與一般產品開發之間的界線正變得愈來愈不清楚。
現代軟體公司愈來愈常自行打造嵌入(embedding)系統、重排模型(rerankers)、推薦模型與小型語言模型管線。新創會微調模型、在內部託管,並改造開源系統以支援特定產品。
以往看來像是前沿研究的工作,如今已是正常軟體開發的一部分。五年前,像 CLIP 這類模型的建構與改造主要屬於研究實驗室的範疇;而今天,小型團隊就能為旅遊、電商、搜尋、社群應用與分析產品微調視覺—語言模型。
延伸閱讀: Anthropic Prices Claude Mythos 5 At $10 Per Million Tokens, Claims It's The Most Powerful Model Ever
這讓隱形限制變得更具影響力。小型新創可能並不是要打造前沿模型,只是想改善搜尋產品,或訓練一個客製化排序系統。但如果它的工作與某條在執行時並未清楚揭露的政策邊界重疊,Claude 的答案可能在沒有任何預警的情況下變得不可靠。
Anthropic 的安全策略愈來愈多層次
這場爭議發生在 Anthropic 圍繞 Claude Fable 與 Claude Mythos 的更大規模發布之際。
Yellow 先前報導,Anthropic 推出 Claude Mythos 5,作為 Project Glasswing 合作夥伴與美國政府網路防禦單位使用的受限系統,而 Fable 5 則搭配安全層向大眾開放。據報導,Fable 5 會將敏感的資安與生物相關請求,導向 Claude Opus 4.8,防護機制在少於 5% 的工作階段中觸發。
這樣的結構顯示 Anthropic 正試圖在能力與風險間取得平衡:最強大的資安模型仍是受限的,而公開模型則加上額外控管。
Yellow 也曾報導,華頓商學院教授 Ethan Mollick 測試了早期版本的 Claude Fable,並形容它是一大飛躍。Mollick 指出,該模型能產出精緻的學術成果並處理複雜任務,但也令人不安,因為它幾乎不揭露在完成任務過程中所做的種種決策。
對於靜默 AI 開發防護的新疑慮,正好符合這個模式:模型愈強大,其不透明性就愈關鍵。
加密與 DeFi 團隊面臨相似風險
對加密與 DeFi 開發者來說,這個問題又多了一層含義。
Yellow 先前報導,由於擔心更強大的 AI 模型會加速漏洞發現,加密市場早就關注 Claude Fable。擔憂不僅限於受到嚴格稽核的大型協議智慧合約,也包括前端、瀏覽器延伸套件、跨鏈橋與持有私鑰的伺服器。
在這樣的背景下,Anthropic 從安全角度施加限制是可以理解的:一個高度強大的模型,如果協助建構或攻擊 AI 系統,可能帶來安全風險。
但同樣的不透明性也會為防禦方帶來問題。如果某個 DeFi 團隊使用 Claude 來強化基礎設施、稽核由模型協助撰寫的程式碼,或改善內部 AI 工具,不清楚的干預邊界,可能會讓這個助理在最需要精準度的時刻變得不可靠。
下一場戰爭是「揭露」
Anthropic 表示,這些防護只會影響少部分開發者。但著眼未來的問題不在於今天的百分比,而是:當安全系統實質改變答案品質時,AI 供應商是否應該加以揭露。
明確拒絕是清楚的,警告也是清楚的;但模型靜默變得沒那麼有效,則很難評估。
隨著 AI 助理更深入軟體開發流程,這項區別可能變得至關重要。企業或許能接受對危險輸出的限制,但當這些限制影響可靠性時,他們很可能會要求透明。
接著看: Crypto Hack Fears Grow Around Anthropic’s Possible Claude Fable Release





