Anthropic 正撤回一項Claude Fable 5 政策,該政策曾在未公開的情況下,對正在打造競爭 AI 系統的研究人員悄悄降級結果。Anthropic 稱這項限制只影響了 0.03% 的流量。
重點整理:
- Anthropic 撤回了一項會在暗中削弱前沿 AI 研究回答品質的 Fable 5 政策。
- 這項未披露的限制藏在 319 頁的系統卡中,且完全沒有任何使用者通知。
- 之後被標記的請求將公開回退至 Claude Opus 4.8,每次都會顯示原因。
Claude Fable 5 限制作法撤回
該公司本週向 Wired 證實了這項變更。Wired 率先披露這次「轉彎」,是在歷經數天、研究人員、開發者與政策分析人士於網路上不斷積怨之後。這次撤回緊接在週二 Fable 5 發布之後;Fable 5 是 Anthropic 首款公開的 Mythos 級模型,實驗室先前因其在尋找軟件漏洞方面能力更強,而長期延後推出。發佈數小時內,用戶就發現,對於一小部分進階 AI 工作,它會悄悄改道或削弱回答。
這些任務涵蓋訓練競爭模型、除錯 AI 代碼以及調校神經網絡等工作,都是透過系統卡中一段埋在 319 頁文件裡的文字被標記。Fable 5 並非直接封鎖這些請求,而是依靠隱藏的提示詞修改與引導向量,悄悄削弱其回覆,Anthropic 表示這類情況只佔整體流量的 0.03%。
修正後仍保留防護措施,但取消了最具爭議的「保密」部分。Anthropic 先前為隱藏版辯護時稱,公開的規則比較容易被測試、鑽漏洞。現在,被標記的提示將會公開回退到 Claude Opus 4.8,這與處理網絡安全與生物領域請求的做法相同,API 也會很快開始為每次拒絕提供明確理由。
延伸閱讀: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
研究人員拒絕「秘密破壞」
批評者瞄準的是這種「保密」作風本身,而非背後的限制。Anthropic 將此限制描述成禁止利用 Claude 來打造競爭系統之條款的延伸,並稱低調執行可以避免最惡劣的違規者取得優勢。美國創新基金會高級研究員 Dean Ball 將這種手法稱為「秘密破壞」,並指出這更印證了一種觀點:安全倡議的部分作為,其實只是為了保護商業利益。
這個說法迅速在圈內流傳。
其他人則聚焦於這項規則內建的不對稱性。Anthropic 讓自家員工可以使用完整功能的 Fable 5,卻對外部團隊採取限速做法,這種差別待遇惹惱了開源社群與長期的安全盟友。Fast AI 的 Jeremy Howard 表示,實驗室等同於發誓要壓制任何試圖追上的競爭者;AI2 的 Nathan Lambert 則形容這種暗中降級「駭人聽聞、反科學」。
這場爭議,讓 Fable 5 上線的第一週格外艱辛。Anthropic 曾一度認定這款模型風險過高而無法公開發佈。本週,它在提交保密 IPO 文件大約一週後,批准 Fable 5 對外開放,押注更嚴謹、且更透明的防護欄,能讓其擅長挖掘漏洞的能力維持在可控範圍內。
下一步閱讀: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





