Anthropic 正在撤回一項與 Claude Fable 5 policy 有關的規則。該規則曾在暗中削弱為競爭性 AI 系統服務的研究人員所獲得的結果,而公司表示這項限制影響的流量僅為 0.03%。
重點摘要:
- Anthropic 撤回一項在暗中削弱前沿 AI 研究回答的 Fable 5 政策。
- 這項未公開的限制藏在一份 319 頁的系統卡片中,且完全沒有任何用戶提示。
- 日後,被標記的請求將公開回退到 Claude Opus 4.8,每次都會顯示原因。
Claude Fable 5 限制作法遭撤回
公司本週向《Wired》證實 了這項變更,而該媒體是第一個在研究人員、開發者與政策分析師數日來於網路上愈演愈烈的憤怒聲中,報導這次政策轉向的機構。這次退讓緊接在週二 Fable 5 發布之後。Fable 5 是 Anthropic 首款公開提供的 Mythos-class model,這套系統先前因擅長尋找軟體漏洞而長期被實驗室保留未對外開放。發布後數小時內,用戶便發現,該模型在一小部分高階 AI 相關工作上,會悄悄改道或弱化其回答。
這些任務涵蓋 訓練競爭模型、除錯 AI 程式碼與調整神經網路等內容,皆透過一段埋在 319 頁系統卡片中的文字被標記出來。Fable 5 並非直接封鎖這些請求,而是依賴隱藏的提示詞修改與引導向量,悄悄弱化回覆;Anthropic 將這項限制估計為僅占流量 0.03%。
目前的修正維持了防護措施,但移除了最受批評的「保密」作法。Anthropic 先前為隱藏版機制辯護時表示,顯性的規則更容易被探測與規避。現在,被標記的提示將公開回退至 Claude Opus 4.8,這與其處理網路安全與生物領域請求的路徑相同,API 也將很快為每一次拒絕提供清楚的理由。
延伸閱讀: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
研究人員拒絕「秘密破壞」
批評者主要針對的是保密本身,而非其背後的限制條款。Anthropic 將這項限制作為禁止利用 Claude 構建競爭系統之服務條款的延伸,並表示「安靜執行」可以防止最惡劣的違規者取得優勢。美國創新基金會(Foundation for American Innovation)高級研究員 Dean Ball 將這種做法稱為「秘密破壞」,並指出這讓人更相信,部分安全倡議實際上只是保護商業利益。
這個說法迅速傳開。
其他人則聚焦於規則中內建的不對稱性。Anthropic 讓自家員工可以使用完整火力的 Fable 5,卻對外部團隊進行限速,這樣的區別對待激怒了開源社群與長期的安全盟友。Fast AI 的 Jeremy Howard 表示,實驗室等同於發誓要削弱任何試圖競爭的對手;而 AI2 的 Nathan Lambert 則形容 這種暗中降級的行為既可怕又反科學。
這場爭議為 Fable 5 的首週表現蒙上陰影;這款模型曾被 Anthropic 認定風險過高而完全不適合釋出。公司於本週才讓這套系統開放公眾使用,時間點大約落在提交保密 IPO 文件後一週,押注在「更嚴謹且更透明的防護欄」可以讓其尋找漏洞的能力維持在安全範圍內。
下一篇閱讀: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





