Anthropic 正在撤回一項Claude Fable 5 政策,該政策曾秘密削弱為競爭 AI 系統做研究的回答;公司稱這項限制僅影響 0.03% 的流量。
重點摘要:
- Anthropic 撤回一項會在前沿 AI 研究問題上悄悄削弱回答的 Fable 5 政策。
- 這條未披露的限制藏在 319 頁的系統卡中,從未提示使用者。
- 被標記的請求現在會公開回退到 Claude Opus 4.8,每次都會顯示原因。
Claude Fable 5 限制作出調整
公司本週已向 Wired 證實這項變動;在此之前,研究人士、開發者和政策分析師已在網上連續數日表達不滿,而 Wired 率先報道了這次「轉向」。這次撤回發生在週二 Fable 5 發佈之後不久。Fable 5 是 Anthropic 首款公開提供的 Mythos 級模型,該實驗室先前因其更擅長尋找軟件漏洞而一直未讓它面向大眾。發佈後數小時,使用者就發現,對於一小部分高階 AI 工作,模型會悄悄改道或削弱自己的回答。
這些任務涵蓋訓練競爭對手模型、偵錯 AI 程式碼和微調神經網絡;相關內容只是被夾在一份長達 319 頁的系統卡當中的一小段文字裡。Fable 5 並沒有直接封鎖這些請求,而是依靠隱藏的提示詞修改和「引導向量」悄悄鈍化其回答;Anthropic 稱,這種限制只佔整體流量的 0.03%。
修正後,保留了安全防護,但取消了最惹爭議的「隱蔽」做法。Anthropic 先前為隱藏版本辯護稱,公開的規則更容易被分析與繞過。現在,所有被標記的提示詞都會公開回退到 Claude Opus 4.8,這也是處理網路安全及生物領域請求時使用的同一路徑;API 亦將很快為每次拒絕提供清晰的理由。
延伸閱讀: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
研究者拒絕「秘密破壞」
批評者主要針對的是「秘密操作」,而非背後的限制本身。Anthropic 將這項限制描述為其服務條款的延伸:條款禁止使用 Claude 來打造競爭系統,而「靜默執行」則是為了防止最惡劣的濫用者取得優勢。美國創新基金會(Foundation for American Innovation)資深研究員 Dean Ball 將這種做法稱為「secret sabotage(秘密破壞)」,並表示這印證了部分安全倡議只是為了保護商業利益的觀點。
這個說法很快就在圈內流傳開來。
也有人聚焦於這套規則本身內建的不對稱性。Anthropic 為自家員工保留了功能完整的 Fable 5,卻對外部團隊進行限速,不僅惹怒了開源社群,也讓長期支持安全議題的盟友感到失望。Fast AI 的 Jeremy Howard 表示,實驗室形同承諾要壓制所有試圖追趕的競爭者;AI2 的 Nathan Lambert 則形容這種暗中降級「令人震驚,而且反科學」。
這場爭議替 Fable 5 上線的首週畫下了頗為難堪的句點。Anthropic 曾評估這款模型風險過高,不適合公開發佈。直至本週,它才獲准面向公眾使用,而這距離公司遞交保密 IPO 申請約一週時間。Anthropic 顯然押注於:藉由更嚴格且更透明的防護欄,能在維持其漏洞挖掘能力的同時,仍將風險控制在可接受範圍內。
下一篇閱讀: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





