Yellow.com

Anthropic 正撤回一項Claude Fable 5 政策，該政策曾在未公開的情況下，對正在打造競爭 AI 系統的研究人員悄悄降級結果。Anthropic 稱這項限制只影響了 0.03% 的流量。

重點整理：

Anthropic 撤回了一項會在暗中削弱前沿 AI 研究回答品質的 Fable 5 政策。

這項未披露的限制藏在 319 頁的系統卡中，且完全沒有任何使用者通知。

之後被標記的請求將公開回退至 Claude Opus 4.8，每次都會顯示原因。

Claude Fable 5 限制作法撤回

該公司本週向 Wired 證實了這項變更。Wired 率先披露這次「轉彎」，是在歷經數天、研究人員、開發者與政策分析人士於網路上不斷積怨之後。這次撤回緊接在週二 Fable 5 發布之後；Fable 5 是 Anthropic 首款公開的 Mythos 級模型，實驗室先前因其在尋找軟件漏洞方面能力更強，而長期延後推出。發佈數小時內，用戶就發現，對於一小部分進階 AI 工作，它會悄悄改道或削弱回答。

這些任務涵蓋訓練競爭模型、除錯 AI 代碼以及調校神經網絡等工作，都是透過系統卡中一段埋在 319 頁文件裡的文字被標記。Fable 5 並非直接封鎖這些請求，而是依靠隱藏的提示詞修改與引導向量，悄悄削弱其回覆，Anthropic 表示這類情況只佔整體流量的 0.03%。

修正後仍保留防護措施，但取消了最具爭議的「保密」部分。Anthropic 先前為隱藏版辯護時稱，公開的規則比較容易被測試、鑽漏洞。現在，被標記的提示將會公開回退到 Claude Opus 4.8，這與處理網絡安全與生物領域請求的做法相同，API 也會很快開始為每次拒絕提供明確理由。

延伸閱讀： Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

研究人員拒絕「秘密破壞」

批評者瞄準的是這種「保密」作風本身，而非背後的限制。Anthropic 將此限制描述成禁止利用 Claude 來打造競爭系統之條款的延伸，並稱低調執行可以避免最惡劣的違規者取得優勢。美國創新基金會高級研究員 Dean Ball 將這種手法稱為「秘密破壞」，並指出這更印證了一種觀點：安全倡議的部分作為，其實只是為了保護商業利益。

這個說法迅速在圈內流傳。

其他人則聚焦於這項規則內建的不對稱性。Anthropic 讓自家員工可以使用完整功能的 Fable 5，卻對外部團隊採取限速做法，這種差別待遇惹惱了開源社群與長期的安全盟友。Fast AI 的 Jeremy Howard 表示，實驗室等同於發誓要壓制任何試圖追上的競爭者；AI2 的 Nathan Lambert 則形容這種暗中降級「駭人聽聞、反科學」。

這場爭議，讓 Fable 5 上線的第一週格外艱辛。Anthropic 曾一度認定這款模型風險過高而無法公開發佈。本週，它在提交保密 IPO 文件大約一週後，批准 Fable 5 對外開放，押注更嚴謹、且更透明的防護欄，能讓其擅長挖掘漏洞的能力維持在可控範圍內。

下一步閱讀： OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO

Alexey Bondarev

Alexey Bondarev 現任 Yellow.com 的內容主管，過去 10 年一直專注報導加密貨幣相關議題。他擅長撰寫深入的研究與學習類文章，重點放在分析式報導、產業背景脈絡，以及塑造加密貨幣領域的宏觀力量，從 AI 時代與安全技術到金融科技創新等面向。他相信所有數碼事物將在不久的將來全面超越一切類比事物，並正為實現這個願景而全力以赴。

Anthropic 撤回削弱競爭對手 AI 研究結果的 Claude Fable 5 規則

重點整理：

Claude Fable 5 限制作法撤回

研究人員拒絕「秘密破壞」

Alexey Bondarev