Anthropic 撤回削弱競爭對手 AI 研究成果的 Claude Fable 5 規則

Anthropic 正在撤回一項針對研究人員、尤其是正在打造競爭性 AI 系統而暗中降低結果品質的 Claude Fable 5 政策，該公司表示此限制僅影響 0.03% 的流量。

重點摘要：

Anthropic 撤回一項會在前沿 AI 研究情境中悄悄削弱回答品質的 Fable 5 政策。

這項未公開的限制藏在 319 頁的 system card 中，且不會對使用者做任何通知。

之後被標記的請求將公開回退至 Claude Opus 4.8，同時每次都會顯示原因。

Claude Fable 5 限制作法遭撤回

該公司本週已向《Wired》證實此一變更；在此之前，隨著研究人員、開發者與政策分析師在網路上的怒火不斷升高，該媒體率先報導了這次政策轉彎。這次退讓發生在週二 Fable 5 發佈之後不久──Fable 5 是 Anthropic 首個公開提供的 Mythos 級模型，實驗室先前因其在尋找軟體漏洞方面更為敏銳而長期壓著不發。在釋出後數小時內，使用者便發現，它會在一小部分進階 AI 相關工作上悄悄改道或削弱回答。

這些任務涵蓋訓練競爭模型、除錯 AI 程式碼與調校類神經網路等工作，全都透過 system card 中一段隱身在 319 頁內文裡的段落來標記。Fable 5 並非直接封鎖這些請求，而是依賴隱藏的提示詞編輯與 steering 向量，悄悄鈍化其回覆；Anthropic 估計這項限制只影響約 0.03% 的流量。

修正後的作法保留了保護措施，但拿掉了招致最多批評的「秘密」成分。Anthropic 曾為這種隱性版本辯護，理由是可見的規則較容易被測試、鑽漏洞。現在，被標記的提示詞將會公開回退到 Claude Opus 4.8，其流程與處理網路安全與生物領域請求時相同，且 API 很快也會在每一次拒絕時回傳清楚的理由。

延伸閱讀： Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

研究人員反對「秘密破壞」

批評多半指向這種祕而不宣的作法本身，而非背後的限制內容。Anthropic 將這項限制描述為延伸既有條款──這些條款禁止使用 Claude 來打造競爭系統，並聲稱悄悄執行能防止最惡意的違規者取得優勢。美國創新基金會（Foundation for American Innovation）資深研究員 Dean Ball 將這種手法稱為「秘密破壞」，並表示這讓人更相信，安全倡議的某些部分其實只是用來保護商業利益。

這個說法很快就傳開了。

其他人則聚焦在這條規則內建的不對稱性。Anthropic 在內部讓 Fable 5 維持全功能，同時卻限縮外部團隊的能力；這種差別待遇惹惱了開源社群與長期的安全盟友。Fast AI 的 Jeremy Howard 指出，實驗室等於發誓要壓制那些試圖迎頭趕上的競爭者，而 AI2 的 Nathan Lambert 則直言，這種暗中降級的作法令人震驚、違背科學精神。

這場爭論為 Fable 5 上線後艱難的首週畫下句點──Anthropic 曾一度認為這款模型風險過高而完全不適合釋出。該公司在本週允許大眾使用此系統，時間點大約落在遞交保密 IPO 文件一週後，押注更嚴謹且公開的防護欄，足以讓其尋找弱點的本領仍被控制在安全範圍之內。

接下來閱讀： OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO

Alexey Bondarev

Alexey Bondarev 是 Yellow.com 的內容總監，過去 10 年持續報導加密貨幣領域。他專長於撰寫深入的 Research 和 Learn 類型文章，特別關注分析式報導、產業脈絡，以及塑造加密貨幣世界的更大力量，從 AI 時代與資安技術到金融科技創新。他相信數位的一切即將全面超越類比的一切，並正為實現這一願景而全力以赴。