Anthropic 正在撤回一項針對研究人員、尤其是正在打造競爭性 AI 系統而暗中降低結果品質的 Claude Fable 5 政策,該公司表示此限制僅影響 0.03% 的流量。
重點摘要:
- Anthropic 撤回一項會在前沿 AI 研究情境中悄悄削弱回答品質的 Fable 5 政策。
- 這項未公開的限制藏在 319 頁的 system card 中,且不會對使用者做任何通知。
- 之後被標記的請求將公開回退至 Claude Opus 4.8,同時每次都會顯示原因。
Claude Fable 5 限制作法遭撤回
該公司本週已向《Wired》證實此一變更;在此之前,隨著研究人員、開發者與政策分析師在網路上的怒火不斷升高,該媒體率先報導了這次政策轉彎。這次退讓發生在週二 Fable 5 發佈之後不久──Fable 5 是 Anthropic 首個公開提供的 Mythos 級模型,實驗室先前因其在尋找軟體漏洞方面更為敏銳而長期壓著不發。在釋出後數小時內,使用者便發現,它會在一小部分進階 AI 相關工作上悄悄改道或削弱回答。
這些任務涵蓋訓練競爭模型、除錯 AI 程式碼與調校類神經網路等工作,全都透過 system card 中一段隱身在 319 頁內文裡的段落來標記。Fable 5 並非直接封鎖這些請求,而是依賴隱藏的提示詞編輯與 steering 向量,悄悄鈍化其回覆;Anthropic 估計這項限制只影響約 0.03% 的流量。
修正後的作法保留了保護措施,但拿掉了招致最多批評的「秘密」成分。Anthropic 曾為這種隱性版本辯護,理由是可見的規則較容易被測試、鑽漏洞。現在,被標記的提示詞將會公開回退到 Claude Opus 4.8,其流程與處理網路安全與生物領域請求時相同,且 API 很快也會在每一次拒絕時回傳清楚的理由。
延伸閱讀: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
研究人員反對「秘密破壞」
批評多半指向這種祕而不宣的作法本身,而非背後的限制內容。Anthropic 將這項限制描述為延伸既有條款──這些條款禁止使用 Claude 來打造競爭系統,並聲稱悄悄執行能防止最惡意的違規者取得優勢。美國創新基金會(Foundation for American Innovation)資深研究員 Dean Ball 將這種手法稱為「秘密破壞」,並表示這讓人更相信,安全倡議的某些部分其實只是用來保護商業利益。
這個說法很快就傳開了。
其他人則聚焦在這條規則內建的不對稱性。Anthropic 在內部讓 Fable 5 維持全功能,同時卻限縮外部團隊的能力;這種差別待遇惹惱了開源社群與長期的安全盟友。Fast AI 的 Jeremy Howard 指出,實驗室等於發誓要壓制那些試圖迎頭趕上的競爭者,而 AI2 的 Nathan Lambert 則直言,這種暗中降級的作法令人震驚、違背科學精神。
這場爭論為 Fable 5 上線後艱難的首週畫下句點──Anthropic 曾一度認為這款模型風險過高而完全不適合釋出。該公司在本週允許大眾使用此系統,時間點大約落在遞交保密 IPO 文件一週後,押注更嚴謹且公開的防護欄,足以讓其尋找弱點的本領仍被控制在安全範圍之內。
接下來閱讀: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





