Claude Fable 5 於 7 月 1 日回歸,隨即引來用戶尖銳批評,但基準數據更指向 Anthropic 更嚴格的路由器,而不是模型變弱。
重點摘要:
- BridgeBench 報告指,在多數除錯任務被路由走之後,Fable 5 的程式評分大幅下跌。
- Arena.AI 發現盲測的人類偏好結果大致穩定,文件與專家文本類別甚至有所提升。
- 開發者受影響最明顯,因為一般的除錯提示就可能觸發新分類器。
Fable 5 路由情況
Claude Fable 5 在重啟後於 7 月 1 日重新上線,X 上的用戶很快就形容它壞掉、被削弱,或不如以往強大。支持這種看法的最強證據來自 BridgeMind,該團隊對重啟版本重新跑了一遍 BridgeBench 程式測試套件。
結果看起來相當嚴重:除錯分數從 86.2 掉到 25.9,重構從 73.6 降到 38.4,抗幻覺能力也從 75.9 下滑到 61.7。
不過,這些數字並不代表模型層級的徹底崩潰,因為 BridgeBench 表示,12 個 TypeScript 除錯任務中,實際上只有 3 個真正送達 Fable 5。其餘 9 個被 Anthropic 的新安全分類器攔截並轉送到 Claude Opus 4.8,而每一次回退都被記為 0 分,因為被評估的模型沒有作答。
延伸閱讀: Strategy 491 BTC 之謎再掀 Saylor 是否該賣的爭論
Anthropic 分類器
Arena.AI 得出的結論不同,因為它測量的是在更廣泛提示組合上的盲測人類偏好,包括文字、視覺、文件、程式碼與代理任務。其初步數據顯示,Fable 5 相對 6 月版本大致持平。
前端程式碼 Elo 從 1650 略降至 1623,Arena 指出這仍在信心區間內,且樣本投票仍在累積中。文件表現上升 34 分,專家文本增加 25 分,創意寫作則提升 9 分。
這種分化結果暗示,只要提示真的送達,Fable 5 仍然維持原本的表現。問題在於,與資安相鄰的程式工作,可能在模型回應前就被轉送出去,尤其是當提示中包含 vulnerability、exploit、hook 或 fix 等關鍵字時。
Anthropic 已承認,新分類器在一般程式撰寫與除錯工作上會產生誤報。公司表示會隨時間優化這套系統,但尚未給出目標時程。
目前的配置源自更大範圍的安全爭議:Amazon 研究人員先前報告了一種越獄方式,可迫使 Fable 5 辨識並示範軟件漏洞。Anthropic 的回應是採用偏保守的分類器,而如今看起來,它攔截的範圍已超出當初設計要抓住的高風險提示。
接下來閱讀: Trump 稱並不知情 14 億美元加密收入





