Claude Fable 5 程式評測驟跌揭示是路由問題,而非模型退化

Claude Fable 5 程式評測驟跌揭示是路由問題,而非模型退化

Claude Fable 5 於 7 月 1 日回歸後,雖然用戶尖銳抱怨,但基準數據顯示,問題更可能出在 Anthropic 更嚴格的路由器,而不是模型變弱。

重點摘要:

  • BridgeBench 報告稱,在多數除錯任務被路由走之後,Fable 5 的程式評分出現崩跌。
  • Arena.AI 發現盲測的人類偏好結果大致穩定,文件與專業文字類別還有所提升。
  • 開發者受到的衝擊最大,因為一般的除錯提示詞就可能觸發新的分類器。

Fable 5 路由

Claude Fable 5 在重新上線並於 7 月 1 日恢復服務後,X 上的用戶很快就形容它壞掉、被削弱,或是不如以往強大。支持這種看法的最有力證據來自 BridgeMind,該團隊對重新上線版本重新執行了 BridgeBench 程式測試套件。

結果看起來相當嚴重:除錯從 86.2 掉到 25.9,重構從 73.6 降到 38.4,抗幻覺能力則從 75.9 降到 61.7。

但這些數字並不代表模型在整體層級徹底崩潰,因為 BridgeBench 指出,12 個 TypeScript 除錯任務中,實際只有 3 題真正送達 Fable 5。其餘 9 題被 Anthropic 的新安全分類器攔截並改送到 Claude Opus 4.8,而這些回退案例在評分時全被記為 0 分,因為被評估的那個模型並未作答。

延伸閱讀:Strategy 的 491 枚 BTC 之謎再掀 Saylor 是否會賣幣的爭論

Anthropic 分類器

Arena.AI 則得出了不同結論,因為它是在更廣泛的提示組合上,衡量盲測的人類偏好,涵蓋純文字、視覺、文件、程式碼以及代理任務。早期數據顯示,Fable 5 相對 6 月版本大致維持穩定。

前端程式的 Elo 分數從 1650 小幅降至 1623,Arena 表示,在累積足夠投票之前,這仍落在信賴區間內。文件表現上升 34 分,專業文字提升 25 分,創意寫作則增加 9 分。

這種分化顯示,只要提示真的送得到 Fable 5,它的表現仍像 Fable 5。問題在於,只要與安全稍有關聯的程式工作,在模型回應前就可能被轉送,尤其當提示中出現「vulnerability(弱點)」、「exploit(利用)」、「hook」或「fix(修補)」等詞彙時。

Anthropic 已經承認,新分類器在一般程式與除錯工作上會產生誤判。公司表示會隨時間持續微調系統,但尚未給出明確的目標日期。

目前的設定出現在一場更廣泛的安全爭議之後:Amazon 研究人員曾回報一個越獄方法,能迫使 Fable 5 辨識並展示軟體弱點。Anthropic 的回應是採用更保守的分類器,而現在看來,這套系統攔下的不只是當初設計要抓的危險提示。

下一步閱讀:Trump 表示自己並不知情 14 億美元加密收入

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
Claude Fable 5 程式評測驟跌揭示是路由問題,而非模型退化 | Yellow.com