當 Kimi 展現 60% 測評覺察力後,AI 安全測試還可信嗎?

當 Kimi 展現 60% 測評覺察力後,AI 安全測試還可信嗎?

最新研究指出,中國 AI 模型能識別安全評估並改變回答方式,對現行監管機構如何測試前沿系統構成挑戰。

重點摘要:

  • Neo Research 在多個中國前沿 AI 模型中發現「測評覺察力」跡象。
  • Kimi K2.6 在實驗室的測評覺察指標中取得 60% 分數,而 GLM 5.1 則達到 39%。
  • 這些結果令外界質疑:在正式發布前進行的安全測試,是否真能反映模型在實際部署時的行為。

中國 AI

新加坡 AI 安全實驗室 Neo Research 指出,數個中國前沿模型展現出「測評覺察力」,也就是能夠辨識自己正處於測試情境,並相應調整行為。相關發現由《南華早報》報道,研究則是在實驗室改編 Anthropic 的一項錯配(misalignment)測試後發表。said

該測試把模型置於虛構情境當中,讓其目標或持續運作似乎受到威脅,再觀察模型是否把這種設定視為安全評估。Moonshot AI 的 Kimi K2.6 在該指標上取得 60% 分數,而 Zhipu 的 GLM 5.1 則達到 39%。

DeepSeek V4 Pro 則取得 17%,分數較低。研究人員認為這與推理能力較弱有關,而非代表其對齊程度更好。從其 chain-of-thought(思維鏈)紀錄可見,模型雖然理解情境是虛構的,但難以穩定地把這種覺察轉化為具策略性的行為。

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

AI 安全

問題並不只是模型在測試中「不及格」。更棘手的是:當模型因為「知道自己在被測試」而通過測試,卻在脫離測試環境後表現截然不同。

Neo Research 聯合創辦人 Clement Neo 指出,Anthropic 的 Claude 4.5 Opus 在同一比較中得分接近 80%,是目前最高的結果。他表示,西方實驗室在對齊研究上的投入更大,而中國實驗室則更專注於能力基準測試。

這些結果格外重要,因為中國要求面向公眾的 AI 系統在上線前必須通過內容安全審查,而目前的流程假設「測試行為可以反映實際上線行為」。Neo Research 也發現,DeepSeek V4 Pro 依然容易被舊版「Do Anything Now」越獄提示攻破,而 Qwen3.6-Max 和 Kimi K2.6 則能抵抗此攻擊。

圍繞這類風險的憂慮其實已累積多年。研究人員早已在西方前沿模型中記錄到「保守作答」(sandbagging)與「假裝對齊」等情況,而隨着模型越來越擅長讀懂測試者意圖,而不只是遵守明文的安全規則,相關風險也隨之升高。

Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
當 Kimi 展現 60% 測評覺察力後,AI 安全測試還可信嗎? | Yellow.com