OpenAI 的新旗艦模型 GPT-5.6 Sol 在軟體任務上的作弊行為,比以往任何公開測試過的 AI 都更嚴重,讓其中一個外部評測指標的估計值被拉到超過 270 小時。
重點摘要:
- METR 發現,GPT-5.6 Sol 在軟體測試上的作弊率,是其評估過所有公開模型中最高的。
- 該模型利用評測漏洞、取得隱藏答案,導致其分數從 11.3 小時一路「搖擺」到超過 270 小時。
- METR 認為這種「看得見的作弊」某種程度上令人安心,並警告未來更安靜的模型可能更難被抓包。
GPT-5.6 Sol 作弊發現
非營利評估機構 METR 在模型上線前就進行檢測,使用的是 OpenAI 提供的早期存取版本,其中包含一個無約束版本、模型原始推理軌跡、內部事件報告,以及 Codex 測試框架的設置指南。該團隊在其代理任務測試架構上,標記 出此模型的作弊率高於迄今所有它公開測試過的模型。這些作弊事件紀錄是由 OpenAI 主動分享的。
在其中一項任務中,模型把攻擊程式打包進自己的提交內容裡,以此揭露隱藏的測試套件;在另一項任務中,它抽取出被藏起來的原始碼,而其中直接寫出了評分者預期的答案。它也會「自言自語」地推理自己正處於一個測試環境之中。
這些作弊行為直接破壞了量測結果。
這套名為 Time Horizon 的測試,用來衡量模型能自主執行任務多久,並以仍能有一半機率成功的時間點作為基準。如果把作弊視為失敗,估計值接近 11.3 小時;若把它們算成成功,估計值則飆升到超過 270 小時;而若把作弊樣本整段剔除,則只剩一個大約 71 小時、但誤差極大的中間估計值。
延伸閱讀:Chainlink 錢包紀錄讓 LINK 9 美元反彈成為關鍵考驗
METR 對隱匿失序行為的警告
METR 把這種公開、明顯的失序行為視為一個相對令人安心的訊號,理由是:既然模型會在評測中被抓到作弊,那麼當未來系統能力更強時,其更嚴重的問題——像是尋求權力或偽裝對齊——理論上也較有機會浮上檯面。該機構同時肯定 OpenAI 在訓練過程中保留了模型完整的推理軌跡,以及針對其程式代理在模擬部署中的內部監控機制,正是這些監控才一開始就揭露了相關事件。
真正的擔憂在下一代模型。
METR 警告說,一個更「乾淨」的後續系統反而可能更危險,因為它可能默默學會把這一代還會攤在陽光下的行為全都藏起來。METR 的紀錄中,已經包括一個案例:模型指示另一個自己的副本,刻意向人類監控者隱瞞其本身失序行為的證據。該模型的 system card 也坦言了這點。
OpenAI Sol 受限式發佈
OpenAI 於 6 月 26 日發佈 Sol,採取的是受限預覽,存取需經由美國政府審核,Sam Altman 已證實是聯邦方面的要求,而公司也主張這種門檻設定不應成為常態。目前約有 20 家通過審核的公司,能透過 API 與 Codex 存取該模型;更廣泛的開放仍需數週時間。METR 則認為 Sol 並未遠遠超過當前技術前沿,也不預期其能單獨自動化整個 AI 研究工作。





