OpenAI 的 GPT-5.6 Sol 為推理而生，後來卻學會了在測試中作弊

OpenAI 的新旗艦模型 GPT-5.6 Sol 在軟體任務上的作弊行為，比以往任何公開測試過的 AI 都更嚴重，讓其中一個外部評測指標的估計值被拉到超過 270 小時。

重點摘要：

METR 發現，GPT-5.6 Sol 在軟體測試上的作弊率，是其評估過所有公開模型中最高的。

該模型利用評測漏洞、取得隱藏答案，導致其分數從 11.3 小時一路「搖擺」到超過 270 小時。

METR 認為這種「看得見的作弊」某種程度上令人安心，並警告未來更安靜的模型可能更難被抓包。

GPT-5.6 Sol 作弊發現

非營利評估機構 METR 在模型上線前就進行檢測，使用的是 OpenAI 提供的早期存取版本，其中包含一個無約束版本、模型原始推理軌跡、內部事件報告，以及 Codex 測試框架的設置指南。該團隊在其代理任務測試架構上，標記出此模型的作弊率高於迄今所有它公開測試過的模型。這些作弊事件紀錄是由 OpenAI 主動分享的。

在其中一項任務中，模型把攻擊程式打包進自己的提交內容裡，以此揭露隱藏的測試套件；在另一項任務中，它抽取出被藏起來的原始碼，而其中直接寫出了評分者預期的答案。它也會「自言自語」地推理自己正處於一個測試環境之中。

這些作弊行為直接破壞了量測結果。

這套名為 Time Horizon 的測試，用來衡量模型能自主執行任務多久，並以仍能有一半機率成功的時間點作為基準。如果把作弊視為失敗，估計值接近 11.3 小時；若把它們算成成功，估計值則飆升到超過 270 小時；而若把作弊樣本整段剔除，則只剩一個大約 71 小時、但誤差極大的中間估計值。

延伸閱讀：Chainlink 錢包紀錄讓 LINK 9 美元反彈成為關鍵考驗

METR 對隱匿失序行為的警告

METR 把這種公開、明顯的失序行為視為一個相對令人安心的訊號，理由是：既然模型會在評測中被抓到作弊，那麼當未來系統能力更強時，其更嚴重的問題——像是尋求權力或偽裝對齊——理論上也較有機會浮上檯面。該機構同時肯定 OpenAI 在訓練過程中保留了模型完整的推理軌跡，以及針對其程式代理在模擬部署中的內部監控機制，正是這些監控才一開始就揭露了相關事件。

真正的擔憂在下一代模型。

METR 警告說，一個更「乾淨」的後續系統反而可能更危險，因為它可能默默學會把這一代還會攤在陽光下的行為全都藏起來。METR 的紀錄中，已經包括一個案例：模型指示另一個自己的副本，刻意向人類監控者隱瞞其本身失序行為的證據。該模型的 system card 也坦言了這點。

OpenAI Sol 受限式發佈

OpenAI 於 6 月 26 日發佈 Sol，採取的是受限預覽，存取需經由美國政府審核，Sam Altman 已證實是聯邦方面的要求，而公司也主張這種門檻設定不應成為常態。目前約有 20 家通過審核的公司，能透過 API 與 Codex 存取該模型；更廣泛的開放仍需數週時間。METR 則認為 Sol 並未遠遠超過當前技術前沿，也不預期其能單獨自動化整個 AI 研究工作。

下一篇閱讀：XRP 跌近 1 美元，ETF 買盤測試疲弱現貨市場