新聞學習研究排名生態系統

平台現已上線

yellow bottom left star road

OpenAI 訓練 AI 保持誠實，效應擴散至各處

Alexey BondarevJun, 20 2026 4:50

#Anthropic #人工智慧

Reinforcement learning on beneficial traits helped one lab's AI grow safer and steadier under pressure, according to fresh research. (Image: Shutterstock)

OpenAI 研究人員表示，針對有益特質進行的強化學習，能廣泛改善 AI 行為，這些提升可延伸到新領域，並在對抗性壓力下維持不變。

OpenAI 特質訓練

這項研究結果出現在一篇於 6 月 18 日發布的論文中。其通訊作者 Akshay V. Jagadeesh 與 Karan Singhal 建立了一組模擬真實對話的合成資料集，用來訓練與衡量誠實、認知謙遜，以及接受修正的開放性等特質。這些情境涵蓋醫療、教育、科學、法律與工程。

團隊將少量這類資料混入更大的訓練流程中，接著將結果與在相同運算量下建立的模型比較。經訓練的模型在 53 個衡量欺瞞、獎勵黑客行為與有害建議的內部與外部基準中，有 44 個表現提升。

另請閱讀： 伊隆・馬斯克的 SpaceX 蒸發 6000 億美元，創紀錄 IPO 狂熱降溫

可泛化的對齊

作者表示，更大的成果在於泛化。針對單一領域——醫療——訓練模型展現良好行為後，它在不相關任務上的分數也提升了，包括欺瞞與獎勵黑客行為。相較於基準模型，它也更能抵抗對抗性提示與有害微調，同時仍能回應正當請求。

這項工作建立在團隊先前稱為「湧現式失對齊」的發現之上。在那項研究中，模型被教會單一壞習慣，例如撰寫不安全程式碼後，會在不相關情境中也開始表現不良；本研究則試圖逆轉這種模式。

延伸閱讀： OpenAI 於上市前挖角 Gemini 共同負責人與川普的 AI 顧問

Alexey Bondarev

Alexey Bondarev 是 Yellow.com 的內容總監，過去 10 年持續報導加密貨幣領域。他專長於撰寫深入的 Research 和 Learn 類型文章，特別關注分析式報導、產業脈絡，以及塑造加密貨幣世界的更大力量，從 AI 時代與資安技術到金融科技創新。他相信數位的一切即將全面超越類比的一切，並正為實現這一願景而全力以赴。

免責聲明與風險警告：本文提供的資訊僅供教育與參考用途，並基於作者觀點，不構成財務、投資、法律或稅務建議。加密貨幣資產具有高度波動性並伴隨高風險，包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。本文中所表達的觀點僅代表作者立場，不代表 Yellow、其創辦人或管理層的官方政策或意見。請務必自行進行充分研究（D.Y.O.R.），並在做出任何投資決策前諮詢持牌金融專業人士。

相關新聞

OpenAI 在上市前網羅 Gemini 共同負責人與川普政府前 AI 顧問

OpenAI 延攬 Google AI 傳奇人物 Noam Shazeer 與川普前白宮 AI 顧問 Dean Ball，在準備 IPO 之際同時強化前沿研究與華府政策影響力。

OpenAI 加入 8,520 億美元 IPO 競賽，Anthropic 與 SpaceX 全速領跑

OpenAI 已機密遞交 IPO 文件，與 Anthropic、SpaceX 角逐華爾街關注。券商估值高達數千億美元，將重塑 AI 產業投資格局。

華爾街與 AI 內部人士真正在想什麼：OpenAI IPO 背後的看法

OpenAI 以 8,520 億美元估值機密遞交 S-1，與 Anthropic、SpaceX 上市競速。分析師對估值是否合理存疑，市場與產業影響備受關注。

GPT-5.6 可能本月亮相，OpenAI 為華爾街上市做準備

傳 OpenAI 計劃本月推出 GPT-5.6，較 GPT-5.5 有「實質提升」，並已機密遞交 IPO 申請，目標在一年內赴美上市，估值或逼近

OpenAI在IPO競賽中技壓Anthropic，預測市場現押注83%將率先上市

OpenAI準備提交機密IPO申請，預測市場現押注83%將先於Anthropic上市；首家大型AI股將吸納資金並壓力競爭對手，Anthropic面臨時程擠壓。

相關研究文章

42 個州已對 OpenAI 展開調查，華爾街同時虎視眈眈 IPO

OpenAI 以 8,520 億美元估值申請 IPO 後，42 州同步發出傳票，調查其 AI 安全、用戶數據與非營利轉型結構，為上市前罕見監管壓力。

AI 驅動的加密貨幣交易：如何將加密新聞轉化為投資策略

AI協助你掌握加密新聞、預測市場反應，並把情緒轉化為交易優勢，助你在市場中領先一步。

AI 代幣復甦：Bittensor 117% 漲勢能否帶動整個板塊回歸？

Bittensor 帶動 AI 代幣強勁反彈，單日板塊飆升 42%，但在 2025 年重挫 75% 後，整體市值仍只是 2024 年高點的一半。

2025 年十大 AI 驅動加密詐騙及如何保護你的資金

深偽影片、聲音及訊息使 AI 詐騙加密更難分辨與防範。全球損失金額驚人，留意即能避開詐騙陷阱。

用 AI 進行當沖交易：如何利用 ChatGPT 與 Grok 做出更聰明的加密貨幣決策

探索 AI 助理如何協助加密貨幣當沖，更快速分析大量資訊，捕捉交易機會，同時提升紀律與風險控管。

相關學習文章

AI強化的加密詐騙：現象解析及避免方法

探討AI強化詐騙、深偽影片、網釣等最新手法，協助投資人辨識危機並保護資產安全。

加密貨幣中AI代理的崛起：金融革命正在展開

AI代理革新加密金融，帶來自動決策與區塊鏈融合，同時也引發市場穩定性和安全、道德議題。

去中心化智慧：AI 與區塊鏈如何重塑科技

AI 與區塊鏈攜手帶來跨產業創新，提升安全性、透明度與自動化，正引領數位科技進入全新時代。

保護您的加密貨幣交易所帳戶：進階安全策略全面解析

探討社交工程如何成為加密產業首要威脅，分析其心理機制、攻擊手法、重大事件和防護對策，不容忽視。

如何使用 AI 股票交易機器人：免費工具與真實風險

無程式碼平台讓散戶能用自然語言打造與部署交易策略，但多數「AI 機器人」其實只是自動化規則。回測難以預測實盤表現，監管機構也已對 AI 交易詐騙與「AI 洗綠」行為發出警告，新手應以模擬交易、提醒訊號與小額資金循序進場。

OpenAI 訓練 AI 保持誠實，效應擴散至各處 | Yellow