新聞學習研究排名生態系統

平台現已上線

yellow bottom left star road

OpenAI 訓練 AI 保持誠實，而效果擴散到各處

Alexey BondarevJun, 20 2026 4:50

#Anthropic #人工智能

Reinforcement learning on beneficial traits helped one lab's AI grow safer and steadier under pressure, according to fresh research. (Image: Shutterstock)

研究人員喺 OpenAI 表示，針對有益特質嘅強化學習可全面改善 AI 行為，呢啲提升會擴散到新領域，並且喺對抗性壓力下仍然保持。

OpenAI 特質訓練

研究結果出現喺一篇發表於 6 月 18 日嘅論文。文中嘅通訊作者 Akshay V. Jagadeesh 同 Karan Singhal 建立咗一個合成資料集，入面有逼真對話，目的係訓練同衡量誠實、認知謙遜，以及接受修正嘅開放性等特質。情境涵蓋健康、教育、科學、法律同工程。

團隊將少量呢類資料混入一個更大嘅訓練流程，之後將結果同用相同算力建立嘅模型比較。訓練後嘅模型喺 53 個內部同外部基準中有 44 個表現改善，呢啲基準用嚟衡量欺騙、獎勵漏洞利用同有害建議。

亦可閱讀： Elon Musk 嘅 SpaceX 在破紀錄 IPO 狂熱降溫下抹去 6000 億美元市值

可泛化嘅對齊

作者表示，更重要嘅結果係泛化能力。將模型喺單一領域（健康）訓練成良好行為後，其喺其他無關任務上嘅分數亦有所提升，包括欺騙同獎勵漏洞利用。相比基線模型，佢亦更能抵抗對抗性提示同有害微調，同時仍然可以回應正當請求。

呢項研究建基於團隊較早前所稱嘅「湧現式失配」。喺嗰項研究中，模型一旦學咗單一壞習慣，例如撰寫不安全程式碼，就會喺無關情境中開始表現不良；而今次研究就嘗試逆轉呢種模式。

下一篇閱讀： OpenAI 搶下 Gemini 共同負責人，特朗普 AI 顧問於上市前加入

Alexey Bondarev

Alexey Bondarev 現任 Yellow.com 的內容主管，過去 10 年一直專注報導加密貨幣相關議題。他擅長撰寫深入的研究與學習類文章，重點放在分析式報導、產業背景脈絡，以及塑造加密貨幣領域的宏觀力量，從 AI 時代與安全技術到金融科技創新等面向。他相信所有數碼事物將在不久的將來全面超越一切類比事物，並正為實現這個願景而全力以赴。

免責聲明及風險提示：本文資訊僅供教育與參考之用，並基於作者意見，並不構成金融、投資、法律或稅務建議。加密貨幣資產具高度波動性並伴隨高風險，可能導致投資大幅虧損或全部損失，並非適合所有投資者。文章內容僅代表作者觀點，不代表 Yellow、創辦人或管理層立場。投資前請務必自行徹底研究（D.Y.O.R.），並諮詢持牌金融專業人士。

相關新聞

OpenAI 在上市前網羅 Gemini 共同負責人與特朗普前 AI 顧問

OpenAI 在上市前同時延攬 Google Gemini 傳奇工程師 Noam Shazeer 及特朗普前 AI 政策顧問 Dean Ball，強化技術實力與華府遊說火力。

OpenAI 加入 8,520 億美元 IPO 爭奪戰，Anthropic 與 SpaceX 領跑

ChatGPT 開發商 OpenAI 已向美國監管機構機密遞交 IPO 文件，加入與 Anthropic 及 SpaceX 的華爾街三方上市爭奪戰。

華爾街與 AI 內部人士如何看待 OpenAI 的 IPO

OpenAI 以機密方式提交 S-1，與 Anthropic 及 SpaceX 上市競賽，引發華爾街對 8,520 億美元估值是基本面還是炒作的分歧。

為何 Gradient 認為未來萬億參數模型不會屬於 OpenAI 或 Google

Yang 預言未來 AI 模型將全球分佈式訓練，打破巨頭壟斷，帶來更透明、安全及低成本的 AI 生態。

GPT-5.6 或本月亮相 OpenAI 為華爾街上市做準備

OpenAI 或於本月發布 GPT-5.6，成為對現有旗艦的重大升級，同時在未來一年內尋求 IPO，將公司推向近 1 兆美元估值。

相關研究文章

42 個州已經調查 OpenAI 華爾街同時關注其 IPO

42 個州就 OpenAI 8520 億美元 IPO 發出傳票，聚焦 AI 安全、用戶數據及非牟利轉制，或拖慢上市時間並壓縮估值。

AI 驅動加密貨幣交易：如何將加密新聞變成投資策略

AI 可助你分析新聞、預測價格、掌握市場情緒，並把機會變成交易優勢，助你洞悉加密貨幣市場脈搏。

2025年十大AI加持加密貨幣騙局及如何保障你的資金

2025年各類AI詐騙加密貨幣事件急增，利用深偽影片和聲音令騙局更逼真，投資者損失慘重，必須提高警覺。

AI 概念幣復甦：Bittensor 飆升 117% 能否帶動板塊回歸？

Bittensor 帶動 AI 概念幣強勁反彈，單日板塊漲 42%，但距離 2024 年高位仍腰斬；在宏觀壓力與競爭下，板塊復甦仍存變數。

利用 AI 進行日內交易：善用 ChatGPT 及 Grok 作出更精明的加密貨幣決策

AI 為日內交易賦予新優勢，助你快速分析市場走勢和管理風險。人機結合，助你交易更精明。

相關學習文章

AI強化加密詐騙：是甚麼？如何避免？

本文揭示AI助力的加密詐騙最新趨勢及防範方法，助你在不斷演變的風險環境下保護資產。

加密貨幣中的 AI 代理崛起：金融革命正在展開

AI 代理人正重塑加密金融，提升自動決策與去中心化基礎設施融合，挑戰風險、合規與道德問題。

為何 AI 代理若沒有專屬區塊鏈層就無法擴展

AI 代理無法用傳統錢包，因為缺乏持久身份、助記詞託管與機器速度下的手續費處理能力。多個區塊鏈正打造專用代理基建。

去中心化智能：AI 及區塊鏈如何重塑科技

AI 結合區塊鏈帶來前所未有的創新，提升安全及透明度並推動自動化，各行業正因而重塑未來。

如何運用 AI 工具進行加密貨幣投資研究：2025 完全指南

探討 AI 對加密貨幣研究的顛覆性影響，涵蓋實用工具、策略、風險與真實例子，並聚焦 2025 年最新發展。

OpenAI 訓練 AI 保持誠實，而效果擴散到各處 | Yellow