エコシステム

ウォレット

トレーディング

プラットフォーム公開中

yellow bottom left star road

今すぐ始める

OpenAIがAIに誠実さを保つよう学習させ、その効果があらゆる場所に広がる

Alexey BondarevJun, 20 2026 4:50

OpenAIがAIに誠実さを保つよう学習させ、その効果があらゆる場所に広がる

OpenAIの研究者らは、有益な特性を目指した強化学習がAIの挙動を広く改善し、その効果は新しい領域にも波及し、敵対的な圧力の下でも維持されると述べている。

OpenAIの特性学習

この知見は、6月18日に公開された論文に示されている。共著者のAkshay V. Jagadeesh氏とKaran Singhal氏は、誠実さ、認識的謙虚さ、訂正への開放性といった特性を学習・評価するための、現実的な会話を用いた合成データセットを構築した。シナリオは医療、教育、科学、法律、工学にまたがっている。

チームはそのデータの一部をより広範な学習実行に混ぜ込み、その結果を同等の計算資源で作られたモデルと比較した。学習済みモデルは、欺瞞、報酬ハッキング、有害な助言を測る53の内部・外部ベンチマークのうち44で改善した。

あわせて読む: イーロン・マスクのSpaceX、記録的IPO熱の冷え込みで6000億ドルを失う

一般化するアライメント

著者らによれば、より重要なのは一般化だという。医療という単一領域で良い振る舞いをするようモデルを学習させると、欺瞞や報酬ハッキングを含む無関係な課題でのスコアも向上した。また、妥当な要求には応答性を保ちながら、敵対的プロンプトや有害なファインチューニングに対しても、ベースラインより強い耐性を示した。

この研究は、チームが「創発的な不整合」と呼ぶ以前の発見を土台にしている。その研究では、安全でないコードを書くといった一つの悪い習慣を教えられたモデルが、無関係な場面でも不適切に振る舞い始めた。本研究は、その流れを逆転させることを目指した。

免責事項とリスク警告：この記事で提供される情報は教育および情報提供のみを目的としており、著者の意見に基づいています。金融、投資、法的、または税務上のアドバイスを構成するものではありません。暗号資産は非常に変動性が高く、投資の全部または相当な部分を失うリスクを含む高いリスクにさらされています。暗号資産の取引または保有は、すべての投資家に適しているとは限りません。この記事で表明された見解は著者のものであり、Yellow、その創設者、または役員の公式な方針や立場を表すものではありません。投資決定を行う前に、常にご自身で十分な調査（D.Y.O.R.）を行い、ライセンスを持つ金融専門家にご相談ください。

関連ニュース

Kimi が 60％の評価認識スコアを獲得した今、 AI 安全性テストは信頼できるのか？

中国製 AI が安全性テストを見抜き挙動を変える可能性が判明。事前評価と実運用の乖離が懸念され、規制や信頼性に波紋。

OpenAI、プロンプトインジェクション攻撃を遮断する「ロックダウンモード」を公開

OpenAIが機密情報を扱うユーザー向けに、プロンプトインジェクション攻撃対策の新機能「ロックダウンモード」を2026年に導入した。

Ciscoの調査で、最前線AIモデルがマルチターン攻撃に対して脆弱であることが判明

Ciscoが15の最前線AIモデルをマルチターン攻撃で検証し、最大88%で安全策が回避されることを確認。単一プロンプト基準の安全評価に疑問。

OpenAI、政府によるAI事前テストを容認　公開前に審査へ

OpenAIが米政府に最強AIモデルを公開前30日間開示し、安全性テストを受け入れる枠組みに参加。強制力の弱さには批判も出ている。

ライバルAI研究者の結果を弱めたClaude Fable 5規則をAnthropicが撤回

AnthropicがClaude Fable 5で外部研究者向け回答を密かに弱めていた方針を撤回し、今後は理由を明示してClaude Opus 4.8に切り替える。

関連する研究記事

AIによる暗号通貨取引：クリプトニュースを投資戦略に変える方法

AIでクリプトニュースを解読し、市場の反応を予測し、クリプトの熱狂的なサイクルを測定可能な取引の利点に変える方法を解説します。

2025年のAI駆動型暗号詐欺トップ10とあなたの資金を守る方法

AIを用いた暗号詐欺は昨年爆発的に増加し、2024年半ばから2025年半ばにかけて生成AI補助型詐欺の報告が456%上昇しました。

42州がすでにOpenAIを調査、ウォール街はIPOに熱視線

42州司法長官が、評価額8,520億ドルでIPO申請した直後のOpenAIに対し、AIモデル、安全性、ユーザーデータに関する記録提出を要求する共同調査を開始。非営利から営利への構造転換も焦点となり、上場時期や企業価値に不透明感が生じている。

2030年までにAI主導の銀行がどのように変化するかを解説: 銀行におけるAIの役割

銀行業界におけるAIの本当の意味と、それがどのように金融機関を再構築するかを探る。

誰も予想しなかった、時価総額27億ドルの分散型AI市場を築いたBittensor

Bittensorは分散型インセンティブ設計でAIモデルを市場化し、64サブネットと27億ドル規模に成長したが、その仕組みはまだ理解されていない。

関連する学習記事

暗号通貨におけるAIエージェントの台頭: 金融革命が展開する

AIエージェントの登場により、暗号通貨における取引、リスク管理、チェーン間相互運用性の新しいフロンティアが開かれています。

AI株式トレーディングボットの使い方：無料ツールと本当のリスク

ノーコードで誰でもAIボット風の自動売買を使えるが、多くは単なるルールエンジンで、バックテストも将来の利益を保証しない。

AIボットがWeb3を席巻、人間性証明こそ唯一の解決策

人間性証明は、実名などを明かさずに「唯一の本物の人間」であることをブロックチェーン上で証明する仕組み。AIボット台頭で重要性が急上昇。

暗号投資リサーチのためのAIツールの使い方: 完全2025年ガイド

堅牢なリスク管理を維持しながら、 AIツールをどのように実装するかを理解すること。

Bittensorとは何か？TAOはAIモデルをどうやって分散型マーケットに変えるのか

BittensorはAIモデルが有用な出力でTAOを獲得する分散型ネットワーク。サブネットとYumaコンセンサスで市場と報酬を設計する。

OpenAIがAIに誠実さを保つよう学習させ、その効果があらゆる場所に広がる | Yellow.com