OpenAI、プロンプトインジェクション攻撃を遮断する「ロックダウンモード」を公開

OpenAIは、機密情報を扱うユーザーをprompt injection attacksから保護することを目的とした新しいセキュリティ機能「ロックダウンモード」を公開した。この機能は2026年6月7日に展開された。

The Economic Timesによると、ロックダウンモードはプロンプトインジェクションへの防御を念頭に設計されている。プロンプトインジェクションとは、入力内に埋め込まれた悪意ある指示によって、AIモデルの動作を上書きしたり操作したりしようとする攻撃手法である。

ロックダウンモードが行うこと

プロンプトインジェクションは、大規模言語モデルの運用において最も頻繁に議論される脆弱性の一つである。攻撃者は、モデルに対して以前の指示を無視させたり、制限された情報を開示させたりするような入力を巧妙に作成する。ロックダウンモードは、そのリスクを低減するために、追加の制御を適用する。

OpenAIは、今回のロールアウトにおけるロックダウンモードの実装に関する完全な技術的詳細を公開していない。同社はこの機能を、機密データを扱うユーザーを対象としていると説明しており、その対象にはエンタープライズ顧客、研究者、セキュリティ意識の高い専門家などが含まれると示唆している。

このローンチは、より高リスクなユースケースに対応する中で、OpenAIがアクセスレベルやセキュリティレイヤーを追加してきた流れの一環でもある。法務、医療、政府といった分野でのエンタープライズ導入により、入力レベルのセキュリティ制御の必要性は高まっている。

背景

OpenAIによる安全性重視のツール群の拡充は、AIモデルの挙動に対する監視と批判が強まる時期と重なっている。このローンチに先立つ数週間、OpenAI、Anthropic、Google DeepMind、Microsoftのトップは連名で議会に対し、AIがバイオセキュリティ上の脅威に関与しうる可能性を理由に、合成DNAのスクリーニングを義務化するよう要請した。この書簡は2026年5月末から6月初旬にかけて報じられ、AI安全性をワシントンの立法議題の中心に押し上げた。

ロックダウンモードのリリースは、Anthropicを含む競合他社が、最も高性能なモデルへのアクセス制御を強化している状況の中で登場した。Anthropicは今年初め、任意の事前レビュー枠組みの一環として、自社のClaude Mythosシステムへのアクセスを制限した。

OpenAIによるセキュリティ機能の追加は、同社が6月1日にSECへ提出した非公開のIPO申請に先立つ動きでもある。エンタープライズ水準のセキュリティ制御を実証することは、将来の新規株式公開を見据えた投資家の信頼に影響するとみられる。

次に読む: Tencent Hires Former OpenAI Researcher Yao Shunyu As Chief AI Scientist In AGI Push