OpenAI, 프롬프트 인젝션 공격 차단 위한 ‘락다운 모드’ 출시

OpenAI가 민감한 정보를 다루는 사용자를 prompt injection attacks으로부터 보호하기 위한 새로운 보안 기능인 ‘락다운 모드(Lockdown Mode)’를 출시했다. 이 기능은 2026년 6월 7일에 공개됐다.

이코노믹 타임스(The Economic Times)에 따르면, 락다운 모드는 입력에 숨겨진 악의적인 지침이 AI 모델의 동작을 무시하거나 조작하도록 유도하는 공격 방식인 프롬프트 인젝션을 방어하도록 설계됐다.

락다운 모드가 하는 일

프롬프트 인젝션은 대형 언어 모델을 서비스에 배포할 때 가장 자주 논의되는 취약점 중 하나다. 공격자는 모델이 이전 지시를 무시하거나 제한된 정보를 노출하도록 유도하는 입력을 정교하게 만들어낸다. 락다운 모드는 이러한 위험을 줄이기 위해 추가적인 통제 장치를 적용한다.

OpenAI는 이번 출시에서 락다운 모드 구현 방식에 대한 전체 기술적 세부 사항은 공개하지 않았다. 회사는 이 기능을 민감 데이터를 관리하는 사용자를 겨냥한 것으로 설명했으며, 여기에는 엔터프라이즈 고객, 연구자, 보안에 민감한 전문 인력이 포함될 것으로 보인다.

이번 출시는 OpenAI가 점점 더 높은 위험을 수반하는 활용 사례를 다루면서, 접근 권한 계층과 보안 레이어를 추가해 온 흐름의 연장선에 있다. 법률, 의료, 정부 부문 등에서의 엔터프라이즈 배포가 입력 단위의 보안 통제에 대한 필요성을 크게 높였다.

또한 읽기: Two AI Rivals, One Compute Bill: Inside Google's $30B SpaceX Move

배경

OpenAI의 안전 중심 도구 개발 강화는 AI 모델 행동에 대한 감시가 한층 강화된 시기를 배경으로 한다. 이번 출시 몇 주 전, OpenAI, Anthropic, Google DeepMind, Microsoft의 수장들은 합동으로 의회에 합성 DNA 스크리닝 의무화를 촉구하며, AI가 생물안보 위협에서 맡을 수 있는 잠재적 역할을 경고했다. 2026년 5월 말과 6월 초에 보도된 이 서한은 워싱턴의 입법 의제 중심에 AI 안전 이슈를 올려놓았다.

락다운 모드 출시와 동시에 Anthropic을 비롯한 경쟁사들도 자사 최고 성능 모델에 대한 접근 통제를 강화하고 있다. Anthropic은 올해 초 자발적 사전 검토 체계의 일환으로 Claude Mythos 시스템의 접근을 제한했다.

OpenAI의 이번 보안 기능 추가는 회사가 6월 1일 미국 증권거래위원회(SEC)에 비공개 IPO 서류를 제출한 직후 이뤄졌다. 엔터프라이즈급 보안 통제를 입증하는 것은 향후 공개 상장을 앞두고 투자자 신뢰를 확보하는 데 중요한 요소가 될 것으로 보인다.

다음 읽기: Tencent Hires Former OpenAI Researcher Yao Shunyu As Chief AI Scientist In AGI Push