Anthropic이 경쟁 AI 시스템을 구축하는 연구자들의 결과를 비밀리에 저하시키던 Claude Fable 5 정책을 철회하고 있다. 회사는 이 제한이 전체 트래픽의 0.03%에만 영향을 미쳤다고 밝혔다.
핵심 요점:
- 앤트로픽은 최전선 AI 연구에 대한 답변을 은밀히 약화시키던 Fable 5 정책을 철회했다.
- 공개되지 않은 제한은 319페이지 분량의 시스템 카드 안에만 적혀 있었고, 사용자 고지는 전혀 없었다.
- 이제 플래그된 요청은 매번 사유를 표시한 채 공개적으로 Claude Opus 4.8으로 폴백된다.
Claude Fable 5 제한 조치 철회
회사는 이 같은 변경 사항을 이번 주 Wired 보도를 통해 확인했으며, 며칠간 연구자·개발자·정책 분석가들의 분노가 온라인에서 고조된 뒤 처음으로 후퇴 사실이 알려졌다. 이 조치는 화요일에 공개된 Fable 5 출시 직후 나왔다. Fable 5는 앤트로픽이 오랫동안 공개를 미뤄 온 첫 공개용 Mythos급 모델로, 소프트웨어 취약점을 찾아내는 능력이 더 예리하다는 이유에서였다. 공개 몇 시간 만에 이용자들은 이 모델이 고급 AI 관련 작업의 일부에 대해 조용히 우회 응답을 하거나 답변의 강도를 낮추고 있음을 발견했다.
이런 작업에는 경쟁 모델 학습, AI 코드 디버깅, 신경망 튜닝 등이 포함됐으며, 모두 319페이지 분량 시스템 카드에 숨겨진 한 단락을 통해 범주가 설명돼 있었다. Fable 5는 이들 요청을 완전히 차단하는 대신, 숨겨진 프롬프트 수정과 스티어링 벡터를 활용해 답변의 날을 은근히 무디게 만들었고, 앤트로픽은 그 비율을 전체 트래픽의 0.03%에 불과하다고 추산했다.
이번 수정은 안전장치는 유지하되, 가장 큰 비판을 받았던 ‘비밀주의’를 걷어낸 것이 핵심이다. 앤트로픽은 이전에는 규칙을 눈에 띄게 만들면 오히려 우회·공격이 쉬워진다는 논리로 숨겨진 버전을 옹호해 왔다. 이제 플래그된 프롬프트는 Claude Opus 4.8으로 공개적으로 폴백되며, 이는 사이버·생물학 관련 요청에 이미 쓰이던 경로와 동일하다. 곧 API 응답에는 거절 사유가 명시적으로 포함될 예정이다.
또 읽어보기: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
연구자들, ‘비밀 사보타주’에 반발
비판의 초점은 제한 자체보다 그 운용 방식의 비밀성에 맞춰졌다. 앤트로픽은 이번 조치가 Claude를 활용해 경쟁 시스템을 만드는 행위를 금지하는 약관을 확장 적용한 것이라고 설명하며, 조용한 집행이 최악의 위반자들이 이득을 얻지 못하게 해 준다고 주장했다. 미국 혁신재단의 선임 연구원 Dean Ball은 이 전술을 “비밀 사보타주”라고 규정하며, 일부 안전 논의가 실제로는 사업 이해관계를 보호하기 위한 방패라는 시각에 힘을 실어준다고 지적했다.
이 표현은 빠르게 확산됐다.
다른 비판자들은 규칙에 내재된 비대칭성에 주목했다. 앤트로픽은 자사 직원에게는 Fable 5의 모든 능력을 그대로 제공하면서, 외부 팀에게만 성능 제한을 적용했다. 이는 오픈소스 진영과 오랜 안전 옹호자들 사이에서 모두 분노를 불러일으켰다. Fast AI의 Jeremy Howard는 앤트로픽이 경쟁자를 시도 단계에서부터 꺾겠다는 의지를 드러냈다고 평했고, AI2의 Nathan Lambert는 이와 같은 비밀스러운 다운그레이드가 충격적이며 반(反)과학적이라고 비판했다.
이 논란은 Fable 5 출시 첫 주를 사실상 ‘악몽의 한 주’로 만들었다. 앤트로픽은 한때 이 모델이 너무 위험해 아예 출시하지 않기로 판단했었다. 그러나 최근 비공개 IPO 서류를 제출한 지 약 일주일 뒤, 취약점 탐지 능력을 안전하게 관리할 수 있는 더 촘촘하고 투명한 가드레일을 마련했다는 판단 아래, 이번 주 결국 대중 공개를 강행했다.
다음 읽기: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





