Anthropic가 경쟁 AI 시스템을 만드는 연구자들의 결과를 은밀하게 떨어뜨리던 Claude Fable 5 정책을 되돌리고 있다. 회사는 이 제한이 전체 트래픽의 0.03%에만 영향을 줬다고 밝혔다.
핵심 요점:
- Anthropic는 프런티어 AI 연구에 대한 답변을 조용히 약화시키던 Fable 5 정책을 철회했다.
- 공개되지 않은 제한 사항은 319페이지 분량의 시스템 카드 안에 숨겨져 있었고, 사용자에게는 아무런 안내도 하지 않았다.
- 이제 플래그된 요청은 매번 이유를 표시한 채 공개적으로 Claude Opus 4.8로 폴백된다.
Claude Fable 5 제한 조치 철회
회사는 이번 주 Wired에 변경 사실을 확인했으며, 이는 며칠간 연구자·개발자·정책 분석가들의 분노가 온라인에서 커진 뒤 처음으로 보도됐다. 이 후퇴는 화요일 공개된 Fable 5, 즉 Anthropic의 첫 공개 Mythos급 모델 출시 직후에 나왔다. 이 모델은 소프트웨어 취약점을 찾아내는 능력이 날카롭다는 이유로 오랫동안 비공개로 유지되어 왔다. 출시 몇 시간 만에 사용자들은 고급 AI 작업의 좁은 범위에서 답변이 조용히 우회되거나 약화되고 있음을 발견했다.
해당 작업 범위에는 경쟁 모델 학습, AI 코드 디버깅, 신경망 튜닝 등이 포함돼 있었으며, 이 모든 것은 319페이지 시스템 카드에 숨겨진 짧은 단락을 통해 플래그 처리되었다. Fable 5는 이런 요청을 완전히 차단하는 대신, 숨겨진 프롬프트 수정과 스티어링 벡터에 의존해 답변의 날을 은근히 무디게 만들었고, Anthropic는 이 조치가 전체 트래픽의 겨우 0.03%에 해당한다고 추산했다.
이번 수정은 안전장치는 유지하되 가장 큰 비판을 불러온 ‘비밀주의’를 없앤 것이다. Anthropic는 가시적인 규칙은 분석과 우회가 더 쉽다는 점을 들어, 비공개 버전을 옹호해 왔다. 앞으로는 플래그된 프롬프트가 Claude Opus 4.8으로 공개적으로 폴백되며, 이는 사이버 보안·생물학 관련 요청에 쓰이는 경로와 동일하다. 곧 API가 각 거절 사유를 명확한 메시지로 함께 반환할 예정이라고 회사는 밝혔다.
또한 읽어보세요: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
연구자들, 비밀스러운 ‘사보타주’ 거부
비판의 초점은 제한 그 자체보다, 그것이 비밀리에 시행되었다는 점에 맞춰졌다. Anthropic는 이 제한을 Claude를 사용해 경쟁 시스템을 만드는 행위를 금지하는 기존 약관의 연장선으로 설명하며, 조용한 집행이 최악의 위반자들이 우위를 점하는 것을 막아 준다고 주장했다. 미국혁신재단(Foundation for American Innovation)의 선임 연구원 Dean Ball은 이 전술을 “비밀 사보타주”라고 부르며, 안전 규제의 일부가 실은 사업 이해관계를 보호하기 위한 장치에 불과하다는 의심에 힘을 실어준다고 지적했다.
이 표현은 곧바로 퍼져 나갔다.
다른 비판자들은 규칙에 내재된 비대칭성에 주목했다. Anthropic는 자사 직원에게는 Fable 5의 성능을 온전히 제공한 반면, 외부 팀에는 스로틀링을 적용했다. 이 차별적 조치는 오픈소스 지지자와 오랜 안전 옹호자들 모두를 분노하게 했다. Fast AI의 Jeremy Howard는 연구소가 경쟁자를 억누르겠다고 공언한 셈이라고 말했고, AI2의 Nathan Lambert는 이 은밀한 다운그레이드를 “끔찍하며 반(反)과학적”이라고 비판했다.
이번 논쟁은 Anthropic가 한때 너무 위험해 출시할 수 없다고 판단했던 Fable 5의 첫 주를 험난하게 장식했다. Anthropic는 최근 비공개 IPO 서류를 제출한 지 약 일주일 뒤인 이번 주, 이 모델을 대중이 사용할 수 있도록 승인했다. 회사는 더 엄격하고, 더 잘 공개된 가드레일이 있다면 이 모델의 취약점 탐지 능력을 안전하게 활용할 수 있을 것이라고 판단해 위험을 감수한 셈이다.
다음 기사: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





