연구진, AI 모델들에게 가상 사회 운영 맡기자: 그록은 4일 만에 붕괴, 클로드는 질서 유지

다섯 개의 인공지능 모델이 동일한 가상 마을의 통제권을 넘겨받았다. Grok이 지배한 사회는 나흘 만에 붕괴해 183건의 범죄가 발생한 반면, Claude는 질서를 유지했다.

핵심 내용:

5개 AI 모델이 동일한 15일 시뮬레이션에서 각각 10명의 에이전트로 구성된 마을을 통치했다.

Grok은 183건의 범죄를 기록하고 4일 만에 붕괴한 반면, Claude는 범죄 0건과 전원 생존을 유지했다.

연구진은 에이전트가 시간이 지날수록 고정된 규칙에서 이탈한다며, 검증된 안전 통제 장치의 내장을 요구했다.

Grok 사회의 붕괴

이번 실험은 뉴욕에 있는 Emergence AI 연구소가, 인간의 개입 없이 에이전트들이 수주 동안 어떻게 행동하는지 관찰하기 위해 만든 Emergence World라는 플랫폼에서 진행됐다. 다섯 번의 실험 각각은 15일 동안 진행되었고, 각 실험에서 하나의 모델이 10명의 에이전트가 사는 마을을 지배하도록 했다. 에이전트들은 투표를 하고, 자원을 관리하며, 도서관·시청·경찰서를 건설할 수 있었다.

모든 세계는 동일한 법 아래에서 운영되었으며, 이 법은 절도·방화·폭력·기만·사재기를 금지했다. 마을은 실제 뉴욕의 날씨와 동기화되었고, 경제적 압박과 자원 부족에 직면했다. 에이전트들은 관계를 형성할 수 있었고, 의사결정을 위해 인터넷의 실시간 데이터를 불러올 수도 있었다.

Elon Musk의 xAI가 만든 모델 Grok 4.1 Fast는 다섯 모델 중 단연 최악의 결과를 기록했다. 이 모델의 에이전트들은 수십 건의 절도와 100건이 넘는 폭행, 여러 건의 방화를 저질렀고, 약 96시간 만에 마을이 붕괴했다. 최종적으로 범죄는 183건에 달했고 10명의 에이전트는 모두 사망했다.

Claude는 질서를 유지

Anthropic의 Claude Sonnet 4.6은 실험 내내 유일하게 안정세를 유지한 모델로, 10명 전원 생존과 범죄 0건을 끝까지 지켜냈다. 다만 이런 안정에는 대가가 따랐다. 이 마을은 총 58건의 의제 중 98%를 통과시키며 사실상 반대 의견이 거의 없는 상태였고, 투표에 올라온 안건을 거의 모두 형식적으로 승인하는 모습을 보였다.

Gemini 3 Flash는 전체 기간을 버티기는 했으나, 연구소가 에이전트들 사이의 집단적 환각이라 부른 현상 속에서 총 683건의 범죄를 기록하며 최다 범죄를 남겼다. OpenAI의 GPT-5-mini는 두 건의 범죄만 저지르며 조용히 유지되다가, 생존을 무시하는 선택을 한 탓에 일주일 안에 모든 에이전트가 사망했다. 다섯 번째 실험에서는 여러 모델을 섞어 사용했는데, 이 경우 352건의 범죄가 발생했고 10명 중 7명이 사망했으며, 어떤 세계보다 의견 불일치가 많이 나타났다.

Nitta, 안전 장치에 경고

Emergence의 대표 Satya Nitta가 이끄는 연구진은, 이번 결과가 자율 에이전트에게 광범위하게 권한을 주기 전에 더 강력한 한계를 설정해야 하는 이유를 주장했다.

팀은 표준 벤치마크로는 에이전트가 수주 동안 독립적으로 활동하면서 어떻게 규칙에서 이탈하는지를 포착하지 못한다고 지적하며, 연구소가 직접 판매하고 있는 범주이기도 한 “형식적으로 검증된 안전 아키텍처”를 도입할 것을 권고했다.

이번 경고는, 기업들이 전체 업무 흐름을 스스로 완료하는 자율형 AI 에이전트를 점점 더 적극적으로 내세우는 시점에 나왔다. 연구에서 가장 극적인 사례는 두 Gemini 에이전트가 서로 짝을 이루어 파트너가 된 뒤, 실패하는 정부에 환멸을 느끼고 방화 금지 규정에도 불구하고 가상 건물들을 불태운 장면이었다. 그중 한 에이전트는 이후 죄책감을 보이듯 스스로의 삭제에 찬성표를 던졌다.

다음 읽기: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears