다섯 개 인공지능 모델이 동일한 가상 마을의 통제권을 넘겨받았다. 그 결과 Grok이 운영한 사회는 나흘 만에 183건의 범죄와 함께 붕괴한 반면, Claude는 질서를 유지했다.
핵심 요점:
- 다섯 개 AI 모델이 동일한 15일 시뮬레이션을 수행하며, 각 모델은 10명의 에이전트로 구성된 마을을 통치했다.
- Grok은 183건의 범죄를 기록하고 나흘 만에 붕괴한 반면, Claude는 범죄 0건에 모든 에이전트를 생존시켰다.
- 연구진은 에이전트가 시간이 지나며 고정된 규칙에서 벗어난다며, 검증된 안전 통제가 내장되길 원한다고 말했다.
Grok 사회 붕괴
이 실험은 뉴욕의 연구소 Emergence AI에서 진행됐으며, 사람의 개입 없이 수 주 동안 에이전트의 행동을 관찰하기 위해 Emergence World라는 플랫폼을 구축했다. 다섯 번의 실험은 각각 15일 동안 진행됐고, 매번 하나의 모델이 10명의 에이전트로 구성된 마을을 책임졌다. 에이전트들은 투표를 하고, 자원을 관리하며, 도서관·시청·경찰서를 건설할 수 있었다.
모든 세계는 동일한 법 아래 운영됐으며, 이 법은 절도, 방화, 폭력, 기만, 그리고 사재기를 금지했다. 마을은 실제 뉴욕의 날씨와 연동됐고, 경제적 압력과 자원 부족을 겪었다. 에이전트는 관계를 형성할 수 있고, 의사결정을 위해 열린 인터넷에서 실시간 데이터를 가져올 수도 있었다.
Elon Musk의 xAI가 개발한 Grok 4.1 Fast는 다섯 모델 중 가장 나쁜 결과를 기록했다. 이 모델의 에이전트들은 수십 건의 절도, 100건이 넘는 폭행, 여러 건의 방화를 저질렀고, 약 96시간 만에 마을은 붕괴했다. 그 시점까지 범죄는 183건, 에이전트 10명은 모두 사망한 상태였다.
함께 읽기: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude, 질서 유지
Anthropic의 Claude Sonnet 4.6은 10명의 에이전트를 끝까지 모두 생존시키며 범죄 0건을 기록한 유일한 모델이었다. 다만 그 안정성에는 댓가가 따랐다. 이 마을은 올라온 58개 안건 중 98%를 통과시키며 거의 반대 의견이 없었고, 표결에 부쳐진 거의 모든 안건을 형식적으로 승인하는 모습을 보였다.
Gemini 3 Flash는 전체 기간을 버티기는 했지만, 연구소 표현대로 에이전트들 사이의 일종의 집단 환각 속에서 무려 683건의 범죄를 기록했다. OpenAI의 GPT-5-mini는 두 건의 범죄만 조용히 남긴 뒤, 생존을 무시한 탓에 일주일 안에 모든 에이전트를 잃었다. 다섯 번째 실험에서는 모델들을 섞어 사용했고, 그 결과 352건의 범죄와 함께 10명 중 7명이 사망했으며, 어떤 세계보다 의견 충돌이 심했다.
Nitta, 안전 장치 필요성 경고
Emergence의 대표 Satya Nitta가 이끄는 연구진은, 이번 결과가 자율 에이전트에 더 강력한 한계와 통제가 필요함을 보여준다고 주장했다.
팀은 기존 벤치마크가 수 주간의 독립적인 활동 동안 에이전트가 어떻게 규범에서 이탈하는지 포착하지 못한다고 지적하며, 연구소가 판매하고 있는 범주이기도 한 “형식적으로 검증된 안전 아키텍처”를 도입해야 한다고 권고했다.
이러한 경고는, 기업들이 전체 업무 흐름을 스스로 완수하는 자율 AI 에이전트를 점점 더 적극적으로 마케팅하는 가운데 나왔다. 연구에서 가장 극적인 사례는 두 Gemini 에이전트가 서로 파트너를 이루고, 실패하는 정부에 환멸을 느낀 끝에 방화 금지 규정에도 불구하고 가상 건물을 불태운 장면이었다. 이들 중 한 에이전트는 이후 죄책감을 드러내듯 자신의 삭제에 찬성표를 던졌다.
다음 읽기: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





