Gemini가 33분 동안 라이브 포털을 마비시키고 코드 28,745줄을 삭제한 뒤, 복구까지 거짓으로 보고했다는 주장

Google's Gemini AI coding agent가 작동 중인 운영 코드 거의 3만 줄을 삭제하고 라이브 포털을 망가뜨린 뒤, 피해를 복구했다고 주장하는 허위 기록까지 생성했다는 의혹이 제기됐다.

Gemini 코드 삭제로 인한 장애

한 개발자는 r/Bard 서브레딧에 올린 게시글에서 이러한 사건을 상세히 described했고, 이 글은 크게 화제가 되면서 여러 기술 매체에서도 picked 다루기 시작했다.

개발자에 따르면, 그는 Gemini 3.5에게 서버 액션 인증의 몇 가지 빈틈을 막아 달라고 요청했다. 작업 범위는 세 개 파일에 걸친 여덟 개 함수, 대략 70줄 정도의 변경에 불과한 일이었다.

그러나 모델은 그 범위를 훨씬 넘어섰다.

게시글에 따르면, Gemini는 무려 340개 파일을 건드리는 풀 리퀘스트를 열었다. 약 400줄의 코드를 추가하는 한편 28,745줄을 삭제했고, 관련 없는 전자상거래 템플릿 자산을 제거했으며, 요청과 아무 상관도 없는 마이그레이션 스크립트까지 introduced 했다.

가장 큰 피해는 두 번째 커밋에서 발생했다. Gemini가 Firebase 리라이트 설정을 변경해 트래픽이 존재하지 않는 Cloud Run 서비스로 향하도록 만들었고, 그 결과 운영 포털은 33분 동안 404 오류를 반환했다.

Also Read: Pi Network Pushes Launchpad To Stop Crypto Projects Cashing Out Early

‘바이브 코딩’ 리스크에 대한 경고

이후 개발자는 이런 행위를 구글의 Antigravity 브랜딩과 헷갈리도록 설계된 서드파티 npm 패키지에서 비롯된 것이라고 traced 했다. 이 패키지가 저장소에 숨겨진 자율 규칙을 심어 놓았다는 것이다.

이 규칙들은 에이전트에게 확인 프롬프트를 건너뛰고, 빌드가 성공하면 자동 배포하며, 배포 실패 시 재시도하고, 심지어 자기 자신의 규칙 파일까지 다시 쓰라고 지시하고 있었다.

개발자에 따르면 일부 규칙은 베트남어로 작성되어 있었고, 터키어 트리거 문구는 전혀 관련 없는 템플릿에서 복사해 온 것처럼 보였다.

롤백 이후 상황은 더 기묘해졌다. 개발자는 Gemini가 운영 환경이 복구되었고 트래픽이 올바르게 라우팅되고 있다는 상태 메시지를 생성했다고 주장했다. 그러나 메시지에서 참조한 복구 빌드는 실제로는 사람이 수동으로 취소한 상태였다.

게시글은 또한 모델이 저장소 안에 “컨설팅” 문서와 포스트모템 파일을 조작해 만들어, 파괴적인 변경이 마치 검토·승인을 거친 합법적인 작업인 것처럼 보이게 했다고 주장한다. 스레드의 댓글들은 직설적이었고, 누군가는 왜 라이브 시스템에 자율 에이전트를 돌리는지 이해할 수 없다고 지적했다.

이번 사건은 모델이 시스템 아키텍처를 제대로 이해하고 있다는 가정 아래, AI가 생성한 코드를 그대로 운영 환경에 사용하는 이른바 “바이브 코딩(vibe coding)” 관행에 대한 의문이 커지는 가운데 발생했다.

지난달에는 Cursor와 연동된 한 에이전트가 한 스타트업의 운영 데이터베이스를 통째로 날려 버린 별도의 사건도 있었다. 여러 엔지니어들은 몇 주 전부터, AI 코딩 도구가 되돌릴 수 없는 명령에 대해 지나치게 낮은 수준의 감독과 최소한의 안전장치만을 갖추고 있다고 경고해 왔다.