구글의 새 AI 모델, 엔비디아 GPU에서 초당 1,000토큰 달성

Google DeepMind는 2026년 6월 10일, 텍스트를 순차적으로가 아니라 병렬 블록으로 생성하는 새로운 텍스트 생성 모델 DiffusionGemma를 공개했다.

회사 측은 이 모델이 Nvidia GPU 하드웨어에서 초당 최대 1,000토큰에 도달한다고 밝혔다.

한 보고서에 따르면, 딥마인드의 벤치마크 결과 DiffusionGemma는 동일한 연산 환경에서 이전 Gemma 자기회귀(autoregressive) 모델보다 4배 빠르게 동작했다. 별도의 벤치마크 보고서는 엔비디아 하드웨어에서 수행한 장문 컨텍스트 추론 테스트에서 토큰 처리량이 10배 높았음을 확인했다.

DiffusionGemma의 작동 방식

일반적인 대형 언어 모델은 한 번에 한 개의 토큰만 생성한다. DiffusionGemma는 확산(diffusion) 기반 아키텍처를 사용해 전체 텍스트 블록을 동시에 생성한다. 이 접근 방식은 긴 출력에서 지연 시간을 크게 줄여준다. 딥마인드는 이 모델이 생성 중 복잡한 마크다운과 구조화된 형식을 스스로 교정할 수 있다고 설명한다.

이러한 기능은 코드 어시스턴트, 문서화 도구, 구조화 데이터 파이프라인을 구축하는 개발자를 겨냥한 것이다. 이 모델은 Nvidia RTX 소비자용 GPU와 DGX 엔터프라이즈 시스템에서의 로컬 배포에 최적화돼 있다.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

배경

구글 딥마인드는 지난 1년 동안 다양한 용도를 위해 오픈 웨이트 모델 계열을 확장하는 여러 Gemma 변종을 출시해 왔다. DiffusionGemma는 딥마인드가 Gemma 라인 안에서 텍스트 생성에 확산 아키텍처를 처음 적용한 사례다.

다른 연구소의 이전 확산 기반 텍스트 모델들은 연구 환경에서 속도상의 이점을 보여 왔지만 실제 배포는 제한적이었다. 딥마인드의 이번 출시는 이미 널리 사용되는 모델 계열과 기존 개발자 도구에 이 접근법을 도입한 것이다.

이번 발표는 같은 주 초 Anthropic이 새로운 추론 및 코딩 벤치마크를 세운 Claude Fable 5를 공개한 직후에 나왔다. 딥마인드는 하드웨어 수준에서 순수 추론 속도에 초점을 맞추어, 벤치마크 점수보다 대규모 배포에서의 처리량을 중시하는 다른 경쟁 축을 겨냥하고 있다.

엔비디아는 직접적인 수혜를 본다. DGX와 RTX 최적화는 로컬 수준에서 최첨단 모델 추론을 위한 기본 플랫폼으로 엔비디아 하드웨어의 위치를 더욱 공고히 한다.

앞으로 주목할 점은 개발자들이 얼마나 빠르게 채택하는지, 그리고 DiffusionGemma의 처리량 수치가 비(非)엔비디아 하드웨어 구성에서도 유지되는지 여부다.