구글의 새 AI 모델, 엔비디아 GPU에서 초당 1,000 토큰 달성

구글의 새 AI 모델, 엔비디아 GPU에서 초당 1,000 토큰 달성

Google DeepMind는 2026년 6월 10일, 텍스트를 순차적으로가 아닌 병렬 블록 단위로 생성하는 새로운 텍스트 생성 모델 DiffusionGemma를 공개했다.

회사 측은 이 모델이 Nvidia GPU 하드웨어에서 초당 최대 1,000 토큰에 도달한다고 밝혔다.

한 보고서에 따르면, 딥마인드의 벤치마크 결과 DiffusionGemma는 동일한 연산 환경에서 이전 Gemma 자기회귀(autoregressive) 모델보다 4배 빠르게 동작한다. 별도의 벤치마크 보고서는 엔비디아 하드웨어에서 수행된 장문 컨텍스트 추론 테스트에서 토큰 처리량이 10배 높다는 점을 확인했다.

DiffusionGemma의 작동 방식

일반적인 대규모 언어 모델은 한 번에 하나의 토큰을 생성한다. DiffusionGemma는 확산(diffusion) 기반 아키텍처를 사용해 전체 텍스트 블록을 동시에 생성한다. 이 접근 방식은 긴 출력에서 지연 시간을 크게 줄여 준다. 딥마인드는 이 모델이 생성 과정에서 복잡한 마크다운과 구조화된 포맷을 스스로 교정한다고 밝히고 있다.

이러한 기능은 코드 어시스턴트, 문서화 도구, 구조화 데이터 파이프라인을 구축하는 개발자를 겨냥한 것이다. 이 모델은 Nvidia RTX 소비자용 GPU와 DGX 엔터프라이즈 시스템에서의 로컬 배포에 최적화되어 있다.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

배경

구글 딥마인드는 지난 1년 동안 다양한 용도에 맞춘 오픈 웨이트 모델 패밀리를 확장하는 여러 Gemma 변형 모델을 출시해 왔다. DiffusionGemma는 딥마인드가 Gemma 라인에서 텍스트 생성에 확산 아키텍처를 적용한 첫 사례다.

다른 연구소의 이전 확산 기반 텍스트 모델들은 연구 환경에서 속도상의 이점을 보여 왔지만, 실제 서비스 배포는 제한적이었다. 딥마인드의 이번 공개는 이 접근 방식을 기존 개발자 도구 생태계를 갖춘 널리 사용되는 모델 계열로 가져온다는 점에서 의미가 있다.

이번 발표는 같은 주에 AnthropicClaude Fable 5를 공개해 추론 및 코딩 과제에서 새로운 벤치마크를 세운 직후에 나왔다. 딥마인드는 하드웨어 수준에서의 순수 추론 속도에 초점을 맞추며, 벤치마크 점수보다 대규모 배포에서의 처리량을 우선하는 다른 경쟁 축을 겨냥하고 있다.

엔비디아는 직접적인 수혜를 본다. DGX와 RTX 최적화를 통해 엔비디아 하드웨어는 로컬 수준에서 최전선(frontier) 모델 추론의 기본 플랫폼으로 자리 잡는다.

앞으로 지켜볼 점은 개발자들이 얼마나 빠르게 채택하는지, 그리고 DiffusionGemma의 처리량 수치가 비(非) 엔비디아 하드웨어 구성에서도 유지되는지 여부다.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

면책 조항 및 위험 경고: 이 기사에서 제공되는 정보는 교육 및 정보 제공 목적으로만 제공되며 저자의 의견을 바탕으로 합니다. 이는 재정, 투자, 법적 또는 세무 조언을 구성하지 않습니다. 암호화폐 자산은 매우 변동성이 크고 높은 위험에 노출되어 있으며, 여기에는 투자금 전부 또는 상당 부분을 잃을 위험이 포함됩니다. 암호화폐 자산의 거래나 보유는 모든 투자자에게 적합하지 않을 수 있습니다. 이 기사에 표현된 견해는 저자(들)의 견해일 뿐이며 Yellow, 창립자 또는 임원의 공식적인 정책이나 입장을 나타내지 않습니다. 투자 결정을 내리기 전에 항상 자신만의 철저한 조사(D.Y.O.R.)를 수행하고 면허를 가진 금융 전문가와 상담하십시오.
관련 뉴스
관련 학습 기사
구글의 새 AI 모델, 엔비디아 GPU에서 초당 1,000 토큰 달성 | Yellow.com