Mẫu AI mới của Google đạt 1.000 token mỗi giây trên GPU Nvidia

Google DeepMind đã phát hành DiffusionGemma vào ngày 10 tháng 6 năm 2026, một mô hình sinh văn bản mới tạo văn bản theo các khối song song thay vì tuần tự.

Công ty cho biết mô hình này đạt tới 1.000 token mỗi giây trên phần cứng GPU Nvidia.

Theo một báo cáo, các bài đo hiệu năng của DeepMind cho thấy DiffusionGemma chạy nhanh gấp 4 lần so với các mô hình Gemma tự hồi quy trước đó trên cùng mức tính toán. Một báo cáo đo hiệu năng riêng biệt xác nhận thông lượng token cao hơn 10 lần trong các bài kiểm thử suy luận ngữ cảnh dài được thực hiện trên phần cứng Nvidia.

DiffusionGemma hoạt động như thế nào

Các mô hình ngôn ngữ lớn tiêu chuẩn tạo ra từng token một. DiffusionGemma tạo toàn bộ các khối văn bản cùng lúc bằng cách sử dụng kiến trúc dựa trên diffusion. Cách tiếp cận này giảm mạnh độ trễ đối với các đầu ra dài. DeepMind cho biết mô hình có khả năng tự sửa các định dạng markdown phức tạp và cấu trúc trong quá trình sinh.

Năng lực đó được nhắm tới các nhà phát triển đang xây dựng trợ lý lập trình, công cụ tài liệu và pipeline dữ liệu có cấu trúc. Mô hình được tối ưu cho triển khai cục bộ trên GPU tiêu dùng Nvidia RTX và hệ thống doanh nghiệp DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Bối cảnh

Google DeepMind đã phát hành một số biến thể Gemma trong năm qua, mỗi biến thể mở rộng họ mô hình open-weights cho các trường hợp sử dụng khác nhau. DiffusionGemma đánh dấu lần đầu tiên DeepMind áp dụng kiến trúc diffusion cho sinh văn bản trong dòng Gemma.

Các mô hình văn bản diffusion trước đây từ các phòng thí nghiệm khác đã cho thấy lợi thế về tốc độ trong môi trường nghiên cứu nhưng triển khai thực tế còn hạn chế. Bản phát hành của DeepMind đưa cách tiếp cận này đến một họ mô hình được sử dụng rộng rãi với hệ sinh thái công cụ cho nhà phát triển sẵn có.

Thời điểm ra mắt diễn ra sau việc Anthropic phát hành Claude Fable 5 vào đầu tuần, mô hình đã thiết lập các kỷ lục mới về nhiệm vụ suy luận và lập trình. Việc DeepMind tập trung vào tốc độ suy luận thô ở tầng phần cứng nhắm vào một chiều cạnh cạnh tranh khác, ưu tiên thông lượng cho triển khai khối lượng lớn hơn là điểm số benchmark.

Nvidia được hưởng lợi trực tiếp. Việc tối ưu DGX và RTX củng cố phần cứng Nvidia là nền tảng mặc định cho suy luận các mô hình tuyến đầu ở cấp độ cục bộ.

Điều cần theo dõi là tốc độ được nhà phát triển chấp nhận và liệu các con số thông lượng của DiffusionGemma có giữ được trên các cấu hình phần cứng không phải Nvidia hay không.