Google DeepMind đã phát hành DiffusionGemma vào ngày 10 tháng 6 năm 2026, một mô hình tạo văn bản mới tạo ra văn bản theo các khối song song thay vì tuần tự.
Công ty cho biết mô hình này đạt tới 1.000 token mỗi giây trên phần cứng GPU Nvidia.
Theo một báo cáo, benchmark của DeepMind cho thấy DiffusionGemma chạy nhanh hơn gấp 4 lần so với các mô hình Gemma tự hồi quy trước đó trên cùng mức tài nguyên tính toán. Một báo cáo benchmark riêng xác nhận thông lượng token cao hơn 10 lần trong các bài kiểm thử suy luận ngữ cảnh dài được thực hiện trên phần cứng Nvidia.
Cách DiffusionGemma hoạt động
Các mô hình ngôn ngữ lớn tiêu chuẩn tạo ra từng token một. DiffusionGemma tạo ra toàn bộ các khối văn bản đồng thời bằng cách sử dụng kiến trúc dựa trên diffusion. Cách tiếp cận này giảm mạnh độ trễ đối với các đầu ra dài. DeepMind cho biết mô hình có khả năng tự sửa các định dạng markdown phức tạp và cấu trúc trong khi tạo văn bản.
Năng lực đó nhắm tới các nhà phát triển xây dựng trợ lý mã, công cụ tài liệu và pipeline dữ liệu có cấu trúc. Mô hình được tối ưu cho triển khai cục bộ trên GPU tiêu dùng Nvidia RTX và hệ thống doanh nghiệp DGX.
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
Bối cảnh
Google DeepMind đã phát hành nhiều biến thể Gemma trong năm qua, mỗi loại mở rộng họ mô hình open-weights cho các trường hợp sử dụng khác nhau. DiffusionGemma đánh dấu lần đầu tiên DeepMind áp dụng kiến trúc diffusion cho tạo văn bản trong dòng Gemma.
Các mô hình văn bản diffusion trước đây từ những phòng thí nghiệm khác đã cho thấy lợi thế về tốc độ trong môi trường nghiên cứu nhưng triển khai thực tế còn hạn chế. Bản phát hành của DeepMind đưa cách tiếp cận này vào một họ mô hình được sử dụng rộng rãi với hệ sinh thái công cụ nhà phát triển sẵn có.
Thời điểm ra mắt đến sau việc Anthropic phát hành Claude Fable 5 vào đầu tuần này, vốn lập nên các chuẩn mới về nhiệm vụ lập luận và lập trình. Việc DeepMind tập trung vào tốc độ suy luận thuần ở cấp độ phần cứng nhắm tới một chiều cạnh cạnh tranh khác, ưu tiên thông lượng cho triển khai khối lượng lớn thay vì điểm benchmark.
Nvidia được hưởng lợi trực tiếp. Việc tối ưu cho DGX và RTX củng cố phần cứng Nvidia như nền tảng mặc định cho suy luận mô hình tiên tiến ở cấp độ cục bộ.
Điều cần theo dõi là tốc độ các nhà phát triển chấp nhận và liệu các con số thông lượng của DiffusionGemma có giữ vững trên các cấu hình phần cứng không dùng Nvidia hay không.
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





