Mô hình AI mới của Google đạt 1.000 token mỗi giây trên GPU Nvidia

Mô hình AI mới của Google đạt 1.000 token mỗi giây trên GPU Nvidia

Google DeepMind đã phát hành DiffusionGemma vào ngày 10 tháng 6 năm 2026, một mô hình tạo văn bản mới tạo ra văn bản theo các khối song song thay vì tuần tự.

Công ty cho biết mô hình này đạt tới 1.000 token mỗi giây trên phần cứng GPU Nvidia.

Theo một báo cáo, benchmark của DeepMind cho thấy DiffusionGemma chạy nhanh hơn gấp 4 lần so với các mô hình Gemma tự hồi quy trước đó trên cùng mức tài nguyên tính toán. Một báo cáo benchmark riêng xác nhận thông lượng token cao hơn 10 lần trong các bài kiểm thử suy luận ngữ cảnh dài được thực hiện trên phần cứng Nvidia.

Cách DiffusionGemma hoạt động

Các mô hình ngôn ngữ lớn tiêu chuẩn tạo ra từng token một. DiffusionGemma tạo ra toàn bộ các khối văn bản đồng thời bằng cách sử dụng kiến trúc dựa trên diffusion. Cách tiếp cận này giảm mạnh độ trễ đối với các đầu ra dài. DeepMind cho biết mô hình có khả năng tự sửa các định dạng markdown phức tạp và cấu trúc trong khi tạo văn bản.

Năng lực đó nhắm tới các nhà phát triển xây dựng trợ lý mã, công cụ tài liệu và pipeline dữ liệu có cấu trúc. Mô hình được tối ưu cho triển khai cục bộ trên GPU tiêu dùng Nvidia RTX và hệ thống doanh nghiệp DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Bối cảnh

Google DeepMind đã phát hành nhiều biến thể Gemma trong năm qua, mỗi loại mở rộng họ mô hình open-weights cho các trường hợp sử dụng khác nhau. DiffusionGemma đánh dấu lần đầu tiên DeepMind áp dụng kiến trúc diffusion cho tạo văn bản trong dòng Gemma.

Các mô hình văn bản diffusion trước đây từ những phòng thí nghiệm khác đã cho thấy lợi thế về tốc độ trong môi trường nghiên cứu nhưng triển khai thực tế còn hạn chế. Bản phát hành của DeepMind đưa cách tiếp cận này vào một họ mô hình được sử dụng rộng rãi với hệ sinh thái công cụ nhà phát triển sẵn có.

Thời điểm ra mắt đến sau việc Anthropic phát hành Claude Fable 5 vào đầu tuần này, vốn lập nên các chuẩn mới về nhiệm vụ lập luận và lập trình. Việc DeepMind tập trung vào tốc độ suy luận thuần ở cấp độ phần cứng nhắm tới một chiều cạnh cạnh tranh khác, ưu tiên thông lượng cho triển khai khối lượng lớn thay vì điểm benchmark.

Nvidia được hưởng lợi trực tiếp. Việc tối ưu cho DGX và RTX củng cố phần cứng Nvidia như nền tảng mặc định cho suy luận mô hình tiên tiến ở cấp độ cục bộ.

Điều cần theo dõi là tốc độ các nhà phát triển chấp nhận và liệu các con số thông lượng của DiffusionGemma có giữ vững trên các cấu hình phần cứng không dùng Nvidia hay không.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.
Mô hình AI mới của Google đạt 1.000 token mỗi giây trên GPU Nvidia | Yellow.com