โมเดล AI ใหม่ของ Google ทำความเร็วได้ 1,000 โทเคนต่อวินาทีบนจีพียู Nvidia

Google DeepMind เปิดตัว DiffusionGemma เมื่อวันที่ 10 มิถุนายน 2026 โมเดลสร้างข้อความตัวใหม่ที่สร้างข้อความเป็นบล็อกแบบขนาน แทนการสร้างทีละโทเคนตามลำดับ

บริษัทระบุว่า โมเดลนี้ทำความเร็วได้สูงสุดถึง 1,000 โทเคนต่อวินาทีบนฮาร์ดแวร์จีพียูของ Nvidia

ตามรายงาน Benchmark ของ DeepMind แสดงให้เห็นว่า DiffusionGemma ทำงานได้เร็วกว่าโมเดล Gemma แบบ autoregressive รุ่นก่อนหน้าถึง 4 เท่า ภายใต้งานคำนวณเทียบเท่ากัน รายงาน Benchmark แยกต่างหากยืนยันว่ามีอัตราการประมวลผลโทเคนสูงขึ้น 10 เท่าในการทดสอบ Long-context inference ที่ทำบนฮาร์ดแวร์ Nvidia

วิธีการทำงานของ DiffusionGemma

โมเดลภาษาขนาดใหญ่ทั่วไปจะสร้างข้อความทีละโทเคน DiffusionGemma สร้างเป็นบล็อกข้อความทั้งก้อนพร้อมกันโดยใช้สถาปัตยกรรมแบบ diffusion วิธีการนี้ช่วยลด Latency ลงอย่างมากสำหรับเอาต์พุตยาวๆ DeepMind ระบุว่า โมเดลสามารถแก้ไขตนเองสำหรับ Markdown ที่ซับซ้อนและรูปแบบข้อมูลเชิงโครงสร้างระหว่างการสร้างข้อความได้

ความสามารถนี้มุ่งเป้าไปที่นักพัฒนาที่สร้างผู้ช่วยเขียนโค้ด เครื่องมือเอกสาร และท่อทางข้อมูลแบบมีโครงสร้าง โมเดลถูกปรับแต่งให้เหมาะกับการรันบนเครื่องโลคัลด้วยจีพียู Nvidia RTX สำหรับผู้ใช้ทั่วไป และระบบองค์กร DGX

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

ภูมิหลัง

ตลอดปีที่ผ่านมา Google DeepMind ได้ออกโมเดลสาย Gemma หลายเวอร์ชัน ขยายตระกูลโมเดลแบบเปิดน้ำหนักสำหรับกรณีการใช้งานที่หลากหลาย DiffusionGemma ถือเป็นครั้งแรกที่ DeepMind นำสถาปัตยกรรมแบบ diffusion มาใช้กับการสร้างข้อความในสาย Gemma

ก่อนหน้านี้ โมเดลข้อความแบบ diffusion จากห้องทดลองอื่นแสดงให้เห็นข้อได้เปรียบด้านความเร็วในงานวิจัย แต่ยังถูกใช้งานจริงค่อนข้างจำกัด การปล่อยโมเดลของ DeepMind ครั้งนี้นำแนวทางดังกล่าวมาสู่ตระกูลโมเดลที่ถูกใช้งานอย่างแพร่หลายและมีเครื่องมือสำหรับนักพัฒนาอยู่แล้ว

ช่วงเวลาการเปิดตัวตามหลังการปล่อย Claude Fable 5 ของ Anthropic เมื่อสัปดาห์นี้ ซึ่งสร้างสถิติใหม่ด้านการให้เหตุผลและงานเขียนโค้ด การโฟกัสของ DeepMind อยู่ที่ความเร็วการอนุมานดิบในระดับฮาร์ดแวร์ โดยมุ่งไปที่มิติการแข่งขันคนละด้าน คือการรองรับปริมาณงานสูงในการใช้งานจริง มากกว่าคะแนน Benchmark เพียงอย่างเดียว

Nvidia ได้ประโยชน์โดยตรง การปรับแต่งให้เหมาะกับ DGX และ RTX ทำให้ฮาร์ดแวร์ของ Nvidia กลายเป็นแพลตฟอร์มเริ่มต้นสำหรับการอนุมานโมเดลระดับแนวหน้าในระดับโลคัล

ประเด็นที่ต้องจับตาคือความเร็วในการยอมรับของนักพัฒนา และตัวเลข Throughput ของ DiffusionGemma จะยังคงใกล้เคียงกันบนฮาร์ดแวร์ที่ไม่ใช่ Nvidia หรือไม่