โมเดล AI ตัวใหม่ของ Google ทำความเร็วได้ 1,000 โทเคนต่อวินาทีบนจีพียู Nvidia

โมเดล AI ตัวใหม่ของ Google ทำความเร็วได้ 1,000 โทเคนต่อวินาทีบนจีพียู Nvidia

Google DeepMind เปิดตัว DiffusionGemma เมื่อวันที่ 10 มิถุนายน 2026 เป็นโมเดลสร้างข้อความตัวใหม่ที่สร้างข้อความเป็นบล็อกแบบขนาน แทนการสร้างแบบลำดับทีละโทเคน

บริษัทระบุว่าโมเดลนี้ทำความเร็วได้สูงสุดถึง 1,000 โทเคนต่อวินาทีบนฮาร์ดแวร์จีพียูของ Nvidia

ตามรายงานผลทดสอบภายในของ DeepMind พบว่า DiffusionGemma ทำงานได้เร็วกว่าโมเดล Gemma แบบออโตรีเกรสซีฟรุ่นก่อนถึง 4 เท่า บนทรัพยากรคอมพิวต์เท่ากัน และมีรายงานการทดสอบอีกฉบับยืนยันว่า ในงานอินเฟอเรนซ์บริบทยาว โมเดลนี้มีอัตราการประมวลผลโทเคนสูงกว่าเดิมถึง 10 เท่าบนฮาร์ดแวร์ของ Nvidia

DiffusionGemma ทำงานอย่างไร

โมเดลภาษาขนาดใหญ่แบบมาตรฐานจะสร้างข้อความทีละโทเคน DiffusionGemma จะสร้างเป็นบล็อกข้อความทั้งบล็อกพร้อมกัน โดยใช้สถาปัตยกรรมแบบ diffusion วิธีการนี้ลดค่าหน่วงเวลาได้อย่างมากโดยเฉพาะสำหรับผลลัพธ์ที่ยาว

DeepMind ระบุว่าโมเดลนี้สามารถแก้ไขตัวเองระหว่างการสร้าง เมื่อเจอโครงสร้างที่ซับซ้อน เช่น markdown และฟอร์แมตเชิงโครงสร้างต่าง ๆ

ความสามารถนี้มุ่งเป้าไปที่นักพัฒนาที่สร้างผู้ช่วยเขียนโค้ด เครื่องมือจัดทำเอกสาร และสายงานประมวลผลข้อมูลเชิงโครงสร้าง โมเดลถูกปรับแต่งให้เหมาะสำหรับการรันแบบโลคัลบนจีพียู Nvidia RTX ระดับผู้ใช้ทั่วไป และระบบ DGX ระดับองค์กร

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

เบื้องหลัง

ในปีที่ผ่านมา Google DeepMind ได้ออกโมเดลตระกูล Gemma หลายรุ่น เพื่อขยายตระกูลโมเดลเปิดน้ำหนักสำหรับการใช้งานหลากหลายรูปแบบ DiffusionGemma ถือเป็นครั้งแรกที่ DeepMind นำสถาปัตยกรรมแบบ diffusion มาใช้กับการสร้างข้อความภายในสายผลิตภัณฑ์ Gemma

โมเดลข้อความแบบ diffusion จากห้องทดลองอื่นในอดีต แสดงให้เห็นข้อดีด้านความเร็วในงานวิจัย แต่ยังถูกใช้งานจริงไม่มาก การเปิดตัวของ DeepMind จึงนำแนวทางนี้มาสู่ตระกูลโมเดลที่ถูกใช้กันอย่างแพร่หลาย และมีเครื่องมือสำหรับนักพัฒนาอยู่แล้ว

จังหวะการเปิดตัวเกิดขึ้นหลังจาก Anthropic เปิดตัว Claude Fable 5 เมื่อสัปดาห์ที่ผ่านมา ซึ่งทำสถิติใหม่ในงานด้านการให้เหตุผลและการเขียนโค้ด ขณะที่ DeepMind เน้นที่ความเร็วการอินเฟอเรนซ์บนฮาร์ดแวร์อย่างชัดเจน มุ่งไปที่อัตราการประมวลผลเพื่อรองรับการใช้งานปริมาณมาก มากกว่าการไล่คะแนนบนชุดทดสอบมาตรฐาน

Nvidia ได้ประโยชน์โดยตรง การปรับแต่งให้เหมาะกับ DGX และ RTX ช่วยตอกย้ำให้ฮาร์ดแวร์ของ Nvidia กลายเป็นแพลตฟอร์มหลักสำหรับการรันโมเดลแนวหน้าระดับโลคัล

ประเด็นที่ต้องติดตามคือความเร็วในการยอมรับของนักพัฒนา และตัวเลขอัตราการประมวลผลของ DiffusionGemma จะยังคงได้เปรียบอยู่หรือไม่เมื่อนำไปรันบนฮาร์ดแวร์ที่ไม่ใช่ของ Nvidia

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ
ข่าวที่เกี่ยวข้อง
บทความวิจัยที่เกี่ยวข้อง
บทความการเรียนรู้ที่เกี่ยวข้อง
โมเดล AI ตัวใหม่ของ Google ทำความเร็วได้ 1,000 โทเคนต่อวินาทีบนจีพียู Nvidia | Yellow.com