ทำไม Gradient เชื่อว่าโมเดลระดับล้านล้านพารามิเตอร์ในอนาคตจะไม่เป็นของ OpenAI หรือ Google

ซีอีโอของ Gradient Eric Yang เชื่อว่าคลื่นใหญ่ครั้งต่อไปของปัญญาประดิษฐ์จะไม่ได้มาจากโมเดลปิดที่ใหญ่ขึ้นหรือศูนย์ข้อมูลที่ทรงพลังขึ้นตามแบบเดิม more powerful data centers.

เขามองว่าการเปลี่ยนแปลงจะมาจากการปฏิวัติวิธีการเทรนโมเดลแทน คือการกระจายงานเทรนไปบนเครือข่ายคอมพิวต์แบบไร้การอนุญาตทั่วโลก แทนที่จะรันอยู่หลังกำแพงของซูเปอร์คอมพิวเตอร์บริษัทเดียว

ในการให้สัมภาษณ์กับ Yellow.com เกี่ยวกับงานของ Gradient Yang ระบุว่าแลบ AI รายใหญ่ในวันนี้อย่าง OpenAI, Google, Anthropic, xAI ตั้งอยู่บนสมมติฐานว่าโมเดลฐานต้องถูกเทรนในโครงสร้างพื้นฐานขนาดมหึมาแบบรวมศูนย์เท่านั้น

“AI ได้ประโยชน์จากการรวมศูนย์มากจนยังไม่มีใครเทรนโมเดลใหญ่ ๆ ข้ามหลายดาต้าเซ็นเตอร์ได้เลย” เขากล่าว Gradient กำลังเดิมพันว่าสมมติฐานนี้กำลังจะพังทลาย

Yang ระบุว่า Gradient ได้รันงานเทรนแบบ reinforcement learning ที่กระจายข้ามดาต้าเซ็นเตอร์อิสระหลายแห่งสำเร็จแล้ว โดยให้ประสิทธิภาพทัดเทียมกับเวิร์กโฟลว์ RLHF แบบรวมศูนย์

เขาบอกว่านี่เปิดประตูสู่สิ่งที่เคยคิดว่าเป็นไปไม่ได้มาก่อน: การโพสต์เทรนโมเดลระดับล้านล้านพารามิเตอร์ที่ไม่ได้ถูกควบคุมโดยบริษัทเดียว แต่ทำร่วมกันโดยผู้ให้บริการคอมพิวต์นับพันรายทั่วโลก

Also Read: As Bitcoin Evolves Into A Global Economy, A Hidden Battle Emerges Behind Closed Doors

ผลกระทบทางเศรษฐกิจก็สำคัญไม่แพ้กัน Yang อธิบายถึงมาร์เก็ตเพลสระดับโลกแบบ “bounty-driven” ที่ผู้ให้บริการ GPU ดาต้าเซ็นเตอร์ และผู้ให้บริการโครงสร้างพื้นฐานอิสระรายเล็กแข่งขันกันส่งมอบคอมพิวต์ให้กับงานเทรน

ผู้ร่วมสมทบจะได้รางวัลตอบแทนหากสามารถให้คอมพิวต์ได้ในราคาต่ำที่สุด ขณะที่ต้นทุนการเทรนลดต่ำกว่าทางเลือกแบบรวมศูนย์ที่ครองตลาดอยู่ในปัจจุบัน

เขายังเชื่อว่าโครงสร้างพื้นฐาน AI แบบกระจายศูนย์ให้ข้อได้เปรียบด้านความปลอดภัยและความน่าเชื่อถือที่มีนัยสำคัญ

หากการอินเฟอเรนซ์สามารถรันได้ทั้งหมดบนฮาร์ดแวร์ที่ผู้ใช้เป็นเจ้าของเอง ไม่ว่าจะเป็น MacBook เดสก์ท็อป GPU ที่บ้าน หรือเซ็ตอัปแบบไฮบริด ข้อมูลส่วนบุคคลก็จะไม่ต้องออกจากอุปกรณ์เลย

“วันนี้เราปล่อยข้อมูลอ่อนไหวเข้าไปในระบบ AI มากกว่าที่เคยให้กับ Google เสียอีก” เขากล่าว “โมเดลอธิปไตยที่รันแบบโลคัลจะเปลี่ยนเรื่องนี้”

Yang ระบุว่าความโปร่งใสนี้สามารถขยายไปถึงกระบวนการเทรนเองได้ด้วย

หากบันทึกที่มาของข้อมูลเทรนไว้บนเชน ผู้ใช้ก็สามารถเห็นได้ว่าโมเดลถูกหล่อหลอมจากสภาพแวดล้อมและผู้ร่วมสมทบใดบ้าง ซึ่งเขามองว่าเป็นยาถอนพิษต่ออคติและการควบคุมเนื้อหาแบบทึบแสงที่เห็นในระบบรวมศูนย์

ในมุมมองของเขา ภูมิทัศน์ AI ในท้ายที่สุดจะไม่ได้ถูกครอบงำด้วยโมเดลใหญ่เพียงตัวเดียว แต่จะเป็น “ทะเลของโมเดลเฉพาะทาง” ที่ถูกเทรนและถือครองร่วมกัน

“ทุกบริษัทจะรัน AI เหมือนที่รัน analytics ในทุกวันนี้” Yang กล่าว “เมื่อถึงจุดนั้น เครือข่ายคอมพิวต์กระจายศูนย์ระดับโลกจะเป็นโมเดลเดียวที่สเกลได้จริง”