รีวิวเปรียบเทียบแบบตัวต่อตัวล่าสุดนำ GPT-5.6 Sol ของ OpenAI ซึ่งทำคะแนนได้ 88.8% บนหนึ่งในเกณฑ์วัดการเขียนโค้ดชั้นนำ มาชนกับ Claude Fable 5 ของ Anthropic ที่ได้ 80.3% ในหมวดวิศวกรรมซอฟต์แวร์
ประเด็นสำคัญ:
- GPT-5.6 Sol ทำอันดับหนึ่งบน Terminal-Bench 2.1 ที่ 88.8% และโหมด Ultra ดันคะแนนขึ้นไปถึง 91.9%
- Claude Fable 5 รักษาช่องว่างนำกว้างที่สุดที่ถูกเผยแพร่บน SWE-Bench Pro ที่ 80.3% เทียบกับ 58.6% ของ GPT-5.5
- Sol ยังจำกัดอยู่ในพรีวิวที่ผ่านการอนุมัติจากภาครัฐ ขณะที่ Fable 5 กลับมาเปิดใช้ทั่วโลกเมื่อ 1 ก.ค.
เคลมเกณฑ์วัดของ GPT-5.6 Sol
OpenAI ได้เปิดพรีวิว ตระกูล GPT-5.6 เมื่อ 26 มิ.ย. ซึ่งเป็นการออกเวอร์ชันใหม่ครั้งแรกนับจาก GPT-5.5 ในเดือนเม.ย. โดยแบ่งไลน์ออกเป็นสามระดับและให้ Sol เป็นรุ่นธง
บริษัทระบุว่า Sol ทำได้ 88.8% บน Terminal-Bench 2.1 ซึ่งเป็นการทดสอบเอเจนต์เขียนโค้ดผ่านคำสั่งบนเทอร์มินัล ที่ต้องวางแผน ทำซ้ำ และประสานการใช้เครื่องมือ โหมด Ultra ซึ่งใช้คอมพิวต์สูง โดยสปินซับเอเจนต์ที่ทำงานประสานกันเพื่อเร่งงานซับซ้อน ดันตัวเลขนั้นขึ้นเป็น 91.9% ซึ่งเป็นคะแนนสูงสุดที่ถูกเผยแพร่บนชาร์ต Terminal-Bench
ผู้รีวิวที่เปรียบเทียบชาร์ตที่เผยแพร่ จัดให้ Fable 5 ตามหลัง Sol อยู่หลายแต้มในการทดสอบเทอร์มินัลเดียวกัน แม้ว่าตัวเลขที่อ้างถึงจะแกว่งอยู่ระหว่าง 83.4% ถึง 84.3% ก็ตาม บนชุดทดสอบด้านความปลอดภัย ExploitBench มีรายงานว่า Sol ทำได้ระดับเดียวกับรุ่น Mythos ขณะใช้โทเค็นเอาต์พุตเพียงประมาณหนึ่งในสาม ซึ่งเป็นการบีบต้นทุนที่สำคัญสำหรับการรันเอเจนต์ยาว ๆ
แทบไม่มีใครนอกพรีวิวที่สามารถตรวจสอบตัวเลขเหล่านั้นได้อย่างอิสระในตอนนี้ ซึ่งเป็นข้อแม้ที่ผู้รีวิวจำนวนมากชี้ไว้ แม้จะยอมรับคะแนนดิบเหล่านั้นก็ตาม
อ่านเพิ่มเติม: OpenAI และ Anthropic อยากได้ IPO ขนาดเท่า SpaceX แต่วอลล์สตรีทอาจไม่ปลื้ม
ความนำในงานโค้ดและราคา ของ Fable 5
Fable 5 ยังครองเกณฑ์วัดที่ผู้รีวิวส่วนใหญ่ยกให้เป็นตัวชี้ขาดงานซอฟต์แวร์อัตโนมัติ และความได้เปรียบตรงนั้นก็ไม่ใช่ช่องว่างเล็ก ๆ มันทำได้ 80.3% บน SWE-Bench Pro ซึ่งวัดการแก้ปัญหา GitHub จริงแบบครบกระบวนการ เทียบกับ 58.6% สำหรับ GPT-5.5 รุ่นเก่า และ OpenAI ยังไม่เผยตัวเลขของ GPT-5.6 บนเกณฑ์นี้
นักวิเคราะห์ที่พบช่องว่างระดับนี้ ในการทดสอบด้านโค้ด การให้เหตุผล และความรู้ ต่างสงสัยว่าการออกรุ่นแบบไต่ระดับครั้งเดียว จะอุดช่องโหว่ทั้งหมดได้จริงหรือไม่
ทางด้านราคา น้ำหนักกลับเอนไปอีกฝั่ง เนื่องจากมีรายงานว่า Sol ตั้งราคาไว้ที่ 5 ดอลลาร์ต่อหนึ่งล้านโทเค็นขาเข้า และ 30 ดอลลาร์สำหรับขาออก ซึ่งเป็นครึ่งหนึ่งของ Fable 5 ที่ 10 และ 50 ดอลลาร์ ผู้รีวิวหลายรายให้ความเห็นว่า การตั้งค่าที่สมเหตุสมผลคือส่งงานแบบเอเจนต์ที่ขับด้วยเทอร์มินัลไปให้ Sol เมื่อเปิดให้ใช้ทั่วไป และส่งงานแก้ปัญหาระดับทั้งรีโพไปให้ Fable 5
ด้านการเข้าถึงเป็นเส้นแบ่งที่ชัดที่สุด เพราะ Sol ยังอยู่ในพรีวิวจำกัด ให้พาร์ตเนอร์ที่ผ่านการเคลียร์จากรัฐบาลราว 20 ราย ขณะที่ Fable 5 กลับมาเปิดใช้ทั่วโลกเมื่อ 1 ก.ค. พร้อมโบนัสการใช้งานชั่วคราวสำหรับผู้สมัครสมาชิกแบบเสียเงินถึง 7 ก.ค.
เดือนมิถุนายนทำให้การเข้าถึงโมเดลระดับแนวหน้าเป็นเป้าเคลื่อนที่สำหรับทั้งสองห้องแล็บ และอาการเหวี่ยงไปมานั้นเป็นกรอบให้ทุกรีวิวต้องคำนึงถึง วอชิงตันสั่งให้ Fable 5 และรุ่นพี่ที่ทรงพลังยิ่งกว่าอย่าง Mythos 5 ออฟไลน์ เมื่อ 12 มิ.ย. โดยอ้างความเสี่ยงไซเบอร์ซีเคียวริตี้รุนแรง หลังนักวิจัยของ Amazon ค้นพบบายพาสที่ทำให้โมเดลผลิตโค้ดเจาะระบบได้ รัฐมนตรีพาณิชย์ Howard Lutnickยืนยัน การกลับคำเมื่อ 30 มิ.ย. หลังการทบทวนสองสัปดาห์ เพียงไม่กี่วันหลังจาก Mythos 5 กลับมาเงียบ ๆ ให้ใช้งานในองค์กรอเมริกันที่ผ่านการคัดกรองราว 100 แห่ง
อ่านต่อ: ทำไม ETH ยังอ่อน แม้การสเตก Ethereum ทำสถิติสูงสุด?





