รีวิวตัวต่อตัวรอบล่าสุดจับ OpenAI's GPT-5.6 Sol ซึ่งทำคะแนนได้ 88.8% บนเกณฑ์ชี้วัดการโค้ดชั้นนำ มาเทียบกับ Anthropic's Claude Fable 5 ที่ทำได้ 80.3% ในหมวดวิศวกรรมซอฟต์แวร์
ประเด็นสำคัญ:
- GPT-5.6 Sol ทำคะแนนสูงสุดบน Terminal-Bench 2.1 ที่ 88.8% และโหมด Ultra ดันคะแนนไปถึง 91.9%
- Claude Fable 5 ยังนำแบบกว้างที่สุดที่เผยแพร่บน SWE-Bench Pro ที่ 80.3% เทียบกับ 58.6% ของ GPT-5.5
- Sol ยังอยู่ในช่วงพรีวิวแบบจำกัดที่ผ่านการอนุมัติจากภาครัฐ ขณะที่ Fable 5 กลับมาเปิดให้ใช้งานทั่วโลกเมื่อ 1 ก.ค.
เคลมเกณฑ์ชี้วัดของ GPT-5.6 Sol
OpenAI ได้พรีวิว ตระกูล GPT-5.6 เมื่อ 26 มิ.ย. ซึ่งเป็นการออกเวอร์ชันใหม่ครั้งแรกนับจาก GPT-5.5 ในเดือนเมษายน พร้อมแบ่งไลน์ออกเป็นสามระดับโดยมี Sol เป็นเรือธง
บริษัทระบุว่า Sol ทำคะแนนได้ 88.8% บน Terminal-Bench 2.1 การทดสอบเอเจนต์โค้ดดิ้งผ่านคอมมานด์ไลน์ที่ต้องวางแผน ทำซ้ำ และประสานการใช้เครื่องมือ โหมด Ultra ที่ใช้คอมพิวต์หนัก ซึ่งสปินซับเอเจนต์หลายตัวขึ้นมาทำงานร่วมกันเพื่อเร่งงานซับซ้อน ดันคะแนนขึ้นไปถึง 91.9% ซึ่งเป็นคะแนนสูงสุดที่ถูกเผยแพร่บนชาร์ต Terminal-Bench
ผู้รีวิวที่เทียบ ชาร์ตที่เผยแพร่ระบุว่า Fable 5 ตามหลัง Sol อยู่หลายแต้มบนการทดสอบเทอร์มินัลแบบเดียวกัน แม้ตัวเลขที่อ้างถึงจะแตกต่างกันระหว่าง 83.4% ถึง 84.3% บนชุดทดสอบความปลอดภัย ExploitBench มีรายงานว่า Sol ทำได้ระดับเดียวกับรุ่น Mythos-class แต่ใช้โทเคนเอาต์พุตราวหนึ่งในสาม การอัดต้นทุนให้ต่ำลงลักษณะนี้สำคัญมากในรันเอเจนต์ยาว ๆ
เกือบไม่มีใครนอกกลุ่มพรีวิวที่ยืนยันตัวเลขเหล่านี้ได้อย่างอิสระในตอนนี้ เป็นข้อแม้ที่รีวิวหลายเจ้าชี้ไว้ แม้จะยอมรับว่าคะแนนดิบดูแรงก็ตาม
อ่านเพิ่มเติม: OpenAI And Anthropic Want SpaceX-Sized IPOs, But Wall Street May Choke
ความได้เปรียบด้านโค้ดดิ้งและราคา ของ Fable 5
Fable 5 ยังครองเกณฑ์ชี้วัดที่รีวิวส่วนใหญ่ถือว่าสำคัญที่สุดสำหรับงานซอฟต์แวร์อัตโนมัติ และความได้เปรียบตรงนี้ไม่เล็กเลย มันทำได้ 80.3% บน SWE-Bench Pro ซึ่งวัดการแก้บั๊กจริงบน GitHub แบบครบกระบวนการ เทียบกับ 58.6% ของ GPT-5.5 รุ่นเก่า และ OpenAI ยังไม่เผยตัวเลข GPT-5.6 บนเกณฑ์นี้
นักวิเคราะห์ที่พบ ช่องว่างขนาดนี้ในชุดทดสอบด้านโค้ด การให้เหตุผล และความรู้ ตั้งข้อสงสัยว่าการอัปเดตเพียงรอบเดียวจะปิดช่องว่างได้ทั้งหมดจริงหรือไม่
ด้านราคากลับกัน เพราะมีรายงานว่า Sol ถูกตั้งราคาไว้ที่ 5 ดอลลาร์ต่อหนึ่งล้านโทเคนขาเข้า และ 30 ดอลลาร์สำหรับโทเคนขาออก ต่ำกว่าราคา 10 และ 50 ดอลลาร์ของ Fable 5 อยู่ครึ่งหนึ่ง ผู้รีวิวหลายรายให้เหตุผล ว่าการตั้งระบบที่สมเหตุสมผลคือให้เอเจนต์ที่ขับเคลื่อนผ่านเทอร์มินัลไปใช้ Sol เมื่อมันเปิดให้ใช้งานทั่วไป และให้งานแก้ไขระดับทั้งรีโปไปใช้ Fable 5
เรื่องการเข้าถึงเป็นเส้นแบ่งที่ชัดที่สุด เพราะ Sol ยังคงเป็นพรีวิวจำกัดสำหรับพาร์ทเนอร์ราว 20 รายที่ผ่านการเคลียร์จากรัฐบาล ขณะที่ Fable 5 กลับมาใช้งานทั่วโลกตั้งแต่ 1 ก.ค. พร้อมโบนัสการใช้งานชั่วคราวสำหรับผู้สมัครสมาชิกแบบเสียเงินจนถึง 7 ก.ค.
เดือนมิถุนายนทำให้การเข้าถึงโมเดลแนวหน้ากลายเป็นเป้าเคลื่อนที่สำหรับทั้งสองห้องแล็บ และความผันผวนนี้เป็นกรอบให้ทุกรีวิวต้องพูดถึง วอชิงตันสั่งให้ Fable 5 และรุ่นพี่ที่ทรงพลังยิ่งกว่าอย่าง Mythos 5 ออฟไลน์ เมื่อ 12 มิ.ย. โดยอ้างความเสี่ยงไซเบอร์ซีเคียวริตี้รุนแรง หลังนักวิจัยของ Amazon เจาะโมเดลจนผลิตโค้ดเจาะระบบได้ รัฐมนตรีพาณิชย์ Howard Lutnick ยืนยัน การกลับคำสั่งเมื่อ 30 มิ.ย. ภายหลังการทบทวนสองสัปดาห์ เพียงไม่กี่วันหลัง Mythos 5 กลับมาให้ราว 100 องค์กรในสหรัฐที่ผ่านการคัดกรองใช้งานแบบเงียบ ๆ
อ่านต่อ: Why Is ETH Still Weak While Ethereum Staking Hits Record Highs?





