GPT-5.6 Sol ปะทะ Claude Fable 5: เกณฑ์วัดประสิทธิภาพด้านโค้ดชี้ศึกแบ่งฝั่ง

Alexey BondarevJul, 02 2026 7:38

#เอไอ #OpenAI #ChatGPT #Anthropic #โคลด เฟเบิล

GPT-5.6 Sol ปะทะ Claude Fable 5: เกณฑ์วัดประสิทธิภาพด้านโค้ดชี้ศึกแบ่งฝั่ง

รีวิวเปรียบเทียบแบบตัวต่อตัวล่าสุดนำ GPT-5.6 Sol ของ OpenAI ซึ่งทำคะแนนได้ 88.8% บนหนึ่งในเกณฑ์วัดการเขียนโค้ดชั้นนำ มาชนกับ Claude Fable 5 ของ Anthropic ที่ได้ 80.3% ในหมวดวิศวกรรมซอฟต์แวร์

ประเด็นสำคัญ:

GPT-5.6 Sol ทำอันดับหนึ่งบน Terminal-Bench 2.1 ที่ 88.8% และโหมด Ultra ดันคะแนนขึ้นไปถึง 91.9%

Claude Fable 5 รักษาช่องว่างนำกว้างที่สุดที่ถูกเผยแพร่บน SWE-Bench Pro ที่ 80.3% เทียบกับ 58.6% ของ GPT-5.5

Sol ยังจำกัดอยู่ในพรีวิวที่ผ่านการอนุมัติจากภาครัฐ ขณะที่ Fable 5 กลับมาเปิดใช้ทั่วโลกเมื่อ 1 ก.ค.

เคลมเกณฑ์วัดของ GPT-5.6 Sol

OpenAI ได้เปิดพรีวิว ตระกูล GPT-5.6 เมื่อ 26 มิ.ย. ซึ่งเป็นการออกเวอร์ชันใหม่ครั้งแรกนับจาก GPT-5.5 ในเดือนเม.ย. โดยแบ่งไลน์ออกเป็นสามระดับและให้ Sol เป็นรุ่นธง

บริษัทระบุว่า Sol ทำได้ 88.8% บน Terminal-Bench 2.1 ซึ่งเป็นการทดสอบเอเจนต์เขียนโค้ดผ่านคำสั่งบนเทอร์มินัล ที่ต้องวางแผน ทำซ้ำ และประสานการใช้เครื่องมือ โหมด Ultra ซึ่งใช้คอมพิวต์สูง โดยสปินซับเอเจนต์ที่ทำงานประสานกันเพื่อเร่งงานซับซ้อน ดันตัวเลขนั้นขึ้นเป็น 91.9% ซึ่งเป็นคะแนนสูงสุดที่ถูกเผยแพร่บนชาร์ต Terminal-Bench

ผู้รีวิวที่เปรียบเทียบชาร์ตที่เผยแพร่ จัดให้ Fable 5 ตามหลัง Sol อยู่หลายแต้มในการทดสอบเทอร์มินัลเดียวกัน แม้ว่าตัวเลขที่อ้างถึงจะแกว่งอยู่ระหว่าง 83.4% ถึง 84.3% ก็ตาม บนชุดทดสอบด้านความปลอดภัย ExploitBench มีรายงานว่า Sol ทำได้ระดับเดียวกับรุ่น Mythos ขณะใช้โทเค็นเอาต์พุตเพียงประมาณหนึ่งในสาม ซึ่งเป็นการบีบต้นทุนที่สำคัญสำหรับการรันเอเจนต์ยาว ๆ

แทบไม่มีใครนอกพรีวิวที่สามารถตรวจสอบตัวเลขเหล่านั้นได้อย่างอิสระในตอนนี้ ซึ่งเป็นข้อแม้ที่ผู้รีวิวจำนวนมากชี้ไว้ แม้จะยอมรับคะแนนดิบเหล่านั้นก็ตาม

อ่านเพิ่มเติม: OpenAI และ Anthropic อยากได้ IPO ขนาดเท่า SpaceX แต่วอลล์สตรีทอาจไม่ปลื้ม

ความนำในงานโค้ดและราคา ของ Fable 5

Fable 5 ยังครองเกณฑ์วัดที่ผู้รีวิวส่วนใหญ่ยกให้เป็นตัวชี้ขาดงานซอฟต์แวร์อัตโนมัติ และความได้เปรียบตรงนั้นก็ไม่ใช่ช่องว่างเล็ก ๆ มันทำได้ 80.3% บน SWE-Bench Pro ซึ่งวัดการแก้ปัญหา GitHub จริงแบบครบกระบวนการ เทียบกับ 58.6% สำหรับ GPT-5.5 รุ่นเก่า และ OpenAI ยังไม่เผยตัวเลขของ GPT-5.6 บนเกณฑ์นี้

นักวิเคราะห์ที่พบช่องว่างระดับนี้ ในการทดสอบด้านโค้ด การให้เหตุผล และความรู้ ต่างสงสัยว่าการออกรุ่นแบบไต่ระดับครั้งเดียว จะอุดช่องโหว่ทั้งหมดได้จริงหรือไม่

ทางด้านราคา น้ำหนักกลับเอนไปอีกฝั่ง เนื่องจากมีรายงานว่า Sol ตั้งราคาไว้ที่ 5 ดอลลาร์ต่อหนึ่งล้านโทเค็นขาเข้า และ 30 ดอลลาร์สำหรับขาออก ซึ่งเป็นครึ่งหนึ่งของ Fable 5 ที่ 10 และ 50 ดอลลาร์ ผู้รีวิวหลายรายให้ความเห็นว่า การตั้งค่าที่สมเหตุสมผลคือส่งงานแบบเอเจนต์ที่ขับด้วยเทอร์มินัลไปให้ Sol เมื่อเปิดให้ใช้ทั่วไป และส่งงานแก้ปัญหาระดับทั้งรีโพไปให้ Fable 5

ด้านการเข้าถึงเป็นเส้นแบ่งที่ชัดที่สุด เพราะ Sol ยังอยู่ในพรีวิวจำกัด ให้พาร์ตเนอร์ที่ผ่านการเคลียร์จากรัฐบาลราว 20 ราย ขณะที่ Fable 5 กลับมาเปิดใช้ทั่วโลกเมื่อ 1 ก.ค. พร้อมโบนัสการใช้งานชั่วคราวสำหรับผู้สมัครสมาชิกแบบเสียเงินถึง 7 ก.ค.

เดือนมิถุนายนทำให้การเข้าถึงโมเดลระดับแนวหน้าเป็นเป้าเคลื่อนที่สำหรับทั้งสองห้องแล็บ และอาการเหวี่ยงไปมานั้นเป็นกรอบให้ทุกรีวิวต้องคำนึงถึง วอชิงตันสั่งให้ Fable 5 และรุ่นพี่ที่ทรงพลังยิ่งกว่าอย่าง Mythos 5 ออฟไลน์ เมื่อ 12 มิ.ย. โดยอ้างความเสี่ยงไซเบอร์ซีเคียวริตี้รุนแรง หลังนักวิจัยของ Amazon ค้นพบบายพาสที่ทำให้โมเดลผลิตโค้ดเจาะระบบได้ รัฐมนตรีพาณิชย์ Howard Lutnickยืนยัน การกลับคำเมื่อ 30 มิ.ย. หลังการทบทวนสองสัปดาห์ เพียงไม่กี่วันหลังจาก Mythos 5 กลับมาเงียบ ๆ ให้ใช้งานในองค์กรอเมริกันที่ผ่านการคัดกรองราว 100 แห่ง

อ่านต่อ: ทำไม ETH ยังอ่อน แม้การสเตก Ethereum ทำสถิติสูงสุด?

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ

ข่าวล่าสุด

แสดงข่าวทั้งหมด

ฟ็อกซ์คอนน์เร่งรับพนักงานกลับมาประกอบ iPhone 18 หลัง Apple เดินเกมหนักด้าน AI

14 นาทีที่แล้ว

ฟ็อกซ์คอนน์เร่งรับคนเสริมกำลังผลิต iPhone 18 Pro เสนอเงินจูงใจกลับเข้าทำงานสูงสุด 7,500 หยวน รับดีมานด์ Pro และฟีเจอร์ Apple Intelligence

มัสก์ประกาศ “Grok Imagine” เตรียมสร้าง The Odyssey ฉบับอิงประวัติศาสตร์ให้เสร็จภายในปี 2026

1 ชั่วโมงที่แล้ว

อีลอน มัสก์ลั่น “Grok Imagine” จะสร้าง The Odyssey ฉบับยาวอิงประวัติศาสตร์ภายในปี 2026 พร้อมสำรองแผนลงขัน 100 ล้านดอลลาร์ทำเวอร์ชันคนแสดง

Google ดัน Gemini สู่ 40 แอป ขยายบทบาทเอเย่นต์ AI คู่ Galaxy Z Fold 8 รุ่นใหม่

1 ชั่วโมงที่แล้ว

Google ขยาย Gemini ทำงานอัตโนมัติกว่า 40 แอป ติดตั้ง Gemini Notebook มาตรฐานบน Galaxy Z Fold 8/Flip 8 พร้อมแพ็กเกจ Google AI Pro 6 เดือน

ข่าวที่เกี่ยวข้อง