Fable 5 แซง GPT 5.5 ก่อนที่คำสั่งรัฐบาลสหรัฐจะสั่งปิดระบบ

Anthropic’s Fable 5 ทำคะแนนแซง OpenAI’s GPT 5.5 ในเกณฑ์วัด AI สำคัญหลายตัว ก่อนที่ คำสั่งควบคุมการส่งออกของสหรัฐเมื่อ 12 มิถุนายนจะสั่งปิดระบบ

ประเด็นสำคัญ:

Fable 5 นำหน้า GPT 5.5 บน Arena, SWE-Bench Pro และการทดสอบโค้ดหลัก ๆ

โมเดลนี้เปิดให้ใช้งานได้เพียงสามวัน ก่อนที่รัฐบาลสหรัฐจะสั่งให้ Anthropic ปิดการทำงาน

GPT 5.5 กลายเป็นโมเดลที่แข็งแกร่งที่สุดที่ยังใช้งานได้ “โดยปริยาย” ไม่ใช่เพราะทำคะแนนแซง Fable 5

Fable 5 ถูกสั่งปิด

Fable 5 กลายเป็น โมเดล AI สาธารณะที่ทรงพลังที่สุดหลังเปิดตัวเมื่อ 9 มิ.ย. ทำคะแนนเหนือ GPT 5.5 ในเกณฑ์วัดหลัก ก่อนที่รัฐบาลสหรัฐจะสั่งแทรกแซงสามวันถัดมา

โมเดลนี้อยู่อันดับหนึ่งบน Arena ขณะที่ GPT 5.5 อยู่อันดับสี่ บน SWE-Bench Pro Fable 5 ได้ 80.3% เทียบกับ 58.6% ของ GPT 5.5 ช่องว่างเกือบ 22 คะแนนในงานวิศวกรรมซอฟต์แวร์จริง

ความได้เปรียบยังชัดในแบบทดสอบโค้ด Fable 5 ทำได้ 1,665 คะแนนบน Code Arena สูงกว่า GPT 5.5 อยู่ 98 คะแนน Elo และทำได้ 29.3% บน FrontierCode Diamond ในขณะที่ GPT 5.5 ทำได้ 5.7%

GPT 5.5 มีข้อได้เปรียบหนึ่งด้านการใช้งานจริงเรื่องราคา คิดค่าบริการ 5 ดอลลาร์ต่ออินพุตหนึ่งล้านโทเคน และ 30 ดอลลาร์ต่อเอาต์พุตหนึ่งล้านโทเคน ขณะที่ Fable 5 คิด 10 ดอลลาร์และ 50 ดอลลาร์ ทำให้โมเดลของ OpenAI ถูกกว่าสำหรับการใช้งานปริมาณสูง

Fable 5 ยังให้คอนเท็กซ์วินโดว์หนึ่งล้านโทเคน และเอาต์พุตได้ 128,000 โทเคน Anthropic เปิดให้ผู้ใช้แพ็กเกจ Pro, Max, Team และ Enterprise ใช้ได้โดยไม่คิดค่าใช้จ่ายเพิ่มจนถึง 22 มิถุนายน ก่อนที่คำสั่งของรัฐบาลจะยุติช่วงเวลาดังกล่าวลงก่อนกำหนด

Also Read: Is AI Becoming A Real Advantage In Court? Ask The Lawyer Who Just Beat Meta

GPT 5.5 ครองบัลลังก์

การสั่งปิดเกิดขึ้นหลังคำสั่งควบคุมการส่งออกเมื่อ 12 มิ.ย. ซึ่งอ้างถึงช่องโหว่การเจลเบรกใน Fable 5 และตระกูลโมเดล Mythos 5 ทั้งชุด Anthropic โต้แย้งว่าประเด็นดังกล่าวเป็นเรื่องเล็ก เป็นที่ทราบอยู่แล้ว และยังสามารถทำได้บน GPT 5.5 โดยไม่ต้องใช้วิธีเลี่ยงเป็นพิเศษ

ผลลัพธ์ครั้งนี้ถือว่าไม่ปกติสำหรับตลาด AI

นักพัฒนาสูญเสียการเข้าถึงโมเดลที่ทำคะแนนนำบนตารางเกณฑ์วัด ขณะที่ GPT 5.5 กลายเป็นตัวเลือกที่ดีที่สุดที่ยังใช้งานได้ เพราะคู่แข่งที่ใกล้เคียงที่สุดถูกถอดออกจากตลาด

ความแตกต่างนี้สำคัญที่สุดสำหรับเวิร์กโฟลว์ด้านการเขียนโค้ด ช่องว่าง 22 คะแนนบน SWE-Bench Pro หมายถึงความต่างระหว่างโมเดลที่แก้ปัญหาในโค้ดเบสจริงได้ประมาณสี่ในห้า กับโมเดลที่จัดการได้ประมาณสามในห้า

ช่วงเวลาสั้น ๆ ของ Fable 5 ยังแสดงให้เห็นว่าชายแดนความสามารถของโมเดลล้ำสมัยสามารถขยับเร็วเพียงใด GPT 5.5 เปิดตัวปลายเดือนเมษายนภายใต้โค้ดเนมภายในว่า “Spud” แต่ความเป็นผู้นำของมันมีอยู่จนถึงวันที่ Anthropic เปิดให้สาธารณะเข้าถึงระบบตระกูล Mythos ที่แข็งแกร่งกว่าในเดือนมิถุนายนเท่านั้น