Anthropic’s Fable 5 ทำคะแนนเหนือ OpenAI’s GPT 5.5 บนเบนช์มาร์ก AI สำคัญๆ อยู่ช่วงสั้นๆ ก่อนที่ คำสั่งควบคุมการส่งออกของสหรัฐฯ เมื่อ 12 มิ.ย. จะสั่งให้หยุดให้บริการ
ประเด็นสำคัญ:
- Fable 5 นำหน้า GPT 5.5 บน Chatbot Arena, SWE-Bench Pro และการทดสอบโค้ดหลักๆ
- โมเดลเปิดให้ใช้งานเพียงสามวันก่อนที่รัฐบาลสหรัฐฯ จะสั่งให้ Anthropic ปิดการใช้งาน
- ตอนนี้ GPT 5.5 กลายเป็นโมเดลที่แข็งแกร่งที่สุดที่ยังใช้งานได้ ไม่ใช่เพราะแซง Fable 5 แต่เพราะ Fable 5 ถูกถอดออก
Fable 5 ถูกสั่งปิด
Fable 5 กลายเป็น โมเดล AI สาธารณะที่ทรงพลังที่สุดหลังเปิดตัวเมื่อ 9 มิ.ย. แซง GPT 5.5 บนเบนช์มาร์กสำคัญๆ ก่อนที่รัฐบาลสหรัฐฯ จะเข้ามาแทรกแซงในอีกสามวันถัดมา
โมเดลนี้ขึ้นอันดับหนึ่งบน Chatbot Arena ขณะที่ GPT 5.5 อยู่อันดับสี่ บน SWE-Bench Pro นั้น Fable 5 ทำได้ 80.3% เทียบกับ 58.6% ของ GPT 5.5 ช่องว่างเกือบ 22 คะแนนในงานวิศวกรรมซอฟต์แวร์จริง
ความเหนือกว่ายังชัดเจนในการทดสอบเขียนโค้ด Fable 5 ทำคะแนนได้ 1,665 บน Code Arena สูงกว่า GPT 5.5 ถึง 98 คะแนน Elo และทำได้ 29.3% บน FrontierCode Diamond ขณะที่ GPT 5.5 ทำได้ 5.7%
GPT 5.5 มีข้อได้เปรียบอย่างหนึ่งด้านการใช้งานจริง คือราคา คิดที่ 5 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้าน และ 30 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้าน ขณะที่ Fable 5 คิดที่ 10 และ 50 ดอลลาร์ ทำให้โมเดลของ OpenAI ถูกกว่าสำหรับการใช้งานปริมาณมาก
Fable 5 ยังมีหน้าต่างบริบทขนาดหนึ่งล้านโทเค็น และเอาต์พุตสูงสุด 128,000 โทเค็น Anthropic เปิดให้ผู้ใช้ระดับ Pro, Max, Team และ Enterprise ใช้งานได้โดยไม่คิดค่าใช้จ่ายเพิ่มจนถึง 22 มิ.ย. ก่อนที่คำสั่งจากรัฐจะทำให้ต้องยุติก่อนกำหนด
Also Read: Is AI Becoming A Real Advantage In Court? Ask The Lawyer Who Just Beat Meta
GPT 5.5 ขึ้นเป็นราชา
การสั่งปิดเกิดขึ้นตามคำสั่งควบคุมการส่งออกเมื่อ 12 มิ.ย. ซึ่งระบุช่องโหว่ด้าน jailbreak ใน Fable 5 และตระกูลโมเดล Mythos 5 ทั้งชุด Anthropic โต้แย้งว่าประเด็นดังกล่าวเป็นเรื่องเล็กน้อย รู้กันอยู่แล้ว และยังสามารถทำได้บน GPT 5.5 โดยไม่ต้องใช้เทคนิคเลี่ยงพิเศษ
ผลลัพธ์นี้ถือว่าแปลกสำหรับตลาด AI
นักพัฒนาสูญเสียการเข้าถึงโมเดลที่นำตารางเบนช์มาร์ก ขณะที่ GPT 5.5 กลายเป็นตัวเลือกที่ดีที่สุดเพียงเพราะคู่แข่งที่ใกล้เคียงที่สุดถูกถอดออกไป
ความต่างนี้สำคัญที่สุดสำหรับเวิร์กโฟลว์ด้านการเขียนโค้ด ช่องว่าง SWE-Bench Pro 22 คะแนน หมายถึงความต่างระหว่างโมเดลที่แก้ปัญหาในโค้ดเบสจริงได้ราวสี่ในห้า กับโมเดลที่จัดการได้ราวสามในห้า
ช่วงเวลาสั้นๆ ของ Fable 5 ยังแสดงให้เห็นว่าชายขอบความสามารถของโมเดลสามารถขยับเร็วแค่ไหน GPT 5.5 เปิดตัวปลายเดือนเมษายนภายใต้โค้ดเนมภายใน “Spud” แต่ความเป็นผู้นำอยู่ได้เพียงจนกว่า Anthropic จะเปิดให้ใช้ระบบตระกูล Mythos ที่แรงกว่ากับสาธารณะในเดือนมิถุนายน
Read Next: Anthropic Refused To Patch Claude Fable's Jailbreak, So The US Banned It, David Sacks Says





