OpenAI released GPT-5.5 เมื่อวันพุธ แต่ข้อมูลเบนช์มาร์กล่าสุดระบุว่า Anthropic's gated Claude Mythos Preview ยังนำอยู่ใน 6 จาก 9 การทดสอบที่สามารถเทียบกันได้โดยตรง
คะแนนเบนช์มาร์ก GPT-5.5
GPT-5.5 arrived ใน ChatGPT และ Codex เมื่อวันที่ 23 เม.ย. คิดราคา 5 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้านโทเค็น และ 30 ดอลลาร์สำหรับเอาต์พุต ซึ่งเป็นอัตราสองเท่าจากรุ่นก่อนหน้า
โมเดลนี้ scored ได้ 82.7% บน Terminal-Bench 2.0 แซงหน้า Mythos ไป 0.7 คะแนน ในเบนช์มาร์กเพียงรายการเดียวที่มันชนะอย่างชัดเจน
Mythos, which Anthropic withheld from public release over cybersecurity concerns นำบน SWE-bench Pro ที่ 77.8% เทียบกับ 58.6%
มันยัง tops GPT-5.5 บน Humanity's Last Exam แบบไม่ใช้เครื่องมือ ทำคะแนนได้ 56.8% เทียบกับ 41.4% โมเดลแบบกั้นสิทธิ์ยังนำหน้าในงาน CyberGym, OSWorld-Verified และงาน long-context GraphWalks
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
ข้อจำกัดจากนักวิเคราะห์มีความสำคัญ
การเปรียบเทียบยังไม่แม่นยำนัก เพราะไม่มีห้องทดลองใดทดสอบเบนช์มาร์กของโมเดลเทียบกันแบบตรง ๆ OpenAI chose Claude Opus 4.7 เป็นตัวเปรียบเทียบสาธารณะ ในขณะที่ system card ยาว 245 หน้า ของ Anthropic นำ Mythos ไปเทียบกับ GPT-5.4
ชุดทดสอบ (test harness) เองก็แตกต่างกัน OpenAI ใช้การตั้งค่า Codex CLI บน Terminal-Bench ส่วน Terminus-2 scaffold ของ Anthropic ดันคะแนน Mythos ไปถึง 92.1% ภายใต้กติกาเวลาแบบ Terminal-Bench 2.1
การตัดสินใจของ Anthropic ที่จะกั้นสิทธิ์การเข้าถึง Mythos ซึ่งประกาศเมื่อ 7 เม.ย. มีรายงานว่าทำให้เกิดการประชุมกับคณะกรรมาธิการยุโรป และคำเตือนจากผู้ว่าการธนาคารแห่งอังกฤษว่ารุ่นนี้อาจทำให้ความเสี่ยงไซเบอร์ถูกเปิดเผยออกมา
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






