Claude Mythos ปะทะ GPT-5.5: รุ่นกั้นสิทธิ์ของ Anthropic ชนะ 6 จาก 9 การทดสอบ

OpenAI released GPT-5.5 เมื่อวันพุธ แต่ข้อมูลเบนช์มาร์กล่าสุดระบุว่า Anthropic's gated Claude Mythos Preview ยังนำอยู่ใน 6 จาก 9 การทดสอบที่สามารถเทียบกันได้โดยตรง

คะแนนเบนช์มาร์ก GPT-5.5

GPT-5.5 arrived ใน ChatGPT และ Codex เมื่อวันที่ 23 เม.ย. คิดราคา 5 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้านโทเค็น และ 30 ดอลลาร์สำหรับเอาต์พุต ซึ่งเป็นอัตราสองเท่าจากรุ่นก่อนหน้า

โมเดลนี้ scored ได้ 82.7% บน Terminal-Bench 2.0 แซงหน้า Mythos ไป 0.7 คะแนน ในเบนช์มาร์กเพียงรายการเดียวที่มันชนะอย่างชัดเจน

Mythos, which Anthropic withheld from public release over cybersecurity concerns นำบน SWE-bench Pro ที่ 77.8% เทียบกับ 58.6%

มันยัง tops GPT-5.5 บน Humanity's Last Exam แบบไม่ใช้เครื่องมือ ทำคะแนนได้ 56.8% เทียบกับ 41.4% โมเดลแบบกั้นสิทธิ์ยังนำหน้าในงาน CyberGym, OSWorld-Verified และงาน long-context GraphWalks

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

ข้อจำกัดจากนักวิเคราะห์มีความสำคัญ

การเปรียบเทียบยังไม่แม่นยำนัก เพราะไม่มีห้องทดลองใดทดสอบเบนช์มาร์กของโมเดลเทียบกันแบบตรง ๆ OpenAI chose Claude Opus 4.7 เป็นตัวเปรียบเทียบสาธารณะ ในขณะที่ system card ยาว 245 หน้า ของ Anthropic นำ Mythos ไปเทียบกับ GPT-5.4

ชุดทดสอบ (test harness) เองก็แตกต่างกัน OpenAI ใช้การตั้งค่า Codex CLI บน Terminal-Bench ส่วน Terminus-2 scaffold ของ Anthropic ดันคะแนน Mythos ไปถึง 92.1% ภายใต้กติกาเวลาแบบ Terminal-Bench 2.1

การตัดสินใจของ Anthropic ที่จะกั้นสิทธิ์การเข้าถึง Mythos ซึ่งประกาศเมื่อ 7 เม.ย. มีรายงานว่าทำให้เกิดการประชุมกับคณะกรรมาธิการยุโรป และคำเตือนจากผู้ว่าการธนาคารแห่งอังกฤษว่ารุ่นนี้อาจทำให้ความเสี่ยงไซเบอร์ถูกเปิดเผยออกมา