Claude Mythos ปะทะ GPT-5.5: รุ่นกั้นสิทธิ์ของ Anthropic ชนะ 6 จาก 9 การทดสอบ

Claude Mythos ปะทะ GPT-5.5: รุ่นกั้นสิทธิ์ของ Anthropic ชนะ 6 จาก 9 การทดสอบ

OpenAI released GPT-5.5 เมื่อวันพุธ แต่ข้อมูลเบนช์มาร์กล่าสุดระบุว่า Anthropic's gated Claude Mythos Preview ยังนำอยู่ใน 6 จาก 9 การทดสอบที่สามารถเทียบกันได้โดยตรง

คะแนนเบนช์มาร์ก GPT-5.5

GPT-5.5 arrived ใน ChatGPT และ Codex เมื่อวันที่ 23 เม.ย. คิดราคา 5 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้านโทเค็น และ 30 ดอลลาร์สำหรับเอาต์พุต ซึ่งเป็นอัตราสองเท่าจากรุ่นก่อนหน้า

โมเดลนี้ scored ได้ 82.7% บน Terminal-Bench 2.0 แซงหน้า Mythos ไป 0.7 คะแนน ในเบนช์มาร์กเพียงรายการเดียวที่มันชนะอย่างชัดเจน

Mythos, which Anthropic withheld from public release over cybersecurity concerns นำบน SWE-bench Pro ที่ 77.8% เทียบกับ 58.6%

มันยัง tops GPT-5.5 บน Humanity's Last Exam แบบไม่ใช้เครื่องมือ ทำคะแนนได้ 56.8% เทียบกับ 41.4% โมเดลแบบกั้นสิทธิ์ยังนำหน้าในงาน CyberGym, OSWorld-Verified และงาน long-context GraphWalks

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

ข้อจำกัดจากนักวิเคราะห์มีความสำคัญ

การเปรียบเทียบยังไม่แม่นยำนัก เพราะไม่มีห้องทดลองใดทดสอบเบนช์มาร์กของโมเดลเทียบกันแบบตรง ๆ OpenAI chose Claude Opus 4.7 เป็นตัวเปรียบเทียบสาธารณะ ในขณะที่ system card ยาว 245 หน้า ของ Anthropic นำ Mythos ไปเทียบกับ GPT-5.4

ชุดทดสอบ (test harness) เองก็แตกต่างกัน OpenAI ใช้การตั้งค่า Codex CLI บน Terminal-Bench ส่วน Terminus-2 scaffold ของ Anthropic ดันคะแนน Mythos ไปถึง 92.1% ภายใต้กติกาเวลาแบบ Terminal-Bench 2.1

การตัดสินใจของ Anthropic ที่จะกั้นสิทธิ์การเข้าถึง Mythos ซึ่งประกาศเมื่อ 7 เม.ย. มีรายงานว่าทำให้เกิดการประชุมกับคณะกรรมาธิการยุโรป และคำเตือนจากผู้ว่าการธนาคารแห่งอังกฤษว่ารุ่นนี้อาจทำให้ความเสี่ยงไซเบอร์ถูกเปิดเผยออกมา

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ
ข่าวล่าสุด
แสดงข่าวทั้งหมด
ข่าวที่เกี่ยวข้อง
บทความวิจัยที่เกี่ยวข้อง
บทความการเรียนรู้ที่เกี่ยวข้อง