Claude Opus 4.8 ครองดัชนีความฉลาด แต่ Mythos ยังเหนือชั้นด้านการแฮ็ก

Anthropic released its newest model, Claude Opus 4.8, สัปดาห์นี้ โดยขึ้นนำเล็กน้อยในเกณฑ์วัดความฉลาด แต่ยังตามหลังระบบ Mythos ที่ถูกจำกัดการใช้งานของบริษัทในด้านการเขียนโค้ดโจมตีซอฟต์แวร์

ประเด็นสำคัญ:

Claude Opus 4.8 ขึ้นเป็นอันดับหนึ่งบนดัชนี Artificial Analysis Intelligence ที่คะแนน 61.4 นำหน้า GPT-5.5 ที่ได้ 60.2 เพียงเล็กน้อย

ในการทดสอบภายในของ Anthropic, Mythos สร้างเอ็กซ์พลอยต์ Firefox ที่ใช้งานได้จริงสำเร็จ 70.8% ของเป้าหมาย เทียบกับ 8.8% สำหรับ Opus 4.8

Mythos ยังจำกัดให้ใช้ได้เฉพาะพาร์ตเนอร์ที่ผ่านการคัดกรองในโครงการ Project Glasswing ขณะที่ Opus 4.8 ขายในราคาเดียวกับรุ่นก่อนหน้า

ความเป็นผู้นำด้านเกณฑ์วัดของ Opus 4.8

บริษัทเปิดตัว Opus 4.8 ในสัปดาห์นี้ และ priced ไว้ที่ 5 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้าน และ 25 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้าน รักษาอัตราเดิมเท่ากับ Opus 4.7 รุ่นก่อน

ผู้ทดสอบอิสระ report ว่าตอนนี้โมเดลขึ้นนำดัชนี Artificial Analysis Intelligence ที่คะแนน 61.4 ซึ่งเป็นค่าเฉลี่ยจากการประเมินสิบชุด นำหน้า GPT-5.5 ที่ได้ 60.2 เล็กน้อย โดย Anthropic มองว่าการอัปเกรดนี้เป็นก้าวเล็ก ๆ แบบค่อยเป็นค่อยไป มากกว่าจะเป็นการก้าวกระโดดของยุคใหม่ตามชื่อรุ่น

ในด้านการเขียนโค้ดแบบเอเจนต์ Opus 4.8 scores ได้ 69.2% บน SWE-bench Pro ซึ่งเป็นเกณฑ์ที่ให้โมเดลแก้บั๊กจริงภายในคลังโค้ดขนาดใหญ่ ขณะที่ GPT-5.5 ทำได้ 58.6%

โมเดลทั้งสองทำคะแนนใกล้เคียงกันมากในคำถามวิทยาศาสตร์ระดับบัณฑิตศึกษา โดยได้ราว 94% ทั้งคู่ และ Opus 4.8 นำเล็กน้อยในข้อสอบการให้เหตุผลแบบกว้าง ๆ ที่รุ่นก่อนของมันเคยตามหลัง

Mythos อยู่เหนือทั้งคู่ในงานวิศวกรรมที่ยากที่สุด โดยทำได้ 77.8% บนเกณฑ์วัดการเขียนโค้ดเดียวกัน และนำห่างยิ่งขึ้นในงานที่ผสมโค้ดเข้ากับภาพหน้าจอ Anthropic restricts Mythos to a vetted set of partners ภายใต้โครงการ Project Glasswing แทนที่จะเปิดขายทั่วไป โดยบริษัท charges 25 ดอลลาร์ และ 125 ดอลลาร์ต่อโทเค็นหนึ่งล้านสำหรับเวอร์ชันพรีวิว ซึ่งแพงกว่า Opus ถึงห้าเท่า

อ่านเพิ่มเติม: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

ความเหนือชั้นด้านไซเบอร์ของ Mythos

ช่องว่างที่กว้างที่สุดปรากฏชัดในด้านความปลอดภัยเชิงรุก

เมื่อปิดระบบป้องกัน Mythos produced เอ็กซ์พลอยต์ที่ใช้งานได้สมบูรณ์บนเป้าหมาย Firefox 70.8% ในการประเมินของ Anthropic เอง ขณะที่ Opus 4.8 ทำได้เพียง 8.8%

ในการทดสอบอีกชุดที่ใช้โค้ดโอเพ่นซอร์ส Opus 4.8 ไม่สามารถทำคะแนนได้ใน 61.5% ของเป้าหมาย ซึ่งมากกว่าระดับพลาด 23.3% ของ Mythos กว่าเท่าตัว

การทดสอบข้ามโมเดลแบบสาธารณะโดย Berkeley RDI จับคู่แต่ละระบบกับเอเจนต์เขียนโค้ดของตัวเองบนช่องโหว่ในโลกจริง 898 รายการ ซึ่ง Mythos เขียนเอ็กซ์พลอยต์ที่ใช้งานได้จริง 157 รายการ เทียบกับ GPT-5.5 ที่ทำได้ 120 รายการ

GPT-5.5 ยังมีความได้เปรียบในงานเจาะระดับเคอร์เนล โดยนำ Mythos ที่ 22 ต่อ 12 ในส่วนแคบ ๆ นี้ และ UK AI Security Institute จัดให้อยู่เหนือ Mythos เล็กน้อยในงานไซเบอร์ระดับผู้เชี่ยวชาญที่ 71.4% ต่อ 68.6%

Anthropic เปิดตัว Mythos ในเดือนเมษายน หลังจากโมเดลตัวนี้ found thousands of previously unknown flaws ในระบบปฏิบัติการหลัก ๆ และเว็บเบราว์เซอร์ชั้นนำทุกตัว โดยมีหลายร้อยช่องโหว่ใน Firefox เพียงรายเดียว จากนั้นบริษัทจึงระงับการปล่อยสู่สาธารณะ เพราะกังวลว่าความสามารถในการเขียนเอ็กซ์พลอยต์แบบเดียวกันนี้อาจช่วยผู้โจมตีได้ไม่ต่างจากผู้ป้องกันที่โมเดลถูกออกแบบมาเพื่อช่วยเหลือ

อ่านต่อ: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears