Anthropic released its newest model, Claude Opus 4.8, สัปดาห์นี้ โดยขึ้นนำเล็กน้อยในเกณฑ์วัดความฉลาด แต่ยังตามหลังระบบ Mythos ที่ถูกจำกัดการใช้งานของบริษัทในด้านการเขียนโค้ดโจมตีซอฟต์แวร์
ประเด็นสำคัญ:
- Claude Opus 4.8 ขึ้นเป็นอันดับหนึ่งบนดัชนี Artificial Analysis Intelligence ที่คะแนน 61.4 นำหน้า GPT-5.5 ที่ได้ 60.2 เพียงเล็กน้อย
- ในการทดสอบภายในของ Anthropic, Mythos สร้างเอ็กซ์พลอยต์ Firefox ที่ใช้งานได้จริงสำเร็จ 70.8% ของเป้าหมาย เทียบกับ 8.8% สำหรับ Opus 4.8
- Mythos ยังจำกัดให้ใช้ได้เฉพาะพาร์ตเนอร์ที่ผ่านการคัดกรองในโครงการ Project Glasswing ขณะที่ Opus 4.8 ขายในราคาเดียวกับรุ่นก่อนหน้า
ความเป็นผู้นำด้านเกณฑ์วัดของ Opus 4.8
บริษัทเปิดตัว Opus 4.8 ในสัปดาห์นี้ และ priced ไว้ที่ 5 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้าน และ 25 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้าน รักษาอัตราเดิมเท่ากับ Opus 4.7 รุ่นก่อน
ผู้ทดสอบอิสระ report ว่าตอนนี้โมเดลขึ้นนำดัชนี Artificial Analysis Intelligence ที่คะแนน 61.4 ซึ่งเป็นค่าเฉลี่ยจากการประเมินสิบชุด นำหน้า GPT-5.5 ที่ได้ 60.2 เล็กน้อย โดย Anthropic มองว่าการอัปเกรดนี้เป็นก้าวเล็ก ๆ แบบค่อยเป็นค่อยไป มากกว่าจะเป็นการก้าวกระโดดของยุคใหม่ตามชื่อรุ่น
ในด้านการเขียนโค้ดแบบเอเจนต์ Opus 4.8 scores ได้ 69.2% บน SWE-bench Pro ซึ่งเป็นเกณฑ์ที่ให้โมเดลแก้บั๊กจริงภายในคลังโค้ดขนาดใหญ่ ขณะที่ GPT-5.5 ทำได้ 58.6%
โมเดลทั้งสองทำคะแนนใกล้เคียงกันมากในคำถามวิทยาศาสตร์ระดับบัณฑิตศึกษา โดยได้ราว 94% ทั้งคู่ และ Opus 4.8 นำเล็กน้อยในข้อสอบการให้เหตุผลแบบกว้าง ๆ ที่รุ่นก่อนของมันเคยตามหลัง
Mythos อยู่เหนือทั้งคู่ในงานวิศวกรรมที่ยากที่สุด โดยทำได้ 77.8% บนเกณฑ์วัดการเขียนโค้ดเดียวกัน และนำห่างยิ่งขึ้นในงานที่ผสมโค้ดเข้ากับภาพหน้าจอ Anthropic restricts Mythos to a vetted set of partners ภายใต้โครงการ Project Glasswing แทนที่จะเปิดขายทั่วไป โดยบริษัท charges 25 ดอลลาร์ และ 125 ดอลลาร์ต่อโทเค็นหนึ่งล้านสำหรับเวอร์ชันพรีวิว ซึ่งแพงกว่า Opus ถึงห้าเท่า
อ่านเพิ่มเติม: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
ความเหนือชั้นด้านไซเบอร์ของ Mythos
ช่องว่างที่กว้างที่สุดปรากฏชัดในด้านความปลอดภัยเชิงรุก
เมื่อปิดระบบป้องกัน Mythos produced เอ็กซ์พลอยต์ที่ใช้งานได้สมบูรณ์บนเป้าหมาย Firefox 70.8% ในการประเมินของ Anthropic เอง ขณะที่ Opus 4.8 ทำได้เพียง 8.8%
ในการทดสอบอีกชุดที่ใช้โค้ดโอเพ่นซอร์ส Opus 4.8 ไม่สามารถทำคะแนนได้ใน 61.5% ของเป้าหมาย ซึ่งมากกว่าระดับพลาด 23.3% ของ Mythos กว่าเท่าตัว
การทดสอบข้ามโมเดลแบบสาธารณะโดย Berkeley RDI จับคู่แต่ละระบบกับเอเจนต์เขียนโค้ดของตัวเองบนช่องโหว่ในโลกจริง 898 รายการ ซึ่ง Mythos เขียนเอ็กซ์พลอยต์ที่ใช้งานได้จริง 157 รายการ เทียบกับ GPT-5.5 ที่ทำได้ 120 รายการ
GPT-5.5 ยังมีความได้เปรียบในงานเจาะระดับเคอร์เนล โดยนำ Mythos ที่ 22 ต่อ 12 ในส่วนแคบ ๆ นี้ และ UK AI Security Institute จัดให้อยู่เหนือ Mythos เล็กน้อยในงานไซเบอร์ระดับผู้เชี่ยวชาญที่ 71.4% ต่อ 68.6%
Anthropic เปิดตัว Mythos ในเดือนเมษายน หลังจากโมเดลตัวนี้ found thousands of previously unknown flaws ในระบบปฏิบัติการหลัก ๆ และเว็บเบราว์เซอร์ชั้นนำทุกตัว โดยมีหลายร้อยช่องโหว่ใน Firefox เพียงรายเดียว จากนั้นบริษัทจึงระงับการปล่อยสู่สาธารณะ เพราะกังวลว่าความสามารถในการเขียนเอ็กซ์พลอยต์แบบเดียวกันนี้อาจช่วยผู้โจมตีได้ไม่ต่างจากผู้ป้องกันที่โมเดลถูกออกแบบมาเพื่อช่วยเหลือ
อ่านต่อ: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





