Anthropic released its newest model, Claude Opus 4.8, ในสัปดาห์นี้ โดยทำคะแนนนำเล็กน้อยบนเกณฑ์วัดความฉลาด แต่ยังตามหลังระบบ Mythos ที่ถูกจำกัดการเข้าถึงของบริษัทในด้านการเขียนโค้ดโจมตีซอฟต์แวร์
ประเด็นสำคัญ:
- Claude Opus 4.8 ทำคะแนนนำบน Artificial Analysis Intelligence Index ที่ 61.4 เฉือน GPT-5.5 ที่ 60.2 เล็กน้อย
- ในการทดสอบภายในของ Anthropic โมเดล Mythos สร้างโค้ดโจมตี Firefox ที่ทำงานได้จริงบน 70.8% ของเป้าหมาย เทียบกับ 8.8% สำหรับ Opus 4.8
- Mythos ยังถูกจำกัดให้ใช้ได้เฉพาะพาร์ตเนอร์ที่ผ่านการกลั่นกรองภายใต้โครงการ Project Glasswing ขณะที่ Opus 4.8 จำหน่ายในราคาเท่าเดิมกับรุ่นก่อน
ความเป็นผู้นำของ Opus 4.8 บนเกณฑ์วัด
บริษัทเปิดตัว Opus 4.8 ในสัปดาห์นี้และ ตั้งราคา ไว้ที่ 5 ดอลลาร์ ต่อโทเคนขาเข้า 1 ล้าน และ 25 ดอลลาร์ต่อโทเคนขาออก 1 ล้าน คงอัตราเดียวกับ Opus 4.7 รุ่นก่อนหน้า
ผู้ทดสอบอิสระ รายงาน ว่าโมเดลนี้ขึ้นมานำบน Artificial Analysis Intelligence Index ที่ 61.4 ซึ่งเป็นคะแนนรวมจากการประเมินสิบชุด นำหน้า GPT-5.5 ที่ 60.2 เล็กน้อย Anthropic มองว่าการอัปเกรดครั้งนี้เป็นก้าวย่างแบบค่อยเป็นค่อยไป มากกว่าการกระโดดเชิงเจเนอเรชันอย่างที่ชื่ออาจชวนให้คิด
ในด้าน agentic coding Opus 4.8 ทำคะแนน ได้ 69.2% บน SWE-bench Pro ซึ่งเป็นเกณฑ์ที่ให้โมเดลเข้าไปแก้บั๊กจริงในคลังโค้ดขนาดใหญ่ ขณะที่ GPT-5.5 ทำได้ 58.6%
ทั้งสองระบบทำคะแนนใกล้เคียงกันในคำถามวิทยาศาสตร์ระดับบัณฑิตศึกษา ต่างทำได้ราว 94% และ Opus 4.8 ยังนำเล็กน้อยในแบบทดสอบเหตุผลเชิงกว้างที่รุ่นก่อนหน้าตามหลังอยู่
Mythos อยู่เหนือทั้งสองรุ่นในงานวิศวกรรมที่ยากที่สุด โดยทำได้ 77.8% บนเกณฑ์การเขียนโค้ดเดียวกัน และทิ้งห่างกว้างขึ้นในงานที่ผสมโค้ดกับภาพหน้าจอ Anthropic จำกัด Mythos ไว้ให้เฉพาะพาร์ตเนอร์ที่ผ่านการกลั่นกรอง ภายใต้โปรแกรม Project Glasswing แทนที่จะเปิดขายทั่วไป โดย คิดราคา 25 และ 125 ดอลลาร์ต่อโทเคน 1 ล้านในช่วงพรีวิว สูงกว่า Opus ถึงห้าเท่า
อ่านเพิ่มเติม: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
อำนาจนำด้านไซเบอร์ของ Mythos
ช่องว่างที่กว้างที่สุดปรากฏในด้านความปลอดภัยเชิงรุก
เมื่อปิดระบบป้องกัน Mythos สร้าง โค้ดโจมตีที่ทำงานได้จริงบนเป้าหมาย Firefox ถึง 70.8% ในการประเมินของ Anthropic เอง ขณะที่ Opus 4.8 ทำได้เพียง 8.8%
ในการทดสอบอีกชุดที่ดึงมาจากโค้ดโอเพ่นซอร์ส Opus 4.8 ไม่สามารถทำคะแนนได้บน 61.5% ของเป้าหมาย มากกว่าระดับพลาด 23.3% ของ Mythos กว่าสองเท่า
การทดสอบข้ามโมเดลสาธารณะที่ดำเนินการโดย Berkeley RDI จับคู่แต่ละระบบกับเอเจนต์เขียนโค้ดของตัวเองบนช่องโหว่จริง 898 รายการ ซึ่ง Mythos เขียนโค้ดโจมตีที่ใช้งานได้ 157 รายการ เทียบกับ 120 รายการของ GPT-5.5
GPT-5.5 ยังเหนือกว่าในด้านการโจมตีระดับเคอร์เนล โดยนำ Mythos 22 ต่อ 12 ในขอบเขตแคบๆ นี้ ขณะที่ UK AI Security Institute จัดให้มันนำหน้า Mythos เล็กน้อยในงานไซเบอร์ระดับผู้เชี่ยวชาญ ที่ 71.4% ต่อ 68.6%
Anthropic เปิดตัว Mythos ในเดือนเมษายน หลังโมเดล ค้นพบช่องโหว่ที่ไม่เคยถูกเปิดเผยมาก่อนนับพันรายการ ในระบบปฏิบัติการหลักๆ และเว็บเบราว์เซอร์ชั้นนำทั้งหมด โดยมีรายงานหลายร้อยรายการใน Firefox เพียงตัวเดียว บริษัทจึงตัดสินใจไม่ปล่อยสู่สาธารณะ เพราะกังวลว่าความสามารถในการเขียนโค้ดโจมตีเดียวกันนี้ อาจช่วยผู้โจมตีได้ไม่ต่างจากผู้ป้องกันที่โมเดลถูกออกแบบมาเพื่อช่วย
อ่านต่อ: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





