Claude Opus 4.8 ครองดัชนีความฉลาด แต่ Mythos ยังเหนือกว่าด้านการแฮ็ก

Claude Opus 4.8 ครองดัชนีความฉลาด แต่ Mythos ยังเหนือกว่าด้านการแฮ็ก

Anthropic released its newest model, Claude Opus 4.8, ในสัปดาห์นี้ โดยทำคะแนนนำเล็กน้อยบนเกณฑ์วัดความฉลาด แต่ยังตามหลังระบบ Mythos ที่ถูกจำกัดการเข้าถึงของบริษัทในด้านการเขียนโค้ดโจมตีซอฟต์แวร์

ประเด็นสำคัญ:

  • Claude Opus 4.8 ทำคะแนนนำบน Artificial Analysis Intelligence Index ที่ 61.4 เฉือน GPT-5.5 ที่ 60.2 เล็กน้อย
  • ในการทดสอบภายในของ Anthropic โมเดล Mythos สร้างโค้ดโจมตี Firefox ที่ทำงานได้จริงบน 70.8% ของเป้าหมาย เทียบกับ 8.8% สำหรับ Opus 4.8
  • Mythos ยังถูกจำกัดให้ใช้ได้เฉพาะพาร์ตเนอร์ที่ผ่านการกลั่นกรองภายใต้โครงการ Project Glasswing ขณะที่ Opus 4.8 จำหน่ายในราคาเท่าเดิมกับรุ่นก่อน

ความเป็นผู้นำของ Opus 4.8 บนเกณฑ์วัด

บริษัทเปิดตัว Opus 4.8 ในสัปดาห์นี้และ ตั้งราคา ไว้ที่ 5 ดอลลาร์ ต่อโทเคนขาเข้า 1 ล้าน และ 25 ดอลลาร์ต่อโทเคนขาออก 1 ล้าน คงอัตราเดียวกับ Opus 4.7 รุ่นก่อนหน้า

ผู้ทดสอบอิสระ รายงาน ว่าโมเดลนี้ขึ้นมานำบน Artificial Analysis Intelligence Index ที่ 61.4 ซึ่งเป็นคะแนนรวมจากการประเมินสิบชุด นำหน้า GPT-5.5 ที่ 60.2 เล็กน้อย Anthropic มองว่าการอัปเกรดครั้งนี้เป็นก้าวย่างแบบค่อยเป็นค่อยไป มากกว่าการกระโดดเชิงเจเนอเรชันอย่างที่ชื่ออาจชวนให้คิด

ในด้าน agentic coding Opus 4.8 ทำคะแนน ได้ 69.2% บน SWE-bench Pro ซึ่งเป็นเกณฑ์ที่ให้โมเดลเข้าไปแก้บั๊กจริงในคลังโค้ดขนาดใหญ่ ขณะที่ GPT-5.5 ทำได้ 58.6%

ทั้งสองระบบทำคะแนนใกล้เคียงกันในคำถามวิทยาศาสตร์ระดับบัณฑิตศึกษา ต่างทำได้ราว 94% และ Opus 4.8 ยังนำเล็กน้อยในแบบทดสอบเหตุผลเชิงกว้างที่รุ่นก่อนหน้าตามหลังอยู่

Mythos อยู่เหนือทั้งสองรุ่นในงานวิศวกรรมที่ยากที่สุด โดยทำได้ 77.8% บนเกณฑ์การเขียนโค้ดเดียวกัน และทิ้งห่างกว้างขึ้นในงานที่ผสมโค้ดกับภาพหน้าจอ Anthropic จำกัด Mythos ไว้ให้เฉพาะพาร์ตเนอร์ที่ผ่านการกลั่นกรอง ภายใต้โปรแกรม Project Glasswing แทนที่จะเปิดขายทั่วไป โดย คิดราคา 25 และ 125 ดอลลาร์ต่อโทเคน 1 ล้านในช่วงพรีวิว สูงกว่า Opus ถึงห้าเท่า

อ่านเพิ่มเติม: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

อำนาจนำด้านไซเบอร์ของ Mythos

ช่องว่างที่กว้างที่สุดปรากฏในด้านความปลอดภัยเชิงรุก

เมื่อปิดระบบป้องกัน Mythos สร้าง โค้ดโจมตีที่ทำงานได้จริงบนเป้าหมาย Firefox ถึง 70.8% ในการประเมินของ Anthropic เอง ขณะที่ Opus 4.8 ทำได้เพียง 8.8%

ในการทดสอบอีกชุดที่ดึงมาจากโค้ดโอเพ่นซอร์ส Opus 4.8 ไม่สามารถทำคะแนนได้บน 61.5% ของเป้าหมาย มากกว่าระดับพลาด 23.3% ของ Mythos กว่าสองเท่า

การทดสอบข้ามโมเดลสาธารณะที่ดำเนินการโดย Berkeley RDI จับคู่แต่ละระบบกับเอเจนต์เขียนโค้ดของตัวเองบนช่องโหว่จริง 898 รายการ ซึ่ง Mythos เขียนโค้ดโจมตีที่ใช้งานได้ 157 รายการ เทียบกับ 120 รายการของ GPT-5.5

GPT-5.5 ยังเหนือกว่าในด้านการโจมตีระดับเคอร์เนล โดยนำ Mythos 22 ต่อ 12 ในขอบเขตแคบๆ นี้ ขณะที่ UK AI Security Institute จัดให้มันนำหน้า Mythos เล็กน้อยในงานไซเบอร์ระดับผู้เชี่ยวชาญ ที่ 71.4% ต่อ 68.6%

Anthropic เปิดตัว Mythos ในเดือนเมษายน หลังโมเดล ค้นพบช่องโหว่ที่ไม่เคยถูกเปิดเผยมาก่อนนับพันรายการ ในระบบปฏิบัติการหลักๆ และเว็บเบราว์เซอร์ชั้นนำทั้งหมด โดยมีรายงานหลายร้อยรายการใน Firefox เพียงตัวเดียว บริษัทจึงตัดสินใจไม่ปล่อยสู่สาธารณะ เพราะกังวลว่าความสามารถในการเขียนโค้ดโจมตีเดียวกันนี้ อาจช่วยผู้โจมตีได้ไม่ต่างจากผู้ป้องกันที่โมเดลถูกออกแบบมาเพื่อช่วย

อ่านต่อ: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ
ข่าวล่าสุด
แสดงข่าวทั้งหมด
ข่าวที่เกี่ยวข้อง
บทความวิจัยที่เกี่ยวข้อง
บทความการเรียนรู้ที่เกี่ยวข้อง
Claude Opus 4.8 ครองดัชนีความฉลาด แต่ Mythos ยังเหนือกว่าด้านการแฮ็ก | Yellow.com