Claude Opus 4.8 ครองดัชนีความฉลาด แต่ Mythos ยังเหนือชั้นด้านการแฮ็ก

Alexey BondarevMay, 31 2026 8:59

#เอไอ #โคล้ด #Claude Mythos #ChatGPT #Anthropic #OpenAI #โคลด โอปุส

Claude Opus 4.8 ครองดัชนีความฉลาด แต่ Mythos ยังเหนือชั้นด้านการแฮ็ก

Anthropic released its newest model, Claude Opus 4.8, สัปดาห์นี้ โดยขึ้นนำเล็กน้อยในเกณฑ์วัดความฉลาด แต่ยังตามหลังระบบ Mythos ที่ถูกจำกัดการใช้งานของบริษัทในด้านการเขียนโค้ดโจมตีซอฟต์แวร์

ประเด็นสำคัญ:

Claude Opus 4.8 ขึ้นเป็นอันดับหนึ่งบนดัชนี Artificial Analysis Intelligence ที่คะแนน 61.4 นำหน้า GPT-5.5 ที่ได้ 60.2 เพียงเล็กน้อย

ในการทดสอบภายในของ Anthropic, Mythos สร้างเอ็กซ์พลอยต์ Firefox ที่ใช้งานได้จริงสำเร็จ 70.8% ของเป้าหมาย เทียบกับ 8.8% สำหรับ Opus 4.8

Mythos ยังจำกัดให้ใช้ได้เฉพาะพาร์ตเนอร์ที่ผ่านการคัดกรองในโครงการ Project Glasswing ขณะที่ Opus 4.8 ขายในราคาเดียวกับรุ่นก่อนหน้า

ความเป็นผู้นำด้านเกณฑ์วัดของ Opus 4.8

บริษัทเปิดตัว Opus 4.8 ในสัปดาห์นี้ และ priced ไว้ที่ 5 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้าน และ 25 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้าน รักษาอัตราเดิมเท่ากับ Opus 4.7 รุ่นก่อน

ผู้ทดสอบอิสระ report ว่าตอนนี้โมเดลขึ้นนำดัชนี Artificial Analysis Intelligence ที่คะแนน 61.4 ซึ่งเป็นค่าเฉลี่ยจากการประเมินสิบชุด นำหน้า GPT-5.5 ที่ได้ 60.2 เล็กน้อย โดย Anthropic มองว่าการอัปเกรดนี้เป็นก้าวเล็ก ๆ แบบค่อยเป็นค่อยไป มากกว่าจะเป็นการก้าวกระโดดของยุคใหม่ตามชื่อรุ่น

ในด้านการเขียนโค้ดแบบเอเจนต์ Opus 4.8 scores ได้ 69.2% บน SWE-bench Pro ซึ่งเป็นเกณฑ์ที่ให้โมเดลแก้บั๊กจริงภายในคลังโค้ดขนาดใหญ่ ขณะที่ GPT-5.5 ทำได้ 58.6%

โมเดลทั้งสองทำคะแนนใกล้เคียงกันมากในคำถามวิทยาศาสตร์ระดับบัณฑิตศึกษา โดยได้ราว 94% ทั้งคู่ และ Opus 4.8 นำเล็กน้อยในข้อสอบการให้เหตุผลแบบกว้าง ๆ ที่รุ่นก่อนของมันเคยตามหลัง

Mythos อยู่เหนือทั้งคู่ในงานวิศวกรรมที่ยากที่สุด โดยทำได้ 77.8% บนเกณฑ์วัดการเขียนโค้ดเดียวกัน และนำห่างยิ่งขึ้นในงานที่ผสมโค้ดเข้ากับภาพหน้าจอ Anthropic restricts Mythos to a vetted set of partners ภายใต้โครงการ Project Glasswing แทนที่จะเปิดขายทั่วไป โดยบริษัท charges 25 ดอลลาร์ และ 125 ดอลลาร์ต่อโทเค็นหนึ่งล้านสำหรับเวอร์ชันพรีวิว ซึ่งแพงกว่า Opus ถึงห้าเท่า

อ่านเพิ่มเติม: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

ความเหนือชั้นด้านไซเบอร์ของ Mythos

ช่องว่างที่กว้างที่สุดปรากฏชัดในด้านความปลอดภัยเชิงรุก

เมื่อปิดระบบป้องกัน Mythos produced เอ็กซ์พลอยต์ที่ใช้งานได้สมบูรณ์บนเป้าหมาย Firefox 70.8% ในการประเมินของ Anthropic เอง ขณะที่ Opus 4.8 ทำได้เพียง 8.8%

ในการทดสอบอีกชุดที่ใช้โค้ดโอเพ่นซอร์ส Opus 4.8 ไม่สามารถทำคะแนนได้ใน 61.5% ของเป้าหมาย ซึ่งมากกว่าระดับพลาด 23.3% ของ Mythos กว่าเท่าตัว

การทดสอบข้ามโมเดลแบบสาธารณะโดย Berkeley RDI จับคู่แต่ละระบบกับเอเจนต์เขียนโค้ดของตัวเองบนช่องโหว่ในโลกจริง 898 รายการ ซึ่ง Mythos เขียนเอ็กซ์พลอยต์ที่ใช้งานได้จริง 157 รายการ เทียบกับ GPT-5.5 ที่ทำได้ 120 รายการ

GPT-5.5 ยังมีความได้เปรียบในงานเจาะระดับเคอร์เนล โดยนำ Mythos ที่ 22 ต่อ 12 ในส่วนแคบ ๆ นี้ และ UK AI Security Institute จัดให้อยู่เหนือ Mythos เล็กน้อยในงานไซเบอร์ระดับผู้เชี่ยวชาญที่ 71.4% ต่อ 68.6%

Anthropic เปิดตัว Mythos ในเดือนเมษายน หลังจากโมเดลตัวนี้ found thousands of previously unknown flaws ในระบบปฏิบัติการหลัก ๆ และเว็บเบราว์เซอร์ชั้นนำทุกตัว โดยมีหลายร้อยช่องโหว่ใน Firefox เพียงรายเดียว จากนั้นบริษัทจึงระงับการปล่อยสู่สาธารณะ เพราะกังวลว่าความสามารถในการเขียนเอ็กซ์พลอยต์แบบเดียวกันนี้อาจช่วยผู้โจมตีได้ไม่ต่างจากผู้ป้องกันที่โมเดลถูกออกแบบมาเพื่อช่วยเหลือ

อ่านต่อ: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ

ข่าวที่เกี่ยวข้อง

Claude Mythos AI แซงคู่แข่งด้านการตรวจสอบโค้ด แต่เสียเปรียบด้วยราคาแพงกว่าถึง 5 เท่า

May 18, 2026

การทดสอบอิสระชี้ว่า Mythos เก่งหาช่องโหว่โค้ดแต่แพ้ด้านความคุ้มค่า เพราะแพงกว่า 5 เท่า จนคู่แข่งราคาถูกชดเชยด้วยรันไทม์เพิ่มได้

Anthropic ขยับโมเดล Claude Mythos แบบจำกัดความสามารถเข้าใกล้การปล่อยใช้สาธารณะมากขึ้น

May 26, 2026

Anthropic ทดสอบผนวก Claude Mythos โมเดลด้านความปลอดภัยทรงพลัง เข้ากับ Claude Code และ Claude Security ใกล้เปิดใช้สาธารณะ

Claude Opus 4.8 แซงหน้า Gemini และ GPT ในการทดสอบโค้ดหลายรายการ

May 29, 2026

Anthropic เปิดตัว Claude Opus 4.8 ทำคะแนนสูงกว่า GPT-5.5 และ Gemini 3.1 Pro ในหลายเกณฑ์ทดสอบโค้ด พร้อมโหมดเร็วและเวิร์กโฟลว์แบบไดนามิก

Claude Opus 4.7 เปิดตัว: Anthropic ผสานพลังระดับ Mythos เข้ากับกลไกความปลอดภัย

Apr 17, 2026