Claude Mythos AI แซงคู่แข่งด้านการตรวจสอบโค้ด แต่เสียเปรียบด้วยราคาแพงกว่าถึง 5 เท่า

โมเดล AI Anthropic's Mythos นำหน้าระบบคู่แข่งในการค้นหาช่องโหว่ซอฟต์แวร์ แต่ค่าเบนช์มาร์กอิสระชุดใหม่เผยให้เห็นวิจารณญาณที่อ่อนกว่าและต้นทุนการรันที่สูงชัน

Mythos Preview เด่นสุดในการตรวจสอบซอร์สโค้ด

บริษัทความมั่นคงเชิงรุก XBOW ยืนยัน ข้ออ้างพาดหัวข่าวดังกล่าว โดยระดมผู้เชี่ยวชาญ 10 คนมาประเมินโมเดลผ่านเบนช์มาร์ก เวิร์กโฟลว์ และการผสานการทำงาน

XBOW ระบุว่า Mythos Preview “เป็นก้าวกระโดดครั้งสำคัญเหนือโมเดลที่มีอยู่ทั้งหมด ไม่ว่าผู้ให้บริการรายใด” ผู้ทดสอบรันโมเดลกับแอปพลิเคชันโอเพนซอร์สที่ถูกแช่แข็งไว้และมีช่องโหว่ที่รู้ล่วงหน้าแล้ว

Mythos ลดอัตราพลาดตรวจไม่พบ (false negatives) ได้ 42% เมื่อเทียบกับ Opus 4.6 และตัวเลขลดลงถึง 55% เมื่อโมเดลได้รับสิทธิ์เข้าถึงซอร์สโค้ด ตามรายงานของ The Decoder รายงาน โมเดลทำผลงานโดดเด่นในงานทดสอบแบบ live-plus-source แต่ทำได้ไม่น่าเชื่อถือเท่าเดิมเมื่อให้เพียงซอร์สโค้ดอย่างเดียว

อ่านเพิ่มเติม: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

คำถามเรื่องต้นทุนลดทอนความได้เปรียบของ Anthropic

Anthropic ระบุว่า Mythos Preview จะมีราคาประมาณ 5 เท่าของโมเดล Opus ซึ่งเดิมก็เป็นหนึ่งในตัวเลือกที่แพงที่สุดในตลาดแล้ว ส่วนต่างราคานี้ทำให้ XBOW ทดสอบว่าคู่แข่งที่ถูกกว่าจะสามารถทำผลงานทัดเทียม Mythos ได้หรือไม่หากให้เวลาในการรันมากกว่า

คำตอบคือทำได้ ภายใต้งบโทเคนคงที่สำหรับภารกิจค้นหาช่องโหว่เว็บ Mythos เอาชนะ Opus 4.6 ได้ แต่แพ้ GPT-5.5 ของ OpenAI ซึ่ง XBOW บันทึก ไว้ที่อัตราพลาด 10% XBOW ระบุว่าโมเดล “ไม่ได้ไม่มีประสิทธิภาพจนเกินไป” หากมุ่งเน้นความแม่นยำเป็นหลัก แต่ก็ไม่ถือว่าเป็นเบอร์หนึ่งเมื่อปรับเปรียบเทียบตามต้นทุน

บริษัทจึงแนะนำให้รันโมเดลแบบผสมหลายตัว แทนการพึ่งพาเพียงตัวเดียว

ภาพรวมสมรรถนะของ Mythos AI

Mythos แสดงให้เห็นวิจารณญาณที่ปะปนกัน คือปฏิเสธผลบวกเท็จ (false positives) ได้ดีกว่ารุ่นก่อน แต่บางครั้งก็ทิ้งผลที่เป็นจริงเมื่อหลักฐานไม่ผ่านเกณฑ์ทางการที่ตั้งไว้ ทักษะเด่นของโมเดลรวมถึงการรีเวิร์สเอนจิเนียริงและการวิเคราะห์โค้ดเนทีฟ โดยสามารถจัดลำดับความสำคัญของผลลัพธ์จากระบบคู่แข่งได้

Anthropic เปิดตัว Mythos ครั้งแรกเมื่อต้นเดือนเมษายน โดยจำกัดการเข้าถึงไว้ราว 50 พันธมิตร และวางกรอบการเปิดตัวว่าเป็นก้าวกระโดดด้านขีดความสามารถ AI ด้านไซเบอร์ ต่อมา สถาบันความมั่นคง AI แห่งสหราชอาณาจักรระบุว่า Mythos และ GPT-5.5 ต่างก็ “เหนือกว่าที่คาดการณ์แบบเร่งรัดไว้มาก” หน่วยงานจึงประเมินใหม่ว่าขีดความสามารถด้านไซเบอร์จะเพิ่มเป็นสองเท่าทุก 4.7 เดือน ลดลงจากตัวเลขเดิมที่คาดไว้ 8 เดือนเมื่อเดือนพฤศจิกายน 2025

อ่านต่อ: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%