โมเดล AI Anthropic's Mythos นำหน้าระบบคู่แข่งในการค้นหาช่องโหว่ซอฟต์แวร์ แต่ค่าเบนช์มาร์กอิสระชุดใหม่เผยให้เห็นวิจารณญาณที่อ่อนกว่าและต้นทุนการรันที่สูงชัน
Mythos Preview เด่นสุดในการตรวจสอบซอร์สโค้ด
บริษัทความมั่นคงเชิงรุก XBOW ยืนยัน ข้ออ้างพาดหัวข่าวดังกล่าว โดยระดมผู้เชี่ยวชาญ 10 คนมาประเมินโมเดลผ่านเบนช์มาร์ก เวิร์กโฟลว์ และการผสานการทำงาน
XBOW ระบุว่า Mythos Preview “เป็นก้าวกระโดดครั้งสำคัญเหนือโมเดลที่มีอยู่ทั้งหมด ไม่ว่าผู้ให้บริการรายใด” ผู้ทดสอบรันโมเดลกับแอปพลิเคชันโอเพนซอร์สที่ถูกแช่แข็งไว้และมีช่องโหว่ที่รู้ล่วงหน้าแล้ว
Mythos ลดอัตราพลาดตรวจไม่พบ (false negatives) ได้ 42% เมื่อเทียบกับ Opus 4.6 และตัวเลขลดลงถึง 55% เมื่อโมเดลได้รับสิทธิ์เข้าถึงซอร์สโค้ด ตามรายงานของ The Decoder รายงาน โมเดลทำผลงานโดดเด่นในงานทดสอบแบบ live-plus-source แต่ทำได้ไม่น่าเชื่อถือเท่าเดิมเมื่อให้เพียงซอร์สโค้ดอย่างเดียว
อ่านเพิ่มเติม: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
คำถามเรื่องต้นทุนลดทอนความได้เปรียบของ Anthropic
Anthropic ระบุว่า Mythos Preview จะมีราคาประมาณ 5 เท่าของโมเดล Opus ซึ่งเดิมก็เป็นหนึ่งในตัวเลือกที่แพงที่สุดในตลาดแล้ว ส่วนต่างราคานี้ทำให้ XBOW ทดสอบว่าคู่แข่งที่ถูกกว่าจะสามารถทำผลงานทัดเทียม Mythos ได้หรือไม่หากให้เวลาในการรันมากกว่า
คำตอบคือทำได้ ภายใต้งบโทเคนคงที่สำหรับภารกิจค้นหาช่องโหว่เว็บ Mythos เอาชนะ Opus 4.6 ได้ แต่แพ้ GPT-5.5 ของ OpenAI ซึ่ง XBOW บันทึก ไว้ที่อัตราพลาด 10% XBOW ระบุว่าโมเดล “ไม่ได้ไม่มีประสิทธิภาพจนเกินไป” หากมุ่งเน้นความแม่นยำเป็นหลัก แต่ก็ไม่ถือว่าเป็นเบอร์หนึ่งเมื่อปรับเปรียบเทียบตามต้นทุน
บริษัทจึงแนะนำให้รันโมเดลแบบผสมหลายตัว แทนการพึ่งพาเพียงตัวเดียว
ภาพรวมสมรรถนะของ Mythos AI
Mythos แสดงให้เห็นวิจารณญาณที่ปะปนกัน คือปฏิเสธผลบวกเท็จ (false positives) ได้ดีกว่ารุ่นก่อน แต่บางครั้งก็ทิ้งผลที่เป็นจริงเมื่อหลักฐานไม่ผ่านเกณฑ์ทางการที่ตั้งไว้ ทักษะเด่นของโมเดลรวมถึงการรีเวิร์สเอนจิเนียริงและการวิเคราะห์โค้ดเนทีฟ โดยสามารถจัดลำดับความสำคัญของผลลัพธ์จากระบบคู่แข่งได้
Anthropic เปิดตัว Mythos ครั้งแรกเมื่อต้นเดือนเมษายน โดยจำกัดการเข้าถึงไว้ราว 50 พันธมิตร และวางกรอบการเปิดตัวว่าเป็นก้าวกระโดดด้านขีดความสามารถ AI ด้านไซเบอร์ ต่อมา สถาบันความมั่นคง AI แห่งสหราชอาณาจักรระบุว่า Mythos และ GPT-5.5 ต่างก็ “เหนือกว่าที่คาดการณ์แบบเร่งรัดไว้มาก” หน่วยงานจึงประเมินใหม่ว่าขีดความสามารถด้านไซเบอร์จะเพิ่มเป็นสองเท่าทุก 4.7 เดือน ลดลงจากตัวเลขเดิมที่คาดไว้ 8 เดือนเมื่อเดือนพฤศจิกายน 2025
อ่านต่อ: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





