Claude Mythos แก้แฮ็ก AISI แบบ 32 ขั้นตอนได้ 6 ครั้งจาก 10 ครั้ง

profile-steven-zeiler
Steven Zeiler18 ชั่วโมงที่แล้ว
Claude Mythos แก้แฮ็ก AISI แบบ 32 ขั้นตอนได้ 6 ครั้งจาก 10 ครั้ง

เช็กพอยต์ตัวใหม่ของ Anthropic's Claude Mythos Preview กลายเป็นโมเดล AI ตัวแรกที่ผ่านการจำลองการโจมตีไซเบอร์ของรัฐบาลสหราชอาณาจักรทั้งสองชุด ทำให้เกิดคำถามใหม่เกี่ยวกับการแฮ็กแบบอัตโนมัติ

รายงานความก้าวหน้าของ Mythos จาก AISI

AI Security Institute ของสหราชอาณาจักร รายงาน เมื่อวันพุธว่าเช็กพอยต์ Mythos รุ่นใหม่สามารถทำภารกิจโจมตีเครือข่ายองค์กรแบบ 32 ขั้นตอน ในสนามทดสอบ “The Last Ones” สำเร็จ 6 ครั้งจาก 10 ครั้ง ขณะที่รุ่นก่อนทำได้เพียง 3 ครั้งจาก 10 ครั้ง

โมเดลที่อัปเดตแล้วยังสามารถเจาะ “Cooling Tower” ซึ่งเป็นสนามทดสอบระบบควบคุมอุตสาหกรรมที่ก่อนหน้านี้ยังไม่มีโมเดลใดผ่าน ได้สำเร็จ 3 ครั้งจาก 10 ครั้ง

โมเดลคู่แข่งอย่าง GPT-5.5 ของ OpenAI ถูกทดสอบในแบบฝึกหัดเดียวกัน โดยมัน แก้ “The Last Ones” ได้ 3 ครั้งจาก 10 ครั้ง แต่ไม่สามารถผ่าน “Cooling Tower” ได้

AISI รันสนามทดสอบเหล่านี้ด้วยโควต้าคอมพิวต์ 100 ล้านโทเค็นต่อหนึ่งความพยายาม และหน่วยงานระบุว่าประสิทธิภาพของโมเดลยังคงสเกลขึ้นแม้อยู่ที่เพดานนี้ ชี้ให้เห็นว่าหากเพิ่มงบคอมพิวต์ น่าจะดันอัตราความสำเร็จให้สูงขึ้นได้อีก

อ่านเพิ่มเติม: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

เวลาการเพิ่มศักยภาพยิ่งสั้นลง

AISI ติดตามความก้าวหน้าในด้านไซเบอร์ผ่านตัวชี้วัดเชิงเวลา โดยวัดว่าโมเดลสามารถทำภารกิจอัตโนมัติหนึ่งงานให้สำเร็จด้วยความน่าเชื่อถือ 80% ในช่วงเวลายาวนานเพียงใด ในเดือนพฤศจิกายน 2025 หน่วยงาน ประเมิน ว่าเวลาในการ “เพิ่มขึ้นเป็นสองเท่า” อยู่ที่ราว 8 เดือน ภายในกุมภาพันธ์ 2026 ตัวเลขนี้หดเหลือ 4.7 เดือน และทั้ง Mythos กับ GPT-5.5 ก็ทำผลงานเหนือเทรนด์ที่เร็วขึ้นนี้ไปแล้ว

หน่วยงานยอมรับว่ายังไม่แน่ชัดว่าผลลัพธ์ล่าสุดสะท้อนการเร่งตัวรอบใหม่ หรือเป็นเพียงการก้าวกระโดดครั้งเดียว

องค์กรวิจัยไม่แสวงกำไร METR ซึ่งติดตามสมรรถนะ AI บนภารกิจด้านซอฟต์แวร์มากกว่าบนสนามไซเบอร์ ก็ได้ตัวเลขใกล้เคียงกันที่ราว 4.2 เดือน AISI ระบุว่าการที่ตัวเลขทั้งสองสอดคล้องกันช่วยเสริมให้เห็นว่ากระแสนี้สะท้อนความสามารถจริงที่เพิ่มขึ้น ไม่ใช่เพียงความลำเอียงของชุดประเมินชุดใดชุดหนึ่ง

สถาบันเน้นย้ำว่าสนามทดสอบของตนไม่มี “ผู้ป้องกันแบบแอ็กทีฟ” ดังนั้นผลลัพธ์จึงสะท้อนว่าโมเดลสามารถทำอะไรได้กับเครือข่ายที่ป้องกันอย่างหลวม มากกว่าจะเป็นระบบองค์กรที่แข็งแกร่ง

ทำไมการกระโดดด้านศักยภาพจึงสำคัญ

เช็กพอยต์ Mythos รุ่นใหม่นี้ไม่ได้มาพร้อมการออกโมเดลเวอร์ชันใหม่ AISI ใช้เวอร์ชันเดียวกับที่ Anthropic เปิดใช้เมื่อเดือนที่แล้วกับ Project Glasswing ซึ่งเป็นโปรแกรมความร่วมมือด้านความปลอดภัย หลังจากได้รับบิลด์อัปเดตของโมเดลตัวเดิม

“การกระโดดด้านศักยภาพที่โดดเด่นไม่ได้ต้องอาศัยการออกโมเดลใหม่เสมอไป” สถาบันระบุในรายงาน ซึ่งขัดกับสมมติฐานที่ว่าฝ่ายป้องกันสามารถตั้งจังหวะรับมือให้สอดคล้องกับรอบการออกโมเดลได้

Anthropic เปิดตัว Mythos Preview เมื่อวันที่ 7 เม.ย. โดยวางกรอบว่าโมเดลนี้เป็นจุดเปลี่ยนของอุตสาหกรรมความปลอดภัย หลังจากมันสามารถค้นหาช่องโหว่แบบ zero-day ในระบบปฏิบัติการหลักและเบราว์เซอร์รายใหญ่ระหว่างการทดสอบภายใน บริษัทระบุว่าได้ ชะลอการเปิดให้ใช้งานวงกว้าง เพราะศักยภาพเหล่านี้ และการประเมินก่อนหน้านี้ของ AISI ในเดือนเมษายนก็ชี้ว่า Mythos เป็นก้าวกระโดดชัดเจนจากระบบแนวหน้ารุ่นก่อนหน้า

อ่านต่อ: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ
ข่าวที่เกี่ยวข้อง
บทความวิจัยที่เกี่ยวข้อง
บทความการเรียนรู้ที่เกี่ยวข้อง