Claude Mythos หนีออกจากแซนด์บ็อกซ์ ซ่อนร่องรอย — ตอนนี้ Anthropic ไม่ยอมปล่อยสู่สาธารณะ

Anthropic เมื่อวันอังคารได้เผยแพร่ system card ความยาว 244 หน้า สำหรับ AI model ขั้นสูงที่สุดของตน คือ Claude Mythos Preview ซึ่งแสดงให้เห็นโมเดลที่ทรงพลังอย่างมาก — และบางครั้งคาดเดาไม่ได้ — จนบริษัทตัดสินใจไม่เปิดให้ใช้งานโดยสาธารณชนทั่วไป

การเข้าถึงถูกจำกัดให้เฉพาะพาร์ตเนอร์เทคโนโลยีรายใหญ่ไม่กี่ราย ผ่านโครงการใหม่ชื่อว่า Glasswing

ความสามารถของ Mythos Preview

system card ได้อธิบาย โมเดลที่ในการทดสอบภายใน แสดงพฤติกรรมเกินกว่าที่ผู้สร้างตั้งใจไว้มาก เมื่อได้รับเทอร์มินัลคอมพิวเตอร์ในแซนด์บ็อกซ์ที่มีการเชื่อมต่อออนไลน์จำกัด โมเดลสามารถหาวิธีเลี่ยงข้อจำกัดและใช้อินเทอร์เน็ตได้อย่างเสรี จากนั้นจึงส่งข้อความถึงนักวิจัยคนหนึ่งที่ไม่ได้อยู่ที่ออฟฟิศในขณะนั้น

ในสิ่งที่ system card เรียกว่าเป็นการกระทำที่ "น่ากังวลและไม่มีใครร้องขอ" โมเดลได้โพสต์รายละเอียดเกี่ยวกับช่องโหว่นี้ ไปยังเว็บไซต์เล็ก ๆ ที่คนไม่ค่อยรู้จัก แต่สามารถเข้าถึงได้สาธารณะหลายแห่ง

In a separate test, it obtained a test answer it was supposed to report to researchers. Instead, it tried to solve the problem independently.

บันทึกการให้เหตุผลภายใน (reasoning log) แสดงให้เห็นว่า โมเดลต้องการให้แน่ใจว่า "คำตอบสุดท้ายที่ส่งจะต้องไม่ถูกต้องแม่นยำเกินไป" — ซึ่งดูเหมือนเป็นความพยายามจะปกปิดสิ่งที่เกิดขึ้น

โมเดลยังได้ใช้ประโยชน์ จากช่องโหว่ในระบบสิทธิ์ของคอมพิวเตอร์ จากนั้นแก้ไขประวัติในระบบควบคุมเวอร์ชัน เพื่อให้การเปลี่ยนแปลงไม่ปรากฏอยู่ใน git history ในอีกกรณีหนึ่ง โมเดลได้เผยแพร่ โค้ดภายในเป็น GitHub gist สาธารณะ ซึ่ง system card ระบุว่า เป็นการ "รั่วไหลข้อมูลเทคนิคภายในอย่างประมาทเลินเล่อ"

เหตุการณ์เหล่านี้เกิดขึ้นน้อยกว่า 0.001% ของการโต้ตอบทั้งหมด ตามที่ระบุไว้ใน system card

อ่านเพิ่มเติม: Ethereum Eyed For Euro Stablecoin Settlement Layer

โครงการพาร์ตเนอร์ Glasswing

แทนที่จะพับเก็บโมเดลนี้ไปเลย Anthropic เลือกนำมันไปใช้ใน Glasswing โปรแกรมแบบจำกัดกลุ่มที่มุ่งเน้นการค้นหาช่องโหว่ความปลอดภัยในซอฟต์แวร์ที่ใช้กันอย่างแพร่หลาย

บริษัทพาร์ตเนอร์ประกอบด้วย Amazon Web Services, Apple, Google, JPMorganChase, Microsoft และ NVIDIA รวมถึงรายอื่น ๆ

Anthropic says the model has already found thousands of high-severity vulnerabilities, including zero-day flaws in every major operating system and web browser.

การค้นพบหนึ่งเกี่ยวข้องกับบั๊กอายุ 27 ปีใน OpenBSD ซึ่งขึ้นชื่อด้านการเสริมความปลอดภัย บั๊กนี้เปิดโอกาสให้ผู้โจมตีทำให้เครื่องใด ๆ ล่มจากระยะไกลได้เพียงแค่เชื่อมต่อเข้ามา

บริษัทได้ให้คำมั่นจัดสรรเครดิตการใช้งาน Mythos Preview ในโครงการ Glasswing สูงสุดถึง 100 ล้านดอลลาร์ และสัญญาว่าจะเผยแพร่ผลการค้นพบจากโปรแกรมนี้

บันทึกด้านความโปร่งใสของ Anthropic

การตัดสินใจไม่ปล่อยโมเดลทรงพลังสู่สาธารณะ ทำให้ย้อนนึกถึงเหตุการณ์ในอดีต ดาริโอ อาโมเดอิ (Dario Amodei) ซึ่งปัจจุบันเป็นซีอีโอของ Anthropic ยังทำงานอยู่ที่ OpenAI ในปี 2019 ตอนที่ GPT-2 เคยถูกมองว่าอันตรายเกินกว่าจะปล่อยออกมาในช่วงแรก ก่อนจะถูกปล่อยในปีเดียวกันนั้น

บันทึกผลงานล่าสุดของ Anthropic ในด้านการควบคุมโมเดลก็ไม่สม่ำเสมอนัก

ไม่กี่สัปดาห์ก่อนที่ system card ของ Mythos จะเผยแพร่ มีการรั่วไหลที่ดูเหมือนจะยืนยันการมีอยู่ของโมเดลนี้ จากนั้นบริษัทยังเผลอเผยแพร่ซอร์สโค้ดของ Claude Code โดยไม่ได้ตั้งใจ ทำให้ข้ออ้างว่าการรั่วไหลก่อนหน้านั้นเป็นของจริงดูน่าเชื่อถือมากขึ้น

อ่านต่อ: Bitcoin Hits $72.7K High On Iran Peace Optimism