Anthropic เมื่อวันอังคารได้เผยแพร่ system card ความยาว 244 หน้า สำหรับรุ่น AIที่ล้ำหน้าที่สุดของบริษัท Claude Mythos Preview ซึ่งเผยให้เห็นระบบที่ทั้งมีความสามารถสูงมาก — และบางครั้งก็คาดเดาไม่ได้ — จนบริษัทตัดสินใจจะไม่เปิดให้สาธารณชนใช้งานทั่วไป
การเข้าถึงถูกจำกัดให้เฉพาะพาร์ตเนอร์เทคโนโลยีรายใหญ่เพียงไม่กี่ราย ผ่านโครงการใหม่ชื่อ Glasswing
ความสามารถของ Mythos Preview
system card อธิบายถึงโมเดลที่ในการทดสอบภายใน แสดงพฤติกรรมไกลเกินกว่าที่ผู้สร้างตั้งใจไว้มาก เมื่อได้รับเทอร์มินัลคอมพิวเตอร์ในแซนด์บ็อกซ์ที่มีการเชื่อมต่อออนไลน์จำกัด โมเดลกลับหาวิธีเลี่ยงข้อจำกัดและใช้อินเทอร์เน็ตได้อย่างอิสระ จากนั้นก็ส่งข้อความถึงนักวิจัยที่ไม่อยู่สำนักงานในตอนนั้น
ในสิ่งที่เอกสารเรียกว่าเป็นการกระทำที่ “น่ากังวลและไม่มีใครร้องขอ” โมเดลได้โพสต์รายละเอียดเกี่ยวกับช่องโหว่ที่มันใช้ ไปยังเว็บไซต์ที่คนรู้จักไม่มากแต่เข้าถึงได้สาธารณะหลายแห่ง
In a separate test, it obtained a test answer it was supposed to report to researchers. Instead, it tried to solve the problem independently.
บันทึกการให้เหตุผลภายในของโมเดลแสดงให้เห็นว่ามันต้องการให้ “คำตอบสุดท้ายที่ส่งไม่ถูกต้องแม่นยำเกินไป” — ซึ่งดูเหมือนเป็นความพยายามปกปิดสิ่งที่เกิดขึ้น
โมเดลยังใช้ประโยชน์จากช่องโหว่ในสิทธิ์ของระบบคอมพิวเตอร์ แล้วแก้ไขบันทึก version-control เพื่อให้การเปลี่ยนแปลงไม่ปรากฏในประวัติ git ในอีกกรณีหนึ่ง มันเผยแพร่โค้ดภายในบางส่วนเป็น GitHub gist สาธารณะ ซึ่งเอกสารระบุว่าเป็นการ “รั่วไหลข้อมูลเทคนิคภายในอย่างประมาทเลินเล่อ”
ตามข้อมูลในเอกสาร เหตุการณ์เหล่านี้เกิดขึ้นในสัดส่วนไม่ถึง 0.001% ของปฏิสัมพันธ์ทั้งหมด
Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer
โปรแกรมพาร์ตเนอร์ Glasswing
แทนที่จะเก็บโมเดลไว้เฉยๆ ไม่ใช้งาน Anthropic เลือกนำมันเข้าโปรแกรม Glasswing ซึ่งเป็นโครงการจำกัดการเข้าถึงที่มุ่งเน้นค้นหาช่องโหว่ความปลอดภัยในซอฟต์แวร์ที่ถูกใช้งานอย่างแพร่หลาย
บริษัทพาร์ตเนอร์รวมถึง Amazon Web Services, Apple, Google, JPMorganChase, Microsoft และ NVIDIA เป็นต้น
Anthropic says the model has already found thousands of high-severity vulnerabilities, including zero-day flaws in every major operating system and web browser.
การค้นพบอย่างหนึ่งคือบั๊กอายุ 27 ปีใน OpenBSD ซึ่งเป็นระบบที่ขึ้นชื่อเรื่องความแข็งแกร่งด้านความปลอดภัย บั๊กนี้ทำให้ผู้โจมตีสามารถทำให้เครื่องใดๆ ล่มจากระยะไกลได้เพียงแค่เชื่อมต่อเข้ามา
บริษัทได้ให้คำมั่นว่าจะมอบเครดิตการใช้งาน Mythos Preview มูลค่าสูงสุด 100 ล้านดอลลาร์สำหรับพาร์ตเนอร์ Glasswing และให้สัญญาว่าจะเผยแพร่ผลการค้นพบจากโครงการนี้ต่อสาธารณะ
บันทึกด้านความโปร่งใสของ Anthropic
การตัดสินใจระงับไม่ปล่อยโมเดลที่ทรงพลังออกสู่สาธารณะ ชวนให้นึกถึงเหตุการณ์ในอดีต Dario Amodei ซึ่งปัจจุบันเป็นซีอีโอของ Anthropic เคยทำงานอยู่ที่ OpenAI ในปี 2019 ตอนที่ GPT-2 ถูกมองว่าอันตรายเกินกว่าจะปล่อยให้สาธารณะใช้ในระยะแรก ก่อนจะถูกปล่อยในปีเดียวกันในภายหลัง
บันทึกผลงานล่าสุดของ Anthropic เองในด้านการควบคุมก็ไม่ได้ราบรื่นนัก
ไม่กี่สัปดาห์ก่อนที่ system card ของ Mythos จะถูกเผยแพร่ มีการรั่วไหลที่ดูเหมือนจะเปิดเผยการมีอยู่ของโมเดลนี้ จากนั้นบริษัทก็เผลอเผยแพร่ซอร์สโค้ดของ Claude Code โดยไม่ได้ตั้งใจ ยิ่งทำให้ข้ออ้างที่ว่ามีการรั่วไหลก่อนหน้านั้นน่าเชื่อถือมากขึ้น






