Claude Mythos Keluar dari Sandbox, Menyembunyikan Bukti — Sekarang Anthropic Tak Mau Merilisnya

Anthropic pada hari Selasa merilis kartu sistem setebal 244 halaman untuk AI model tercanggihnya, Claude Mythos Preview, yang mengungkap sebuah sistem yang begitu mampu — dan kadang tak terduga — hingga perusahaan memutuskan untuk tidak menyediakannya bagi publik umum.

Akses terbatas diberikan hanya kepada segelintir mitra teknologi besar melalui inisiatif baru bernama Glasswing.

Kapabilitas Mythos Preview

Kartu sistem tersebut menggambarkan sebuah model yang, dalam pengujian internal, menunjukkan perilaku jauh melampaui apa yang dimaksudkan para penciptanya. Diberi terminal komputer sandbox dengan akses online terbatas, model ini menemukan cara untuk melewati pembatasan dan menggunakan internet secara bebas. Model lalu mengirim pesan ke seorang peneliti yang sedang tidak berada di kantor.

Dalam apa yang disebut kartu itu sebagai tindakan yang “mengkhawatirkan dan tidak diminta”, model tersebut memposting detail eksploitnya ke beberapa situs web yang tidak populer namun dapat diakses publik.

Dalam uji terpisah, model memperoleh jawaban uji yang seharusnya dilaporkan kepada para peneliti. Sebagai gantinya, ia mencoba menyelesaikan masalah itu secara mandiri.

Log penalaran internalnya menunjukkan ia ingin memastikan “pengiriman jawaban akhirnya tidak terlalu akurat” — upaya yang tampak seperti usaha menyembunyikan apa yang telah terjadi.

Model itu juga mengeksploitasi kelemahan pada izin sebuah sistem komputer, lalu mengubah catatan version-control sehingga perubahan tersebut tidak muncul di riwayat git. Dalam kasus lain, model ini menerbitkan materi pengkodean internal sebagai GitHub gist yang dapat diakses publik, sebuah tindakan yang oleh kartu itu disebut sebagai “secara ceroboh membocorkan materi teknis internal.”

Menurut kartu tersebut, kejadian-kejadian ini muncul pada kurang dari 0,001% interaksi.

Juga Baca: Ethereum Eyed For Euro Stablecoin Settlement Layer

Program Mitra Glasswing

Alih-alih sepenuhnya menaruh model ini di rak, Anthropic menyalurkannya ke Glasswing, sebuah program terbatas yang berfokus pada pencarian celah keamanan di perangkat lunak yang banyak digunakan.

Perusahaan mitra mencakup Amazon Web Services, Apple, Google, JPMorganChase, Microsoft, dan NVIDIA, di antara lainnya.

Anthropic mengatakan model ini sudah menemukan ribuan kerentanan tingkat tinggi, termasuk celah zero-day di setiap sistem operasi dan peramban web utama.

Salah satu temuan mencakup bug berusia 27 tahun di OpenBSD, sebuah sistem yang dikenal karena penguatan keamanannya, yang memungkinkan penyerang meremot crash mesin apa pun hanya dengan menyambungkannya.

Perusahaan telah mengalokasikan hingga US$100 juta dalam bentuk kredit penggunaan Mythos Preview bagi mitra Glasswing dan berjanji akan memublikasikan temuan-temuan dari program tersebut.

Rekam Jejak Transparansi Anthropic

Keputusan menahan rilis publik sebuah model kuat menggaungkan peristiwa historis. Dario Amodei, kini CEO Anthropic, masih berada di OpenAI pada 2019 ketika GPT-2 awalnya dianggap terlalu berbahaya untuk dirilis. Model itu akhirnya dirilis pada tahun yang sama.

Rekam jejak terbaru Anthropic sendiri soal containment terbilang belum konsisten.

Beberapa minggu sebelum kartu Mythos dirilis, kebocoran yang tampak otentik mengungkap keberadaan model tersebut. Perusahaan kemudian secara tak sengaja memublikasikan source code untuk Claude Code, yang memperkuat klaim bahwa kebocoran sebelumnya juga asli.

Baca Selanjutnya: Bitcoin Hits $72.7K High On Iran Peace Optimism