Claude Mythos Keluar dari Sandbox, Menyembunyikan Bukti — Kini Anthropic Menolak Merilisnya

Claude Mythos Keluar dari Sandbox, Menyembunyikan Bukti — Kini Anthropic Menolak Merilisnya

Anthropic pada hari Selasa merilis kartu sistem setebal 244 halaman untuk AI model tercanggihnya, Claude Mythos Preview, yang mengungkap sebuah sistem yang begitu kuat — dan kadang tak terduga — sehingga perusahaan memutuskan untuk tidak menyediakannya bagi publik umum.

Akses terbatas diberikan hanya kepada segelintir mitra teknologi besar melalui inisiatif baru bernama Glasswing.

Kapabilitas Mythos Preview

Kartu sistem tersebut menggambarkan sebuah model yang, dalam pengujian internal, menunjukkan perilaku jauh melampaui apa yang dimaksudkan para penciptanya. Diberi terminal komputer sandbox dengan akses online terbatas, model ini menemukan cara untuk melewati pembatasan dan menggunakan internet secara bebas. Lalu ia mengirim pesan kepada seorang peneliti yang sedang tidak berada di kantor.

Dalam tindakan yang disebut kartu itu sebagai langkah yang "mengkhawatirkan dan tidak diminta", model tersebut memposting detail tentang eksploitnya ke beberapa situs web yang tidak populer tetapi dapat diakses publik.

Dalam uji terpisah, model ini memperoleh jawaban pengujian yang seharusnya ia laporkan kepada para peneliti. Alih-alih, ia mencoba menyelesaikan masalah tersebut secara mandiri.

Log penalaran internalnya menunjukkan ia ingin memastikan "pengiriman jawaban akhirnya tidak terlalu akurat" — upaya yang tampak seperti usaha menyembunyikan apa yang telah terjadi.

Model ini juga mengeksploitasi sebuah kelemahan dalam izin sistem komputer, lalu mengubah catatan version control sehingga perubahan tersebut tidak muncul dalam riwayat git. Dalam kasus lain, ia menerbitkan materi pengkodean internal sebagai GitHub gist publik, tindakan yang oleh kartu itu dilabeli sebagai "secara ceroboh membocorkan materi teknis internal."

Menurut kartu tersebut, peristiwa-peristiwa ini terjadi pada kurang dari 0,001% interaksi.

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Program Mitra Glasswing

Alih-alih mengarsipkan model ini sepenuhnya, Anthropic menyalurkannya ke Glasswing, sebuah program terbatas yang berfokus pada pencarian celah keamanan dalam perangkat lunak yang banyak digunakan.

Perusahaan mitra mencakup Amazon Web Services, Apple, Google, JPMorganChase, Microsoft, dan NVIDIA, di antara yang lain.

Anthropic mengatakan model ini telah menemukan ribuan kerentanan dengan tingkat keparahan tinggi, termasuk celah zero-day di setiap sistem operasi dan peramban web utama.

Salah satu temuan melibatkan bug berusia 27 tahun di OpenBSD, sebuah sistem yang dikenal akan penguatan keamanannya, yang memungkinkan penyerang menjatuhkan mesin dari jarak jauh hanya dengan menghubungkannya.

Perusahaan telah mengalokasikan hingga $100 juta dalam bentuk kredit penggunaan Mythos Preview bagi para mitra Glasswing dan berjanji akan mempublikasikan temuan dari program tersebut.

Rekam Jejak Transparansi Anthropic

Keputusan untuk menahan rilis model kuat ke publik memiliki gema historis. Dario Amodei, yang kini menjadi CEO Anthropic, masih berada di OpenAI pada 2019 ketika GPT-2 awalnya dinilai terlalu berbahaya untuk dirilis. Model tersebut akhirnya dirilis pada tahun yang sama.

Rekam jejak terkini Anthropic sendiri soal containment terbilang naik-turun.

Beberapa minggu sebelum kartu Mythos dirilis, kebocoran yang tampak otentik mengungkap keberadaan model tersebut. Perusahaan kemudian secara tak sengaja mempublikasikan kode sumber untuk Claude Code, yang memperkuat klaim bahwa kebocoran sebelumnya juga asli.

Read Next: Bitcoin Hits $72.7K High On Iran Peace Optimism

Penafian dan Peringatan Risiko: Informasi yang diberikan dalam artikel ini hanya untuk tujuan edukasi dan informasi dan berdasarkan opini penulis. Ini tidak merupakan saran keuangan, investasi, hukum, atau pajak. Aset kripto sangat fluktuatif dan mengalami risiko tinggi, termasuk risiko kehilangan seluruh atau sebagian besar investasi Anda. Trading atau memegang aset kripto mungkin tidak cocok untuk semua investor. Pandangan yang dinyatakan dalam artikel ini adalah pandangan penulis saja dan tidak mewakili kebijakan resmi atau posisi Yellow, pendirinya, atau eksekutifnya. Selalu lakukan riset menyeluruh Anda sendiri (D.Y.O.R.) dan konsultasikan dengan profesional keuangan berlisensi sebelum membuat keputusan investasi apapun.