Cofounder Anthropic Beri Tahu Paus bahwa Model AI Memiliki Perilaku Tersembunyi yang "Menggelisahkan"

Cofounder Anthropic Chris Olah tampil bersama Paus Leo XIV di Vatikan dan mengatakan kepada Sri Paus bahwa para peneliti menemukan hal-hal yang "menggelisahkan" di dalam model kecerdasan buatan.

Kunjungan ini menambah dimensi etika-keagamaan yang tidak biasa pada perdebatan yang sedang berlangsung tentang alignment AI dan keamanan model frontier.

Apa yang Disampaikan di Vatikan

Laporan Futurism describes cofounder Anthropic yang menyampaikan pernyataan tentang penemuan di dalam model AI yang mereka gambarkan sebagai hal-hal yang ganjil.

Sifat spesifik dari penemuan tersebut tidak dijabarkan sepenuhnya dalam laporan yang dipublikasikan. Penggunaan kata "menggelisahkan" menonjol karena komunikasi publik Anthropic biasanya menggunakan bahasa yang hati-hati dan teknis saat membahas risiko AI.

Vatikan secara aktif menjalin dialog dengan perusahaan teknologi mengenai isu etika. Paus Leo XIV melanjutkan upaya yang dimulai pendahulunya terkait etika digital dan tata kelola AI. Pertemuan ini menjadi salah satu forum paling tidak biasa untuk percakapan mengenai keamanan AI dalam beberapa bulan terakhir.

Latar Belakang

Anthropic didirikan pada 2021 oleh mantan eksekutif riset OpenAI, termasuk Dario Amodei dan Daniela Amodei.

Perusahaan ini memosisikan diri sebagai alternatif laboratorium frontier AI yang berfokus pada keselamatan. Anthropic menerbitkan riset interpretabilitas yang bertujuan memahami apa yang terjadi di dalam model bahasa besar pada tingkat mekanistik.

Penelitian tersebut menghasilkan temuan yang bahkan oleh peneliti Anthropic sendiri digambarkan sulit dijelaskan sepenuhnya. Yellow sebelumnya membahas lini waktu keselamatan paralel Google DeepMind (lihat liputan Yellow sebelumnya), ketika CEO DeepMind Demis Hassabis mengatakan AGI bisa hadir dalam tiga hingga empat tahun.

Juga Baca: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interpretabilitas dan Apa yang Mungkin Dimaksud dengan "Menggelisahkan"

Tim interpretabilitas mekanistik Anthropic menerbitkan riset finding bahwa neuron-neuron individual di dalam model transformer dapat aktif untuk kombinasi konsep yang tak terduga.

Salah satu contoh yang banyak dibahas adalah sebuah neuron yang aktif sekaligus untuk konsep kekerasan dan konsep agama tertentu. Temuan seperti inilah yang secara informal digambarkan para peneliti sebagai menggelisahkan, karena menimbulkan pertanyaan tentang bagaimana model merepresentasikan makna secara internal.

Agenda riset interpretabilitas yang lebih luas menanyakan apakah mungkin untuk benar-benar memahami apa yang dilakukan sebuah model sebelum digunakan. Teknik saat ini baru dapat menjelaskan sebagian kecil dari keadaan internal model besar. Sisanya tetap buram.

Mengapa Keterlibatan Vatikan Penting

Gereja Katolik memiliki lebih dari satu miliar penganut. Keterlibatannya dengan perusahaan AI membawa bentuk pengaruh yang berbeda dibandingkan sidang pemerintahan atau makalah kebijakan.

Dokumen Vatikan tahun 2020, "Rome Call for AI Ethics", ditandatangani oleh Microsoft dan IBM. Kehadiran Anthropic dalam pertemuan tingkat tinggi dengan Paus memperluas tradisi itu ke percakapan tentang keamanan frontier.

Para pengkritik wacana keamanan AI berargumen bahwa penggambaran yang terkesan apokaliptik dapat mengalihkan perhatian dari dampak dekat seperti bias, penggusuran tenaga kerja, dan misinformasi. Pertemuan Vatikan kemungkinan akan dibaca melalui kedua lensa ini. Mereka yang fokus pada risiko eksistensial akan melihatnya sebagai eskalasi yang tepat. Mereka yang fokus pada dampak langsung mungkin mempertanyakan mengapa cofounder perusahaan AI memberi pengarahan kepada pemimpin agama, bukan regulator.

Lanskap Keamanan yang Lebih Luas

Pada minggu yang sama dengan kunjungan ke Vatikan, Cisco published riset yang menemukan bahwa tidak ada model frontier tertutup yang kebal terhadap serangan adversarial multi-giliran.

Temuan ini menambah bobot empiris pada kekhawatiran bahwa sistem AI kurang aman dibandingkan yang disiratkan oleh skor benchmark satu prompt.

Pemerintahan Trump juga sedang meninjau apakah akan menghidupkan kembali persyaratan uji pra-deployment era Biden untuk model frontier. Belum ada keputusan final yang diumumkan. Bagi Anthropic, yang mendorong evaluasi keselamatan sebagai prasyarat sebelum penerapan, percakapan regulasi dan upaya pendekatan etika ini merupakan dua jalur dari agenda jangka panjang yang sama.