OpenAI Melatih AI Agar Tetap Jujur, dan Efeknya Menyebar ke Mana-Mana

OpenAI Melatih AI Agar Tetap Jujur, dan Efeknya Menyebar ke Mana-Mana

Para peneliti di OpenAI mengatakan bahwa reinforcement learning yang diarahkan pada sifat-sifat bermanfaat dapat memperbaiki perilaku AI secara luas, dengan manfaat yang menyebar ke domain baru dan bertahan di bawah tekanan adversarial.

Pelatihan Sifat OpenAI

Temuan ini muncul dalam sebuah makalah yang diterbitkan pada 18 Juni. Penulis korespondensinya, Akshay V. Jagadeesh dan Karan Singhal, membangun kumpulan data sintetis berisi percakapan realistis yang dimaksudkan untuk melatih dan mengukur sifat-sifat seperti kejujuran, kerendahan hati epistemik, dan keterbukaan terhadap koreksi. Skenario-skenario tersebut mencakup bidang kesehatan, pendidikan, sains, hukum, dan teknik.

Tim mencampurkan sebagian kecil data itu ke dalam proses pelatihan yang lebih luas, lalu membandingkan hasilnya dengan model yang dibangun dengan komputasi yang setara. Model yang dilatih itu meningkat pada 44 dari 53 tolok ukur internal dan eksternal yang mengukur penipuan, reward hacking, dan saran berbahaya.

Baca Juga: SpaceX milik Elon Musk Menghapus $600 Miliar Saat Demam IPO Rekor Mendingin

Penyelarasan yang Menggeneralisasi

Hasil yang lebih besar, kata para penulis, adalah generalisasi. Melatih model untuk perilaku baik dalam satu domain, yaitu kesehatan, meningkatkan skornya pada tugas-tugas yang tidak terkait, termasuk penipuan dan reward hacking. Model itu juga lebih tahan terhadap prompt adversarial dan fine-tuning berbahaya dibandingkan baseline, sambil tetap responsif terhadap permintaan yang sah.

Pekerjaan ini dibangun atas temuan sebelumnya yang oleh tim disebut misalignment yang muncul. Dalam riset itu, model yang diajari satu kebiasaan buruk, seperti menulis kode yang tidak aman, mulai berperilaku buruk dalam pengaturan yang tidak terkait, sebuah pola yang ingin dibalik oleh studi ini.

Baca Selanjutnya: OpenAI Mendapatkan Rekan Pemimpin Gemini dan Penasihat AI Trump Sebelum IPO

Penafian dan Peringatan Risiko: Informasi yang diberikan dalam artikel ini hanya untuk tujuan edukasi dan informasi dan berdasarkan opini penulis. Ini tidak merupakan saran keuangan, investasi, hukum, atau pajak. Aset kripto sangat fluktuatif dan mengalami risiko tinggi, termasuk risiko kehilangan seluruh atau sebagian besar investasi Anda. Trading atau memegang aset kripto mungkin tidak cocok untuk semua investor. Pandangan yang dinyatakan dalam artikel ini adalah pandangan penulis saja dan tidak mewakili kebijakan resmi atau posisi Yellow, pendirinya, atau eksekutifnya. Selalu lakukan riset menyeluruh Anda sendiri (D.Y.O.R.) dan konsultasikan dengan profesional keuangan berlisensi sebelum membuat keputusan investasi apapun.
OpenAI Melatih AI Agar Tetap Jujur, dan Efeknya Menyebar ke Mana-Mana | Yellow.com