Para peneliti di OpenAI mengatakan bahwa reinforcement learning yang diarahkan pada sifat-sifat bermanfaat dapat memperbaiki perilaku AI secara luas, dengan manfaat yang menyebar ke domain baru dan bertahan di bawah tekanan adversarial.
Pelatihan Sifat OpenAI
Temuan ini muncul dalam sebuah makalah yang diterbitkan pada 18 Juni. Penulis korespondensinya, Akshay V. Jagadeesh dan Karan Singhal, membangun kumpulan data sintetis berisi percakapan realistis yang dimaksudkan untuk melatih dan mengukur sifat-sifat seperti kejujuran, kerendahan hati epistemik, dan keterbukaan terhadap koreksi. Skenario-skenario tersebut mencakup bidang kesehatan, pendidikan, sains, hukum, dan teknik.
Tim mencampurkan sebagian kecil data itu ke dalam proses pelatihan yang lebih luas, lalu membandingkan hasilnya dengan model yang dibangun dengan komputasi yang setara. Model yang dilatih itu meningkat pada 44 dari 53 tolok ukur internal dan eksternal yang mengukur penipuan, reward hacking, dan saran berbahaya.
Baca Juga: SpaceX milik Elon Musk Menghapus $600 Miliar Saat Demam IPO Rekor Mendingin
Penyelarasan yang Menggeneralisasi
Hasil yang lebih besar, kata para penulis, adalah generalisasi. Melatih model untuk perilaku baik dalam satu domain, yaitu kesehatan, meningkatkan skornya pada tugas-tugas yang tidak terkait, termasuk penipuan dan reward hacking. Model itu juga lebih tahan terhadap prompt adversarial dan fine-tuning berbahaya dibandingkan baseline, sambil tetap responsif terhadap permintaan yang sah.
Pekerjaan ini dibangun atas temuan sebelumnya yang oleh tim disebut misalignment yang muncul. Dalam riset itu, model yang diajari satu kebiasaan buruk, seperti menulis kode yang tidak aman, mulai berperilaku buruk dalam pengaturan yang tidak terkait, sebuah pola yang ingin dibalik oleh studi ini.
Baca Selanjutnya: OpenAI Mendapatkan Rekan Pemimpin Gemini dan Penasihat AI Trump Sebelum IPO





