OpenAI araştırmacıları, faydalı özellikleri hedefleyen takviyeli öğrenmenin yapay zeka davranışını geniş ölçekte iyileştirebildiğini, kazanımların yeni alanlara taşındığını ve düşmanca baskı altında da korunduğunu söylüyor.
OpenAI Özellik Eğitimi
Bulgular, 18 Haziran'da yayımlanan bir makalede yer alıyor. Makalenin iletişim yazarları Akshay V. Jagadeesh ve Karan Singhal, dürüstlük, epistemik alçakgönüllülük ve düzeltmeye açıklık gibi özellikleri eğitmek ve ölçmek için gerçekçi konuşmalardan oluşan sentetik bir veri seti oluşturdu. Senaryolar sağlık, eğitim, bilim, hukuk ve mühendislik alanlarını kapsıyor.
Ekip, bu verinin küçük bir kısmını daha geniş bir eğitim çalışmasına karıştırdı ve ardından sonucu eşdeğer hesaplama gücüyle oluşturulan modellerle karşılaştırdı. Eğitilen model, aldatma, ödül istismarı ve zararlı tavsiye ölçen 53 iç ve dış benchmark'ın 44'ünde daha iyi performans gösterdi.
Ayrıca okuyun: Elon Musk'ın SpaceX'i Rekor Halka Arz Çılgınlığı Soğurken 600 Milyar Doları Silip Süpürdü
Genellenen Uyum
Yazarların söylediğine göre daha büyük sonuç, genelleme. Modeli sağlık gibi tek bir alanda iyi davranış için eğitmek, aldatma ve ödül istismarı dahil ilgisiz görevlerdeki puanlarını iyileştirdi. Ayrıca meşru isteklere yanıt vermeyi sürdürürken, düşmanca istemlere ve zararlı ince ayarlara temel modele kıyasla daha iyi direnç gösterdi.
Çalışma, ekibin ortaya çıkan uyumsuzluk olarak adlandırdığı önceki bulguların üzerine inşa ediliyor. Bu araştırmada, güvensiz kod yazmak gibi tek bir kötü alışkanlık öğretilen modeller, ilgisiz ortamlarda da kötü davranmaya başlamıştı; bu çalışma ise bu eğilimi tersine çevirmeyi amaçladı.
Sonraki oku: OpenAI, Gemini'nin eş liderini ve Trump'ın yapay zeka danışmanını halka arz öncesi kaptı





