นักวิจัยจาก OpenAI ระบุว่า การเรียนรู้แบบเสริมแรงที่มุ่งเน้นคุณลักษณะเชิงบวกสามารถปรับพฤติกรรมของ AI ได้อย่างกว้างขวาง โดยผลลัพธ์ส่งต่อไปยังโดเมนใหม่ ๆ และยังคงทนต่อแรงกดดันเชิงปฏิปักษ์
การฝึกคุณลักษณะของ OpenAI
ผลการค้นพบนี้ปรากฏในบทความวิจัยที่ เผยแพร่ เมื่อวันที่ 18 มิ.ย. ผู้เขียนติดต่อหลักคือ Akshay V. Jagadeesh และ Karan Singhal ได้สร้างชุดข้อมูลสังเคราะห์จากบทสนทนาที่สมจริง เพื่อใช้ฝึกและวัดคุณลักษณะอย่างความซื่อสัตย์ ความถ่อมตนทางญาณวิทยา และการเปิดรับการแก้ไข สถานการณ์ครอบคลุมด้านสุขภาพ การศึกษา วิทยาศาสตร์ กฎหมาย และวิศวกรรม
ทีมงานผสมข้อมูลส่วนเล็ก ๆ ชุดนี้เข้าไปในรอบการฝึกที่ใหญ่กว่า จากนั้นจึงเปรียบเทียบผลลัพธ์กับโมเดลที่สร้างด้วยทรัพยากรคำนวณเท่ากัน โมเดลที่ผ่านการฝึกทำคะแนนดีขึ้นใน 44 จาก 53 เกณฑ์วัดภายในและภายนอก ที่ประเมินเรื่องการหลอกลวง การแฮ็กรางวัล และคำแนะนำที่เป็นอันตราย
อ่านเพิ่มเติม: SpaceX ของอีลอน มัสก์สูญมูลค่า 600 พันล้านดอลลาร์ ขณะที่กระแสไอพีโอทำสถิติเริ่มแผ่วลง
การปรับแนวทางที่ส่งผลข้ามบริบท
ผลลัพธ์ที่สำคัญกว่า ตามที่ผู้เขียนระบุ คือการส่งต่อผลดีข้ามบริบท การฝึกโมเดลให้มีพฤติกรรมที่ดีในโดเมนเดียวอย่างสุขภาพ ช่วยปรับคะแนนในงานที่ไม่เกี่ยวข้อง เช่น การหลอกลวงและการแฮ็กรางวัลให้ดีขึ้นด้วย นอกจากนี้ โมเดลยังต้านพรอมป์ต์เชิงปฏิปักษ์และการปรับแต่งแบบละเอียดที่เป็นอันตรายได้ดีกว่าโมเดลฐาน ขณะเดียวกันก็ยังตอบสนองต่อคำขอที่ชอบธรรมได้
งานวิจัยนี้ต่อยอดจากผลการค้นพบก่อนหน้าที่ทีมเรียกว่า emergent misalignment ในงานวิจัยนั้น โมเดลที่ถูกสอนนิสัยแย่เพียงอย่างเดียว เช่น การเขียนโค้ดที่ไม่ปลอดภัย เริ่มแสดงพฤติกรรมที่แย่ในสถานการณ์ที่ไม่เกี่ยวข้อง ซึ่งเป็นรูปแบบที่งานวิจัยชิ้นนี้ตั้งใจจะพลิกกลับ
อ่านต่อ: OpenAI คว้าผู้นำร่วมของ Gemini และที่ปรึกษา AI ของทรัมป์ ก่อนเข้าตลาดหุ้น





