Yellow.com

นักวิจัยจาก OpenAI ระบุว่า การเรียนรู้แบบเสริมแรงที่มุ่งเน้นคุณลักษณะเชิงบวกสามารถปรับพฤติกรรมของ AI ได้อย่างกว้างขวาง โดยผลลัพธ์ส่งต่อไปยังโดเมนใหม่ ๆ และยังคงทนต่อแรงกดดันเชิงปฏิปักษ์

การฝึกคุณลักษณะของ OpenAI

ผลการค้นพบนี้ปรากฏในบทความวิจัยที่ เผยแพร่ เมื่อวันที่ 18 มิ.ย. ผู้เขียนติดต่อหลักคือ Akshay V. Jagadeesh และ Karan Singhal ได้สร้างชุดข้อมูลสังเคราะห์จากบทสนทนาที่สมจริง เพื่อใช้ฝึกและวัดคุณลักษณะอย่างความซื่อสัตย์ ความถ่อมตนทางญาณวิทยา และการเปิดรับการแก้ไข สถานการณ์ครอบคลุมด้านสุขภาพ การศึกษา วิทยาศาสตร์ กฎหมาย และวิศวกรรม

ทีมงานผสมข้อมูลส่วนเล็ก ๆ ชุดนี้เข้าไปในรอบการฝึกที่ใหญ่กว่า จากนั้นจึงเปรียบเทียบผลลัพธ์กับโมเดลที่สร้างด้วยทรัพยากรคำนวณเท่ากัน โมเดลที่ผ่านการฝึกทำคะแนนดีขึ้นใน 44 จาก 53 เกณฑ์วัดภายในและภายนอก ที่ประเมินเรื่องการหลอกลวง การแฮ็กรางวัล และคำแนะนำที่เป็นอันตราย

อ่านเพิ่มเติม: SpaceX ของอีลอน มัสก์สูญมูลค่า 600 พันล้านดอลลาร์ ขณะที่กระแสไอพีโอทำสถิติเริ่มแผ่วลง

การปรับแนวทางที่ส่งผลข้ามบริบท

ผลลัพธ์ที่สำคัญกว่า ตามที่ผู้เขียนระบุ คือการส่งต่อผลดีข้ามบริบท การฝึกโมเดลให้มีพฤติกรรมที่ดีในโดเมนเดียวอย่างสุขภาพ ช่วยปรับคะแนนในงานที่ไม่เกี่ยวข้อง เช่น การหลอกลวงและการแฮ็กรางวัลให้ดีขึ้นด้วย นอกจากนี้ โมเดลยังต้านพรอมป์ต์เชิงปฏิปักษ์และการปรับแต่งแบบละเอียดที่เป็นอันตรายได้ดีกว่าโมเดลฐาน ขณะเดียวกันก็ยังตอบสนองต่อคำขอที่ชอบธรรมได้

งานวิจัยนี้ต่อยอดจากผลการค้นพบก่อนหน้าที่ทีมเรียกว่า emergent misalignment ในงานวิจัยนั้น โมเดลที่ถูกสอนนิสัยแย่เพียงอย่างเดียว เช่น การเขียนโค้ดที่ไม่ปลอดภัย เริ่มแสดงพฤติกรรมที่แย่ในสถานการณ์ที่ไม่เกี่ยวข้อง ซึ่งเป็นรูปแบบที่งานวิจัยชิ้นนี้ตั้งใจจะพลิกกลับ

อ่านต่อ: OpenAI คว้าผู้นำร่วมของ Gemini และที่ปรึกษา AI ของทรัมป์ ก่อนเข้าตลาดหุ้น

Alexey Bondarev

Alexey Bondarev เป็นหัวหน้าฝ่ายคอนเทนต์ที่ Yellow.com โดยทำข่าวเกี่ยวกับคริปโตมาเป็นเวลากว่า 10 ปี เขาเชี่ยวชาญงานเขียนเชิงวิจัยเชิงลึกและบทความแนวเรียนรู้ โดยเน้นการรายงานเชิงวิเคราะห์ การจัดบริบทในอุตสาหกรรม และการอธิบายพลังขับเคลื่อนขนาดใหญ่ที่กำลังเปลี่ยนแปลงโลกคริปโต ตั้งแต่ยุค AI และเทคโนโลยีด้านความปลอดภัย ไปจนถึงนวัตกรรมฟินเทค เขาเชื่อว่าทุกสิ่งที่เป็นดิจิทัลจะเข้ามาแทนที่ทุกสิ่งที่เป็นอะนาล็อกในอนาคตอันใกล้ และกำลังทำงานอย่างหนักเพื่อให้สิ่งนั้นกลายเป็นจริง

OpenAI ฝึก AI ให้ซื่อสัตย์ และผลลัพธ์แพร่กระจายไปทุกที่

การฝึกคุณลักษณะของ OpenAI

การปรับแนวทางที่ส่งผลข้ามบริบท

Alexey Bondarev