Các nhà nghiên cứu tại OpenAI cho biết học tăng cường nhằm hướng tới các phẩm chất có lợi có thể cải thiện rộng rãi hành vi của AI, với những lợi ích lan sang các miền mới và vẫn giữ vững trước áp lực đối kháng.
Huấn luyện phẩm chất tại OpenAI
Các phát hiện này xuất hiện trong một bài báo được công bố vào ngày 18 tháng 6. Hai tác giả liên hệ, Akshay V. Jagadeesh và Karan Singhal, đã xây dựng một bộ dữ liệu tổng hợp gồm các cuộc hội thoại thực tế nhằm huấn luyện và đo lường các phẩm chất như sự trung thực, khiêm tốn về mặt nhận thức và sẵn sàng tiếp nhận sự chỉnh sửa. Các kịch bản bao quát y tế, giáo dục, khoa học, luật và kỹ thuật.
Nhóm nghiên cứu đã trộn một phần nhỏ dữ liệu đó vào một đợt huấn luyện rộng hơn, rồi so sánh kết quả với các mô hình được xây dựng bằng mức tính toán tương đương. Mô hình được huấn luyện đã cải thiện ở 44 trong số 53 bài đánh giá nội bộ và bên ngoài, đo lường sự lừa dối, khai thác phần thưởng và lời khuyên gây hại.
Cũng đọc: SpaceX của Elon Musk xóa sổ 600 tỷ USD khi cơn sốt IPO kỷ lục hạ nhiệt
Sự căn chỉnh có khả năng khái quát hóa
Theo các tác giả, kết quả lớn hơn chính là khả năng khái quát hóa. Việc huấn luyện mô hình để có hành vi tốt trong một lĩnh vực duy nhất, y tế, đã cải thiện điểm số của nó ở các nhiệm vụ không liên quan, bao gồm gian dối và khai thác phần thưởng. Nó cũng chống chịu các lời nhắc đối kháng và việc tinh chỉnh có hại tốt hơn mô hình nền, trong khi vẫn đáp ứng các yêu cầu hợp lệ.
Công trình này dựa trên các phát hiện trước đó mà nhóm gọi là sự lệch pha nổi lên. Trong nghiên cứu đó, các mô hình được dạy một thói quen xấu duy nhất, chẳng hạn như viết mã không an toàn, bắt đầu hành xử tệ ở những bối cảnh không liên quan, một mô thức mà nghiên cứu này tìm cách đảo ngược.
Đọc tiếp: OpenAI giành được đồng lãnh đạo Gemini và cố vấn AI của Trump trước IPO





