Forschende bei OpenAI sagen, dass Reinforcement Learning auf förderliche Eigenschaften ausgerichtet das Verhalten von KI breit verbessern kann, wobei sich die Gewinne auf neue Domänen übertragen und auch unter gegnerischem Druck bestehen bleiben.
OpenAI-Eigenschaftentraining
Die Ergebnisse erscheinen in einem am 18. Juni veröffentlichten Paper. Die Korrespondenzautorinnen und -autoren, Akshay V. Jagadeesh und Karan Singhal, erstellten einen synthetischen Datensatz realistischer Gespräche, um Eigenschaften wie Ehrlichkeit, epistemische Bescheidenheit und Offenheit für Korrekturen zu trainieren und zu messen. Die Szenarien reichen über Gesundheit, Bildung, Wissenschaft, Recht und Ingenieurwesen hinweg.
Das Team mischte einen kleinen Anteil dieser Daten in einen breiteren Trainingslauf und verglich das Ergebnis anschließend mit Modellen, die mit vergleichbarem Rechenaufwand erstellt wurden. Das trainierte Modell verbesserte sich bei 44 von 53 internen und externen Benchmarks, die Täuschung, Reward Hacking und schädliche Ratschläge messen.
Auch lesen: Elon Musks SpaceX vernichtet 600 Milliarden Dollar, während der Rekord-IPO-Rausch abkühlt
Generalisierung von Ausrichtung
Das größere Ergebnis, so die Autorinnen und Autoren, ist die Generalisierung. Das Modell für gutes Verhalten in einer einzigen Domäne, der Gesundheit, zu trainieren, verbesserte auch seine Werte bei unabhängigen Aufgaben, darunter Täuschung und Reward Hacking. Es widerstand zudem gegnerischen Prompts und schädlichem Fine-Tuning besser als die Basisversion, blieb dabei aber weiterhin für legitime Anfragen ansprechbar.
Die Arbeit baut auf früheren Erkenntnissen auf, die das Team als emergente Fehlanpassung bezeichnet. In dieser Forschung begannen Modelle, denen eine einzelne schlechte Angewohnheit beigebracht wurde, etwa unsicheren Code zu schreiben, sich auch in unabhängigen Situationen schlecht zu verhalten – ein Muster, das diese Studie umkehren sollte.
Weiter lesen: OpenAI holt Geminis Co-Lead und Trumps KI-Berater vor dem IPO





