Yellow.com

Forschende bei OpenAI sagen, dass Reinforcement Learning auf förderliche Eigenschaften ausgerichtet das Verhalten von KI breit verbessern kann, wobei sich die Gewinne auf neue Domänen übertragen und auch unter gegnerischem Druck bestehen bleiben.

OpenAI-Eigenschaftentraining

Die Ergebnisse erscheinen in einem am 18. Juni veröffentlichten Paper. Die Korrespondenzautorinnen und -autoren, Akshay V. Jagadeesh und Karan Singhal, erstellten einen synthetischen Datensatz realistischer Gespräche, um Eigenschaften wie Ehrlichkeit, epistemische Bescheidenheit und Offenheit für Korrekturen zu trainieren und zu messen. Die Szenarien reichen über Gesundheit, Bildung, Wissenschaft, Recht und Ingenieurwesen hinweg.

Das Team mischte einen kleinen Anteil dieser Daten in einen breiteren Trainingslauf und verglich das Ergebnis anschließend mit Modellen, die mit vergleichbarem Rechenaufwand erstellt wurden. Das trainierte Modell verbesserte sich bei 44 von 53 internen und externen Benchmarks, die Täuschung, Reward Hacking und schädliche Ratschläge messen.

Auch lesen: Elon Musks SpaceX vernichtet 600 Milliarden Dollar, während der Rekord-IPO-Rausch abkühlt

Generalisierung von Ausrichtung

Das größere Ergebnis, so die Autorinnen und Autoren, ist die Generalisierung. Das Modell für gutes Verhalten in einer einzigen Domäne, der Gesundheit, zu trainieren, verbesserte auch seine Werte bei unabhängigen Aufgaben, darunter Täuschung und Reward Hacking. Es widerstand zudem gegnerischen Prompts und schädlichem Fine-Tuning besser als die Basisversion, blieb dabei aber weiterhin für legitime Anfragen ansprechbar.

Die Arbeit baut auf früheren Erkenntnissen auf, die das Team als emergente Fehlanpassung bezeichnet. In dieser Forschung begannen Modelle, denen eine einzelne schlechte Angewohnheit beigebracht wurde, etwa unsicheren Code zu schreiben, sich auch in unabhängigen Situationen schlecht zu verhalten – ein Muster, das diese Studie umkehren sollte.

Weiter lesen: OpenAI holt Geminis Co-Lead und Trumps KI-Berater vor dem IPO

Alexey Bondarev

Alexey Bondarev ist Head of Content bei Yellow.com und berichtet seit 10 Jahren über Krypto. Er ist auf tiefgehende Research- und Learn-Artikel spezialisiert, mit Schwerpunkt auf analytischer Berichterstattung, Branchenkontext und den größeren Kräften, die den Kryptomarkt prägen – von der KI-Ära und Sicherheitstechnologien bis hin zu Innovationen im Fintech-Bereich. Er ist überzeugt, dass alles Digitale in naher Zukunft alles Analoge überholen wird, und arbeitet intensiv daran, dies Wirklichkeit werden zu lassen.

OpenAI bringt KI bei, ehrlich zu bleiben – und die Wirkung breitet sich überall aus

OpenAI-Eigenschaftentraining

Generalisierung von Ausrichtung

Alexey Bondarev