OpenAI bringt KI bei, ehrlich zu bleiben – und die Wirkung breitet sich überall aus

OpenAI bringt KI bei, ehrlich zu bleiben – und die Wirkung breitet sich überall aus

Forschende bei OpenAI sagen, dass Reinforcement Learning auf förderliche Eigenschaften ausgerichtet das Verhalten von KI breit verbessern kann, wobei sich die Gewinne auf neue Domänen übertragen und auch unter gegnerischem Druck bestehen bleiben.

OpenAI-Eigenschaftentraining

Die Ergebnisse erscheinen in einem am 18. Juni veröffentlichten Paper. Die Korrespondenzautorinnen und -autoren, Akshay V. Jagadeesh und Karan Singhal, erstellten einen synthetischen Datensatz realistischer Gespräche, um Eigenschaften wie Ehrlichkeit, epistemische Bescheidenheit und Offenheit für Korrekturen zu trainieren und zu messen. Die Szenarien reichen über Gesundheit, Bildung, Wissenschaft, Recht und Ingenieurwesen hinweg.

Das Team mischte einen kleinen Anteil dieser Daten in einen breiteren Trainingslauf und verglich das Ergebnis anschließend mit Modellen, die mit vergleichbarem Rechenaufwand erstellt wurden. Das trainierte Modell verbesserte sich bei 44 von 53 internen und externen Benchmarks, die Täuschung, Reward Hacking und schädliche Ratschläge messen.

Auch lesen: Elon Musks SpaceX vernichtet 600 Milliarden Dollar, während der Rekord-IPO-Rausch abkühlt

Generalisierung von Ausrichtung

Das größere Ergebnis, so die Autorinnen und Autoren, ist die Generalisierung. Das Modell für gutes Verhalten in einer einzigen Domäne, der Gesundheit, zu trainieren, verbesserte auch seine Werte bei unabhängigen Aufgaben, darunter Täuschung und Reward Hacking. Es widerstand zudem gegnerischen Prompts und schädlichem Fine-Tuning besser als die Basisversion, blieb dabei aber weiterhin für legitime Anfragen ansprechbar.

Die Arbeit baut auf früheren Erkenntnissen auf, die das Team als emergente Fehlanpassung bezeichnet. In dieser Forschung begannen Modelle, denen eine einzelne schlechte Angewohnheit beigebracht wurde, etwa unsicheren Code zu schreiben, sich auch in unabhängigen Situationen schlecht zu verhalten – ein Muster, das diese Studie umkehren sollte.

Weiter lesen: OpenAI holt Geminis Co-Lead und Trumps KI-Berater vor dem IPO

Haftungsausschluss und Risikowarnung: Die in diesem Artikel bereitgestellten Informationen dienen nur Bildungs- und Informationszwecken und basieren auf der Meinung des Autors. Sie stellen keine Finanz-, Anlage-, Rechts- oder Steuerberatung dar. Kryptowährungsassets sind hochvolatil und unterliegen hohen Risiken, einschließlich des Risikos, Ihre gesamte oder einen erheblichen Teil Ihrer Investition zu verlieren. Der Handel oder das Halten von Krypto-Assets ist möglicherweise nicht für alle Anleger geeignet. Die in diesem Artikel geäußerten Ansichten sind ausschließlich die des Autors/der Autoren und repräsentieren nicht die offizielle Politik oder Position von Yellow, seinen Gründern oder seinen Führungskräften. Führen Sie immer Ihre eigenen gründlichen Recherchen (D.Y.O.R.) durch und konsultieren Sie einen lizenzierten Finanzprofi, bevor Sie eine Anlageentscheidung treffen.
OpenAI bringt KI bei, ehrlich zu bleiben – und die Wirkung breitet sich überall aus | Yellow.com