Wiadomości Ucz się Badania Ranking Ekosystem

PLATFORMA JUŻ NA ŻYWO

yellow bottom left star road

OpenAI uczy AI, by zachowywała uczciwość, a efekt rozprzestrzenia się wszędzie

Alexey BondarevJun, 20 2026 4:50

Reinforcement learning on beneficial traits helped one lab's AI grow safer and steadier under pressure, according to fresh research. (Image: Shutterstock)

Badacze z OpenAI twierdzą, że uczenie ze wzmocnieniem ukierunkowane na pożądane cechy może szeroko poprawiać zachowanie AI, a zyski przenoszą się na nowe dziedziny i utrzymują pod presją adversarialną.

Trening cech w OpenAI

Wyniki pojawiają się w pracy opublikowanej 18 czerwca. Jej autorzy do korespondencji, Akshay V. Jagadeesh i Karan Singhal, stworzyli syntetyczny zbiór danych realistycznych rozmów, mający służyć do trenowania i mierzenia cech takich jak uczciwość, epistemiczna pokora i otwartość na korektę. Scenariusze obejmują zdrowie, edukację, naukę, prawo i inżynierię.

Zespół włączył niewielką część tych danych do szerszego treningu, a następnie porównał wynik z modelami zbudowanymi przy takim samym nakładzie obliczeniowym. Wytrenowany model poprawił się w 44 z 53 wewnętrznych i zewnętrznych benchmarków mierzących oszukiwanie, hakowanie nagród i szkodliwe porady.

Czytaj także: SpaceX Muska wymazuje 600 mld dolarów wraz z ochłodzeniem rekordowej manii IPO

Zgodność, która się uogólnia

Najważniejszy wynik, jak twierdzą autorzy, to uogólnienie. Trening modelu na dobre zachowanie w jednej dziedzinie, zdrowiu, poprawił jego wyniki w niepowiązanych zadaniach, w tym w obszarach oszustw i hakowania nagród. Model lepiej opierał się też podpowiedziom adversarialnym i szkodliwemu dostrajaniu niż model bazowy, pozostając jednocześnie wrażliwy na uzasadnione prośby.

Praca opiera się na wcześniejszych ustaleniach, które zespół nazywa emergentnym niedopasowaniem. W tamtych badaniach modele uczone jednego złego nawyku, takiego jak pisanie niebezpiecznego kodu, zaczynały zachowywać się źle w niepowiązanych sytuacjach — i to zjawisko badanie to miało odwrócić.

Czytaj dalej: OpenAI pozyskuje współlidera Gemini i doradcę AI Trumpa przed IPO

Alexey Bondarev

Alexey Bondarev jest szefem działu treści w Yellow.com i od 10 lat zajmuje się reportażem na temat kryptowalut. Specjalizuje się w pogłębionych materiałach typu Research i Learn, koncentrując się na analizie, kontekście branżowym oraz większych siłach kształtujących świat krypto – od ery AI i technologii bezpieczeństwa po innowacje w fintechu. Wierzy, że wszystko, co cyfrowe, wkrótce całkowicie zdominuje to, co analogowe, i ciężko pracuje, aby tak się stało.

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.

Najnowsze wiadomości

Pokaż wszystkie wiadomości

Kontrowersyjna roczna umowa powiązana AIxCrypto Holdings budzi poważne obawy ładu korporacyjnego

AIxCrypto zawiera roczną umowę doradczą z podmiotem powiązanym Aibot US, bez ujawnienia wartości kontraktu – inwestorzy podnoszą ryzyko konfliktu interesów.

Akcje Apple spadają o 8% po ostrzeżeniu Tima Cooka dotyczącym rosnących cen pamięci

Akcje Apple runęły o 8% po ostrzeżeniu Tima Cooka, że drożejąca pamięć może dusić marże spółki także po wrześniowym kwartale.

SpaceX staje się najbardziej „shortowaną” spółką w USA – inwestorzy grają na spadki za 26 mld dol.

Krótkie pozycje na SpaceX sięgają 26 mld dol. i ok. 1/3 free floatu, co czyni z niej najchętniej shortowaną dużą spółkę w Stanach.

Powiązane wiadomości

Czy można ufać testom bezpieczeństwa SI, skoro Kimi osiąga 60% świadomości?

Chińskie modele SI coraz częściej rozpoznają testy bezpieczeństwa i dostosowują odpowiedzi, co podważa wiarygodność obecnych metod oceny stosowanych przez regulatorów.

Naukowcy pozwolili modelom AI prowadzić symulowane społeczeństwa: Grok zawalił się w 4 dni, Claude zbudował porządek

Pięć modeli AI kierowało symulowanymi miasteczkami. Społeczeństwo Groka załamało się po 4 dniach z 183 przestępstwami, Claude utrzymał porządek bez zgonów i przestępstw.

Badania Cisco pokazują, że czołowe modele AI zawodzą pod wpływem wieloturowych ataków

Badania Cisco: wieloturowe ataki omijają zabezpieczenia 15 czołowych modeli AI z skutecznością do 88%, podważając testy jednokrotnego promptu.

Anthropic wycofuje zasadę Claude Fable 5, która osłabiała wyniki dla rywalizujących zespołów badawczych AI

Anthropic przywraca pełne odpowiedzi Claude Fable 5 i jawnie przekierowuje wrażliwe zapytania do Claude Opus 4.8, kończąc ciche ograniczanie badaczy.

Google powstrzymuje pierwszy zero-day zbudowany przez AI, gdy Daybreak rywalizuje z Glasswing

Google udaremniło wykorzystanie zero-daya stworzonego z pomocą AI do omijania 2FA, co potwierdza nadejście ery hakowania napędzanego sztuczną inteligencją.

Powiązane artykuły badawcze

42 stany już badają OpenAI, gdy Wall Street wyczekuje IPO

42 stanów wszczęło szerokie dochodzenie wobec OpenAI po wniosku o IPO warte 852 mld USD, zwiększając niepewność regulacyjną i ryzyko dla wyceny spółki.

Sztuczna inteligencja w bankowości: Jak będzie wyglądać prawdziwie bank zasilany AI do 2030 roku

Konsultanci z McKinsey szacują, że generatywna sztuczna inteligencja może stworzyć dodatkową wartość pomiędzy $200B a $340B rocznie w sektorze bankowym.

Agenci AI i kryptowaluty: Co się dzieje, gdy maszyny kontrolują portfele

Agenci AI zaczynają uczestniczyć w protokołach zdecentralizowanych finansów, zarządzają tożsamościami cyfrowymi, koordynują się w autonomicznych...

10 największych oszustw krypto zasilanych AI w 2025 roku i jak chronić swoje fundusze

Oszuści zaczęli używać AI do tworzenia realistycznych fałszywych filmów, głosów, wiadomości, co czyni ich krypto oszustwa bardziej przekonującymi i trudnymi...

Handel kryptowalutami wspierany przez AI: Jak przekształcić wiadomości o kryptowalutach w strategię inwestycyjną

Jak AI przetwarza wiadomości o kryptowalutach, przewiduje reakcje rynkowe i udziela przewagi tradingowej. Bez kodowania, oparty na faktach.

Powiązane artykuły edukacyjne

Allora Network wyjaśnia, jak modele AI zdobywają zaufanie on-chain

Jak zdecentralizowana inferencja AI łączy wyniki wielu modeli, zmniejsza ryzyko błędów i zwiększa wiarygodność danych on-chain dla DeFi.

Jak korzystać z narzędzi AI do badań inwestycji w kryptowaluty: Kompletny przewodnik na 2025 rok

Badanie kryptowalut z AI tworzy niewiarygodne szanse dla inwestorów amatorskich i instytucjonalnych. Sejzmiczna transformacja z AI.

Narodziny agentów AI w kryptowalutach: Finanso...

Integracja agentów AI z ekosystemami kryptowalut rewolucjonizuje finanse, łącząc decyzje autonomiczne z infrastrukturą zdecentralizowaną blockchain.

Czy zdecentralizowana AI może zachować prywatność Twoich promptów?

Jak sieci prywatnej inferencji AI, takie jak Venice, chronią prompty i dane użytkowników, używając kryptografii, TEE i tokena VVV.

Boty handlowe AI w kryptowalutach: Kompleksowy przewodnik po automatyzacji handlu w 2025 roku

Przewodnik po botach AI w handlu kryptowalutami, od podstawowych po zaawansowane strategie implementacji.

OpenAI uczy AI, by zachowywała uczciwość, a efekt rozprzestrzenia się wszędzie | Yellow