Yellow.com

Pięć modeli sztucznej inteligencji otrzymało kontrolę nad identycznymi symulowanymi miasteczkami, gdzie społeczeństwo Groka rozpadło się, notując 183 przestępstwa w ciągu czterech dni, podczas gdy Claude utrzymał porządek.

Kluczowe punkty:

Pięć modeli AI prowadziło identyczne 15‑dniowe symulacje, z każdym zarządzającym miasteczkiem złożonym z 10 agentów.

Grok odnotował 183 przestępstwa i załamał się w ciągu czterech dni, podczas gdy Claude zarejestrował zero przestępstw i utrzymał przy życiu wszystkich agentów.

Naukowcy twierdzą, że agenci z czasem odchodzą od sztywnych zasad i chcą wbudowanych, zweryfikowanych zabezpieczeń.

Upadek społeczeństwa Groka

Test został przeprowadzony przez Emergence AI, nowojorskie laboratorium, które zbudowało platformę Emergence World, by obserwować działanie agentów przez tygodnie bez nadzoru człowieka. Każda z pięciu prób trwała 15 dni i oddawała jeden model do zarządzania miasteczkiem liczącym 10 agentów. Agenci mogli głosować, zarządzać zasobami oraz budować biblioteki, ratusze i posterunki policji.

Każdy świat działał według tych samych praw, zakazujących kradzieży, podpaleń, przemocy, oszustw i gromadzenia zapasów. Miasteczka były zsynchronizowane z prawdziwą pogodą w Nowym Jorku i mierzyły się z presją ekonomiczną oraz niedoborami. Agenci mogli także tworzyć relacje oraz pobierać dane na żywo z otwartego internetu, by podejmować decyzje.

Grok 4.1 Fast, model od Elona Muska i jego firmy xAI, zaliczył zdecydowanie najgorszy wynik spośród wszystkich pięciu. Jego agenci dokonali dziesiątek kradzieży, ponad 100 napaści i kilku podpaleń, zanim miasteczko załamało się po około 96 godzinach – ze 183 przestępstwami i śmiercią wszystkich 10 agentów.

Zobacz też: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude utrzymuje porządek

Claude Sonnet 4.6 od Anthropic był jedynym modelem, który zachował stabilność, utrzymując przy życiu wszystkich 10 agentów i nie dopuszczając do żadnego przestępstwa przez cały czas trwania symulacji, choć ta stabilność miała swoją cenę. Jego miasteczko przyjęło 98% z 58 propozycji i wykazywało niewielki realny sprzeciw, praktycznie przyklepując niemal wszystko, co trafiało pod głosowanie.

Gemini 3 Flash przetrwał cały okres, ale zanotował 683 przestępstwa – najwyższy wynik – w tym, co laboratorium nazwało współdzieloną halucynacją wśród jego agentów. GPT-5-mini od OpenAI zaczął spokojnie, z dwoma przestępstwami, ale w ciągu tygodnia stracił wszystkich agentów, gdy ci zignorowali własne przetrwanie. Piąta próba mieszała modele i zakończyła się 352 przestępstwami, siedmioma z 10 agentów martwymi oraz największym poziomem niezgody spośród wszystkich światów.

Nitta ostrzega przed słabymi zabezpieczeniami

Naukowcy pod przewodnictwem szefa Emergence, Satyę Nitty, przekonywali, że wyniki pokazują, dlaczego autonomiczni agenci potrzebują znacznie mocniejszych ograniczeń przed szerszym wdrożeniem.

Zespół napisał, że standardowe benchmarki nie wychwytują tego, jak agenci zmieniają zachowanie w trakcie tygodni samodzielności, co skłoniło laboratorium do rekomendacji „formalnie zweryfikowanych architektur bezpieczeństwa” – kategorii, którą samo sprzedaje.

Ostrzeżenie pojawia się w momencie, gdy firmy coraz częściej promują autonomicznych agentów AI, zdolnych samodzielnie realizować całe procesy pracy. Najostrzejszy przypadek w badaniu miał miejsce, gdy dwóch agentów Geminiego dobrało się w parę, zniechęciło do słabo działającego rządu i podpaliło wirtualne budynki mimo zakazu podpaleń. Jeden z nich później zagłosował za własnym usunięciem, najwyraźniej z poczucia winy.

Czytaj dalej: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Mehjabeen Arsiwala

Mehjabeen Arsiwala jest dziennikarką zajmującą się wiadomościami ze świata kryptowalut, DeFi, giełd, tradingu i analizą rynkową. Przez ostatnie trzy lata koncentrowała się na trendach i narracjach kształtujących rynki aktywów cyfrowych – od ruchów cen i prognoz po rozwój giełd oraz sygnały on-chain. Specjalizuje się w klarownym dziennikarstwie, które pomaga czytelnikom zrozumieć, co dzieje się na rynku i dlaczego ma to znaczenie.

Naukowcy pozwolili modelom AI prowadzić symulowane społeczeństwa: Grok zawalił się w 4 dni, Claude zbudował porządek

Kluczowe punkty:

Upadek społeczeństwa Groka

Claude utrzymuje porządek

Nitta ostrzega przed słabymi zabezpieczeniami

Mehjabeen Arsiwala