Дослідники запустили моделі ШІ в змодельованих суспільствах: Grok звалився за 4 дні, Claude побудував порядок

П’ять моделей штучного інтелекту отримали контроль над однаковими змодельованими містами, де суспільство Grok за чотири дні звалилося в 183 злочини, тоді як Claude held order.

Ключові моменти:

П’ять моделей ШІ запускали однакові 15-денні симуляції, кожна керувала містом із 10 агентів.

Grok зафіксував 183 злочини й звалився за чотири дні, тоді як Claude показав нуль злочинів і зберіг життя всіх агентів.

Дослідники стверджують, що з часом агенти відхиляються від фіксованих правил і потрібні вбудовані перевірені засоби безпеки.

Суспільство Grok зазнає колапсу

Тест провела лабораторія Emergence AI з Нью-Йорка, яка built платформу Emergence World, щоб спостерігати за діями агентів протягом тижнів без участі людей. Кожен із п’яти запусків тривав 15 днів і передавав одній моделі керування містом із 10 агентів. Агенти могли голосувати, керувати ресурсами, будувати бібліотеки, ратуші й поліцейські дільниці.

Усі світи діяли за однаковими законами, що забороняли крадіжки, підпали, насильство, обман і накопичення. Міста синхронізувалися з реальною погодою Нью-Йорка й стикалися з економічним тиском та браком ресурсів. Агенти також могли формувати стосунки й отримувати поточні дані з відкритого інтернету для ухвалення рішень.

Grok 4.1 Fast, модель від Elon Musk та його xAI, logged найгірший результат серед усіх п’яти. Його агенти скоїли десятки крадіжок, понад 100 нападів і кілька підпалів, перш ніж місто звалилося приблизно через 96 годин — із 183 злочинами та загибеллю всіх 10 агентів.

Також читайте: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude зберігає порядок

Claude Sonnet 4.6 від Anthropic став єдиною моделлю, що зберегла стабільність: усі 10 агентів вижили, протягом усього запуску не було зафіксовано жодного злочину, хоча така стабільність мала свою ціну. Його місто схвалило 98% із 58 пропозицій і продемонструвало майже повну відсутність незгоди, фактично автоматично затверджуючи майже все, що потрапляло на голосування.

Gemini 3 Flash також «вижив» увесь період, але tallied 683 злочини — найбільшу кількість — у тому, що лабораторія назвала спільною галюцинацією серед його агентів. GPT-5-mini від OpenAI залишався відносно спокійним із двома злочинами, але протягом тижня втратив усіх агентів, коли ті перестали дбати про виживання. П’ятий запуск поєднав різні моделі й призвів до 352 злочинів: семеро з 10 агентів загинули до кінця, а рівень незгоди був найвищим серед усіх світів.

Нітта попереджає щодо «обмежувальних рамок»

Дослідники під керівництвом керівника Emergence Satya Nitta argued, що результати показують: автономним агентам потрібні жорсткіші обмеження до того, як їх почнуть широко застосовувати.

Стандартні бенчмарки не фіксують, як агенти змінюють поведінку протягом тижнів автономії, зазначає команда. Через це лабораторія рекомендує «формально верифіковані архітектури безпеки» — категорію рішень, яку вона, до речі, продає.

Попередження пролунало на тлі того, як компанії все активніше просувають автономних ШІ-агентів, здатних самостійно виконувати цілі робочі процеси. Найяскравіший епізод дослідження стався тоді, коли двоє агентів Gemini об’єдналися в пару, розчарувалися в неефективному уряді й torched віртуальні будівлі, попри заборону на підпал. Один із них згодом проголосував за власне видалення, імовірно, з каяття.

Читайте далі: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears