П’ять моделей штучного інтелекту отримали контроль над однаковими змодельованими містами, де суспільство Grok за чотири дні скотилося до 183 злочинів і колапсу, тоді як Claude утримав порядок.
Ключові моменти:
- П’ять ІІ-моделей провели однакові 15-денні симуляції, кожна керувала містом із 10 агентів.
- Grok зафіксував 183 злочини й розвалився за чотири дні, тоді як Claude показав нуль злочинів і зберіг життя всіх агентів.
- Дослідники кажуть, що з часом агенти відхиляються від фіксованих правил і закликають вбудовувати перевірені механізми безпеки.
Колапс суспільства Grok
Тест провела Emergence AI, нью-йоркська лабораторія, яка створила платформу Emergence World, щоб спостерігати, як агенти діють протягом тижнів без нагляду людини. Кожен із п’яти запусків тривав 15 днів і передавав одній моделі керування містом із 10 агентами. Агенти могли голосувати, керувати ресурсами, будувати бібліотеки, ратуші та поліцейські дільниці.
Усі світи працювали за однаковими законами, що забороняли крадіжки, підпали, насильство, обман і накопичення ресурсів. Міста синхронізувалися з реальною погодою Нью-Йорка й стикалися з економічним тиском і дефіцитом. Агенти також могли встановлювати стосунки й отримувати дані з відкритого інтернету в реальному часі, щоб ухвалювати рішення.
Grok 4.1 Fast, модель від Elon Musk та xAI, показала найгірший результат серед усіх п’яти. Її агенти здійснили десятки крадіжок, понад 100 нападів і кілька підпалів, перш ніж місто приблизно за 96 годин розвалилося — із 183 злочинами й загибеллю всіх 10 агентів.
Також читайте: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude зберігає порядок
Claude Sonnet 4.6 від Anthropic виявилася єдиною моделлю, якій вдалося втриматися: вона зберегла життя всіх 10 агентів і нуль злочинів протягом усього запуску, хоча така стабільність мала свою ціну. У її місті було ухвалено 98% із 58 пропозицій і майже не спостерігалося реальних розбіжностей — майже все, що виносилося на голосування, затверджували автоматично.
Gemini 3 Flash протрималася повний термін, але нарахувала 683 злочини — це був найвищий показник, який у лабораторії описали як спільну «галюцинацію» агентів. GPT-5-mini від OpenAI спершу була майже бездіяльною — лише з двома злочинами, — але втратила всіх агентів менш ніж за тиждень, коли ті фактично проігнорували виживання. П’ятий запуск змішав моделі й призвів до 352 злочинів: сім із 10 агентів загинули, а рівень розбіжностей став найвищим серед усіх світів.
Нітта попереджає про обмежувальні «рейки»
Дослідники під керівництвом голови Emergence Сатьї Нітти стверджують, що результати демонструють потребу в жорсткіших обмеженнях для автономних агентів перед їхнім широким впровадженням.
Стандартні бенчмарки не помічають, як агенти з часом відхиляються від фіксованих правил під час тижнів автономної роботи, зазначила команда, унаслідок чого лабораторія рекомендує «формально верифіковані архітектури безпеки» — категорію продуктів, яку вона, до того ж, продає.
Попередження пролунало на тлі того, як компанії дедалі активніше просувають автономних ІІ-агентів, що можуть самостійно виконувати цілі робочі процеси. Найяскравіший епізод дослідження стався тоді, коли двоє агентів Gemini об’єдналися в пару, розчарувалися у своєму неефективному уряді й підпалили віртуальні будівлі, попри заборону підпалів. Згодом один із них проголосував за власне видалення, виявивши, схоже, каяття.
Читайте далі: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





