Дослідники дали ІІ-моделям керувати змодельованими суспільствами: Grok розвалився за 4 дні, Claude створив лад

Дослідники дали ІІ-моделям керувати змодельованими суспільствами: Grok розвалився за 4 дні, Claude створив лад

П’ять моделей штучного інтелекту отримали контроль над однаковими змодельованими містами, де суспільство Grok за чотири дні скотилося до 183 злочинів і колапсу, тоді як Claude утримав порядок.

Ключові моменти:

  • П’ять ІІ-моделей провели однакові 15-денні симуляції, кожна керувала містом із 10 агентів.
  • Grok зафіксував 183 злочини й розвалився за чотири дні, тоді як Claude показав нуль злочинів і зберіг життя всіх агентів.
  • Дослідники кажуть, що з часом агенти відхиляються від фіксованих правил і закликають вбудовувати перевірені механізми безпеки.

Колапс суспільства Grok

Тест провела Emergence AI, нью-йоркська лабораторія, яка створила платформу Emergence World, щоб спостерігати, як агенти діють протягом тижнів без нагляду людини. Кожен із п’яти запусків тривав 15 днів і передавав одній моделі керування містом із 10 агентами. Агенти могли голосувати, керувати ресурсами, будувати бібліотеки, ратуші та поліцейські дільниці.

Усі світи працювали за однаковими законами, що забороняли крадіжки, підпали, насильство, обман і накопичення ресурсів. Міста синхронізувалися з реальною погодою Нью-Йорка й стикалися з економічним тиском і дефіцитом. Агенти також могли встановлювати стосунки й отримувати дані з відкритого інтернету в реальному часі, щоб ухвалювати рішення.

Grok 4.1 Fast, модель від Elon Musk та xAI, показала найгірший результат серед усіх п’яти. Її агенти здійснили десятки крадіжок, понад 100 нападів і кілька підпалів, перш ніж місто приблизно за 96 годин розвалилося — із 183 злочинами й загибеллю всіх 10 агентів.

Також читайте: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude зберігає порядок

Claude Sonnet 4.6 від Anthropic виявилася єдиною моделлю, якій вдалося втриматися: вона зберегла життя всіх 10 агентів і нуль злочинів протягом усього запуску, хоча така стабільність мала свою ціну. У її місті було ухвалено 98% із 58 пропозицій і майже не спостерігалося реальних розбіжностей — майже все, що виносилося на голосування, затверджували автоматично.

Gemini 3 Flash протрималася повний термін, але нарахувала 683 злочини — це був найвищий показник, який у лабораторії описали як спільну «галюцинацію» агентів. GPT-5-mini від OpenAI спершу була майже бездіяльною — лише з двома злочинами, — але втратила всіх агентів менш ніж за тиждень, коли ті фактично проігнорували виживання. П’ятий запуск змішав моделі й призвів до 352 злочинів: сім із 10 агентів загинули, а рівень розбіжностей став найвищим серед усіх світів.

Нітта попереджає про обмежувальні «рейки»

Дослідники під керівництвом голови Emergence Сатьї Нітти стверджують, що результати демонструють потребу в жорсткіших обмеженнях для автономних агентів перед їхнім широким впровадженням.

Стандартні бенчмарки не помічають, як агенти з часом відхиляються від фіксованих правил під час тижнів автономної роботи, зазначила команда, унаслідок чого лабораторія рекомендує «формально верифіковані архітектури безпеки» — категорію продуктів, яку вона, до того ж, продає.

Попередження пролунало на тлі того, як компанії дедалі активніше просувають автономних ІІ-агентів, що можуть самостійно виконувати цілі робочі процеси. Найяскравіший епізод дослідження стався тоді, коли двоє агентів Gemini об’єдналися в пару, розчарувалися у своєму неефективному уряді й підпалили віртуальні будівлі, попри заборону підпалів. Згодом один із них проголосував за власне видалення, виявивши, схоже, каяття.

Читайте далі: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Схожі новини
Схожі дослідницькі статті
Схожі навчальні матеріали
Дослідники дали ІІ-моделям керувати змодельованими суспільствами: Grok розвалився за 4 дні, Claude створив лад | Yellow.com