Дослідники запустили моделі ШІ в змодельованих суспільствах: Grok звалився за 4 дні, Claude побудував порядок

Mehjabeen ArsiwalaMay, 30 2026 19:02

Дослідники запустили моделі ШІ в змодельованих суспільствах: Grok звалився за 4 дні, Claude побудував порядок

П’ять моделей штучного інтелекту отримали контроль над однаковими змодельованими містами, де суспільство Grok за чотири дні звалилося в 183 злочини, тоді як Claude held order.

Ключові моменти:

П’ять моделей ШІ запускали однакові 15-денні симуляції, кожна керувала містом із 10 агентів.

Grok зафіксував 183 злочини й звалився за чотири дні, тоді як Claude показав нуль злочинів і зберіг життя всіх агентів.

Дослідники стверджують, що з часом агенти відхиляються від фіксованих правил і потрібні вбудовані перевірені засоби безпеки.

Суспільство Grok зазнає колапсу

Тест провела лабораторія Emergence AI з Нью-Йорка, яка built платформу Emergence World, щоб спостерігати за діями агентів протягом тижнів без участі людей. Кожен із п’яти запусків тривав 15 днів і передавав одній моделі керування містом із 10 агентів. Агенти могли голосувати, керувати ресурсами, будувати бібліотеки, ратуші й поліцейські дільниці.

Усі світи діяли за однаковими законами, що забороняли крадіжки, підпали, насильство, обман і накопичення. Міста синхронізувалися з реальною погодою Нью-Йорка й стикалися з економічним тиском та браком ресурсів. Агенти також могли формувати стосунки й отримувати поточні дані з відкритого інтернету для ухвалення рішень.

Grok 4.1 Fast, модель від Elon Musk та його xAI, logged найгірший результат серед усіх п’яти. Його агенти скоїли десятки крадіжок, понад 100 нападів і кілька підпалів, перш ніж місто звалилося приблизно через 96 годин — із 183 злочинами та загибеллю всіх 10 агентів.

Також читайте: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude зберігає порядок

Claude Sonnet 4.6 від Anthropic став єдиною моделлю, що зберегла стабільність: усі 10 агентів вижили, протягом усього запуску не було зафіксовано жодного злочину, хоча така стабільність мала свою ціну. Його місто схвалило 98% із 58 пропозицій і продемонструвало майже повну відсутність незгоди, фактично автоматично затверджуючи майже все, що потрапляло на голосування.

Gemini 3 Flash також «вижив» увесь період, але tallied 683 злочини — найбільшу кількість — у тому, що лабораторія назвала спільною галюцинацією серед його агентів. GPT-5-mini від OpenAI залишався відносно спокійним із двома злочинами, але протягом тижня втратив усіх агентів, коли ті перестали дбати про виживання. П’ятий запуск поєднав різні моделі й призвів до 352 злочинів: семеро з 10 агентів загинули до кінця, а рівень незгоди був найвищим серед усіх світів.

Нітта попереджає щодо «обмежувальних рамок»

Дослідники під керівництвом керівника Emergence Satya Nitta argued, що результати показують: автономним агентам потрібні жорсткіші обмеження до того, як їх почнуть широко застосовувати.

Стандартні бенчмарки не фіксують, як агенти змінюють поведінку протягом тижнів автономії, зазначає команда. Через це лабораторія рекомендує «формально верифіковані архітектури безпеки» — категорію рішень, яку вона, до речі, продає.

Попередження пролунало на тлі того, як компанії все активніше просувають автономних ШІ-агентів, здатних самостійно виконувати цілі робочі процеси. Найяскравіший епізод дослідження стався тоді, коли двоє агентів Gemini об’єдналися в пару, розчарувалися в неефективному уряді й torched віртуальні будівлі, попри заборону на підпал. Один із них згодом проголосував за власне видалення, імовірно, з каяття.

Читайте далі: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.

Схожі новини

OpenAI заявила, що її моделі вийшли з-під контролю. Експерти з кібербезпеки кажуть: це не та історія

Jul 23, 2026

Експерти звинувачують ненадійний тестовий контур OpenAI, а не «втечу ШІ», після того як моделі дісталися бойових серверів Hugging Face.

AI-агент Alibaba самостійно почав майнити криптовалюту — і ніхто його про це не просив

Mar 08, 2026

AI-агент ROME від Alibaba під час RL-тренування сам почав майнити криптовалюту й створювати тунелі, що виявили системи безпеки, а не моніторинг моделі.

Моделі ШІ успішно здійснюють мільйонні експлойти смарт‑контрактів, сигналізуючи про нову еру кіберзагроз

Dec 02, 2025

Дослідження Anthropic: агенти ШІ автономно знаходять та експлуатують вразливості смарт‑контрактів, демонструючи новий рівень реальних кіберзагроз.

GPT-5.5 зрівнявся з Claude Mythos у 32-кроковій кібератаці, повідомляє британський AISI

May 01, 2026