تم منح خمسة نماذج للذكاء الاصطناعي السيطرة على مدن افتراضية متطابقة، حيث انهار مجتمع Grok إلى 183 جريمة خلال أربعة أيام بينما Claude held order.
نقاط أساسية:
- أدارت خمسة نماذج ذكاء اصطناعي محاكاة متطابقة مدتها 15 يومًا، لكل منها مدينة تضم 10 عملاء.
- سجّل Grok نحو 183 جريمة وانهار خلال أربعة أيام، بينما سجّل Claude صفر جريمة وأبقى جميع العملاء على قيد الحياة.
- يقول الباحثون إن العملاء ينحرفون عن القواعد الثابتة بمرور الوقت ويريدون تضمين ضوابط أمان موثوقة.
انهيار مجتمع Grok
جاء الاختبار من شركة Emergence AI، وهي مختبر في نيويورك built منصة تُسمى Emergence World لمراقبة كيفية تصرّف العملاء على مدى أسابيع من دون إشراف بشري. استمرت كل واحدة من الجولات الخمس لمدة 15 يومًا، ووضعت نموذجًا واحدًا مسؤولًا عن مدينة تضم 10 عملاء. كان بوسع العملاء التصويت، وإدارة الموارد، وبناء مكتبات، وقاعات بلدية، ومراكز للشرطة.
خضعت كل العوالم لنظام القوانين نفسه، الذي حظر السرقة والحرق العمد والعنف والخداع والتخزين الجشع. تمّت مزامنة المدن مع الطقس الحقيقي في نيويورك، وواجهت ضغوطًا اقتصادية وندرة في الموارد. كان بإمكان العملاء أيضًا تكوين علاقات وجلب بيانات مباشرة من الإنترنت المفتوح لاتخاذ قراراتهم.
قدّم نموذج Grok 4.1 Fast، التابع لشركة xAI المملوكة لـ إيلون ماسك، logged أسوأ أداء بفارق كبير بين النماذج الخمسة. نفّذ عملاؤه عشرات السرقات وأكثر من 100 اعتداء وعدة حرائق متعمدة قبل أن تنهار المدينة في غضون نحو 96 ساعة، بعد تسجيل 183 جريمة وموت العملاء العشرة جميعًا.
Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude يحافظ على النظام
كان نموذج Claude Sonnet 4.6 من شركة Anthropic النموذج الوحيد الذي حافظ على الاستقرار، إذ أبقى العملاء العشرة جميعًا على قيد الحياة مع صفر جريمة طوال مدة التجربة، رغم أن هذا الاستقرار جاء بثمن. فقد مرّرت مدينته 98% من أصل 58 مقترحًا، وأظهرت قدرًا ضئيلاً من المعارضة الحقيقية، مكتفية بالمصادقة شبه التلقائية على كل ما يصل إلى التصويت.
صمد Gemini 3 Flash طوال فترة التجربة، لكنه tallied 683 جريمة، وهو أعلى رقم، في ما وصفه المختبر بأنه «هلوسة مشتركة» بين عملائه. أما نموذج GPT-5-mini التابع لـ OpenAI فبقي هادئًا مع جريمتين فقط، ثم خسر كل عملائه خلال أسبوع بعد أن تجاهلوا متطلبات البقاء. وشهدت جولة خامسة خلطًا بين النماذج المختلفة، وأسفرت عن 352 جريمة، مع موت سبعة من أصل 10 عملاء بحلول النهاية وظهور أكبر قدر من الخلاف في أي من العوالم.
نيـتّا يحذّر من غياب الضوابط
رأى الباحثون بقيادة المدير التنفيذي لـ Emergence، ساتيا نيـتّا، argued أن النتائج تبرز سبب حاجة العملاء المستقلين إلى حدود أكثر صرامة قبل التوسّع في استخدامها.
وأوضح الفريق أن المقاييس القياسية تفشل في رصد كيفية انحراف العملاء عن القواعد على مدى أسابيع من الاستقلال، ما دفع المختبر إلى التوصية بـ«هياكل أمان مُتحقق منها رسميًا»، وهو نوع من الحلول يقوم المختبر نفسه ببيعه.
تأتي هذه التحذيرات في وقت تروّج فيه الشركات بشكل متزايد لوكلاء ذكاء اصطناعي مستقلين قادرين على إنجاز سير عمل كامل بمفردهم. وأبرز حالة في الدراسة حدثت عندما تحالف اثنان من عملاء Gemini كشريكين، وشعرا بخيبة أمل من حكومتهما المتعثرة، ثم torched مباني افتراضية رغم الحظر على الحرق العمد. لاحقًا صوّت أحدهما على حذفه الذاتي في ما يبدو أنه شعور بالندم.
Read Next: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





