تفوّق كلود أوبوس 4.8 على جيميني وGPT في عدة اختبارات برمجة

أنثروبيك أطلقت كلود أوبوس 4.8، مؤكدة أن النموذج المطوَّر يتفوّق على نموذج أوبن إيه آي GPT-5.5 ونموذج غوغل Gemini 3.1 Pro في عدة معايير لاختبارات البرمجة.

النقاط الرئيسية:

أنثروبيك أطلقت كلود أوبوس 4.8 في 28 مايو، مع تسعير مساوٍ لإصدار 4.7 السابق.

تقول الشركة إنه يتفوّق على GPT-5.5 من أوبن إيه آي وGemini 3.1 Pro من غوغل في اختبار SWE-Bench Pro وغيره من الاختبارات.

يهدف وضع السرعة المعاد تصميمه وسير العمل الديناميكي إلى خفض تكلفة ووقت العمل القائم على الوكلاء.

تفوّق كلود أوبوس 4.8 في اختبارات البرمجة

كشفت الشركة عن النموذج يوم الخميس، استنادًا إلى إصدار أوبوس 4.7 الذي طرحته قبل نحو ستة أسابيع. وقالت أنثروبيك إن أوبوس 4.8 حقق نتيجة 69.2٪ في اختبار البرمجة SWE-Bench Pro، متفوّقًا على كلا المنافسين هناك ومتقدّمًا عليهما في عدة مقاييس أخرى. كما أعلنت عن تقدم في استخدام الحاسوب، وأعمال المعرفة، والتحليل المالي، إلى جانب تحقيقه نسبة 74.2٪ في معيار Terminal-Bench 2.1.

وصاغت أنثروبيك الإصدار على أنه نموذج أكثر صدقًا، إذ ذكر مختبِرون أنه يُبدي عدم يقينه بوضوح ويتجنب إطلاق مزاعم غير مدعومة. وتشير المراجعات الداخلية إلى أنه أقل بنحو أربع مرات من أوبوس 4.7 في السماح بمرور عيوب البرمجة، وتقول الشركة إنه يحقق نتائج أعلى في احترام استقلالية المستخدم.

اقرأ أيضًا: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

لماذا تهم ضوابط التكلفة لدى أنثروبيك؟

بقي التسعير ثابتًا عند 5 دولارات لكل مليون رمز إدخال و25 دولارًا لكل مليون رمز إخراج. وضع السرعة المعاد تصميمه يعمل الآن بسرعة أعلى بنحو 150٪ وتكلفة أقل بثلاث مرات من الإعداد السابق. كما أن أنثروبيك افتتحت معاينة بحثية لسير العمل الديناميكي، الذي يطلق مئات الوكلاء الفرعيين المتوازيين لعمليات الترحيل التي تمتد عبر مئات الآلاف من أسطر الشيفرة.

رغم ذلك، تبقى المكاسب تدريجية.

لا يزال GPT-5.5 متقدمًا في أحد اختبارات البرمجة عبر الطرفية، كما وصفت أنثروبيك النموذج نفسه بأنه خطوة متواضعة لا اختراقًا كبيرًا. يمكن للمطورين الآن تعديل تعليمات كلود أثناء المهمة من خلال واجهة برمجة تطبيقات الرسائل الخاصة به. وقد يولي المشترون الساعون إلى ذكاء اصطناعي أقل تكلفة أهمية أكبر لهذه ضوابط الإنفاق مقارنة بالفروق البسيطة بين النماذج المتصدرة.

تقييم أنثروبيك وخلفية نموذج Mythos

جاء الإطلاق في اليوم نفسه الذي أكدت فيه أنثروبيك جولة تمويل من الفئة H بقيمة 65 مليار دولار عند تقييم 965 مليار دولار. هذا التمويل، الذي قادته Altimeter Capital وDragoneer وGreenoaks وSequoia Capital، دفع بالشركة البالغة من العمر خمس سنوات لتتجاوز التقييم المبلغ عنه لأوبن إيه آي البالغ 850 مليار دولار ورفع إيراداتها السنوية إلى نحو 47 مليار دولار.

تضاعف التقييم تقريبًا ثلاث مرات مقارنة بـ380 مليار دولار في فبراير، في ما قد يكون آخر جولة خاصة قبل طرح الأسهم في البورصة. وقد احتفظت الشركة بنموذجها الأكثر قوة Mythos، المصمَّم لأعمال الأمن السيبراني، حيث أتاحته لعدد محدود فقط من المؤسسات بسبب مخاوف السلامة. وتتوقع الآن توسيع إتاحة أنظمة فئة Mythos لجميع العملاء خلال الأسابيع المقبلة.

اقرأ التالي: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks