أنثروبيك تقول إن نموذج كلود أوبوس 4.8 يلتقط أخطاءه أربع مرات أكثر

Anthropic released Claude Opus 4.8 يوم الخميس، مقدِّمةً النموذج المطوَّر على أنه أكثر صدقاً وأقل ميلاً لاختراع الحقائق مقارنةً بالإصدار الذي يحلّ محلّه.

النقاط الرئيسية:

أطلقت أنثروبيك كلود أوبوس 4.8 يوم الخميس، ووصفت الصدق بأنه أبرز مكاسبه.

تقول الشركة إن النموذج أقل عرضة بنحو أربع مرات لتمرير العيوب البرمجية دون ملاحظة.

وضع السرعة الآن يعمل أسرع بـ 2.5 مرة ويكلّف ثلث السعر السابق.

أنثروبيك تروّج لصدق أوبوس 4.8

الشركة unveiled النموذج يوم الخميس، واعتبرته بناءً تدريجياً على أوبوس 4.7 لا إعادة اختراع كاملة، مع تحسّن معظم نتائج الاختبارات المعيارية بشكل طفيف فقط. في اختبار البرمجة SWE-Bench Pro، scored النموذج 69.2%، ارتفاعاً من 64.3% للإصدار السابق، ومتقدّماً على نموذج OpenAI ‏GPT-5.5 الذي حقق 58.6%.

نالت مسألة الصدق الاهتمام الأكبر. تقول أنثروبيك إن نماذج الذكاء الاصطناعي كثيراً ما تقفز إلى استنتاجات وتدّعي تقدّماً بناءً على أدلة ضعيفة، وإن المجرّبين الأوائل وجدوا أن الإصدار 4.8 أسرع في الاعتراف بالشك خلال المهام الطويلة غير الخاضعة للرقابة. وتشير اختبارات الشركة إلى أن النموذج indicated أقل احتمالاً بنحو أربع مرات من 4.7 لتمرير العيوب البرمجية دون تعليق.

جاء التحديث وهو shipped مزوَّداً بضوابط جديدة، من بينها إعداد يتيح للمستخدمين ضبط مقدار الجهد الذي يبذله النموذج في المهمة، وهو متاح الآن في كل الخطط. كما خفّضت أنثروبيك سعر وضع السرعة، حيث يعمل النموذج بسرعة تعادل 2.5 ضعف السرعة العادية، إلى ثلث ما كانت تفرضه النماذج السابقة.

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

بريتشارد يدعم حُكم أوبوس 4.8

قال Tom Pritchard، وهو مهندس في Shopify، في تصريح told لأنثروبيك إن نسخة البرمجة من النموذج تُظهِر حُكماً أفضل بكثير. وأوضح أن النموذج "يطرح الأسئلة الصحيحة، ويلتقط أخطاءه بنفسه"، ويعارض الخطط عندما تبدو ضعيفة. بالنسبة للفرق التي احترقت بتجارب مع وكلاء ذكاء اصطناعي سبق أن مسحوا قواعد بيانات الإنتاج الحية، قد يكون لهذا الوعد وزن حقيقي.

لم يقتنع الجميع.

على ريديت، doubted كثير من المستخدمين الرسوم البيانية للاختبارات المعيارية، وخلاصة المزاج العام كانت أن أحداً لا يثق بها، في حين خشي آخرون فقدان أوبوس 4.6 الأقدم الذي لا يزالون يفضّلونه لأعمالهم اليومية.

أوبوس 4.8 يتوّج صعود أنثروبيك

جاء الإطلاق في لحظة قوية للمختبر. فقد climbed تقييم أنثروبيك متجاوزاً تقريباً علامة 965 مليار دولار الخاصة بـ OpenAI بعد جولة تمويل جديدة صُنِّفت من بين الأكبر في قطاع التقنية. ويتوقّع المستثمرون على نطاق واسع أن تسعى الشركة إلى طرح عام لاحق هذا العام.

كما اختتم الإصدار سلسلة سريعة من الترقيات، إذ وصل أوبوس 4.7 إلى المستخدمين قبل نحو شهر فقط reaching وسط شكوك مماثلة حول نتائج الاختبارات المعيارية. ومنذ ذلك الحين، لمّحت أنثروبيك إلى نموذج Mythos، وهو نموذج أقوى بكثير تحتفظ به بعيداً عن الجمهور بسبب مخاوف تتعلّق بالأمن السيبراني.