Anthropic ระบุว่า Claude Opus 4.8 รุ่นใหม่ตรวจจับข้อผิดพลาดของตัวเองได้มากขึ้น 4 เท่า

Anthropic released Claude Opus 4.8 ในวันพฤหัสบดี โดยนำเสนอโมเดลรุ่นอัปเกรดนี้ว่าให้ความสำคัญกับความซื่อสัตย์ และมีแนวโน้มแต่งข้อเท็จจริงน้อยกว่ารุ่นก่อน

ประเด็นสำคัญ:

Anthropic เปิดตัว Claude Opus 4.8 ในวันพฤหัสบดี โดยระบุว่าความซื่อสัตย์คือจุดเด่นสำคัญ

บริษัทระบุว่าโมเดลมีโอกาสปล่อยให้ข้อบกพร่องของโค้ดผ่านตาไปน้อยลงราว 4 เท่า

โหมดเร็วทำงานได้เร็วขึ้น 2.5 เท่า และมีค่าใช้จ่ายถูกลงสามเท่าเมื่อเทียบกับเดิม

Anthropic โปรโมตความซื่อสัตย์ของ Opus 4.8

บริษัทได้ unveiled โมเดลนี้ในวันพฤหัสบดี โดยวางกรอบว่าเป็นการต่อยอดจาก Opus 4.7 อย่างค่อยเป็นค่อยไป ไม่ใช่การยกเครื่องใหม่ทั้งหมด คะแนนบนเบนช์มาร์กส่วนใหญ่เพิ่มขึ้นเพียงเล็กน้อย ในการทดสอบ SWE-Bench Pro สำหรับการเขียนโค้ด โมเดล scored ได้ 69.2% เพิ่มจาก 64.3% ของเวอร์ชันก่อน และนำหน้า GPT-5.5 ของ OpenAI ที่ทำได้ 58.6%

ประเด็นความซื่อสัตย์ได้รับความสนใจเป็นพิเศษ Anthropic ระบุว่าโมเดล AI มักรีบด่วนสรุป และอ้างว่ามีความคืบหน้าจากหลักฐานที่บางเบา ผู้ทดสอบกลุ่มแรกพบว่าเวอร์ชัน 4.8 ยอมรับความไม่แน่ใจของตนเองได้รวดเร็วขึ้นระหว่างงานระยะยาวที่ไม่มีคนดูแล การทดสอบของบริษัท indicated ว่าโมเดลนี้มีโอกาสปล่อยให้ข้อบกพร่องของโค้ดผ่านไปโดยไม่ทักท้วนน้อยกว่า 4.7 ราวสี่เท่า

การอัปเกรดครั้งนี้ shipped มาพร้อมตัวเลือกการควบคุมใหม่ รวมถึงการตั้งค่าที่ให้ผู้ใช้ปรับระดับความพยายามของโมเดลในการทำงาน ซึ่งตอนนี้ใช้ได้กับทุกแผน นอกจากนี้ Anthropic ยังลดราคาโหมดเร็วที่โมเดลทำงานที่ความเร็ว 2.5 เท่าจากปกติ ลงเหลือหนึ่งในสามของราคาที่โมเดลรุ่นก่อนคิด

อ่านเพิ่มเติม: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard สนับสนุนวิจารณญาณของ Opus 4.8

Tom Pritchard วิศวกรอาวุโสที่ Shopify told กับ Anthropic ว่ารุ่นสำหรับเขียนโค้ดมีวิจารณญาณดีขึ้นมาก เขาระบุว่าโมเดล “ถามคำถามที่ถูกต้อง จับข้อผิดพลาดของตัวเองได้” และโต้แย้งกลับเมื่อเห็นว่าแผนงานดูไม่แข็งแรง สำหรับทีมที่เคยถูกเอเจนต์ AI ลบฐานข้อมูลการทำงานจริงแบบสดๆ คำสัญญาเช่นนี้อาจมีน้ำหนักอย่างมาก

อย่างไรก็ตาม ไม่ใช่ทุกคนที่เชื่อมั่น

บน Reddit ผู้ใช้จำนวนมาก doubted กราฟเบนช์มาร์ก โดยสรุปบรรยากาศว่าแทบไม่มีใครเชื่อถือ ขณะที่บางส่วนกังวลว่าจะเสีย Opus 4.6 รุ่นเก่าที่พวกเขายังชอบใช้ในงานประจำวันไป

Opus 4.8 ปิดจังหวะพุ่งแรงของ Anthropic

การเปิดตัวครั้งนี้มาถึงในช่วงที่ห้องแล็บกำลังอยู่ในจังหวะร้อนแรง มูลค่ากิจการของ Anthropic climbed แซงหน้าระดับเกือบ 965 พันล้านดอลลาร์ของ OpenAI หลังรอบระดมทุนใหม่ที่จัดอยู่ในกลุ่มใหญ่ที่สุดในวงการเทค นักลงทุนจำนวนมากคาดว่าบริษัทจะเดินหน้าจดทะเบียนในตลาดหลักทรัพย์ภายในปีนี้

การออกเวอร์ชันใหม่นี้ยังเป็นการปิดท้ายรอบอัปเกรดที่รวดเร็ว โดย Opus 4.7 เพิ่ง reaching ผู้ใช้ไปเมื่อแทบจะเพียงเดือนก่อน ท่ามกลางข้อกังขาเรื่องเบนช์มาร์กของตัวเอง Anthropic ยังได้แง้มข้อมูล Mythos โมเดลที่ทรงพลังยิ่งกว่ามาก ซึ่งบริษัทยังเก็บงำไม่เปิดให้สาธารณะใช้ด้วยเหตุผลด้านความปลอดภัยไซเบอร์

อ่านถัดไป: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak