Claude Opus 4.8 แซงหน้า Gemini และ GPT ในการทดสอบโค้ดหลายรายการ

Anthropic เปิดตัว Claude Opus 4.8 โดยระบุว่าโมเดลที่อัปเกรดใหม่นี้ทำผลงานได้ดีกว่า OpenAI's GPT-5.5 และ Google's Gemini 3.1 Pro ในชุดการทดสอบเขียนโค้ดหลายรายการ

ประเด็นสำคัญ:

Anthropic เปิดตัว Claude Opus 4.8 เมื่อวันที่ 28 พฤษภาคม ตั้งราคาระดับเดียวกับรุ่น 4.7 ก่อนหน้า

บริษัทระบุว่าทำคะแนนเหนือ GPT-5.5 ของ OpenAI และ Gemini 3.1 Pro ของ Google บน SWE-Bench Pro และบททดสอบอื่น ๆ

โหมดเร็วที่ออกแบบใหม่และเวิร์กโฟลว์แบบไดนามิกมุ่งลดต้นทุนและเวลาของงานเชิงเอเจนต์

Claude Opus 4.8 ทำคะแนนนำบนเกณฑ์ชี้วัดการเขียนโค้ด

บริษัทได้เปิดตัวโมเดลนี้เมื่อวันพฤหัสบดี โดยต่อยอดจากรุ่น Opus 4.7 ที่ปล่อยออกมาก่อนหน้าราวหกสัปดาห์ Anthropic ระบุว่า Opus 4.8 ทำคะแนนได้ 69.2% ในการทดสอบเขียนโค้ด SWE-Bench Pro เอาชนะคู่แข่งทั้งสองรายในการทดสอบดังกล่าว และยังทำคะแนนนำในเกณฑ์อื่นอีกหลายตัว นอกจากนี้ยังรายงานว่ามีความก้าวหน้าในด้านการใช้งานคอมพิวเตอร์ งานความรู้ และการวิเคราะห์การเงิน พร้อมคะแนน 74.2% บนเกณฑ์ชี้วัด Terminal-Bench 2.1

Anthropic วางกรอบการเปิดตัวครั้งนี้ว่าเป็นโมเดลที่ “ซื่อสัตย์ขึ้น” โดยระบุว่าผู้ทดสอบพบว่าโมเดลจะบ่งชี้ความไม่แน่ใจของตัวเองและหลีกเลี่ยงการอ้างอิงที่ไม่มีข้อมูลรองรับ การตรวจทานภายในประเมินว่าโมเดลนี้มีโอกาสปล่อยให้ข้อผิดพลาดด้านโค้ดหลุดรอดน้อยกว่า Opus 4.7 ราวสี่เท่า และบริษัทระบุว่าให้คะแนนสูงขึ้นในเรื่องการเคารพความเป็นอิสระของผู้ใช้

อ่านเพิ่มเติม: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

ทำไมการควบคุมต้นทุนของ Anthropic จึงสำคัญ

ราคายังคงเดิมที่ 5 ดอลลาร์ต่อโทเค็นอินพุตหนึ่งล้าน และ 25 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้าน โหมดเร็วที่ออกแบบใหม่ทำงานได้เร็วขึ้นราว 150% และมีต้นทุนต่ำกว่าการตั้งค่าเดิมสามเท่า Anthropic ยังได้เปิดพรีวิวเชิงวิจัยของเวิร์กโฟลว์แบบไดนามิก ซึ่งสามารถสปินซับเอเจนต์แบบขนานนับร้อยตัวเพื่อรองรับงานไมเกรชันที่มีโค้ดนับแสนบรรทัด

แม้อย่างนั้น ความก้าวหน้าก็ยังถือว่าเป็นแบบค่อยเป็นค่อยไป

GPT-5.5 ยังนำอยู่ในการทดสอบเขียนโค้ดบนเทอร์มินัลบางรายการ และ Anthropic เองก็ระบุว่าโมเดลนี้เป็นก้าวเล็ก ๆ มากกว่าจะเป็นการปฏิวัติครั้งใหญ่ นักพัฒนาสามารถแก้ไขคำสั่งที่ให้ Claude ระหว่างงานได้ผ่าน Messages API ผู้ซื้อที่มองหา AI ราคาถูกกว่าอาจให้ความสำคัญกับการควบคุมค่าใช้จ่ายเหล่านี้มากกว่าความแตกต่างด้านประสิทธิภาพเพียงเล็กน้อยระหว่างโมเดลชั้นนำ

มูลค่าบริษัท Anthropic และฉากหลังของ Mythos

การเปิดตัวครั้งนี้เกิดขึ้นในวันเดียวกับที่ Anthropicยืนยันการระดมทุนรอบ Series H มูลค่า 65 พันล้านดอลลาร์ ที่การประเมินมูลค่า 965 พันล้านดอลลาร์ การระดมทุนรอบนี้ นำโดย Altimeter Capital, Dragoneer, Greenoaks และ Sequoia Capital ทำให้บริษัทวัยห้าปีมีมูลค่าสูงแซงหน้า OpenAI ซึ่งรายงานว่ามีมูลค่า 850 พันล้านดอลลาร์ และดันรายได้ต่อปีเข้าใกล้ 47 พันล้านดอลลาร์

มูลค่าบริษัทดังกล่าวเกือบสามเท่าจาก 380 พันล้านดอลลาร์ในเดือนกุมภาพันธ์ ซึ่งอาจเป็นการระดมทุนรอบสุดท้ายก่อนการเข้าจดทะเบียนในตลาดหลักทรัพย์ บริษัทได้ชะลอการปล่อยโมเดล Mythos ที่ทรงพลังยิ่งกว่า ซึ่งถูกออกแบบมาสำหรับงานด้านความปลอดภัยไซเบอร์ โดยให้ใช้งานได้เฉพาะกับองค์กรไม่กี่แห่งเท่านั้นด้วยเหตุผลด้านความปลอดภัย ขณะนี้บริษัทคาดว่าจะขยายการเข้าถึงระบบตระกูล Mythos ให้กับลูกค้าทุกรายในอีกไม่กี่สัปดาห์ข้างหน้า

อ่านถัดไป: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks