Anthropic ระบุว่า Claude Opus 4.8 รุ่นใหม่จับข้อผิดพลาดของตัวเองได้มากขึ้น 4 เท่า

profile-alexey-bondarev
Alexey Bondarev50 นาทีที่แล้ว
Anthropic ระบุว่า Claude Opus 4.8 รุ่นใหม่จับข้อผิดพลาดของตัวเองได้มากขึ้น 4 เท่า

Anthropic released Claude Opus 4.8 เมื่อวันพฤหัสบดี โดยวางตำแหน่งรุ่นอัปเกรดนี้ว่าให้คำตอบซื่อสัตย์กว่าและมีแนวโน้มแต่งข้อเท็จจริงน้อยกว่ารุ่นเดิมที่ถูกแทนที่

ประเด็นสำคัญ:

  • Anthropic ปล่อย Claude Opus 4.8 ในวันพฤหัสบดี โดยบอกว่าความซื่อสัตย์คือจุดเด่นที่สุด
  • บริษัทระบุว่า โมเดลนี้มีโอกาสปล่อยให้ข้อบกพร่องของโค้ดหลุดรอดน้อยลงราวสี่เท่า
  • โหมดเร็วตอนนี้ทำงานได้เร็วขึ้น 2.5 เท่า และมีค่าใช้จ่ายถูกลงเหลือหนึ่งในสามเมื่อเทียบกับก่อนหน้า

Anthropic โปรโมตความซื่อสัตย์ของ Opus 4.8

บริษัทได้ unveiled โมเดลนี้ในวันพฤหัสบดี โดยมองว่าเป็นการต่อยอดจาก Opus 4.7 มากกว่าจะเป็นการสร้างใหม่ทั้งหมด คะแนน benchmark ส่วนใหญ่เพิ่มขึ้นเพียงเล็กน้อย ในการทดสอบโค้ด SWE-Bench Pro โมเดลได้ scored 69.2% เพิ่มจาก 64.3% ของรุ่นก่อน และแซงหน้า GPT-5.5 ของ OpenAI ที่ทำได้ 58.6%

ประเด็นเรื่องความซื่อสัตย์กลายเป็นจุดสนใจ Anthropic ระบุว่าโมเดล AI มักรีบด่วนสรุปและอ้างความก้าวหน้าจากหลักฐานที่บางเบา และผู้ทดสอบช่วงแรกพบว่าเวอร์ชัน 4.8 ยอมรับความไม่แน่ใจได้รวดเร็วยิ่งขึ้นระหว่างงานยาว ๆ ที่ไม่มีคนดูแล ผลการทดสอบของบริษัท indicated ว่าโมเดลนี้มีโอกาสปล่อยให้ข้อบกพร่องของโค้ดหลุดรอดโดยไม่ถูกทักท้วงน้อยกว่า 4.7 ราวสี่เท่า

การอัปเกรดครั้งนี้ shipped มาพร้อมตัวเลือกควบคุมใหม่ รวมถึงการตั้งค่าที่ให้ผู้ใช้กำหนดระดับความพยายามของโมเดลต่อแต่ละงาน ซึ่งตอนนี้มีให้ใช้ในทุกแพ็กเกจ Anthropic ยังลดราคาโหมดเร็วที่โมเดลทำงานด้วยความเร็ว 2.5 เท่าจากปกติ ลงเหลือเพียงหนึ่งในสามของราคาที่รุ่นก่อนคิด

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard หนุนความสามารถตัดสินของ Opus 4.8

Tom Pritchard วิศวกรระดับ staff ที่ Shopify told กับ Anthropic ว่าเวอร์ชันที่เน้นโค้ดมีวิจารณญาณดีขึ้นมาก เขาระบุว่าโมเดลนี้ “ถามคำถามได้ถูกต้อง จับข้อผิดพลาดของตัวเองได้” และโต้แย้งเมื่อเห็นว่าแผนงานดูอ่อนแรง สำหรับทีมที่เคยเจ็บตัวจากเอเจนต์ AI ที่ลบฐานข้อมูล production จริงไปทั้งชุด คำสัญญาแบบนี้อาจมีความหมายอย่างมาก

อย่างไรก็ดี ไม่ใช่ทุกคนที่เชื่อมั่น

บน Reddit ผู้ใช้จำนวนมาก doubted กราฟ benchmark โดยสรุปบรรยากาศว่ามีคนเชื่อมั่นน้อย ขณะเดียวกันคนอื่น ๆ ก็กลัวว่าจะเสีย Opus 4.6 รุ่นเก่าที่พวกเขายังชอบใช้ทำงานประจำวัน

Opus 4.8 ปิดจังหวะพุ่งแรงของ Anthropic

การเปิดตัวครั้งนี้เกิดขึ้นในช่วงขาขึ้นของห้องปฏิบัติการแห่งนี้ มูลค่าบริษัทของ Anthropic ได้ climbed แซงระดับเกือบ 965 พันล้านดอลลาร์ของ OpenAI หลังการระดมทุนรอบใหม่ที่จัดเป็นหนึ่งในดีลใหญ่ที่สุดด้านเทคโนโลยี นักลงทุนจำนวนมากคาดว่าบริษัทจะเดินหน้าสู่การเข้าตลาดหลักทรัพย์ภายในปีนี้

การเปิดตัวนี้ยังเป็นการปิดท้ายช่วงอัปเกรดอย่างรวดเร็ว โดย Opus 4.7 เพิ่ง reaching ถึงมือผู้ใช้เมื่อราวเดือนก่อน ภายใต้เงาของข้อกังขาเรื่อง benchmark เช่นกัน จากนั้น Anthropic ได้แย้มถึง Mythos โมเดลที่ทรงพลังยิ่งกว่ามากซึ่งยังไม่เปิดให้สาธารณชนใช้ด้วยเหตุผลด้านความปลอดภัยไซเบอร์

Read Next: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ
ข่าวล่าสุด
แสดงข่าวทั้งหมด
ข่าวที่เกี่ยวข้อง
บทความวิจัยที่เกี่ยวข้อง
บทความการเรียนรู้ที่เกี่ยวข้อง
Anthropic ระบุว่า Claude Opus 4.8 รุ่นใหม่จับข้อผิดพลาดของตัวเองได้มากขึ้น 4 เท่า | Yellow.com