Claude Fable 5 กลับมาให้ใช้งานเมื่อวันที่ 1 ก.ค. พร้อมเสียงบ่นของผู้ใช้จำนวนมาก แต่ข้อมูลเบนช์มาร์กชี้ไปที่ Anthropic router ที่เข้มงวดขึ้น มากกว่าจะเป็นโมเดลที่อ่อนลง
ประเด็นสำคัญ:
- BridgeBench รายงานว่าคะแนนการเขียนโค้ดของ Fable 5 ดิ่งลง หลังงานดีบักส่วนใหญ่ไม่ถูกส่งไปยังโมเดล
- Arena.AI พบว่าผลโหวตแบบ blind human-preference ค่อนข้างคงที่ พร้อมการเพิ่มขึ้นในหมวดเอกสารและข้อความเชิงผู้เชี่ยวชาญ
- นักพัฒนาถูกกระทบชัดเจนที่สุด เพราะ prompt ดีบักทั่วไปสามารถไปชนกับตัว classifier ใหม่ได้
การ Routing ของ Fable 5
Claude Fable 5 กลับมาออนไลน์ในวันที่ 1 ก.ค. หลังถูกนำกลับมาใช้งานใหม่ โดยผู้ใช้บน X พากันบอกว่ามันเสีย ถูกเนิร์ฟ หรือทำงานได้น้อยลง หลักฐานที่แรงที่สุดต่อมุมมองนี้มาจาก BridgeMind ซึ่งรันชุดทดสอบโค้ด BridgeBench ซ้ำกับเวอร์ชันที่นำกลับมา
ผลลัพธ์ดูรุนแรง คะแนนดีบักลดจาก 86.2 เหลือ 25.9 การ refactor ลดจาก 73.6 เหลือ 38.4 และความทนทานต่อ hallucination ลดจาก 75.9 เหลือ 61.7
ตัวเลขเหล่านี้ไม่ได้แสดงให้เห็นการล่มสลายของโมเดลแบบตรงไปตรงมา เพราะ BridgeBench ระบุว่า มีเพียง 3 งานดีบัก TypeScript จาก 12 งานเท่านั้นที่มาถึง Fable 5 จริง ๆ อีก 9 งานถูกดักด้วย safety classifier ตัวใหม่ของ Anthropic แล้วส่งต่อไปยัง Claude Opus 4.8 และถูกให้คะแนนเป็นศูนย์ เพราะโมเดลที่ถูกประเมินไม่ได้เป็นผู้ตอบ
อ่านเพิ่มเติม: ปริศนา 491 BTC ของ Strategy ปลุกดีเบตนโยบายขายของ Saylor อีกครั้ง
ตัว Classifier ของ Anthropic
Arena.AI ได้ข้อสรุปที่ต่างออกไป เพราะใช้การวัดแบบ blind human preference จาก prompt หลากหลายประเภท ทั้งข้อความ ภาพ เอกสาร โค้ด และงานเอเยนต์ ข้อมูลระยะแรกชี้ว่า Fable 5 ยังคงเสถียรใกล้เคียงเวอร์ชันเดือนมิถุนายน
คะแนนโค้ดฝั่ง frontend ลดจาก Elo 1650 เหลือ 1623 ซึ่ง Arena ระบุว่ายังอยู่ในช่วงช่วงความเชื่อมั่นระหว่างที่กำลังสะสมจำนวนโหวต ขณะที่ประสิทธิภาพด้านเอกสารเพิ่มขึ้น 34 คะแนน ข้อความเชิงผู้เชี่ยวชาญเพิ่ม 25 คะแนน และงานเขียนเชิงสร้างสรรค์เพิ่ม 9 คะแนน
ความแตกต่างนี้บ่งชี้ว่า Fable 5 ยังทำงานได้เหมือนเดิม เมื่อ prompt ถูกส่งมาถึงโมเดล ปัญหาคือ งานโค้ดที่เกี่ยวเนื่องกับความปลอดภัยสามารถถูกเบี่ยงออกไปก่อนที่โมเดลจะตอบ โดยเฉพาะเมื่อ prompt มีคำอย่าง vulnerability, exploit, hook หรือ fix
Anthropic ยอมรับว่าตัว classifier ใหม่จะสร้าง false positive กับงานเขียนโค้ดและดีบักทั่วไป บริษัทระบุว่าจะค่อย ๆ ปรับระบบให้ดีขึ้นตามเวลา แต่ยังไม่ได้ให้กรอบเวลาชัดเจน
การตั้งค่าปัจจุบันเป็นผลต่อเนื่องจากประเด็นถกเถียงด้านความปลอดภัยที่ใหญ่กว่า หลังนักวิจัยจาก Amazon รายงาน jailbreak ที่ผลักให้ Fable 5 ระบุและสาธิตช่องโหว่ซอฟต์แวร์ได้ คำตอบของ Anthropic คือการใช้ classifier เชิงอนุรักษ์นิยม ซึ่งตอนนี้ดูเหมือนจะบล็อก prompt มากกว่ากลุ่มที่อันตรายที่ตั้งใจจะดักจับ





