Claude Fable 5 đã trở lại vào ngày 1/7 với nhiều lời phàn nàn gay gắt từ người dùng, nhưng dữ liệu benchmark cho thấy nguyên nhân là bộ định tuyến Anthropic nghiêm ngặt hơn chứ không phải mô hình yếu đi.
Điểm chính:
- BridgeBench báo cáo điểm mã hóa của Fable 5 sụp đổ sau khi hầu hết tác vụ gỡ lỗi bị định tuyến tránh khỏi mô hình.
- Arena.AI ghi nhận kết quả đánh giá mù theo sở thích con người khá ổn định, với mức tăng ở hạng mục tài liệu và văn bản chuyên gia.
- Lập trình viên là nhóm bị xáo trộn rõ nhất vì các prompt gỡ lỗi thường lệ có thể kích hoạt bộ phân loại mới.
Định tuyến Fable 5
Claude Fable 5 quay lại trực tuyến vào ngày 1/7 sau khi được khôi phục, và người dùng trên X nhanh chóng mô tả nó là hỏng, bị “nerf” hoặc kém hơn trước. Bằng chứng mạnh nhất ủng hộ quan điểm đó đến từ BridgeMind, đơn vị đã chạy lại bộ bài kiểm tra mã hóa BridgeBench trên phiên bản được khôi phục.
Kết quả trông rất nặng nề. Điểm gỡ lỗi rơi từ 86,2 xuống 25,9, tái cấu trúc mã giảm từ 73,6 xuống 38,4, và khả năng chống “hallucination” giảm từ 75,9 xuống 61,7.
Tuy nhiên, những con số đó không thể hiện một cú sụp mô hình “sạch” vì BridgeBench cho biết chỉ 3 trong 12 tác vụ gỡ lỗi TypeScript thực sự tới được Fable 5. Chín tác vụ còn lại bị bộ phân loại an toàn mới của Anthropic chặn và gửi sang Claude Opus 4.8, với mỗi lần chuyển hướng bị chấm 0 vì mô hình được đánh giá không trả lời.
Đọc thêm: Bí ẩn 491 BTC của Strategy làm dấy lên tranh luận về chính sách bán của Saylor
Bộ phân loại của Anthropic
Arena.AI đi đến kết luận khác vì họ đo lường sở thích mù của con người trên một tập prompt rộng hơn, bao gồm tác vụ văn bản, thị giác, tài liệu, mã và agent. Dữ liệu ban đầu cho thấy Fable 5 vẫn giữ mức hiệu năng gần như bản tháng 6.
Mã frontend giảm từ 1650 xuống 1623 Elo, mà theo Arena thì vẫn nằm trong khoảng tin cậy khi lượng phiếu bầu còn đang tích lũy. Hiệu năng trên tài liệu tăng 34 điểm, văn bản chuyên gia tăng 25 điểm và sáng tác sáng tạo tăng 9 điểm.
Sự tách biệt này gợi ý rằng Fable 5 vẫn hoạt động như chính nó khi prompt thực sự đến được mô hình. Vấn đề là công việc mã hóa liên quan tới bảo mật có thể bị chuyển hướng trước khi mô hình phản hồi, đặc biệt khi prompt chứa các từ như “vulnerability”, “exploit”, “hook” hoặc “fix”.
Anthropic đã thừa nhận rằng các bộ phân loại mới sẽ tạo ra dương tính giả trên các tác vụ mã hóa và gỡ lỗi thông thường. Công ty cho biết sẽ tinh chỉnh hệ thống theo thời gian, nhưng chưa đưa ra mốc hoàn thành.
Thiết lập hiện tại xuất phát từ tranh cãi an toàn rộng hơn sau khi các nhà nghiên cứu Amazon báo cáo một jailbreak buộc Fable 5 phải xác định và trình diễn lỗ hổng phần mềm. Câu trả lời của Anthropic là một bộ phân loại bảo thủ, và giờ đây có vẻ nó đang chặn nhiều hơn những prompt nguy hiểm mà nó được thiết kế để bắt.
Đọc tiếp: Trump nói ông không biết về khoản thu nhập crypto 1,4 tỷ USD





