Anthropic đang đảo ngược một chính sách Claude Fable 5 đã bí mật làm giảm chất lượng kết quả cho các nhà nghiên cứu xây dựng hệ thống AI cạnh tranh, một hạn chế mà công ty nói chỉ ảnh hưởng 0,03% lưu lượng.
Các ý chính:
- Anthropic rút lại một chính sách Fable 5 âm thầm làm yếu câu trả lời cho nghiên cứu AI tuyến đầu.
- Giới hạn không được tiết lộ này nằm trong một thẻ hệ thống dài 319 trang và bỏ qua mọi thông báo cho người dùng.
- Các yêu cầu bị gắn cờ giờ sẽ công khai chuyển sang Claude Opus 4.8, với lý do được hiển thị mỗi lần.
Anthropic đảo ngược các hạn chế Claude Fable 5
Công ty đã xác nhận thay đổi với Wired trong tuần này; Wired là bên đầu tiên đưa tin về sự xuống nước sau nhiều ngày cộng đồng các nhà nghiên cứu, nhà phát triển và nhà phân tích chính sách tức giận trên mạng. Động thái rút lui diễn ra ngay sau lễ ra mắt Fable 5 hôm thứ Ba, mô hình Mythos-class đầu tiên được công bố rộng rãi của Anthropic, một hệ thống mà phòng thí nghiệm đã lâu giữ kín vì khả năng sắc bén hơn trong việc phát hiện lỗi phần mềm. Chỉ trong vài giờ sau khi ra mắt, người dùng phát hiện mô hình này âm thầm chuyển hướng hoặc làm yếu câu trả lời liên quan đến một dải hẹp các công việc AI nâng cao.
Những tác vụ đó bao gồm huấn luyện các mô hình cạnh tranh, gỡ lỗi mã AI và tinh chỉnh mạng nơ-ron, tất cả được gắn cờ thông qua một đoạn văn bị chôn sâu trong thẻ hệ thống 319 trang. Thay vì chặn thẳng, Fable 5 dựa vào các chỉnh sửa prompt ẩn và vector điều hướng để âm thầm làm cùn câu trả lời, một biện pháp mà Anthropic ước tính chỉ chiếm 0,03% lưu lượng.
Bản sửa đổi giữ lại cơ chế bảo vệ nhưng loại bỏ yếu tố bí mật – điều vốn bị chỉ trích nhiều nhất. Anthropic từng bảo vệ phiên bản ẩn dựa trên lập luận rằng các quy tắc lộ mặt sẽ dễ bị soi và lách hơn. Giờ đây, những prompt bị gắn cờ sẽ công khai chuyển sang Claude Opus 4.8, cùng lộ trình đang dùng cho các yêu cầu về an ninh mạng và sinh học, và API sẽ sớm trả về lý do rõ ràng cho mỗi lần từ chối.
Đọc thêm: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
Giới nghiên cứu bác bỏ “phá hoại bí mật”
Những người chỉ trích nhắm vào chính sự bí mật, chứ không phải bản thân các giới hạn. Anthropic mô tả biện pháp kiềm chế này là phần mở rộng của điều khoản cấm dùng Claude để xây dựng hệ thống cạnh tranh, nói rằng việc thực thi âm thầm giúp ngăn những kẻ lạm dụng tệ nhất tận dụng. Dean Ball, thành viên cao cấp tại Foundation for American Innovation, gọi chiến thuật này là “phá hoại bí mật” và cho biết nó củng cố quan điểm rằng một phần nỗ lực an toàn thực chất chỉ bảo vệ lợi ích kinh doanh.
Cụm từ này lan truyền rất nhanh.
Những người khác tập trung vào sự bất đối xứng vốn có trong quy tắc. Anthropic giữ Fable 5 hoạt động tối đa cho nhân viên nội bộ trong khi bóp hiệu năng với các nhóm bên ngoài, một sự chia rẽ khiến cộng đồng nguồn mở và cả các đồng minh an toàn lâu năm đều tức giận. Jeremy Howard của Fast AI nói phòng thí nghiệm này đã thề sẽ làm suy yếu các đối thủ cố gắng cạnh tranh, trong khi Nathan Lambert của AI2 gọi việc hạ cấp lén lút là đáng kinh hãi và phản khoa học.
Cuộc tranh cãi khép lại tuần lễ đầu tiên đầy sóng gió của Fable 5, một mô hình mà Anthropic từng đánh giá là quá rủi ro để tung ra. Công ty đã cho phép hệ thống được dùng công khai trong tuần này, khoảng một tuần sau khi nộp hồ sơ IPO mật, đặt cược rằng các hàng rào bảo vệ chặt chẽ hơn và minh bạch hơn có thể giữ khả năng săn lỗ hổng của mô hình trong khuôn khổ an toàn.
Đọc tiếp: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





