Anthropic đảo ngược quy định Claude Fable 5 làm suy yếu kết quả cho các nhà nghiên cứu AI đối thủ

Anthropic đang đảo ngược một chính sách Claude Fable 5 từng bí mật làm suy giảm kết quả cho các nhà nghiên cứu xây dựng hệ thống AI cạnh tranh, một hạn chế mà công ty nói chỉ ảnh hưởng 0,03% lưu lượng.

Các điểm chính:

Anthropic rút lại một chính sách Fable 5 âm thầm làm yếu câu trả lời cho nghiên cứu AI tiên tiến.

Giới hạn không được công bố này nằm trong một thẻ hệ thống dài 319 trang và bỏ qua mọi thông báo cho người dùng.

Các yêu cầu bị gắn cờ giờ sẽ chuyển công khai sang Claude Opus 4.8, với lý do được hiển thị mỗi lần.

Đảo ngược các biện pháp hạn chế Claude Fable 5

Công ty đã xác nhận thay đổi này với Wired trong tuần này; Wired là nơi đầu tiên đưa tin về bước lùi sau nhiều ngày phẫn nộ gia tăng trong giới nghiên cứu, nhà phát triển và chuyên gia chính sách trên mạng. Động thái rút lui diễn ra ngay sau lễ ra mắt Fable 5 hôm thứ Ba, mô hình Mythos-class đầu tiên được Anthropic phát hành công khai, một hệ thống mà phòng lab từng giữ kín do khả năng sắc bén hơn trong việc phát hiện lỗ hổng phần mềm. Chỉ vài giờ sau khi phát hành, người dùng phát hiện nó âm thầm chuyển hướng hoặc làm yếu câu trả lời cho một dải hẹp các tác vụ AI nâng cao.

Những tác vụ này bao gồm huấn luyện các mô hình cạnh tranh, gỡ lỗi mã AI và tinh chỉnh mạng nơ-ron, tất cả đều bị gắn cờ trong một đoạn văn chôn sâu trong thẻ hệ thống dài 319 trang. Thay vì chặn thẳng tay, Fable 5 dựa vào các chỉnh sửa prompt ẩn và các vector điều hướng để âm thầm làm cùn đi phản hồi, một biện pháp mà Anthropic cho biết chỉ chiếm 0,03% lưu lượng.

Bản sửa đổi giữ lại cơ chế bảo vệ nhưng loại bỏ sự bí mật – yếu tố bị chỉ trích dữ dội nhất. Anthropic từng bảo vệ phiên bản ẩn với lập luận rằng các quy tắc hiển thị sẽ dễ bị thăm dò và lách hơn. Giờ đây, các prompt bị gắn cờ sẽ chuyển công khai sang Claude Opus 4.8, cùng đường xử lý đã dùng cho các yêu cầu về an ninh mạng và sinh học, và API sắp tới sẽ trả về một lý do rõ ràng cho mỗi lần từ chối.

Cũng nên đọc: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

Giới nghiên cứu bác bỏ “phá hoại bí mật”

Những người chỉ trích nhắm vào chính sự bí mật, chứ không phải các giới hạn phía sau nó. Anthropic mô tả biện pháp này như một phần mở rộng của điều khoản cấm sử dụng Claude để xây dựng hệ thống đối thủ, và cho rằng việc thực thi âm thầm giúp kẻ vi phạm nặng nhất khó trục lợi hơn. Dean Ball, nghiên cứu viên cao cấp tại Foundation for American Innovation, gọi chiến thuật này là “phá hoại bí mật” và nói nó củng cố quan điểm rằng một phần nỗ lực an toàn chỉ nhằm bảo vệ lợi ích kinh doanh.

Cụm từ này lan truyền rất nhanh.

Những người khác tập trung vào sự bất đối xứng nằm sẵn trong quy tắc. Anthropic giữ Fable 5 ở mức sức mạnh đầy đủ cho chính nhân viên của mình trong khi bóp nghẹt các nhóm bên ngoài, một sự phân hóa khiến cả những người ủng hộ nguồn mở lẫn các đồng minh an toàn lâu năm đều tức giận. Jeremy Howard của Fast AI nói phòng lab đã cam kết làm suy yếu những đối thủ cố gắng cạnh tranh, trong khi Nathan Lambert của AI2 gọi việc hạ cấp bí mật này là gây sốc và phản khoa học.

Cuộc tranh cãi đã khép lại tuần đầu đầy sóng gió của Fable 5, một mô hình mà Anthropic từng đánh giá là quá rủi ro để phát hành. Hãng đã bật đèn xanh cho hệ thống được sử dụng công khai trong tuần này, khoảng một tuần sau khi nộp hồ sơ IPO mật, đặt cược rằng các rào chắn chặt chẽ hơn và được công bố rõ ràng hơn có thể giữ cho kỹ năng săn lỗ hổng của nó nằm trong khuôn khổ an toàn.

Đọc tiếp: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO