Fable 5 đánh bại GPT 5.5 trước khi lệnh của Mỹ buộc gỡ xuống

Anthropic’s Fable 5 đã vượt OpenAI’s GPT 5.5 trên nhiều bộ kiểm thử AI lớn trước khi một chỉ thị kiểm soát xuất khẩu của Mỹ ngày 12 tháng 6 buộc mô hình phải dừng hoạt động.

Các điểm chính:

Fable 5 dẫn trước GPT 5.5 trên Arena, SWE-Bench Pro và các bài test lập trình lớn.

Mô hình chỉ được dùng trong ba ngày trước khi chính phủ Mỹ yêu cầu Anthropic tắt nó.

GPT 5.5 hiện là mô hình mạnh nhất còn sử dụng được theo mặc định, không phải vì nó vượt Fable 5.

Fable 5 bị tắt

Fable 5 trở thành mô hình AI công khai mạnh nhất sau khi ra mắt ngày 9 tháng 6, vượt GPT 5.5 trên các benchmark lớn trước khi chính phủ Mỹ can thiệp ba ngày sau đó.

Mô hình đứng hạng nhất trên Arena, trong khi GPT 5.5 đứng thứ tư. Trên SWE-Bench Pro, Fable 5 đạt 80,3%, so với 58,6% của GPT 5.5, chênh gần 22 điểm trong các nhiệm vụ kỹ sư phần mềm thực tế.

Khoảng cách cũng rất rõ trong các bài test lập trình. Fable 5 đạt 1.665 điểm trên Code Arena, cao hơn GPT 5.5 tới 98 điểm Elo, và đạt 29,3% trên FrontierCode Diamond, nơi GPT 5.5 chỉ đạt 5,7%.

GPT 5.5 có một lợi thế hẹp về chi phí thực tế. Nó có giá 5 USD cho mỗi triệu token đầu vào và 30 USD cho mỗi triệu token đầu ra, trong khi Fable 5 có giá 10 USD và 50 USD, khiến mô hình của OpenAI rẻ hơn cho khối lượng sử dụng lớn.

Fable 5 cũng cung cấp cửa sổ ngữ cảnh một triệu token và 128.000 token đầu ra. Anthropic cho phép người dùng Pro, Max, Team và Enterprise truy cập mà không tốn thêm phí cho đến ngày 22 tháng 6, trước khi lệnh buộc phải kết thúc giai đoạn này sớm.

Cũng nên đọc: Is AI Becoming A Real Advantage In Court? Ask The Lawyer Who Just Beat Meta

GPT 5.5 là vua

Việc tắt mô hình diễn ra sau chỉ thị kiểm soát xuất khẩu ngày 12 tháng 6, trong đó viện dẫn lỗ hổng jailbreak trong Fable 5 và cả dòng mô hình Mythos 5 rộng hơn. Anthropic phản đối kết luận này, cho rằng vấn đề nhỏ, đã được biết trước và cũng có thể khai thác trên GPT 5.5 mà không cần kỹ thuật vượt rào đặc biệt.

Kết quả này là điều bất thường trên thị trường AI.

Các nhà phát triển mất quyền truy cập vào mô hình đang dẫn đầu bảng xếp hạng benchmark, trong khi GPT 5.5 trở thành lựa chọn tốt nhất còn lại chỉ vì đối thủ gần nhất bị loại bỏ.

Sự khác biệt đó quan trọng nhất với các quy trình làm việc lập trình. Khoảng cách 22 điểm trên SWE-Bench Pro có nghĩa là khác biệt giữa một mô hình có thể giải quyết khoảng bốn trong năm lỗi thật trong codebase và một mô hình chỉ xử lý được gần ba trong năm.

Quãng thời gian ngắn ngủi của Fable 5 cũng cho thấy tốc độ dịch chuyển nhanh thế nào ở tuyến đầu. GPT 5.5 ra mắt cuối tháng 4 với tên mã nội bộ “Spud”, nhưng ưu thế của nó chỉ kéo dài cho đến khi Anthropic mở quyền truy cập công khai vào một hệ Mythos-class mạnh hơn vào tháng 6.

Đọc tiếp: Anthropic Refused To Patch Claude Fable's Jailbreak, So The US Banned It, David Sacks Says