Fable 5 vượt GPT 5.5 trước khi lệnh của Mỹ buộc ngừng hoạt động

Fable 5 vượt GPT 5.5 trước khi lệnh của Mỹ buộc ngừng hoạt động

Anthropic’s Fable 5 trong thời gian ngắn đã vượt OpenAI’s GPT 5.5 trên các bảng điểm chuẩn AI lớn trước khi chỉ thị kiểm soát xuất khẩu của Mỹ ngày 12/6 buộc mô hình phải ngừng hoạt động.

Các điểm chính:

  • Fable 5 dẫn trước GPT 5.5 trên Chatbot Arena, SWE-Bench Pro và các bài kiểm tra lập trình lớn.
  • Mô hình chỉ được cung cấp trong ba ngày trước khi chính phủ Mỹ yêu cầu Anthropic vô hiệu hóa nó.
  • GPT 5.5 hiện là mô hình mạnh nhất còn sử dụng được theo mặc định, không phải vì nó vượt Fable 5.

Fable 5 bị ngừng hoạt động

Fable 5 trở thành mô hình AI công khai mạnh nhất sau khi ra mắt ngày 9/6, vượt GPT 5.5 trên các điểm chuẩn chính trước khi chính phủ Mỹ can thiệp ba ngày sau đó.

Mô hình xếp hạng nhất trên Chatbot Arena, trong khi GPT 5.5 đứng thứ tư. Trên SWE-Bench Pro, Fable 5 đạt 80,3%, so với 58,6% của GPT 5.5, chênh lệch gần 22 điểm trong các tác vụ kỹ sư phần mềm thực tế.

Lợi thế cũng rất rõ trong các bài kiểm tra lập trình. Fable 5 đạt 1.665 điểm trên Code Arena, cao hơn GPT 5.5 tới 98 điểm Elo, và đạt 29,3% trên FrontierCode Diamond, nơi GPT 5.5 chỉ đạt 5,7%.

GPT 5.5 chỉ có một lợi thế nhỏ hơn về mặt định vị thực tế. Mức giá là 5 USD cho mỗi triệu token đầu vào và 30 USD cho mỗi triệu token đầu ra, trong khi Fable 5 là 10 USD và 50 USD, khiến mô hình của OpenAI rẻ hơn cho nhu cầu sử dụng khối lượng lớn.

Fable 5 cũng cung cấp cửa sổ ngữ cảnh một triệu token và 128.000 token đầu ra. Anthropic cho phép người dùng gói Pro, Max, Team và Enterprise sử dụng mà không tính thêm phí đến ngày 22/6, trước khi lệnh yêu cầu đã kết thúc sớm khoảng thời gian đó.

Đọc thêm: Is AI Becoming A Real Advantage In Court? Ask The Lawyer Who Just Beat Meta

GPT 5.5 là vua

Việc ngừng hoạt động diễn ra sau chỉ thị kiểm soát xuất khẩu ngày 12/6, trong đó viện dẫn một lỗ hổng jailbreak trong Fable 5 và cả họ mô hình Mythos 5. Anthropic bác bỏ kết luận này, cho rằng vấn đề là nhỏ, đã được biết trước và cũng có thể thực hiện được trên GPT 5.5 mà không cần phương pháp vượt rào đặc biệt.

Kết quả này là điều bất thường với thị trường AI.

Các nhà phát triển mất quyền truy cập vào mô hình đang dẫn đầu bảng xếp hạng điểm chuẩn, trong khi GPT 5.5 trở thành lựa chọn tốt nhất vì đối thủ gần nhất bị gỡ bỏ.

Sự khác biệt đó quan trọng nhất với các quy trình làm việc về lập trình. Khoảng cách 22 điểm trên SWE-Bench Pro đồng nghĩa với chênh lệch giữa một mô hình có thể giải quyết khoảng bốn trên năm lỗi trong codebase thực và một mô hình chỉ xử lý được gần ba trên năm.

Quãng thời gian ngắn ngủi của Fable 5 cũng cho thấy tốc độ mà biên giới năng lực có thể dịch chuyển. GPT 5.5 ra mắt cuối tháng 4 với mật danh nội bộ “Spud”, nhưng vị trí dẫn đầu của nó chỉ kéo dài đến khi Anthropic mở truy cập công khai cho một hệ thống thuộc lớp Mythos mạnh hơn vào tháng 6.

Đọc tiếp: Anthropic Refused To Patch Claude Fable's Jailbreak, So The US Banned It, David Sacks Says

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.