Claude Opus 4.8 vượt Gemini và GPT trên nhiều bài kiểm tra lập trình

Claude Opus 4.8 vượt Gemini và GPT trên nhiều bài kiểm tra lập trình

Anthropic đã phát hành Claude Opus 4.8, cho biết bản nâng cấp này vượt trội hơn GPT-5.5 của OpenAIGemini 3.1 Pro của Google trên một số benchmark lập trình.

Các điểm chính:

  • Anthropic ra mắt Claude Opus 4.8 vào ngày 28/5, giữ nguyên mức giá so với bản 4.7 trước đó.
  • Công ty cho biết mô hình này vượt GPT-5.5 của OpenAI và Gemini 3.1 Pro của Google trên SWE-Bench Pro và các bài kiểm tra khác.
  • Chế độ nhanh được làm mới và các workflow động nhằm cắt giảm chi phí và thời gian cho công việc dạng agent.

Claude Opus 4.8 dẫn đầu các benchmark lập trình

Công ty đã giới thiệu mô hình này vào thứ Năm, xây dựng trên phiên bản Opus 4.7 được phát hành khoảng sáu tuần trước. Anthropic cho biết Opus 4.8 đạt 69,2% trong bài kiểm tra lập trình SWE-Bench Pro, vượt qua cả hai đối thủ ở hạng mục này và dẫn đầu trên nhiều thước đo khác. Họ cũng ghi nhận các cải thiện trong khả năng dùng máy tính, công việc tri thức và phân tích tài chính, cùng với mức 74,2% trên benchmark Terminal-Bench 2.1.

Anthropic mô tả bản phát hành là một mô hình trung thực hơn, nói rằng những người thử nghiệm nhận thấy mô hình tự gắn cờ khi không chắc chắn và tránh đưa ra các khẳng định thiếu cơ sở. Đánh giá nội bộ cho thấy nó ít có khả năng để lọt lỗi lập trình hơn Opus 4.7 khoảng bốn lần, và công ty cho biết mô hình đạt điểm cao hơn về việc tôn trọng quyền tự chủ của người dùng.

Đọc thêm: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Vì sao kiểm soát chi phí của Anthropic quan trọng

Mức giá được giữ cố định ở 5 USD cho mỗi triệu token đầu vào và 25 USD cho mỗi triệu token đầu ra. Chế độ nhanh được làm mới hiện chạy nhanh hơn khoảng 150% và rẻ hơn ba lần so với thiết lập trước. Anthropic cũng đã mở bản xem trước nghiên cứu cho các workflow động, cho phép khởi tạo hàng trăm subagent song song cho các đợt migration lên đến hàng trăm nghìn dòng mã.

Dù vậy, các cải thiện vẫn mang tính tăng dần.

GPT-5.5 vẫn dẫn đầu trên một bài kiểm tra lập trình trong terminal, và chính Anthropic cũng gọi mô hình này là một bước tiến khiêm tốn chứ không phải đột phá. Giờ đây, lập trình viên có thể chỉnh sửa hướng dẫn dành cho Claude giữa chừng một tác vụ thông qua Messages API. Những khách hàng tìm kiếm AI giá rẻ hơn có thể coi trọng các công cụ kiểm soát chi tiêu này hơn là khoảng cách hiệu năng nhỏ giữa các mô hình hàng đầu.

Định giá Anthropic và bối cảnh Mythos

Đợt ra mắt trùng với ngày Anthropic xác nhận vòng gọi vốn Series H trị giá 65 tỷ USD ở mức định giá 965 tỷ USD. Khoản vốn này, do Altimeter Capital, Dragoneer, Greenoaks và Sequoia Capital dẫn dắt, đã đưa công ty năm năm tuổi này vượt mức 850 tỷ USD được cho là của OpenAI và nâng doanh thu thường niên lên gần 47 tỷ USD.

Mức định giá gần như tăng gấp ba so với 380 tỷ USD hồi tháng 2, có thể là lần huy động vốn tư nhân cuối cùng của Anthropic trước khi niêm yết cổ phiếu. Công ty đến nay vẫn giữ lại mô hình Mythos mạnh hơn của mình, được xây dựng cho lĩnh vực an ninh mạng, chỉ phát hành cho một số ít tổ chức do lo ngại an toàn. Họ hiện kỳ vọng sẽ mở rộng quyền truy cập vào các hệ thống dòng Mythos cho toàn bộ khách hàng trong vài tuần tới.

Đọc tiếp: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.
Tin tức mới nhất
Xem tất cả tin tức
Claude Opus 4.8 vượt Gemini và GPT trên nhiều bài kiểm tra lập trình | Yellow.com