Anthropic nói Claude Opus 4.8 mới phát hiện lỗi của mình gấp 4 lần

Anthropic released Claude Opus 4.8 vào thứ Năm, giới thiệu bản nâng cấp này là trung thực hơn và ít có xu hướng bịa ra dữ kiện so với phiên bản tiền nhiệm.

Các điểm chính:

Anthropic phát hành Claude Opus 4.8 vào thứ Năm, gọi tính trung thực là cải tiến nổi bật.

Theo công ty, mô hình ít có khả năng bỏ sót lỗi mã hơn khoảng bốn lần.

Chế độ nhanh giờ chạy nhanh hơn 2,5 lần và rẻ bằng một phần ba so với trước.

Anthropic quảng bá tính trung thực của Opus 4.8

Công ty unveiled mô hình vào thứ Năm, mô tả đây là bản xây dựng dần trên Opus 4.7 chứ không phải tái tạo từ đầu, với hầu hết điểm benchmark chỉ nhích lên nhẹ. Trong bài kiểm tra lập trình SWE-Bench Pro, nó scored 69,2%, tăng từ 64,3% so với phiên bản trước và vượt OpenAI GPT-5.5, vốn đạt 58,6%.

Tính trung thực là tâm điểm chú ý. Anthropic cho biết các mô hình AI thường vội vã kết luận, tuyên bố tiến bộ dựa trên bằng chứng mỏng, và những người thử nghiệm ban đầu nhận thấy 4.8 nhanh chóng thừa nhận nghi ngờ hơn trong các tác vụ dài, chạy không giám sát. Các bài thử nghiệm của hãng indicated rằng mô hình ít có khả năng bỏ sót lỗi mã không được nhắc tới hơn 4.7 khoảng bốn lần.

Bản nâng cấp được shipped kèm các tùy chỉnh mới, bao gồm thiết lập cho phép người dùng điều chỉnh mức độ nỗ lực của mô hình với một tác vụ, hiện có trên mọi gói. Anthropic cũng giảm giá chế độ nhanh, trong đó mô hình chạy với tốc độ gấp 2,5 lần bình thường, xuống còn một phần ba so với các phiên bản trước.

Cũng nên đọc: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard ủng hộ khả năng phán đoán của Opus 4.8

Tom Pritchard, kỹ sư chủ chốt tại Shopify, told Anthropic rằng phiên bản chuyên lập trình thể hiện khả năng phán đoán tốt hơn nhiều. Anh nói mô hình “đặt những câu hỏi đúng, phát hiện lỗi của chính mình” và phản biện khi một kế hoạch trông có vẻ yếu. Đối với các nhóm từng bị các tác nhân AI xóa sạch cơ sở dữ liệu sản xuất, lời hứa như vậy có thể rất đáng giá.

Không phải ai cũng bị thuyết phục.

Trên Reddit, nhiều người dùng doubted các biểu đồ benchmark, tóm tắt tâm trạng chung là không ai tin chúng, trong khi những người khác lo sợ mất Opus 4.6 cũ mà họ vẫn ưa dùng cho công việc hằng ngày.

Opus 4.8 đánh dấu đà tăng tốc của Anthropic

Đợt ra mắt diễn ra vào thời điểm phòng thí nghiệm đang lên cao trào. Định giá của Anthropic đã climbed vượt mốc gần 965 tỷ USD của OpenAI sau một vòng gọi vốn mới thuộc hàng lớn nhất giới công nghệ. Giới đầu tư kỳ vọng công ty sẽ theo đuổi kế hoạch niêm yết công khai vào cuối năm nay.

Bản phát hành này cũng khép lại chuỗi nâng cấp nhanh, khi Opus 4.7 mới reaching tới tay người dùng cách đó chỉ khoảng một tháng, kèm theo chính “đám mây hoài nghi benchmark” riêng. Anthropic sau đó đã hé lộ Mythos, một mô hình mạnh hơn nhiều mà hãng đang giữ lại, chưa công bố rộng rãi vì lo ngại an ninh mạng.

Đọc tiếp: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak