Anthropic cho biết Claude Opus 4.8 mới phát hiện lỗi của mình nhiều gấp 4 lần

Anthropic cho biết Claude Opus 4.8 mới phát hiện lỗi của mình nhiều gấp 4 lần

Anthropic released Claude Opus 4.8 vào thứ Năm, giới thiệu bản nâng cấp này là trung thực hơn và ít có xu hướng bịa ra thông tin hơn so với phiên bản trước.

Những điểm chính:

  • Anthropic phát hành Claude Opus 4.8 vào thứ Năm, coi tính trung thực là điểm nổi bật.
  • Công ty cho biết mô hình ít bỏ sót lỗi trong mã gấp khoảng bốn lần.
  • Chế độ nhanh hiện chạy nhanh hơn 2,5 lần và rẻ hơn ba lần so với trước.

Anthropic quảng bá tính trung thực của Opus 4.8

Công ty unveiled mô hình vào thứ Năm, mô tả đây là bản xây dựng tiếp nối ổn định từ Opus 4.7 chứ không phải một cuộc tái tạo hoàn toàn, với hầu hết điểm số benchmark chỉ tăng nhẹ. Trong bài kiểm tra lập trình SWE-Bench Pro, nó scored 69,2%, tăng từ 64,3% của phiên bản trước và vượt OpenAI GPT-5.5, vốn đạt 58,6%.

Tính trung thực trở thành tâm điểm. Anthropic cho biết các mô hình AI thường vội vàng kết luận, tuyên bố tiến bộ dựa trên bằng chứng mỏng, và rằng những người thử nghiệm sớm nhận thấy 4.8 nhanh hơn trong việc thừa nhận nghi ngờ trong các tác vụ dài, không được giám sát. Các thử nghiệm của hãng indicated mô hình ít có khả năng bỏ qua lỗi trong mã gấp khoảng bốn lần so với 4.7.

Bản nâng cấp được shipped kèm các tùy chọn điều khiển mới, bao gồm thiết lập cho phép người dùng điều chỉnh mức độ mô hình nỗ lực trên một tác vụ, giờ có trong mọi gói. Anthropic cũng giảm giá chế độ nhanh, trong đó mô hình chạy với tốc độ gấp 2,5 lần bình thường, xuống còn một phần ba so với các phiên bản trước.

Cũng nên đọc: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard ủng hộ khả năng phán đoán của Opus 4.8

Tom Pritchard, kỹ sư cấp cao tại Shopify, told Anthropic rằng phiên bản chuyên về lập trình thể hiện khả năng phán đoán tốt hơn nhiều. Anh cho biết mô hình “đặt đúng câu hỏi, tự phát hiện lỗi của mình” và phản biện khi một kế hoạch có vẻ yếu. Đối với các nhóm từng bị thiệt hại vì tác nhân AI xóa sạch cơ sở dữ liệu sản xuất, lời hứa như vậy có thể mang ý nghĩa rất thực tế.

Không phải ai cũng bị thuyết phục.

Trên Reddit, nhiều người dùng doubted các biểu đồ benchmark, mô tả tâm trạng chung là chẳng ai tin chúng, trong khi những người khác lo sợ mất Opus 4.6 cũ mà họ vẫn ưa dùng cho công việc hằng ngày.

Opus 4.8 khép lại làn sóng bứt phá của Anthropic

Đợt ra mắt diễn ra vào thời điểm phòng thí nghiệm đang lên cao trào. Định giá của Anthropic đã climbed vượt mốc gần 965 tỉ USD của OpenAI sau một vòng gọi vốn mới thuộc nhóm lớn nhất trong lĩnh vực công nghệ. Giới đầu tư kỳ vọng rộng rãi rằng công ty sẽ theo đuổi niêm yết công khai vào cuối năm nay.

Bản phát hành này cũng đánh dấu chuỗi nâng cấp dồn dập, khi Opus 4.7 chỉ mới reaching đến tay người dùng khoảng một tháng trước, giữa làn mây nghi ngờ về benchmark của riêng nó. Anthropic kể từ đó đã nhá hàng Mythos, một mô hình mạnh hơn rất nhiều nhưng đang được giữ lại, không công bố rộng rãi vì lo ngại an ninh mạng.

Đọc tiếp: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.
Tin tức mới nhất
Xem tất cả tin tức
Anthropic cho biết Claude Opus 4.8 mới phát hiện lỗi của mình nhiều gấp 4 lần | Yellow.com