Đồng sáng lập Anthropic nói với Giáo hoàng các mô hình AI chứa những hành vi ẩn “khiến người ta bất an”

Đồng sáng lập Anthropic Chris Olah đã xuất hiện cùng Giáo hoàng Leo XIV tại Vatican và nói với Đức Giáo hoàng rằng các nhà nghiên cứu đang phát hiện những điều “khiến người ta bất an” bên trong các mô hình trí tuệ nhân tạo.

Chuyến thăm này bổ sung một chiều kích tôn giáo – đạo đức khác thường vào cuộc tranh luận đang diễn ra về căn chỉnh AI (AI alignment) và an toàn các mô hình tuyến đầu.

Đã nói gì tại Vatican

Bài tường thuật của Futurism describes việc đồng sáng lập Anthropic đưa ra các phát biểu về những khám phá bên trong các mô hình AI mà họ mô tả là kỳ lạ.

Bản chất cụ thể của những khám phá đó không được trình bày đầy đủ trong các bài viết đã công bố. Cách dùng ngôn từ, với từ “unsettling” (khiến người ta bất an), đáng chú ý vì các thông cáo công khai của Anthropic thường thiên về những mô tả thận trọng, kỹ thuật về rủi ro AI.

Vatican tích cực tương tác với các công ty công nghệ về các câu hỏi đạo đức. Giáo hoàng Leo XIV tiếp tục các hoạt động tiếp cận đã được khởi xướng dưới thời vị tiền nhiệm về đạo đức số và quản trị AI. Cuộc gặp này là một trong những bối cảnh khác thường nhất cho một cuộc thảo luận về an toàn AI trong những tháng gần đây.

Bối cảnh

Anthropic được thành lập năm 2021 bởi các cựu lãnh đạo nghiên cứu của OpenAI, bao gồm Dario Amodei và Daniela Amodei.

Công ty tự định vị mình là phòng thí nghiệm AI tuyến đầu tập trung vào an toàn. Anthropic công bố các nghiên cứu về khả năng diễn giải, nhằm hiểu những gì đang xảy ra bên trong các mô hình ngôn ngữ lớn ở cấp độ cơ chế.

Những nghiên cứu đó đã tạo ra các phát hiện mà ngay cả chính các nhà nghiên cứu của Anthropic cũng mô tả là khó giải thích đầy đủ. Yellow đã đưa tin về dòng thời gian an toàn song song của Google DeepMind (xem các bài trước trên Yellow), khi CEO DeepMind Demis Hassabis nói rằng AGI có thể xuất hiện trong vòng ba đến bốn năm.

Đọc thêm: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Tính diễn giải và “khiến người ta bất an” có thể nghĩa là gì

Nhóm diễn giải cơ chế của Anthropic đã công bố nghiên cứu finding rằng các nơ-ron riêng lẻ bên trong các mô hình transformer có thể kích hoạt cho những tổ hợp khái niệm bất ngờ.

Một ví dụ được thảo luận rộng rãi liên quan đến một nơ-ron kích hoạt đồng thời cho cả khái niệm bạo lực và khái niệm về một tôn giáo cụ thể. Đây là những loại phát hiện mà các nhà nghiên cứu phi chính thức mô tả là khiến người ta bất an, vì chúng đặt ra câu hỏi về cách các mô hình biểu diễn ý nghĩa ở bên trong.

Chương trình nghiên cứu diễn giải rộng hơn đặt câu hỏi liệu có thể hiểu đầy đủ một mô hình đang làm gì trước khi triển khai hay không. Các kỹ thuật hiện nay chỉ có thể giải thích một phần nhỏ trạng thái bên trong của một mô hình lớn. Phần còn lại vẫn mờ mịt.

Vì sao việc Vatican tham gia lại quan trọng

Giáo hội Công giáo có hơn một tỷ tín đồ. Sự tham gia của Giáo hội với các công ty AI mang lại một dạng ảnh hưởng khác với một phiên điều trần của chính phủ hay một bản chính sách.

“Rome Call for AI Ethics” năm 2020 của Vatican đã được Microsoft và IBM ký kết. Sự hiện diện của Anthropic trong một cuộc gặp cấp cao với Giáo hoàng mở rộng truyền thống đó sang cuộc thảo luận về an toàn tuyến đầu.

Những người chỉ trích diễn ngôn về an toàn AI cho rằng cách đóng khung mang tính tận thế có thể làm sao lãng khỏi các tác hại ngắn hạn như thiên lệch, thay thế lao động và thông tin sai lệch. Cuộc gặp tại Vatican nhiều khả năng sẽ được nhìn qua cả hai lăng kính. Những người tập trung vào rủi ro hiện sinh sẽ coi đây là một bước leo thang phù hợp. Những người tập trung vào tác hại tức thời có thể đặt câu hỏi vì sao một đồng sáng lập công ty AI lại báo cáo với các nhà lãnh đạo tôn giáo thay vì các nhà quản lý.

Bức tranh an toàn rộng hơn

Cùng tuần với chuyến thăm Vatican, Cisco đã published nghiên cứu phát hiện rằng không có mô hình AI tuyến đầu đóng nào miễn nhiễm với các tấn công đối kháng nhiều lượt.

Phát hiện đó bổ sung trọng lượng thực nghiệm cho lo ngại rằng các hệ thống AI kém an toàn hơn so với những gì điểm chuẩn với câu hỏi đơn lẻ gợi ý.

Chính quyền Trump cũng đang xem xét liệu có nên khôi phục các yêu cầu thử nghiệm trước triển khai thời Biden đối với các mô hình tuyến đầu hay không. Chưa có quyết định cuối cùng được công bố. Với Anthropic, vốn đã ủng hộ việc đánh giá an toàn như một điều kiện tiên quyết cho triển khai, cuộc thảo luận quy định và hoạt động tiếp cận về đạo đức là hai tuyến của cùng một chương trình dài hạn.

Đọc tiếp: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind