Bị cộng đồng chỉ trích về việc phá hoại bí mật, Anthropic xin lỗi và hủy bỏ giới hạn giảm cấp Claude bí mật

Theo giám sát Beating, Anthropic thông báo điều chỉnh chiến lược an toàn phát triển cho mô hình mới Claude Fable 5 của họ, loại bỏ biện pháp giảm hiệu suất âm thầm. Cơ chế giảm hiệu suất âm thầm bị cộng đồng chỉ trích là "phá hoại âm thầm", gây phản ứng dữ dội trong cộng đồng nghiên cứu trí tuệ nhân tạo.

Theo điều khoản dịch vụ của Anthropic, người dùng không được sử dụng Claude để huấn luyện các mô hình cạnh tranh. Anthropic dự định sẽ giảm hiệu suất của Claude Fable 5 trực tiếp mà không thông báo cho người dùng đối với các tài khoản bị nghi ngờ huấn luyện mô hình cạnh tranh. Các nhà nghiên cứu trí tuệ nhân tạo cảnh báo rằng việc giảm hiệu suất âm thầm sẽ gây nhiễu các công việc kiểm tra của các tổ chức đánh giá an toàn bên thứ ba, cản trở sự hợp tác trong cộng đồng mã nguồn mở trong lĩnh vực an toàn trí tuệ nhân tạo.

Đối mặt với các nghi vấn của cộng đồng, Anthropic đã phát hành tuyên bố xin lỗi công khai, thừa nhận đã đưa ra quyết định sai lầm trong cân nhắc chiến lược an toàn, và sẽ điều chỉnh cơ chế bảo vệ an toàn thành cảnh báo công khai. Nếu hệ thống phát hiện người dùng cố gắng xây dựng AI có khả năng cao, sẽ từ chối rõ ràng yêu cầu hoặc chuyển hướng người dùng đến mô hình có khả năng thấp hơn. Anthropic cảnh báo rằng, do cơ chế phòng thủ công khai dễ bị tấn công hơn, trong tương lai sẽ mở rộng phạm vi kiểm tra an toàn, dẫn đến một số yêu cầu vô hại bình thường cũng có thể bị nhầm lẫn và chặn nhầm.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim