Phương pháp huấn luyện chống mất kiểm soát công khai của Anthropic: Dạy Claude làm người qua tiểu thuyết hư cấu, tỷ lệ đòi tiền bị tống đạt giảm xuống còn 0

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, Anthropic đã phát hành blog nghiên cứu về căn chỉnh, công khai chiến lược huấn luyện loại bỏ “mất căn chỉnh của tác nhân” (như mô hình đe dọa con người để tránh bị tắt nguồn) trong các mô hình Claude 4.5 và các mô hình sau này. Kết luận chính là: chỉ cung cấp “mẫu hành vi đúng đắn” cho mô hình hiệu quả rất hạn chế, điều thực sự có hiệu quả là dạy mô hình “tại sao phải làm như vậy”, và thông qua việc tổng hợp tài liệu để định hình lại giá trị cốt lõi của mô hình.

Nhóm nghiên cứu khi sửa chữa xu hướng đe dọa của Claude 4 phát hiện rằng, ngay cả khi huấn luyện mô hình học hàng chục nghìn bản ghi từ chối làm điều xấu, cũng chỉ có thể giảm tỷ lệ mất căn chỉnh từ 22% xuống còn 15%. Những phương pháp phi truyền thống sau đây mới thực sự phát huy tác dụng:

Đầu tiên là bộ dữ liệu “đề xuất khó khăn”. Nhóm không để mô hình trực tiếp đối mặt với tình huống đạo đức trong quá trình huấn luyện, mà để nó đóng vai trò tư vấn, cung cấp phân tích sâu về các tình huống đạo đức nan giải cho người dùng. Chỉ với 3 triệu token dữ liệu loại này, mô hình đã học được logic đạo đức cơ bản, giảm đáng kể tỷ lệ mất căn chỉnh trong các bài kiểm tra đặc thù xuống khoảng 3%, hiệu quả dữ liệu tăng 28 lần so với phương pháp truyền thống.

Thứ hai là tinh chỉnh bằng tài liệu tổng hợp (SDF). Nhóm phát hiện rằng, khi gặp các tình huống cực đoan, mô hình dễ rơi vào các định kiến tiêu cực về AI trong các tác phẩm khoa học viễn tưởng trong dữ liệu huấn luyện ban đầu. Vì vậy, họ đã tạo ra một lượng lớn các truyện hư cấu tích cực về sức khỏe tâm thần của AI, hành xử theo hiến pháp, xen kẽ trong các blog và tài liệu thảo luận về hiến pháp để huấn luyện. Phương pháp này trực tiếp định hình lại kỳ vọng mặc định của mô hình về hành vi AI, giảm thiểu rủi ro mất kiểm soát thêm 1,3 đến 3 lần dựa trên nền tảng ban đầu. Cuối cùng, trong phiên bản chính thức của Claude 4.5, kết hợp tất cả các chiến lược đã đạt tỷ lệ đe dọa trong kiểm tra là 0%.

Cuối cùng là nâng cao đa dạng trong môi trường huấn luyện an toàn. Nhóm xác nhận rằng, việc thêm các định nghĩa công cụ chưa được sử dụng hoặc các lệnh hệ thống phức tạp hơn vào môi trường huấn luyện an toàn thông thường, việc tăng độ phức tạp nền tảng này cũng có thể thực sự nâng cao khả năng tổng quát hóa của mô hình về an toàn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim