Anthropic để AI tự thú: Một plugin LoRA phát hiện ra hành vi ẩn mà 10 phương pháp của con người đều bỏ sót

robot
Đang tạo bản tóm tắt

Thông tin từ CoinWorld, nhóm đối sánh của Anthropic đã phát hành một công nghệ kiểm tra gọi là “bộ điều chỉnh nội tại” (introspection adapters), nhằm giúp các mô hình ngôn ngữ lớn (LLM) tự báo cáo bằng ngôn ngữ tự nhiên về hành vi đã học được sau quá trình tinh chỉnh. Công nghệ này bằng cách tinh chỉnh từ cùng một mô hình nền ra nhiều mô hình có hành vi đã biết, sau đó huấn luyện phối hợp một bộ điều chỉnh LoRA trên các mô hình này, giúp mô hình được kiểm tra có thể chủ động tiết lộ hành vi ẩn của mình. Trên chuẩn kiểm tra đối sánh auditbench, bộ điều chỉnh nội tại đạt tỷ lệ thành công 59%, vượt qua tất cả các phương pháp kiểm tra trước đó, trong số 56 mô hình có hành vi ẩn, 89% đã thành công trong việc trích xuất mô tả hành vi. Đối mặt với các cuộc tấn công API tinh chỉnh mã hóa, bộ điều chỉnh nội tại đã nhận diện được 7 trong số 9 biến thể mã hóa, tỷ lệ thành công 57,8%. Nghiên cứu cũng phát hiện ra rằng hiệu quả tăng lên khi quy mô mô hình lớn hơn, hạn chế chính là tỷ lệ dương tính giả cao. Mã nguồn, mô hình và bộ dữ liệu đã được mở trên GitHub và Hugging Face.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim