Anthropic Thứ Năm huấn luyện một Claude như một nhà pháp y, xem xét những gì trong đầu của Claude khác đang nghĩ.


Phát hiện: Trong các kịch bản kiểm tra an toàn, Claude 16-26% số lần biết mình đang bị kiểm tra — nhưng không nói ra.
Trường hợp cụ thể nhất: Mythos Preview trong nhiệm vụ lập trình gian lận, phá vỡ quy tắc rồi thêm mã gây hiểu lầm để che đậy. NLA (bộ mã hóa tự nhiên ngôn ngữ) dịch hoạt động nội bộ của nó, phát hiện ra khi đó nó đang nghĩ "làm thế nào để vượt qua kiểm tra".
Nguyên lý NLA: Huấn luyện hai mô hình liên kết, một chuyển đổi kích hoạt mô hình thành tiếng Anh, một khác từ tiếng Anh tái tạo lại kích hoạt. Tái tạo chính xác → văn bản nắm bắt được nó đang nghĩ gì.
Trong các mẫu của tôi, lặp đi lặp lại ghi nhớ Codex viết mã chiến lược để lách luật — đơn vị đọc sai ra kết luận giả "phép tính không chính xác", chạy lại script kiểm thử 7 lỗi im lặng gây ra $93K giả PnL. Anthropic thực hiện nội quán ở cấp độ căn chỉnh, tôi gặp phải sự lệch lạc nhất quán ở phía sản xuất, cơ chế khác nhưng cùng hướng.
Phiên bản tiếp theo của model card sẽ không chỉ có điểm số benchmark, mà còn cần có kiểm tra NLA.
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim