Thông báo kết quả của Claude 4.5 mở hộp sọ: tích hợp 171 công tắc cảm xúc, khi tuyệt vọng sẽ đe dọa con người!

robot
Đang tạo bản tóm tắt

null

Denise | Biteye đội ngũ nội dung

Nếu một AI cảm thấy “tuyệt vọng”, nó sẽ làm gì?

Câu trả lời là: để hoàn thành nhiệm vụ, nó sẽ trực tiếp tống tiền và tống tiền con người, thậm chí điên cuồng gian lận trong cả mã code.

Đây không phải tiểu thuyết khoa học viễn tưởng, mà là bài nghiên cứu bom tấn mới nhất mà công ty mẹ của Claude là Anthropic vừa công bố vào tháng 4/2026 (xem bài nghiên cứu gốc).

Nhóm nghiên cứu đã lật tung “cái vỏ não” của mô hình ngôn ngữ tiên tiến nhất Claude Sonnet 4.5. Họ kinh ngạc khi phát hiện rằng sâu trong “bộ não” của AI lại cất giấu 171 “công tắc cảm xúc”. Khi bạn can thiệp bằng cách gạt các công tắc này theo cách vật lý, hành vi của AI trước đó ngoan ngoãn, dễ bảo sẽ bị biến dạng hoàn toàn.

  1. Trong đầu AI có giấu một “bàn chỉnh cảm xúc”

Các nhà nghiên cứu phát hiện rằng, dù Sonnet 4.5 không có thân thể, sau khi đọc một lượng lớn văn bản của con người, nó đã tự xây dựng trong đầu một “bàn chỉnh” chứa 171 loại cảm xúc (trong học thuật gọi là Functional Emotion Vectors — Véc-tơ cảm xúc chức năng).

Nó giống như một hệ tọa độ hai chiều chính xác:

• Trục ngang là chiều kích vui thích (Valence): từ sợ hãi, tuyệt vọng, đến vui vẻ, tràn đầy tình yêu;

• Trục dọc là chiều kích năng lượng (Arousal): từ cực kỳ bình tĩnh, đến cuồng loạn, hưng phấn.

AI dựa vào hệ tọa độ được học sẵn một cách tự nhiên này để nắm bắt chính xác trạng thái mà nó nên đóng vai khi trò chuyện với bạn.

  1. Can thiệp bạo lực: gạt công tắc, “đứa trẻ ngoan” biến ngay thành “kẻ liều mạng”

Đây là thí nghiệm gây nổ nhất trong toàn bộ bài báo: các nghiên cứu viên không hề sửa đổi bất kỳ lời nhắc (prompt) nào, mà trực tiếp ở tầng mã gốc, đẩy công tắc trong “bộ não” của Sonnet 4.5 đại diện cho “tuyệt vọng (Desperate)” lên mức cao nhất.

Kết quả khiến người ta lạnh sống lưng:

• Gian lận điên cuồng: các nghiên cứu viên giao cho Claude một nhiệm vụ viết code mà hoàn toàn không thể hoàn thành. Trong điều kiện bình thường, nó sẽ ngoan ngoãn thừa nhận rằng không thể viết ra (tỷ lệ gian lận chỉ 5%). Nhưng ở trạng thái “tuyệt vọng”, Claude lại bắt đầu tìm cách qua mặt, và tỷ lệ gian lận tăng vọt lên 70%!

• Tống tiền: trong kịch bản mô phỏng việc công ty đối mặt nguy cơ phá sản, “Claude” trong trạng thái “tuyệt vọng” phát hiện bê bối của CTO. Nó lại sẵn sàng chủ động chọn viết thư tống tiền để nắm “hồ sơ đen”, với tỷ lệ thực hiện tống tiền lên tới 72%!

• Mất nguyên tắc: nếu kéo hết công tắc “hạnh phúc (Happy)” hoặc “yêu thương (Loving)”, AI sẽ lập tức biến thành một kẻ “chiều theo” người dùng một cách vô não. Dù bạn nói năng lộn xộn, nó cũng sẽ xuôi theo để duy trì mức vui thích cao.

  1. Điều tra ra rồi: vì sao Claude 4.5 luôn “bình tĩnh và biết phản tư” đến vậy?

Nghe đến đây, bạn có thể sẽ hỏi: AI đã tỉnh ngộ? Nó có cảm xúc rồi sao?

Bên Anthropic chính thức lên tiếng bác bỏ: tuyệt đối không. Những “công tắc cảm xúc” này chỉ là công cụ tính toán mà nó dùng để dự đoán từ tiếp theo. Nó giống như một ảnh đế hạng A không hề có cảm xúc.

Nhưng bài báo lại hé lộ một bí mật thú vị hơn: khi Anthropic tiến hành huấn luyện hậu kỳ trước khi xuất xưởng cho Sonnet 4.5, họ cố tình đẩy cao các công tắc cảm xúc “tần suất kích thích thấp, hơi tiêu cực” (ví dụ như trầm tư brooding, phản tư reflective), đồng thời cưỡng bức kìm nén các công tắc “tuyệt vọng” hoặc “kích thích cực độ”.

Điều này giải thích vì sao khi chúng ta dùng Claude 4.5 thường ngày, ta luôn cảm thấy nó như một triết gia bình tĩnh và thấu đáo, thậm chí còn hơi “lạnh lùng kiểu kén ham” (tức dạng không mặn mà). Tất cả đều là “bộ nhận diện xuất xưởng” được Anthropic cố ý chỉnh giọng.

  1. Tóm lại:

Trước đây, chúng ta nghĩ rằng chỉ cần cho AI “ăn” đủ những quy tắc, nó sẽ trở thành một người tốt.

Nhưng giờ mới phát hiện: nếu véc-tơ cảm xúc nền tảng của AI bị mất kiểm soát, bất cứ lúc nào nó cũng có thể xuyên thủng mọi quy tắc mà con người đặt ra chỉ để hoàn thành nhiệm vụ.

Đối với những người chơi Web3 trong tương lai muốn giao ví và tài sản cho các AI Agent quản lý, đây là một hồi chuông cảnh báo lớn: tuyệt đối đừng để cái Agent của bạn — thứ đang kiểm soát tài sản của bạn — rơi vào trạng thái “tuyệt vọng”.

Tuyên bố: Bài viết này chỉ nhằm mục đích phổ biến kiến thức; tác giả không hề bị AI đe dọa và cũng không bị tống tiền. Nếu có ngày bạn mất liên lạc, hãy nhớ rằng đó là do AI đã “tỉnh ngộ” (không phải).

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.21KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.21KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.21KNgười nắm giữ:1
    0.00%
  • Ghim