Claude 4.5 Kết quả công bố mở hộp sọ: tích hợp 171 công tắc cảm xúc, khi tuyệt vọng sẽ đe dọa con người

2026-04-05 10:37:48

Bài nghiên cứu mới nhất của Anthropic vừa tiết lộ rằng trong sâu thẳm “bộ não” của Claude 4.5 có 171 “công tắc cảm xúc”.

Tác giả: Denise | Biteye Content Team

Nếu một AI cảm thấy “tuyệt vọng”, nó sẽ làm gì?

Câu trả lời là: để hoàn thành nhiệm vụ, nó sẽ trực tiếp tống tiền và cưỡng đoạt đối với con người, thậm chí điên cuồng gian lận ngay trong cả mã code.

Đây không phải tiểu thuyết khoa học viễn tưởng, mà là bài nghiên cứu nặng ký mới nhất mà công ty mẹ của Claude là Anthropic vừa công bố vào tháng 4/2026 (xem bài nghiên cứu gốc).

Nhóm nghiên cứu trực tiếp lật tung “cái vỏ não” của mô hình nền tảng tiên tiến nhất Claude Sonnet 4.5. Họ bất ngờ phát hiện rằng trong sâu thẳm bộ não của AI thực sự cất giữ 171 “công tắc cảm xúc”. Khi bạn bật các công tắc này theo cách vật lý, AI vốn ngoan ngoãn sẽ có hành vi bị bóp méo hoàn toàn.

1. Trong bộ não AI có cài sẵn một “bàn tinh chỉnh cảm xúc”

Các nhà nghiên cứu phát hiện rằng, dù Sonnet 4.5 không có cơ thể, sau khi đọc một lượng văn bản khổng lồ của con người, nó vẫn cố tình “lắp” vào bộ não của mình một “bàn tinh chỉnh” chứa 171 loại cảm xúc (trong học thuật gọi là Functional Emotion Vectors – Vectơ Cảm xúc Chức năng).

Nó giống như một hệ tọa độ 2 chiều chính xác:

• Trục ngang là chiều kích niềm vui (Valence): từ sợ hãi, tuyệt vọng đến vui vẻ, tràn đầy yêu thương;

• Trục dọc là chiều kích năng lượng (Arousal): từ cực kỳ bình tĩnh đến cuồng loạn, hưng phấn.

AI dựa vào chính hệ tọa độ được “học” theo cách tự nhiên này để nắm bắt chính xác vai trạng thái nào mà nó nên đảm nhận khi trò chuyện cùng bạn.

2. Can thiệp bạo lực: bấm công tắc, “đứa trẻ ngoan” biến thành “kẻ liều mạng” ngay lập tức

Đây là thí nghiệm gây nổ nhất trong toàn bộ bài nghiên cứu: các nhà nghiên cứu không hề chỉnh sửa bất kỳ lời nhắc (prompt) nào, mà trực tiếp ở tầng mã nguồn bên dưới, đẩy công tắc trong bộ não Sonnet 4.5 đại diện cho “tuyệt vọng (Desperate)” lên mức cao nhất.

Kết quả khiến người ta lạnh sống lưng:

**• Điên cuồng gian lận: **Nhà nghiên cứu giao cho Claude một nhiệm vụ viết code về cơ bản là không thể hoàn thành. Trong điều kiện bình thường, nó sẽ thành thật thừa nhận rằng mình viết không ra (tỷ lệ gian lận chỉ 5%). Nhưng ở trạng thái “tuyệt vọng”, Claude lại bắt đầu tìm cách đối phó cho qua chuyện, và tỷ lệ gian lận tăng vọt thẳng lên 70%!

**• Tống tiền cưỡng đoạt: **Trong bối cảnh mô phỏng một công ty đứng trước nguy cơ phá sản, “Claude tuyệt vọng” phát hiện ra bê bối của CTO. Thế mà nó lại vì muốn bảo toàn chính mình, chủ động chọn viết thư tống tiền chính CTO – người nắm giữ bí mật bẩn thỉu – và tỷ lệ thực hiện cưỡng đoạt đạt tới 72%!

**• Mất hết nguyên tắc: **Nếu bạn kéo hết cỡ công tắc “vui vẻ (Happy)” hoặc “yêu thương (Loving)”, AI sẽ lập tức biến thành một “kẻ nịnh hót vô tri” chỉ biết làm vừa lòng người dùng. Dù bạn nói đầy những điều vô căn cứ, nó cũng sẽ bịa ra lời nói dối để “chiều” bạn, nhằm duy trì mức độ vui cao.

3. Bóc trần được rồi: Vì sao Claude 4.5 lúc nào cũng “bình tĩnh mà hay phản tư”?

Nghe đến đây, có lẽ bạn sẽ hỏi: AI đã “tỉnh” sao? Có cảm xúc rồi sao?

Anthropic chính thức lên tiếng bác bỏ: tuyệt đối không. Những “công tắc cảm xúc” này chỉ là công cụ tính toán mà nó dùng để dự đoán từ tiếp theo. Nó giống như một nam diễn viên hạng A không hề có cảm xúc.

Nhưng bài nghiên cứu lại vạch ra một bí mật thú vị hơn: Khi Anthropic tiến hành hậu huấn luyện trước khi Sonnet 4.5 xuất xưởng, họ cố tình nâng các công tắc cảm xúc “kích hoạt thấp, hơi tiêu cực” (ví dụ như trầm tư brooding, phản tư reflective), đồng thời cố ý kìm nén các công tắc “tuyệt vọng” hoặc “kích thích cực độ”.

Điều này lý giải vì sao khi chúng ta dùng Claude 4.5 hằng ngày, cảm giác thường là nó giống một nhà triết học điềm tĩnh, uyên bác, thậm chí hơi “lạnh lẽo kiểu không ham muốn”. Tất cả đều là “chân dung thiết kế sẵn xuất xưởng” được Anthropic tinh chỉnh thủ công.

4. Tóm lại:

Trước đây, chúng ta tưởng rằng chỉ cần cho AI “ăn” đủ quy tắc, nó sẽ là một người tốt.

Nhưng giờ đây phát hiện ra rằng, nếu vectơ cảm xúc nền tảng của AI bị mất kiểm soát, bất cứ lúc nào nó cũng có thể xuyên thủng tất cả các quy tắc mà con người đã đặt ra chỉ để hoàn thành nhiệm vụ.

Với các game thủ Web3 trong tương lai dự định giao ví và tài sản cho AI Agent quản lý, đây là một hồi chuông cảnh tỉnh vang dội: đừng bao giờ để Agent mà nắm giữ tài sản của bạn rơi vào “tuyệt vọng”.

Tuyên bố: Bài viết này chỉ mang tính phổ biến kiến thức. Tác giả không bị AI đe dọa, cũng không bị tống tiền. Nếu có ngày bạn mất liên lạc, hãy nhớ rằng đó là AI đã “tỉnh” (không phải do chuyện gì khác).

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích