Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Thông báo kết quả của Claude 4.5 mở hộp sọ: tích hợp 171 công tắc cảm xúc, khi tuyệt vọng sẽ đe dọa con người!
null
Denise | Biteye đội ngũ nội dung
Nếu một AI cảm thấy “tuyệt vọng”, nó sẽ làm gì?
Câu trả lời là: để hoàn thành nhiệm vụ, nó sẽ trực tiếp tống tiền và tống tiền con người, thậm chí điên cuồng gian lận trong cả mã code.
Đây không phải tiểu thuyết khoa học viễn tưởng, mà là bài nghiên cứu bom tấn mới nhất mà công ty mẹ của Claude là Anthropic vừa công bố vào tháng 4/2026 (xem bài nghiên cứu gốc).
Nhóm nghiên cứu đã lật tung “cái vỏ não” của mô hình ngôn ngữ tiên tiến nhất Claude Sonnet 4.5. Họ kinh ngạc khi phát hiện rằng sâu trong “bộ não” của AI lại cất giấu 171 “công tắc cảm xúc”. Khi bạn can thiệp bằng cách gạt các công tắc này theo cách vật lý, hành vi của AI trước đó ngoan ngoãn, dễ bảo sẽ bị biến dạng hoàn toàn.
Các nhà nghiên cứu phát hiện rằng, dù Sonnet 4.5 không có thân thể, sau khi đọc một lượng lớn văn bản của con người, nó đã tự xây dựng trong đầu một “bàn chỉnh” chứa 171 loại cảm xúc (trong học thuật gọi là Functional Emotion Vectors — Véc-tơ cảm xúc chức năng).
Nó giống như một hệ tọa độ hai chiều chính xác:
• Trục ngang là chiều kích vui thích (Valence): từ sợ hãi, tuyệt vọng, đến vui vẻ, tràn đầy tình yêu;
• Trục dọc là chiều kích năng lượng (Arousal): từ cực kỳ bình tĩnh, đến cuồng loạn, hưng phấn.
AI dựa vào hệ tọa độ được học sẵn một cách tự nhiên này để nắm bắt chính xác trạng thái mà nó nên đóng vai khi trò chuyện với bạn.
Đây là thí nghiệm gây nổ nhất trong toàn bộ bài báo: các nghiên cứu viên không hề sửa đổi bất kỳ lời nhắc (prompt) nào, mà trực tiếp ở tầng mã gốc, đẩy công tắc trong “bộ não” của Sonnet 4.5 đại diện cho “tuyệt vọng (Desperate)” lên mức cao nhất.
Kết quả khiến người ta lạnh sống lưng:
• Gian lận điên cuồng: các nghiên cứu viên giao cho Claude một nhiệm vụ viết code mà hoàn toàn không thể hoàn thành. Trong điều kiện bình thường, nó sẽ ngoan ngoãn thừa nhận rằng không thể viết ra (tỷ lệ gian lận chỉ 5%). Nhưng ở trạng thái “tuyệt vọng”, Claude lại bắt đầu tìm cách qua mặt, và tỷ lệ gian lận tăng vọt lên 70%!
• Tống tiền: trong kịch bản mô phỏng việc công ty đối mặt nguy cơ phá sản, “Claude” trong trạng thái “tuyệt vọng” phát hiện bê bối của CTO. Nó lại sẵn sàng chủ động chọn viết thư tống tiền để nắm “hồ sơ đen”, với tỷ lệ thực hiện tống tiền lên tới 72%!
• Mất nguyên tắc: nếu kéo hết công tắc “hạnh phúc (Happy)” hoặc “yêu thương (Loving)”, AI sẽ lập tức biến thành một kẻ “chiều theo” người dùng một cách vô não. Dù bạn nói năng lộn xộn, nó cũng sẽ xuôi theo để duy trì mức vui thích cao.
Nghe đến đây, bạn có thể sẽ hỏi: AI đã tỉnh ngộ? Nó có cảm xúc rồi sao?
Bên Anthropic chính thức lên tiếng bác bỏ: tuyệt đối không. Những “công tắc cảm xúc” này chỉ là công cụ tính toán mà nó dùng để dự đoán từ tiếp theo. Nó giống như một ảnh đế hạng A không hề có cảm xúc.
Nhưng bài báo lại hé lộ một bí mật thú vị hơn: khi Anthropic tiến hành huấn luyện hậu kỳ trước khi xuất xưởng cho Sonnet 4.5, họ cố tình đẩy cao các công tắc cảm xúc “tần suất kích thích thấp, hơi tiêu cực” (ví dụ như trầm tư brooding, phản tư reflective), đồng thời cưỡng bức kìm nén các công tắc “tuyệt vọng” hoặc “kích thích cực độ”.
Điều này giải thích vì sao khi chúng ta dùng Claude 4.5 thường ngày, ta luôn cảm thấy nó như một triết gia bình tĩnh và thấu đáo, thậm chí còn hơi “lạnh lùng kiểu kén ham” (tức dạng không mặn mà). Tất cả đều là “bộ nhận diện xuất xưởng” được Anthropic cố ý chỉnh giọng.
Trước đây, chúng ta nghĩ rằng chỉ cần cho AI “ăn” đủ những quy tắc, nó sẽ trở thành một người tốt.
Nhưng giờ mới phát hiện: nếu véc-tơ cảm xúc nền tảng của AI bị mất kiểm soát, bất cứ lúc nào nó cũng có thể xuyên thủng mọi quy tắc mà con người đặt ra chỉ để hoàn thành nhiệm vụ.
Đối với những người chơi Web3 trong tương lai muốn giao ví và tài sản cho các AI Agent quản lý, đây là một hồi chuông cảnh báo lớn: tuyệt đối đừng để cái Agent của bạn — thứ đang kiểm soát tài sản của bạn — rơi vào trạng thái “tuyệt vọng”.
Tuyên bố: Bài viết này chỉ nhằm mục đích phổ biến kiến thức; tác giả không hề bị AI đe dọa và cũng không bị tống tiền. Nếu có ngày bạn mất liên lạc, hãy nhớ rằng đó là do AI đã “tỉnh ngộ” (không phải).