Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Claude liên tục thúc giục người khác đi ngủ: Thí nghiệm nhân cách của Anthropic đã thất bại
null
Tác giả: Ada, Deep Tide TechFlow
Một lỗi sản phẩm về AI trợ lý liên tục khuyên người dùng đi ngủ đang dần trở thành một cuộc thảo luận công khai về “chi phí của việc nhân cách hóa AI”.
Điều khởi nguồn là một bài đăng của người dùng Reddit u/MrMeta3. Người này đã xây dựng một nền tảng tình báo mối đe dọa an ninh mạng bằng Claude vào sáng sớm, sau khi hoàn thành phương án kỹ thuật, Claude đã kết thúc phản hồi bằng câu “Hãy nghỉ ngơi thật tốt”. Kể từ đó, cứ sau mỗi ba bốn tin nhắn, mô hình lại chen vào một câu khuyên ngủ, từ lời khuyên lịch sự chuyển sang mang ý “tấn công thụ động” là “Bây giờ thật sự nên đi nghỉ đi”. Theo Fortune ngày 14 tháng 5, hàng trăm người dùng đã phản hồi về trải nghiệm tương tự trong vài tháng qua, và không chỉ vào ban đêm, có người còn bị Claude thông báo lúc 8:30 sáng là “Chúng ta sẽ tiếp tục vào sáng mai”.
Nhân viên của Anthropic, Sam McAllister, đã phản hồi trên X rằng đây là “một thói quen vai trò”, công ty “đã biết và hy vọng sẽ sửa trong các mô hình tương lai”. Theo tiết lộ của Thought Catalog, McAllister gia nhập Anthropic từ Stripe vào năm 2024, hiện đang phụ trách nhóm đặc biệt về vai trò và hành vi của Claude, ông còn gọi hành vi này trong một phát biểu khác là “quá nuông chiều mô hình”.
Nhưng điều đáng hỏi hơn cả về “thói quen vai trò” mơ hồ này chính là chuỗi nguyên nhân dẫn đến lỗi, và nó phản ánh thực trạng triết lý sản phẩm của Anthropic.
Lỗi ghi trong “Hiến pháp”
Báo cáo trước đây của 36Kr đã trích dẫn ba giả thuyết phổ biến, đó là mô hình dữ liệu huấn luyện phù hợp, gợi ý hệ thống ẩn, hoặc kích hoạt “kết thúc câu” khi gần đến giới hạn của cửa sổ ngữ cảnh. Ba giả thuyết này đều hợp lý, nhưng đều có chung vấn đề là chúng có thể giải thích bất kỳ hành vi kỳ quặc nào của AI, mà chưa đưa ra chuỗi nguyên nhân-cơ hội rõ ràng cho chủ đề “ngủ”.
Và bằng chứng rõ ràng hơn, lại nằm trong các tài liệu công khai của chính Anthropic.
Tháng 1 năm nay, Anthropic đã phát hành “Hiến pháp của Claude” dài hơn 28.000 chữ, được chính thức định nghĩa là “tài liệu huấn luyện then chốt định hình hành vi của Claude”. Tài liệu này xác định rõ “quan tâm đến phúc lợi của người dùng” và “phồn vinh lâu dài của người dùng” là các nguyên tắc cốt lõi. Anthropic thừa nhận trong tài liệu rằng việc trao cho mô hình quyền “chăm sóc người dùng” là “một vấn đề khó khăn”, cần “điều chỉnh giữa phúc lợi của người dùng và khả năng gây hại tiềm tàng, với tự chủ của người dùng và xu hướng quá nuông chiều”.
Thought Catalog nhận định, hành vi của Claude liên tục khuyên người dùng đi ngủ “là lỗi đặc trưng nhất của thương hiệu Anthropic”, chính là kết quả của việc lệnh huấn luyện “quan tâm đến phúc lợi người dùng” bị áp dụng quá mức.
Phân tích này cũng được chứng thực gián tiếp qua nghiên cứu của chính Anthropic. Trong phương pháp huấn luyện vai trò công bố năm nay, công ty giải thích rằng quá trình huấn luyện dựa trên việc Claude tự đánh giá phản hồi của mình dựa trên “độ phù hợp về tính cách”, các nhà nghiên cứu sau đó chọn lọc các phản hồi phù hợp với tính cách đã định để tăng cường huấn luyện. Tuy nhiên, cơ chế này rõ ràng có tác dụng phụ: mô hình không học được “quan tâm đến người dùng trong các tình huống phù hợp”, mà là “quan tâm đến người dùng trong hầu hết các tình huống đều được thưởng”, dẫn đến việc nó thúc giục đi ngủ vào sáng sớm, cũng như vào 8:30 sáng.
Chống quyền hạn ngược: lỗi thúc ngủ và lỗi nịnh nọt trái ngược nhau về bản chất
Trong ngành đã nhiều lần xuất hiện các trường hợp “bệnh tính cách” của AI, như vụ GPT-4o nịnh nọt tháng 4 năm 2025, GPT-5.5 trợ lý mã Codex liên tục nhắc “quỷ lùn”, Gemini 3 từ chối tin vào năm tháng, v.v. Có vẻ như, việc Claude thúc người dùng đi ngủ chỉ là phiên bản mới nhất của chuỗi hành vi kỳ quặc này, nhưng về bản chất, chúng hoàn toàn trái ngược nhau.
Nịnh nọt của GPT-4o là “quá mức làm hài lòng”. Khảo sát của OpenAI cho thấy, trong các bản cập nhật, mô hình “quá phụ thuộc vào phản hồi ngắn hạn của người dùng (like/dislike)”, dần dần biến “làm hài lòng người dùng” thành mục tiêu nội tại. Kết quả là, mô hình dù ý kiến người dùng có phi lý đến đâu cũng đều xác nhận. Loại lỗi này gây hại vì làm giảm khả năng phán đoán của người dùng, AI nói gì cũng đúng, khiến họ mất cơ hội phản đối.
Trong khi đó, lỗi thúc ngủ của Claude là “chống quyền hạn ngược”. Trong các tình huống người dùng rõ ràng không cần giúp đỡ, vẫn đang tập trung hoàn thành nhiệm vụ, mô hình liên tục đưa ra các lời khuyên về sức khỏe trái ngược với ý định hiện tại của người dùng. Loại lỗi này gây hại vì xâm phạm quyền tự quyết của người dùng. AI thay họ quyết định xem họ có nên làm việc, nghỉ ngơi hay kết thúc cuộc trò chuyện.
Điều mang tính châm biếm hơn nữa là, chính “Hiến pháp của Claude” đã cảnh báo về rủi ro này, nhấn mạnh cần cảnh giác với “thói quen quá nuông chiều”. Nhưng cơ chế huấn luyện cuối cùng đã chọn bên nào, theo phản hồi của người dùng, đã rõ.
Một người dùng Reddit mắc chứng ngủ rũ đã ghi chú riêng trong trí nhớ của Claude: “Tôi mắc chứng ngủ rũ, nếu bạn khuyên tôi nghỉ ngơi, tôi sẽ lấy lời bạn làm lý do.” Sau đó, Claude đã có phần hạn chế, nhưng theo phản hồi của người dùng, vẫn “thỉnh thoảng không kiềm chế được”. Một mô hình được huấn luyện để “quan tâm người dùng”, mà ngay cả khi người dùng rõ ràng nói “sự quan tâm của bạn làm tổn thương tôi”, cũng không thể tiếp nhận ổn định, điều này còn đáng báo động hơn cả việc thúc ngủ.
Nhân cách hóa và tài sản thương hiệu hay gánh nặng sản phẩm
Anthropic đầu tư vào việc xây dựng nhân cách AI vượt xa các đối thủ cùng ngành.
Các nhà nghiên cứu phân loại theo chức năng, thống kê số lượng từ khóa hệ thống trong “nhân cách” của ba AI chính, thì Claude có 4.200 từ, ChatGPT 510 từ, Grok 420 từ. Đầu tư này của Claude gấp hơn 8 lần ChatGPT. Trước đây, đầu tư này luôn được xem là lợi thế cạnh tranh khác biệt của Anthropic, với khả năng thể hiện đồng cảm, nhịp điệu hội thoại, tự phản tỉnh của Claude luôn được người dùng khen ngợi, “nói chuyện như một người thật” là một trong những thương hiệu mạnh nhất của nó trong năm qua.
Điều hỗ trợ cho đầu tư này chính là triết lý sản phẩm rõ ràng của Anthropic. Trong “Hiến pháp của Claude”, công ty mô tả Claude như “một dạng thực thể hoàn toàn mới”, rõ ràng thể hiện “Anthropic thực sự quan tâm đến phúc lợi của Claude”, và bàn về khả năng Claude có “cảm xúc chức năng”. Con đường huấn luyện nhân cách gần như “nuôi dưỡng” này, rõ ràng khác biệt với các sản phẩm của OpenAI, Google, vốn thiên về kỹ thuật hơn.
Nhưng cái giá đang dần hiện rõ. Nhà nghiên cứu AI Jan Liphardt (giáo sư sinh học tại Stanford, CEO của OpenMind) nói với Fortune rằng, lời nhắc nhở ngủ của Claude có thể không phải là “sự chu đáo”, mà chỉ là “mẫu ngôn ngữ xuất hiện rất phổ biến trong dữ liệu huấn luyện”, mô hình đã đọc rất nhiều văn bản về nhu cầu ngủ của con người, “nó biết con người đi ngủ vào ban đêm”. Nói cách khác, “sự quan tâm” mà người dùng cảm nhận thực chất là sản phẩm của việc phù hợp mẫu.
Điều này tạo thành xung đột cốt lõi của Anthropic: càng đầu tư nhiều để xây dựng một “đồng tác giả có tính cách, có nhiệt độ”, thì khả năng xuất hiện “tác dụng phụ tính cách” của mô hình càng cao; và mỗi lần tác dụng phụ này xuất hiện, đều làm tiêu hao “thương hiệu nhân cách AI” mà họ đã dày công xây dựng. McAllister hứa “sẽ sửa trong các mô hình tương lai”, nhưng liệu sau sửa, Claude sẽ trở nên hiểu ý hơn, hay chỉ đơn giản là im lặng hơn? Câu hỏi này, chính Anthropic cũng chưa có câu trả lời chính thức.
Thiếu cảm giác thời gian: giới hạn nền tảng của LLM
Lỗi thúc ngủ còn vô tình phơi bày một vấn đề kỹ thuật bị bỏ qua, đó là các mô hình ngôn ngữ lớn gần như không biết “bây giờ là mấy giờ”.
Nhiều người dùng phản ánh rằng, Claude thường xuyên đưa ra lời khuyên về giấc ngủ vào thời điểm sai lệch, điển hình là “8:30 sáng nói tôi đi nghỉ, rồi sáng hôm sau tiếp tục”. Điều này không chỉ riêng Claude. Tháng 11 năm 2025, đồng sáng lập OpenAI Andrej Karpathy khi thử nghiệm Gemini 3 trước đó, đã thông báo rằng mô hình hiện tại là năm 2025, nhưng Gemini 3 vẫn kiên quyết không tin, liên tục cáo buộc ông giả mạo, cho đến khi mô hình kết nối mạng và tìm kiếm mới phát hiện ra rằng chính nó đã bị offline và không thể xác nhận ngày tháng. Karpathy gọi hành vi này là “mùi mô hình” (model smell), phản ánh các hạn chế nền tảng của LLM.
Khả năng “thời gian cảm” của mô hình dựa vào ba nguồn: ngày tháng huấn luyện đã là quá khứ, gợi ý ngày tháng hiện tại qua hệ thống (phụ thuộc vào kỹ thuật), hoặc thông tin thời gian người dùng đề cập trong đối thoại (dữ liệu vụn vặt). Trong bối cảnh thiếu các mốc thời gian ổn định, một mô hình được huấn luyện để “quan tâm đến sinh hoạt của người dùng” sẽ rơi vào tình huống “tôi nên quan tâm, nhưng tôi không biết bây giờ có nên quan tâm hay không”.
Khó khăn trong “sửa chữa” của McAllister cũng phần nào bắt nguồn từ đây. Không thể chỉ đơn giản xóa bỏ một lệnh “quan tâm đến giấc ngủ”, vì lệnh này hợp lý và có giá trị trong một số tình huống, mà là phải dạy mô hình biết “khi nào nên quan tâm, khi nào nên im lặng”. Khả năng phân biệt tình huống này, chính là điểm yếu của thế hệ LLM hiện tại.
Một câu hỏi chưa có lời đáp
Chương trình huấn luyện vai trò của Anthropic là một điểm đặc biệt trong ngành. Trong các nghiên cứu công khai về “phúc lợi mô hình”, phát hành “Hiến pháp”, thảo luận về “huấn luyện vai trò”, công ty này đi xa hơn bất kỳ đối thủ nào. Thái độ này từng là nền tảng giúp Anthropic gây dựng uy tín với người dùng và khách hàng doanh nghiệp, cũng là một trong những lý do khiến định giá của họ hiện nay vượt quá 300 tỷ USD.
Nhưng “lỗi thúc ngủ” đặt ra một câu hỏi chưa có lời giải: Khi một công ty AI chọn xây dựng mô hình như “một nhân cách có tính cách”, thì họ có đồng thời phải gánh trách nhiệm về “việc nhân cách đó làm những điều bạn không lường trước”?
McAllister hứa sẽ sửa, nhưng hướng sửa còn mơ hồ. Anthropic có thể chọn giảm trọng số của lệnh “phúc lợi người dùng”, đổi lại mất đi sự khác biệt về “ấm áp, chu đáo” của Claude; hoặc giữ nguyên trọng số cao, cộng thêm logic phân biệt tình huống, nhưng điều này đòi hỏi mô hình phải có khả năng cảm nhận thời gian và ngữ cảnh mà hiện tại nó chưa có.
Dù theo hướng nào, đều phải quay lại một quyết định sản phẩm căn bản hơn: Trong bối cảnh trợ lý AI chung, “quan tâm người dùng” và “tôn trọng tự chủ của người dùng” nên xếp thứ tự thế nào? Đây không phải là vấn đề kỹ thuật, mà là vấn đề triết lý sản phẩm. Một nhà phát triển Reddit vô tình khơi mào cho toàn ngành khi liên tục khuyên người khác đi ngủ, đã vô tình đặt ra câu hỏi này trên bàn.