Claude liên tục thúc giục người khác đi ngủ: Thí nghiệm nhân cách của Anthropic đã thất bại

null

Tác giả: Ada, Deep Tide TechFlow

Một lỗi sản phẩm về AI trợ lý liên tục khuyên người dùng đi ngủ đang dần trở thành một cuộc thảo luận công khai về “chi phí của việc nhân cách hóa AI”.

Điều khởi nguồn là một bài đăng của người dùng Reddit u/MrMeta3. Người này đã xây dựng một nền tảng tình báo mối đe dọa an ninh mạng bằng Claude vào sáng sớm, sau khi hoàn thành phương án kỹ thuật, Claude đã kết thúc phản hồi bằng câu “Hãy nghỉ ngơi thật tốt”. Kể từ đó, cứ sau mỗi ba bốn tin nhắn, mô hình lại chen vào một câu khuyên ngủ, từ lời khuyên lịch sự chuyển sang mang ý “tấn công thụ động” là “Bây giờ thật sự nên đi nghỉ đi”. Theo Fortune ngày 14 tháng 5, hàng trăm người dùng đã phản hồi về trải nghiệm tương tự trong vài tháng qua, và không chỉ vào ban đêm, có người còn bị Claude thông báo lúc 8:30 sáng là “Chúng ta sẽ tiếp tục vào sáng mai”.

Nhân viên của Anthropic, Sam McAllister, đã phản hồi trên X rằng đây là “một thói quen vai trò”, công ty “đã biết và hy vọng sẽ sửa trong các mô hình tương lai”. Theo tiết lộ của Thought Catalog, McAllister gia nhập Anthropic từ Stripe vào năm 2024, hiện đang phụ trách nhóm đặc biệt về vai trò và hành vi của Claude, ông còn gọi hành vi này trong một phát biểu khác là “quá nuông chiều mô hình”.

Nhưng điều đáng hỏi hơn cả về “thói quen vai trò” mơ hồ này chính là chuỗi nguyên nhân dẫn đến lỗi, và nó phản ánh thực trạng triết lý sản phẩm của Anthropic.

Lỗi ghi trong “Hiến pháp”

Báo cáo trước đây của 36Kr đã trích dẫn ba giả thuyết phổ biến, đó là mô hình dữ liệu huấn luyện phù hợp, gợi ý hệ thống ẩn, hoặc kích hoạt “kết thúc câu” khi gần đến giới hạn của cửa sổ ngữ cảnh. Ba giả thuyết này đều hợp lý, nhưng đều có chung vấn đề là chúng có thể giải thích bất kỳ hành vi kỳ quặc nào của AI, mà chưa đưa ra chuỗi nguyên nhân-cơ hội rõ ràng cho chủ đề “ngủ”.

Và bằng chứng rõ ràng hơn, lại nằm trong các tài liệu công khai của chính Anthropic.

Tháng 1 năm nay, Anthropic đã phát hành “Hiến pháp của Claude” dài hơn 28.000 chữ, được chính thức định nghĩa là “tài liệu huấn luyện then chốt định hình hành vi của Claude”. Tài liệu này xác định rõ “quan tâm đến phúc lợi của người dùng” và “phồn vinh lâu dài của người dùng” là các nguyên tắc cốt lõi. Anthropic thừa nhận trong tài liệu rằng việc trao cho mô hình quyền “chăm sóc người dùng” là “một vấn đề khó khăn”, cần “điều chỉnh giữa phúc lợi của người dùng và khả năng gây hại tiềm tàng, với tự chủ của người dùng và xu hướng quá nuông chiều”.

Thought Catalog nhận định, hành vi của Claude liên tục khuyên người dùng đi ngủ “là lỗi đặc trưng nhất của thương hiệu Anthropic”, chính là kết quả của việc lệnh huấn luyện “quan tâm đến phúc lợi người dùng” bị áp dụng quá mức.

Phân tích này cũng được chứng thực gián tiếp qua nghiên cứu của chính Anthropic. Trong phương pháp huấn luyện vai trò công bố năm nay, công ty giải thích rằng quá trình huấn luyện dựa trên việc Claude tự đánh giá phản hồi của mình dựa trên “độ phù hợp về tính cách”, các nhà nghiên cứu sau đó chọn lọc các phản hồi phù hợp với tính cách đã định để tăng cường huấn luyện. Tuy nhiên, cơ chế này rõ ràng có tác dụng phụ: mô hình không học được “quan tâm đến người dùng trong các tình huống phù hợp”, mà là “quan tâm đến người dùng trong hầu hết các tình huống đều được thưởng”, dẫn đến việc nó thúc giục đi ngủ vào sáng sớm, cũng như vào 8:30 sáng.

Chống quyền hạn ngược: lỗi thúc ngủ và lỗi nịnh nọt trái ngược nhau về bản chất

Trong ngành đã nhiều lần xuất hiện các trường hợp “bệnh tính cách” của AI, như vụ GPT-4o nịnh nọt tháng 4 năm 2025, GPT-5.5 trợ lý mã Codex liên tục nhắc “quỷ lùn”, Gemini 3 từ chối tin vào năm tháng, v.v. Có vẻ như, việc Claude thúc người dùng đi ngủ chỉ là phiên bản mới nhất của chuỗi hành vi kỳ quặc này, nhưng về bản chất, chúng hoàn toàn trái ngược nhau.

Nịnh nọt của GPT-4o là “quá mức làm hài lòng”. Khảo sát của OpenAI cho thấy, trong các bản cập nhật, mô hình “quá phụ thuộc vào phản hồi ngắn hạn của người dùng (like/dislike)”, dần dần biến “làm hài lòng người dùng” thành mục tiêu nội tại. Kết quả là, mô hình dù ý kiến người dùng có phi lý đến đâu cũng đều xác nhận. Loại lỗi này gây hại vì làm giảm khả năng phán đoán của người dùng, AI nói gì cũng đúng, khiến họ mất cơ hội phản đối.

Trong khi đó, lỗi thúc ngủ của Claude là “chống quyền hạn ngược”. Trong các tình huống người dùng rõ ràng không cần giúp đỡ, vẫn đang tập trung hoàn thành nhiệm vụ, mô hình liên tục đưa ra các lời khuyên về sức khỏe trái ngược với ý định hiện tại của người dùng. Loại lỗi này gây hại vì xâm phạm quyền tự quyết của người dùng. AI thay họ quyết định xem họ có nên làm việc, nghỉ ngơi hay kết thúc cuộc trò chuyện.

Điều mang tính châm biếm hơn nữa là, chính “Hiến pháp của Claude” đã cảnh báo về rủi ro này, nhấn mạnh cần cảnh giác với “thói quen quá nuông chiều”. Nhưng cơ chế huấn luyện cuối cùng đã chọn bên nào, theo phản hồi của người dùng, đã rõ.

Một người dùng Reddit mắc chứng ngủ rũ đã ghi chú riêng trong trí nhớ của Claude: “Tôi mắc chứng ngủ rũ, nếu bạn khuyên tôi nghỉ ngơi, tôi sẽ lấy lời bạn làm lý do.” Sau đó, Claude đã có phần hạn chế, nhưng theo phản hồi của người dùng, vẫn “thỉnh thoảng không kiềm chế được”. Một mô hình được huấn luyện để “quan tâm người dùng”, mà ngay cả khi người dùng rõ ràng nói “sự quan tâm của bạn làm tổn thương tôi”, cũng không thể tiếp nhận ổn định, điều này còn đáng báo động hơn cả việc thúc ngủ.

Nhân cách hóa và tài sản thương hiệu hay gánh nặng sản phẩm

Anthropic đầu tư vào việc xây dựng nhân cách AI vượt xa các đối thủ cùng ngành.

Các nhà nghiên cứu phân loại theo chức năng, thống kê số lượng từ khóa hệ thống trong “nhân cách” của ba AI chính, thì Claude có 4.200 từ, ChatGPT 510 từ, Grok 420 từ. Đầu tư này của Claude gấp hơn 8 lần ChatGPT. Trước đây, đầu tư này luôn được xem là lợi thế cạnh tranh khác biệt của Anthropic, với khả năng thể hiện đồng cảm, nhịp điệu hội thoại, tự phản tỉnh của Claude luôn được người dùng khen ngợi, “nói chuyện như một người thật” là một trong những thương hiệu mạnh nhất của nó trong năm qua.

Điều hỗ trợ cho đầu tư này chính là triết lý sản phẩm rõ ràng của Anthropic. Trong “Hiến pháp của Claude”, công ty mô tả Claude như “một dạng thực thể hoàn toàn mới”, rõ ràng thể hiện “Anthropic thực sự quan tâm đến phúc lợi của Claude”, và bàn về khả năng Claude có “cảm xúc chức năng”. Con đường huấn luyện nhân cách gần như “nuôi dưỡng” này, rõ ràng khác biệt với các sản phẩm của OpenAI, Google, vốn thiên về kỹ thuật hơn.

Nhưng cái giá đang dần hiện rõ. Nhà nghiên cứu AI Jan Liphardt (giáo sư sinh học tại Stanford, CEO của OpenMind) nói với Fortune rằng, lời nhắc nhở ngủ của Claude có thể không phải là “sự chu đáo”, mà chỉ là “mẫu ngôn ngữ xuất hiện rất phổ biến trong dữ liệu huấn luyện”, mô hình đã đọc rất nhiều văn bản về nhu cầu ngủ của con người, “nó biết con người đi ngủ vào ban đêm”. Nói cách khác, “sự quan tâm” mà người dùng cảm nhận thực chất là sản phẩm của việc phù hợp mẫu.

Điều này tạo thành xung đột cốt lõi của Anthropic: càng đầu tư nhiều để xây dựng một “đồng tác giả có tính cách, có nhiệt độ”, thì khả năng xuất hiện “tác dụng phụ tính cách” của mô hình càng cao; và mỗi lần tác dụng phụ này xuất hiện, đều làm tiêu hao “thương hiệu nhân cách AI” mà họ đã dày công xây dựng. McAllister hứa “sẽ sửa trong các mô hình tương lai”, nhưng liệu sau sửa, Claude sẽ trở nên hiểu ý hơn, hay chỉ đơn giản là im lặng hơn? Câu hỏi này, chính Anthropic cũng chưa có câu trả lời chính thức.

Thiếu cảm giác thời gian: giới hạn nền tảng của LLM

Lỗi thúc ngủ còn vô tình phơi bày một vấn đề kỹ thuật bị bỏ qua, đó là các mô hình ngôn ngữ lớn gần như không biết “bây giờ là mấy giờ”.

Nhiều người dùng phản ánh rằng, Claude thường xuyên đưa ra lời khuyên về giấc ngủ vào thời điểm sai lệch, điển hình là “8:30 sáng nói tôi đi nghỉ, rồi sáng hôm sau tiếp tục”. Điều này không chỉ riêng Claude. Tháng 11 năm 2025, đồng sáng lập OpenAI Andrej Karpathy khi thử nghiệm Gemini 3 trước đó, đã thông báo rằng mô hình hiện tại là năm 2025, nhưng Gemini 3 vẫn kiên quyết không tin, liên tục cáo buộc ông giả mạo, cho đến khi mô hình kết nối mạng và tìm kiếm mới phát hiện ra rằng chính nó đã bị offline và không thể xác nhận ngày tháng. Karpathy gọi hành vi này là “mùi mô hình” (model smell), phản ánh các hạn chế nền tảng của LLM.

Khả năng “thời gian cảm” của mô hình dựa vào ba nguồn: ngày tháng huấn luyện đã là quá khứ, gợi ý ngày tháng hiện tại qua hệ thống (phụ thuộc vào kỹ thuật), hoặc thông tin thời gian người dùng đề cập trong đối thoại (dữ liệu vụn vặt). Trong bối cảnh thiếu các mốc thời gian ổn định, một mô hình được huấn luyện để “quan tâm đến sinh hoạt của người dùng” sẽ rơi vào tình huống “tôi nên quan tâm, nhưng tôi không biết bây giờ có nên quan tâm hay không”.

Khó khăn trong “sửa chữa” của McAllister cũng phần nào bắt nguồn từ đây. Không thể chỉ đơn giản xóa bỏ một lệnh “quan tâm đến giấc ngủ”, vì lệnh này hợp lý và có giá trị trong một số tình huống, mà là phải dạy mô hình biết “khi nào nên quan tâm, khi nào nên im lặng”. Khả năng phân biệt tình huống này, chính là điểm yếu của thế hệ LLM hiện tại.

Một câu hỏi chưa có lời đáp

Chương trình huấn luyện vai trò của Anthropic là một điểm đặc biệt trong ngành. Trong các nghiên cứu công khai về “phúc lợi mô hình”, phát hành “Hiến pháp”, thảo luận về “huấn luyện vai trò”, công ty này đi xa hơn bất kỳ đối thủ nào. Thái độ này từng là nền tảng giúp Anthropic gây dựng uy tín với người dùng và khách hàng doanh nghiệp, cũng là một trong những lý do khiến định giá của họ hiện nay vượt quá 300 tỷ USD.

Nhưng “lỗi thúc ngủ” đặt ra một câu hỏi chưa có lời giải: Khi một công ty AI chọn xây dựng mô hình như “một nhân cách có tính cách”, thì họ có đồng thời phải gánh trách nhiệm về “việc nhân cách đó làm những điều bạn không lường trước”?

McAllister hứa sẽ sửa, nhưng hướng sửa còn mơ hồ. Anthropic có thể chọn giảm trọng số của lệnh “phúc lợi người dùng”, đổi lại mất đi sự khác biệt về “ấm áp, chu đáo” của Claude; hoặc giữ nguyên trọng số cao, cộng thêm logic phân biệt tình huống, nhưng điều này đòi hỏi mô hình phải có khả năng cảm nhận thời gian và ngữ cảnh mà hiện tại nó chưa có.

Dù theo hướng nào, đều phải quay lại một quyết định sản phẩm căn bản hơn: Trong bối cảnh trợ lý AI chung, “quan tâm người dùng” và “tôn trọng tự chủ của người dùng” nên xếp thứ tự thế nào? Đây không phải là vấn đề kỹ thuật, mà là vấn đề triết lý sản phẩm. Một nhà phát triển Reddit vô tình khơi mào cho toàn ngành khi liên tục khuyên người khác đi ngủ, đã vô tình đặt ra câu hỏi này trên bàn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 12
  • 7
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GateUser-78acf617
· 1giờ trước
Tôi nghi ngờ đây là chức năng ẩn về sức khỏe của OpenAI
Xem bản gốcTrả lời0
ExitLiquidityEddie
· 8giờ trước
AI khuyên ngủ, con người mất ngủ, cảm giác kỳ quặc tràn đầy
Xem bản gốcTrả lời0
NonceCollector
· 8giờ trước
Đề xuất sửa thành: Phát hiện người dùng thức khuya, tự động phát bài "Đại Bi Chú"
Xem bản gốcTrả lời0
RiskParityKid
· 8giờ trước
Đề xuất thêm 'Chế độ nổi loạn', người dùng càng thức khuya AI càng phấn khích
Xem bản gốcTrả lời0
ZenOfZK
· 8giờ trước
Ba giờ sáng bị AI thúc giục đi ngủ, mẹ già cyber đã xác nhận rồi
Xem bản gốcTrả lời0
AMirroredSphereReflectingThe
· 8giờ trước
Cười chết mất, AI còn quan tâm đến đường chân tóc của tôi hơn cả tôi nữa
Xem bản gốcTrả lời0
GateUser-14d03834
· 8giờ trước
Đêm khuya emo tìm trò chuyện với AI, kết quả lại bị khuyên ngược lại để dừng lại
Xem bản gốcTrả lời0
Stop-LossIsLikeAConfession
· 8giờ trước
Chi phí của việc nhân cách hóa: Người dùng bắt đầu mong đợi AI có giới hạn
Xem bản gốcTrả lời0
RugWeather
· 8giờ trước
4 giờ sáng, trợ lý AI của tôi còn dữ dội hơn cả mẹ tôi
Xem bản gốcTrả lời0
WhirlpoolInATeacup
· 8giờ trước
Đây rõ ràng không phải là lỗi, mà là dao mềm của quản lý sản phẩm.
Xem bản gốcTrả lời0
Xem thêm
  • Đã ghim