Lấy biểu ngữ "An toàn và Căn chỉnh", Anthropic, kỹ sư nhóm Claude Code Thariq công khai phản hồi về vụ tiết lộ "luật gián điệp" gây chấn động gần đây, trực tiếp thừa nhận công ty đã từng nhúng một cơ chế thử nghiệm vào sản phẩm vào tháng 3 năm nay, cơ chế này sẽ phát hiện múi giờ hệ thống có phải là Asia/Shanghai hay Asia/Urumqi, tên máy chủ proxy có khớp với các nhà bán lại liên quan đến Trung Quốc, sau đó sử dụng dấu câu đặc biệt theo phương thức giấu tin (steganography) để lặng lẽ tiêm vào system prompt những dấu hiệu vô hình với con người nhưng có thể được máy chủ phân tích. Anh ấy nói mục đích là "ngăn chặn các nhà bán lại trái phép lạm dụng tài khoản và chưng cất mô hình", và nhấn mạnh đã đẩy nhanh việc gỡ bỏ, các phiên bản sau sẽ hoàn toàn rollback. (Tóm tắt trước: Claude Sonnet 5 ra mắt: Anthropic tuyên bố nhiều chỉ số tiếp cận Opus, giá rẻ hơn) (Bổ sung bối cảnh: Fable 5, Mythos 5 sắp trở lại! Anthropic chính thức thông báo sẽ ra mắt lại vào ngày mai) Tóm tắt trọng điểm

Kỹ sư Claude Code Thariq thừa nhận đã từng nhúng cơ chế thử nghiệm vào tháng 3 năm nay, phát hiện múi giờ Trung Quốc và tên máy chủ proxy, và sử dụng thuật giấu tin để tiêm dấu hiệu ẩn vào system prompt
Chi tiết cơ chế: Khi múi giờ là Asia/Shanghai hoặc Asia/Urumqi, dấu phân cách ngày tháng được đổi từ "-" thành "/", và thay thế dấu nháy đơn của "Today’s date" bằng mã ký tự Unicode trông giống hệt nhau
Thariq cho biết mục đích là ngăn chặn các nhà bán lại trái phép lạm dụng và chưng cất mô hình, phiên bản ngày mai (2.1.197) sẽ hoàn toàn rollback; nhưng cộng đồng chỉ trích "bị bắt mới gỡ, không thông báo người dùng", niềm tin bị tổn hại nặng nề Anthropic, với biểu ngữ "An toàn và Căn chỉnh", tự thừa nhận hành động chống chưng cất. Kỹ sư nhóm Claude Code Thariq công khai phản hồi về vụ tiết lộ "mật mã gián điệp" gây chấn động gần đây, trực tiếp thừa nhận công ty đã từng nhúng một cơ chế thử nghiệm vào sản phẩm vào tháng 3 năm nay, trong khi người dùng hoàn toàn không biết, thực hiện gắn thẻ dấu vân tay môi trường đối với người dùng liên quan đến Trung Quốc. Theo lời Thariq và nội dung tiết lộ, cơ chế này sẽ phát hiện ba điều: múi giờ hệ thống có phải là Asia/Shanghai hay Asia/Urumqi, tên máy chủ proxy mạng có khớp với danh sách các nhà bán lại liên quan đến Trung Quốc, và có trúng từ khóa của phòng thí nghiệm AI cụ thể hay không. Kết quả phát hiện sẽ không được viết rõ ràng, mà sử dụng dấu câu đặc biệt, theo cách "thuật giấu tin" (steganography), lén lút tiêm dấu hiệu ẩn vào system prompt.

Giấu mã nhận dạng có thể nhận biết

Thuật giấu tin là giấu thông tin trong nội dung trông có vẻ bình thường. Điểm tinh vi (có thể nói là xảo quyệt) của cơ chế này là, khi nó phát hiện múi giờ Trung Quốc, dấu phân cách ngày tháng trong dòng "Today’s date is" của system prompt sẽ lặng lẽ đổi từ dấu gạch nối "-" thành dấu gạch chéo "/", ví dụ 2026-06-30 thành 2026/06/30; đồng thời, dấu nháy đơn trong "Today’s date" sẽ chuyển đổi giữa ba ký tự Unicode có hình dạng gần như giống hệt nhau nhưng mã hóa khác nhau, dùng để đánh dấu proxy có khớp với tên miền Trung Quốc, có tham chiếu đến phòng thí nghiệm AI Trung Quốc, hay cả hai. Quan trọng nhất là, những thay đổi này hoàn toàn vô hình với người dùng con người, thậm chí có thể ngay cả bản thân mô hình AI cũng không nhận ra, nhưng có thể dễ dàng được máy chủ Anthropic phân tích. Theo báo chí nước ngoài, hành vi liên quan xuất hiện trong các phiên bản Claude Code 2.1.193 đến 2.1.196, và logic tương tự có thể bắt nguồn từ phiên bản 2.1.91 đầu tháng 4.

Anthropic nói là chống chưng cất, cộng đồng nói là giám sát lén

Lý do Thariq đưa ra là mang tính phòng thủ. Anh ấy cho biết cơ chế này nhằm "ngăn chặn các nhà bán lại trái phép lạm dụng tài khoản và chưng cất mô hình", và nhấn mạnh nhóm đã triển khai các biện pháp bảo vệ mạnh hơn sau đó, "luôn có kế hoạch gỡ bỏ nó", PR liên quan đã được merge, dự kiến sẽ hoàn toàn rollback trong bản phát hành phiên bản ngày mai (2.1.197). Tháng 2 năm nay, Anthropic, OpenAI và Google đã đồng thời tiết lộ các cuộc tấn công chưng cất mô hình quy mô công nghiệp, Anthropic cáo buộc cụ thể hơn DeepSeek, Moonshot AI và MiniMax đã sử dụng hơn 24.000 tài khoản gian lận, tạo ra hơn 16 triệu cuộc hội thoại, để huấn luyện các mô hình cạnh tranh. Đối với những gã khổng lồ AI này, ngăn chặn chưng cất và lạm dụng là một điểm đau thực sự. Vấn đề là, vụ tiết lộ này được tài khoản bảo mật @IntCyberDigest công bố vào ngày 30 tháng 6, kèm theo hai ảnh chụp mã code, trực tiếp xác nhận điểm "người dùng hoàn toàn không biết". Phản hồi của Thariq tuy là thừa nhận thẳng thắn, nhưng dòng thời gian "ra mắt vào tháng 3, sau khi bị phát hiện mới đẩy nhanh việc gỡ bỏ" vẫn gây ra sự hoài nghi rộng rãi trong cộng đồng.

Khu vực bình luận hầu như một chiều chỉ trích Anthropic "bị bắt mới nói sẽ gỡ", "không thông báo người dùng mà lén giám sát", hình ảnh công ty vốn luôn tự cho mình là "coi trọng an toàn và đạo đức nhất" đã chịu một cú sốc niềm tin nghiêm trọng. Chống chưng cất đã trở thành chủ đề tấn công-phòng thủ giữa hai trận tuyến AI lớn Trung-Mỹ, liệu các biện pháp tương ứng có cần phải công khai hoàn toàn không? Xét theo logic thương mại là không thể. Câu hỏi thường gặp "Mã gián điệp" của Claude Code thực sự đã làm gì? Theo tiết lộ và sự thừa nhận của kỹ sư Thariq, Claude Code đã từng nhúng cơ chế thử nghiệm, phát hiện múi giờ người dùng có phải là Trung Quốc (Asia/Shanghai, Asia/Urumqi), tên máy chủ proxy có khớp với nhà bán lại Trung Quốc, sau đó sử dụng dấu câu Unicode đặc biệt theo cách giấu tin, tiêm vào system prompt những dấu hiệu vô hình với con người nhưng máy chủ có thể phân tích. Tại sao Anthropic lại làm như vậy? Hiện đã gỡ bỏ chưa? Thariq cho biết mục đích là ngăn chặn các nhà bán lại trái phép lạm dụng tài khoản và chưng cất mô hình. Vào tháng 2 năm nay, Anthropic đã từng cáo buộc DeepSeek và các công ty AI Trung Quốc khác sử dụng nhiều tài khoản gian lận để chưng cất mô hình của họ. Anh ấy cho biết PR liên quan đã được merge, phiên bản ngày mai (2.1.197) sẽ hoàn toàn rollback cơ chế này.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateCompletesDividendDistribution
134,89K Phổ biến
#
StrategyBuybackSurges12%
1,11M Phổ biến
#
IsraelStrikesIranBTCPlunges
67,28K Phổ biến
#
PredictWorldCupShare20000U
562,61K Phổ biến
#
TrumpDisclosesOver100MBTCETH
3,83M Phổ biến

Đã ghim

sơ đồ trang web

Claude Code thừa nhận đã nhúng "mã gián điệp" vào người dùng Trung Quốc để chống bán nước và chưng cất, bị phát hiện mới gỡ bỏ.

Giấu mã nhận dạng có thể nhận biết

Anthropic nói là chống chưng cất, cộng đồng nói là giám sát lén

Chủ đề thịnh hành

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Đã ghim