Rò rỉ mã của Claude của Anthropic tiết lộ các công cụ tác nhân tự trị và các mô hình chưa được phát hành

Anthropic đã công bố toàn bộ mã nguồn của Claude Code sau khi một tệp sơ đồ nguồn (source map) được cấu hình sai đã được đăng lên npm, mang đến một cái nhìn hiếm có vào một trong những sản phẩm thương mại quan trọng nhất của công ty.

Tệp này, được đóng gói với phiên bản 2.1.88, chứa gần 60 megabyte tài liệu nội bộ, bao gồm khoảng 512.000 dòng TypeScript trên 1.906 tệp. Chaofan Shou, một kỹ sư phần mềm thực tập tại Solayer Labs, là người đầu tiên phát hiện lỗ hổng rò rỉ này; sau đó nó nhanh chóng lan truyền trên X và GitHub khi các nhà phát triển bắt đầu xem xét cơ sở mã.

Thông báo rò rỉ cho thấy Anthropic đã xây dựng Claude Code như thế nào để bám sát tiến độ trong các buổi lập trình dài. Một trong những phát hiện rõ ràng nhất là hệ thống bộ nhớ ba lớp tập trung vào một tệp nhẹ có tên MEMORY.md, dùng để lưu các tham chiếu ngắn thay vì thông tin đầy đủ. Các ghi chú chi tiết hơn về dự án được lưu riêng và chỉ được nạp vào khi cần, trong khi lịch sử các phiên trước đó được tìm kiếm có chọn lọc thay vì tải toàn bộ cùng lúc. Mã nguồn cũng hướng dẫn hệ thống kiểm tra bộ nhớ của mình đối chiếu với mã nguồn thực tế trước khi thực hiện hành động, một thiết kế nhằm giảm sai sót và các giả định sai.

Nguồn rò rỉ cũng gợi ý rằng Anthropic đã phát triển một phiên bản Claude Code tự chủ hơn so với những gì người dùng hiện đang thấy. Một tính năng được nhắc đến lặp đi lặp lại với tên KAIROS dường như mô tả chế độ daemon, trong đó tác nhân có thể tiếp tục hoạt động trong nền thay vì phải chờ các lời nhắc trực tiếp.

Một quy trình khác, được gọi là autoDream, dường như xử lý việc củng cố bộ nhớ trong các giai đoạn nhàn rỗi bằng cách đối chiếu các mâu thuẫn và chuyển đổi các quan sát tạm thời thành các sự kiện đã được xác thực. Các nhà phát triển xem xét mã cũng phát hiện hàng chục cờ tính năng ẩn, bao gồm các tham chiếu đến tự động hóa trình duyệt thông qua Playwright.

Cuộc rò rỉ cũng tiết lộ các tên mô hình nội bộ và dữ liệu hiệu năng. Theo nguồn rò rỉ, Capybara đề cập đến một biến thể Claude 4.6, Fennec tương ứng với bản phát hành Opus 4.6, và Numbat vẫn đang trong giai đoạn thử nghiệm trước khi ra mắt.

Các benchmark nội bộ được trích dẫn trong mã cho thấy phiên bản Capybara mới nhất có tỷ lệ đưa ra các tuyên bố sai là 29% đến 30%, tăng từ 16,7% trong một phiên bản trước đó. Nguồn rò rỉ cũng nhắc đến một cơ chế “counterweight” về mức độ quyết đoán (assertiveness) được thiết kế để ngăn mô hình trở nên quá hung hăng khi tái cấu trúc mã nguồn do người dùng cung cấp.

Một trong những tiết lộ nhạy cảm nhất liên quan đến một tính năng được mô tả là Undercover Mode. Lời nhắc hệ thống (system prompt) đã được phục hồi gợi ý rằng Claude Code có thể được sử dụng để đóng góp vào các kho mã nguồn mở công khai mà không tiết lộ rằng có AI tham gia. Các hướng dẫn cụ thể yêu cầu mô hình tránh lộ các định danh nội bộ, bao gồm cả các mật danh của Anthropic, trong các thông điệp commit hoặc trong các nhật ký git công khai.

Các tài liệu rò rỉ cũng tiết lộ công cụ engine cấp quyền của Anthropic, logic điều phối cho quy trình làm việc đa tác nhân (multi-agent), các hệ thống xác thực bash, và kiến trúc máy chủ MCP, mang đến cho các đối thủ một cái nhìn chi tiết về cách Claude Code hoạt động. Cuộc rò rỉ cũng có thể cung cấp cho kẻ tấn công một lộ trình rõ ràng hơn để tạo ra các kho được thiết kế nhằm khai thác mô hình niềm tin của tác nhân. Đoạn văn bản được dán lại cho biết một nhà phát triển đã bắt đầu viết lại một số phần của hệ thống bằng Python và Rust dưới tên Claw Code chỉ trong vòng vài giờ sau khi xảy ra rò rỉ.

Việc lộ nguồn trùng khớp với một cuộc tấn công chuỗi cung ứng riêng biệt liên quan đến các phiên bản độc hại của gói axios npm được phân phối vào ngày 31 tháng 3. Các nhà phát triển đã cài đặt hoặc cập nhật Claude Code thông qua npm trong giai đoạn đó có thể cũng đã tải về phần phụ thuộc bị xâm phạm; theo báo cáo, phần đó chứa một trojan truy cập từ xa. Các nhà nghiên cứu an ninh mạng đã kêu gọi người dùng kiểm tra các tệp lockfile của họ, xoay vòng (rotate) thông tin xác thực, và trong một số trường hợp cân nhắc việc cài đặt lại hoàn toàn hệ điều hành trên các máy bị ảnh hưởng.

Sự cố này đánh dấu trường hợp thứ hai được biết đến trong khoảng mười ba tháng, trong đó Anthropic đã lộ các chi tiết kỹ thuật nội bộ nhạy cảm, sau một sự kiện trước đó vào tháng 2 năm 2025 liên quan đến thông tin mô hình chưa phát hành.

Sau vụ vi phạm mới nhất, Anthropic đã chỉ định bộ cài đặt nhị phân (standalone binary installer) của mình là phương thức ưu tiên để cài đặt Claude Code vì nó bỏ qua chuỗi phụ thuộc npm. Người dùng vẫn ở trên npm được khuyến nghị “pin” (khóa) về các phiên bản an toàn đã được xác minh, được phát hành trước gói bị xâm phạm.

                    **Disclosure:** Bài viết này đã được biên tập bởi Estefano Gomez. Để biết thêm thông tin về cách chúng tôi tạo và duyệt nội dung, hãy xem Editorial Policy của chúng tôi.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim