Anthropic tự tiết lộ mã nguồn và sau đó gửi hơn 8000 yêu cầu rút bỏ bản quyền, hình tượng "An toàn trên hết" gặp phải tuần lễ khó xử nhất

Là Anthropic, doanh nghiệp lấy “AI an toàn” làm cốt lõi thương hiệu, đang trải qua một trong những tuần tồi tệ nhất kể từ khi thành lập.

Tác giả: Deep Tide TechFlow

Do một lần cấu hình sai khi phát hành npm, Anthropic đã vô tình công khai toàn bộ mã nguồn của sản phẩm có lợi nhuận cao nhất của họ là Claude Code. Khoảng 512.000 dòng mã TypeScript đã được hàng chục nghìn nhà phát triển nhân bản, mổ xẻ và dùng AI viết lại thành các phiên bản bằng Python và Rust chỉ trong vài giờ. Ngay sau đó, Anthropic đã gửi yêu cầu gỡ bỏ bản quyền theo DMCA tới GitHub, ảnh hưởng đến khoảng 8.100 kho mã, nhưng do làm “oan” nhiều dự án không liên quan và gây phản ứng mạnh mẽ từ cộng đồng, cuối cùng họ buộc phải rút lại phần lớn yêu cầu, chỉ giữ lại yêu cầu gỡ bỏ đối với 1 kho mã và 96 bản fork. Đây là lần thứ hai trong vòng một tuần của Anthropic xảy ra sự cố rò rỉ nghiêm trọng; cách lần rò rỉ thông tin mô hình Mythos của họ chỉ 5 ngày.

Là Anthropic, doanh nghiệp lấy “AI an toàn” làm cốt lõi thương hiệu, đang trải qua một trong những tuần tồi tệ nhất kể từ khi thành lập.

Theo báo 《The Wall Street Journal》ngày 1 tháng 4, trong một lần cập nhật phiên bản thông thường vào ngày 31 tháng 3, Anthropic do một sai sót thao tác của con người trong quy trình xây dựng đã phát hành mã nguồn hoàn chỉnh của Claude Code cùng với gói npm. Nghiên cứu an ninh Chaofan Shou lúc 4:23 sáng giờ miền Đông đã công khai một liên kết tải xuống trên nền tảng X; lượt xem bài đăng nhanh chóng vượt 21 triệu. Trong vài giờ, mã đã được nhân bản lên GitHub và nhận được hàng chục nghìn lượt sao; một nhà phát triển người Hàn Quốc là Sigrid Jin thậm chí trước khi trời sáng đã dùng công cụ AI để viết lại toàn bộ kho mã thành phiên bản Python. Dự án này trong 2 giờ đã thu về 50.000 lượt sao GitHub và rất có thể lập kỷ lục về mức tăng nhanh nhất trên nền tảng này.

Người phát ngôn của Anthropic xác nhận sự thật về vụ rò rỉ với CNBC, nói rằng: “Đây là một vấn đề đóng gói/phát hành do lỗi con người, không phải lỗ hổng bảo mật. Không có thông tin dữ liệu khách hàng nhạy cảm hoặc thông tin xác thực nào bị liên quan đến hoặc bị lộ ra.”

** Một hạng mục cấu hình bị thiếu đã rò rỉ 512.000 dòng mã nguồn cốt lõi**

Nguyên nhân kỹ thuật của vụ rò rỉ không hề phức tạp. Claude Code được xây dựng dựa trên Bun (công cụ runtime JavaScript mà Anthropic mua lại vào cuối năm 2025); mặc định Bun sẽ tạo file source map để phục vụ debug. Nhóm phát hành khi đẩy gói npm đã không loại trừ file này trong cấu hình .npmignore, khiến một file source map có dung lượng 59,8MB đi kèm theo và được đưa lên cùng phiên bản Claude Code 2.1.88. File này chứa toàn bộ nội dung của khoảng 1.900 file TypeScript nguồn, tổng cộng khoảng 512.000 dòng mã; có thể đọc được, có chú thích, và không hề được xử lý làm mờ hay ngụy trang.

Trưởng nhóm Claude Code là Boris Cherny thừa nhận: “Quy trình triển khai của chúng tôi có một vài bước thủ công; trong đó có một bước đã không được thực hiện đúng.” Ông cũng nói thêm rằng nhóm đã khắc phục vấn đề và đang bổ sung thêm các kiểm tra tự động, đồng thời nhấn mạnh rằng các lỗi kiểu này chỉ ra vấn đề nằm ở quy trình hoặc cơ sở hạ tầng chứ không phải trách nhiệm của một cá nhân nào.

Chuyện này không phải lần đầu. Tháng 2 năm 2025, một vụ rò rỉ source map gần như tương tự đã làm lộ mã nguồn của phiên bản đầu tiên của Claude Code. Loại sự cố tương tự đã lặp lại trong 13 tháng, khiến bên ngoài đặt câu hỏi về mức độ trưởng thành trong vận hành của công ty, nơi đang được định giá khoảng 3.800 tỷ USD và chuẩn bị IPO.

** Các nhà phát triển đã phát hiện được gì từ mã bị rò rỉ **

Kho mã bị rò rỉ tương đương với một bản lộ trình sản phẩm mà Anthropic chưa từng dự định công khai. Theo phân tích của VentureBeat và nhiều nhà phát triển, mã có chứa 44 công tắc tính năng (feature flag), trong đó hơn 20 hạng mục là các tính năng đã hoàn thiện phát triển nhưng chưa được phát hành.

Những thứ được chú ý nhiều nhất bao gồm: một chế độ tiến trình bảo vệ tự chủ có tên “KAIROS”, cho phép Claude Code khi người dùng rảnh có thể tự vận hành như một tác nhân (agent) chạy nền liên tục, có khả năng định kỳ sửa lỗi, thực hiện tác vụ và gửi thông báo đẩy cho người dùng; một bộ kiến trúc “tự chữa lành” ba lớp (self-healing) về trí nhớ, thông qua một quy trình tích hợp trí nhớ có tên “dreaming”, để hợp nhất các quan sát phân tán ở chế độ nền, loại bỏ mâu thuẫn logic; và một hệ thống phối hợp đa tác nhân hoàn chỉnh, có thể biến Claude Code từ một tác nhân đơn lẻ thành một bộ điều phối viên có khả năng tạo song song, điều phối và quản lý nhiều tác nhân công việc.

Phát hiện gây tranh cãi nhất là một tệp có tên undercover.ts. Theo The Hacker News, tệp này có khoảng 90 dòng mã; khi nhân viên Anthropic dùng Claude Code để gửi mã cho các dự án mã nguồn mở, tệp sẽ chèn chỉ dẫn prompt hệ thống, yêu cầu Claude tuyệt đối không tiết lộ mình là AI và loại bỏ mọi nhãn gán Co-Authored-By. Trong mã có viết: “Bạn đang thực hiện nhiệm vụ ‘điệp’ (undercover) trong một kho mã công khai/nguồn mở. Thông tin commit của bạn, tiêu đề PR và nội dung PR không được chứa bất kỳ thông tin nội bộ nào của Anthropic. Đừng tiết lộ thân phận của bạn.”

Ngoài ra, mã còn chứa một cờ ANTI_DISTILLATION_CC, sẽ chèn các định nghĩa công cụ giả mạo vào các yêu cầu API, nhằm mục đích làm nhiễu dữ liệu huấn luyện mà đối thủ tiềm năng có thể chặn được. Trong mã cũng xuất hiện các mã hiệu mô hình nội bộ của Anthropic: Capybara tương ứng với một cấp độ mô hình mới chưa được phát hành; Fennec tương ứng với Opus 4.6 hiện có. Điều này củng cố chéo với thông tin mô hình Mythos bị rò rỉ của Anthropic do lỗi cấu hình CMS chỉ cách đó 5 ngày.

Người sáng lập công ty an ninh mạng Code Wall, Paul Price, nói với Business Insider rằng vụ rò rỉ này “nói theo cách nào đó thì không đến mức gây thiệt hại thực sự, mà là khiến người ta thấy xấu hổ. Thứ thực sự có giá trị là trọng số mô hình nội bộ, và những thứ đó đã không bị rò rỉ.” Tuy nhiên ông cũng chỉ ra rằng Claude Code là “một trong những kiến trúc công cụ agent thông minh được thiết kế tốt nhất hiện nay; giờ chúng ta có thể thấy họ đang giải quyết những vấn đề khó khăn như thế nào”, và điều này mang lại giá trị tình báo rõ ràng cho đối thủ.

** 8.100 kho bị xử lý nhầm, hành động DMCA “đi lố” gây phản ứng lớn hơn **

Sau khi mã được lan truyền, Anthropic nhanh chóng dựa theo Đạo luật Bản quyền Thiên niên kỷ Kỹ thuật số của Mỹ (DMCA) để gửi yêu cầu gỡ bỏ bản quyền tới GitHub. Theo hồ sơ công khai của GitHub, yêu cầu ban đầu ảnh hưởng đến khoảng 8.100 kho mã. Nhưng vấn đề là: các kho bị gỡ bỏ không chỉ chứa các bản sao (mirror) của mã bị rò rỉ, mà còn bao gồm các fork hợp pháp của chính kho mã chính thức Claude Code mà Anthropic tự công bố.

Nhiều nhà phát triển trên nền tảng X bày tỏ sự phẫn nộ. Nhà phát triển Danila Poyarkov cho biết chỉ cần ông fork kho công khai của Anthropic thôi mà đã nhận thông báo gỡ bỏ. Một người dùng khác là Daniel San nhận được email từ GitHub cho thấy kho bị gỡ bỏ chỉ chứa ví dụ kỹ năng và tài liệu, không liên quan gì đến mã bị rò rỉ. Có nhà phát triển nói thẳng: “Luật sư của Anthropic vừa tỉnh dậy là đã đi gỡ kho của tôi rồi.”

Trước phản ứng mạnh từ cộng đồng, Anthropic vào ngày 1 tháng 4 đã rút lại một phần yêu cầu. Theo hồ sơ rút lại trên GitHub, phạm vi gỡ bỏ của Anthropic đã được thu hẹp về chỉ 1 kho (nirholas/claude-code) và 96 URL fork được liệt kê riêng trong thông báo ban đầu; phần còn lại của khoảng 8.000 kho đã được GitHub khôi phục quyền truy cập.

Người phát ngôn của Anthropic nói với TechCrunch: “Các kho được chỉ định trong thông báo thuộc mạng lưới fork gắn với kho công khai Claude Code của chúng tôi, vì vậy các kho bị ảnh hưởng nằm ngoài dự kiến. Chúng tôi đã rút lại tất cả thông báo trừ một kho, và GitHub đã khôi phục quyền truy cập đối với các fork bị ảnh hưởng.”

** Mã đã được lưu trữ vĩnh viễn trên nền tảng phi tập trung, hiệu lực DMCA có hạn **

Hành động gỡ bỏ bản quyền theo DMCA của Anthropic phải đối mặt với một tình thế tiến thoái lưỡng nan mang tính căn bản: mã đã không thể đảo ngược, lan ra khắp nơi.

Theo Decrypt, nền tảng Git bình (Git) phi tập trung Gitlawb đã nhân bản toàn bộ mã nguồn nguyên bản, kèm ghi chú rằng “sẽ không bao giờ bị gỡ bỏ.” DMCA có hiệu lực đối với nền tảng tập trung (như GitHub) vì phía sau phải thực thi theo luật, nhưng không thể áp đặt quyền tài phán lên cơ sở hạ tầng phi tập trung. Chỉ vài giờ sau khi rò rỉ xảy ra, mã đã đạt được trạng thái công khai vĩnh viễn trên thực tế nhờ đủ nhiều bản nhân bản và các loại hình cơ sở hạ tầng khác nhau.

Mang tính mỉa mai hơn nữa là, nhà phát triển người Hàn Quốc Sigrid Jin đã dùng công cụ điều phối bằng AI oh-my-codex để viết lại toàn bộ kho mã từ TypeScript sang Python, với tên dự án là claw-code. Gergely Orosz trên X chỉ ra rằng đây là “viết lại trong phòng sạch” (clean-room rewrite), tạo thành tác phẩm sáng tạo độc lập; về mặt thiết kế, đó là thứ DMCA không thể chạm tới. Nếu Anthropic cho rằng mã được viết lại bằng AI vẫn vi phạm bản quyền, thì điều đó lại làm suy yếu lập luận phản biện cốt lõi của các công ty AI trong các vụ kiện bản quyền dữ liệu huấn luyện—tức là ý tưởng rằng đầu ra do AI tạo ra từ các đầu vào được bảo hộ bản quyền cấu thành việc sử dụng hợp lý.

** Trớ trêu về lập trường bản quyền: tự đánh vào mặt mình hay là yêu cầu pháp lý? **

Căng thẳng khiến cộng đồng quan tâm nhất trong vụ việc này nằm ở sự mâu thuẫn của lập trường bản quyền. Anthropic vào tháng 9 năm 2025 đã bị tòa án phán quyết buộc bồi thường 1,5 tỷ USD vì sử dụng sách lậu và huấn luyện Claude bằng thư viện bóng (shadow library); Reddit vào tháng 6 năm 2025 kiện Anthropic vì hành vi thu thập nội dung do người dùng tạo ra mà không được ủy quyền để huấn luyện mô hình. Một công ty từng vướng nhiều vụ kiện liên quan đến bản quyền dữ liệu huấn luyện, rồi quay lại dùng luật bản quyền để bảo vệ chính mã của mình—phản ứng của cộng đồng là có thể dự đoán.

Một bình luận được vote cao trên Slashdot đã tóm gọn cảm xúc đó: “‘Các anh kiếm tiền từ những thứ mà các anh công khai—mà lại là đồ ăn cắp—thế mà các anh dám đi ăn cắp!’” Một người dùng khác thì cho rằng, xét từ góc độ chiến lược pháp lý, hành động DMCA không phải là hoàn toàn vô lý: “Nếu tương lai Anthropic muốn truy cứu trách nhiệm của các công ty khác khi sử dụng mã của họ, mà ngay cả việc họ cũng không cố gắng yêu cầu các bên phân phối gỡ bỏ, thì khi đem ra tòa sẽ không thuyết phục.”

Tranh luận này còn liên quan đến một vấn đề pháp lý tiên phong: quyền sở hữu bản quyền đối với mã do AI tạo. Theo các tiết lộ công khai trước đó của Gartner và Anthropic, khoảng 90% mã của Claude Code do AI sinh ra. Tòa án liên bang Mỹ vào tháng 3 năm 2025 đã ra phán quyết rằng các tác phẩm do AI tạo ra không được hưởng bảo hộ bản quyền vì thiếu tư cách tác giả là con người; Tòa án Tối cao vào tháng 3 năm 2026 đã từ chối thụ lý kháng cáo. Nếu phần lớn mã của Claude Code thực sự do Claude tự viết, thì lập luận bản quyền của Anthropic về mặt pháp lý sẽ tồn tại sự bất định đáng kể.

** Rò rỉ hai lần trong một tuần, cảnh báo an toàn vận hành trước thềm IPO **

Vụ rò rỉ mã nguồn lần này chỉ cách vụ rò rỉ trước đó của Anthropic 5 ngày. Ngày 26 tháng 3, tạp chí 《Fortune》báo cáo rằng Anthropic do cấu hình sai của hệ thống quản lý nội dung đã khiến gần 3.000 tài liệu nội bộ chưa phát hành bị lộ trong bộ nhớ đệm dữ liệu có thể tra cứu công khai, trong đó có thông tin chi tiết về mô hình Claude Mythos sắp ra mắt. Cả hai vụ đều được quy cho “lỗi con người”.

Mốc thời gian của các sự cố này rất nhạy cảm. Anthropic hoàn tất vòng tài trợ G trị giá 30 tỷ USD vào tháng 2 năm 2026, định giá đạt 3.800 tỷ USD, và theo báo cáo đang chuẩn bị cho IPO sớm nhất vào tháng 10 năm 2026, quy mô huy động dự kiến có thể vượt 60 tỷ USD. Goldman Sachs, JPMorgan và Morgan Stanley đều đã tiếp cận trong giai đoạn đầu. Doanh thu niên hóa của Claude Code đã vượt 2,5 tỷ USD, là động cơ doanh thu quan trọng nhất của công ty. TechCrunch cho biết đối với các công ty đang chuẩn bị niêm yết, việc rò rỉ mã nguồn đồng nghĩa với việc gần như chắc chắn sẽ phải đối mặt với các vụ kiện từ cổ đông.

Trong phân tích sự kiện, VentureBeat đưa ra một câu hỏi sắc bén hơn: Anthropic đã xảy ra hơn mười sự cố trong tháng 3, nhưng chỉ công bố một báo cáo hậu sự, và thời điểm hệ thống giám sát của bên thứ ba phát hiện lỗi sớm hơn trang trạng thái của chính Anthropic từ 15 đến 30 phút. Với một công ty đang lao về thị trường công khai với định giá 3.800 tỷ USD, mức độ minh bạch và trưởng thành trong vận hành có tương xứng với định giá đó hay không—nhà đầu tư phải tự mình đánh giá.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim