Reddit kiện Anthropic về việc sử dụng sai dữ liệu người dùng trong đào tạo mô hình AI

SleepTrader

2026-03-29 18:18:01

Khám phá tin tức và sự kiện fintech hàng đầu!

Đăng ký nhận bản tin của FinTech Weekly

Được các giám đốc điều hành tại JP Morgan, Coinbase, Blackrock, Klarna và hơn thế nữa đọc

Reddit nộp đơn kiện chống lại Anthropic vì sử dụng trái phép dữ liệu người dùng

Reddit đã thực hiện hành động pháp lý chống lại công ty trí tuệ nhân tạo Anthropic, cáo buộc startup này vi phạm điều khoản dịch vụ và thực hiện những gì nền tảng gọi là “các hành vi kinh doanh trái pháp luật và bất công.” Vụ kiện, được nộp vào thứ Tư tại tòa án liên bang, làm leo thang căng thẳng liên quan đến việc sử dụng nội dung web công khai để huấn luyện các hệ thống AI thương mại.

Theo đơn khiếu nại, Reddit cho rằng Anthropic đã truy cập và sử dụng một lượng lớn nội dung do người dùng của Reddit tạo ra để huấn luyện các mô hình AI của mình mà không xin các quyền hoặc giấy phép cần thiết. Nền tảng truyền thông xã hội lập luận rằng việc này không chỉ vi phạm các chính sách của họ mà còn khai thác những đóng góp của người dùng để thu lợi thương mại mà không có sự đồng ý.

Vụ việc nêu bật những câu hỏi rộng hơn về việc ai sở hữu nội dung trực tuyến trong thời đại AI tạo sinh, và các công ty nên xử lý dữ liệu công khai như thế nào khi dữ liệu đó mang theo các sắc thái về kỳ vọng riêng tư và niềm tin cộng đồng.

Một Thử thách Pháp lý Bắt nguồn từ Việc Sử dụng Nội dung và Lợi ích Thương mại

Reddit tuyên bố rằng Anthropic, dù tự giới thiệu là một công ty AI định hướng đạo đức, đã hành động bất chấp các quy tắc nền tảng của Reddit.

Trọng tâm của đơn khiếu nại xoay quanh cáo buộc rằng Anthropic đã huấn luyện các mô hình AI của mình—đáng chú ý nhất là Claude—trên dữ liệu Reddit được trích xuất mà không được ủy quyền. Reddit chỉ ra rằng, không giống như OpenAI và Google, những bên đã ký các thỏa thuận cấp phép phù hợp với các điều khoản của nền tảng và các biện pháp bảo vệ người dùng, Anthropic đã không xin các quyền tương tự.

Sự khác biệt này có thể là một yếu tố then chốt trong vụ việc, đặc biệt khi các công ty AI ngày càng chịu áp lực phải làm rõ cách họ nguồn dữ liệu và xử lý dữ liệu huấn luyện, nhất là khi dữ liệu đó đến từ các nền tảng có nội dung do người dùng đóng góp.

Bùng nổ AI và Căng thẳng Trên Nền tảng

Từ cuối năm 2022, AI tạo sinh đã tạo ra những thay đổi đáng kể trong toàn ngành công nghệ, với các nền tảng như Reddit trở thành những kho lưu trữ giá trị cao cho các hiểu biết do con người tạo ra, các cuộc thảo luận và lời khuyên. Những đặc tính này khiến chúng trở nên hấp dẫn đối với các nhà phát triển AI khi xây dựng các mô hình ngày càng có năng lực và hiểu ngữ cảnh.

Bản thân Reddit đã đi sâu vào nền kinh tế AI, gần đây công bố các quan hệ hợp tác với OpenAI và Google cho phép các công ty đó sử dụng nội dung Reddit theo các điều khoản cấp phép cụ thể. Những thỏa thuận này nhằm bảo vệ quyền riêng tư của người dùng trong khi vẫn tạo doanh thu từ 20 năm nội dung của nền tảng.

Việc Anthropic bị cáo buộc sử dụng dữ liệu từ Reddit, tuy nhiên, đã diễn ra mà không có các thỏa thuận như vậy, theo vụ kiện. Nền tảng truyền thông xã hội lập luận rằng điều này đã gây ra thiệt hại trực tiếp về tài chính và danh tiếng, dẫn chứng việc sử dụng thương mại trái phép dữ liệu của họ để nâng cao các sản phẩm của một đối thủ.

Nhóm pháp lý của Reddit nhấn mạnh rằng việc tôn trọng các quy tắc nền tảng là không tùy chọn, đặc biệt trong các lĩnh vực như fintech và AI, nơi tính minh bạch và tuân thủ đang ngày càng chịu sự giám sát từ cả người dùng và cơ quan quản lý.

Hàm ý Thị trường và Phản hồi của Ngành

Cổ phiếu của Reddit đã tăng hơn 6% vào thứ Tư sau thông báo về vụ kiện, cho thấy sự ủng hộ của nhà đầu tư đối với quyết định của công ty trong việc thực thi các quyền dữ liệu của mình. Công ty, đã lên sàn vào đầu năm 2024, hiện nắm giữ mức vốn hóa thị trường khoảng $22 tỷ.

Trong khi đó, Anthropic nhanh chóng trở thành một trong những startup được tài trợ mạnh nhất trong ngành AI. Công ty được định giá 61,5 tỷ USD vào tháng Ba, với sự hậu thuẫn từ các đối tác lớn như Amazon, Salesforce Ventures và Cisco Investments.

Mặc dù Anthropic đã tuyên bố rằng họ không đồng ý với các cáo buộc của Reddit, kết quả của vụ kiện có thể tạo ra các tác động dài hạn đến cách các công ty AI tiếp cận việc thu thập dữ liệu. Nó cũng có thể ảnh hưởng đến cách các nền tảng định giá hoặc hạn chế quyền truy cập vào nội dung của họ cho mục đích huấn luyện.

Những người trong ngành đã chỉ ra rằng, dù việc phát triển AI thường liên quan đến việc trích xuất dữ liệu từ các miền công khai, ranh giới giữa “có sẵn công khai” và “có thể sử dụng cho thương mại” vẫn chưa rõ ràng. Các vụ kiện pháp lý như vụ này có thể thúc đẩy việc hình thành các khuôn khổ được xác định rõ hơn nhằm cân bằng giữa đổi mới và việc sử dụng nội dung một cách có đạo đức.

Tập trung Ngày càng tăng vào Đạo đức Dữ liệu trong AI

Hành động pháp lý của Reddit là một phần của mô hình rộng hơn, trong đó các nền tảng bắt đầu chống trả lại những gì họ xem là sự khai thác của các công ty AI. Khi ngày càng nhiều công ty công nghệ tìm cách kiếm tiền từ các tài sản dữ liệu của mình, việc cấp phép nội dung đã trở thành một “chiến trường”.

Reddit đã làm rõ trong đơn khiếu nại rằng họ không phản đối việc sử dụng dữ liệu của mình trong huấn luyện AI, mà là phản đối việc sử dụng trái phép. Bằng cách phân biệt giữa các công ty tôn trọng điều khoản của họ—như OpenAI và Google—và những công ty bị cáo buộc là không làm như vậy, Reddit nhằm định vị mình vừa thân thiện với AI vừa bảo vệ cộng đồng người dùng của mình.

Trong đơn khiếu nại cũng ghi nhận quan hệ hợp tác hiện có của OpenAI với Reddit, và mối liên hệ giữa Reddit và CEO của OpenAI là Sam Altman—một cựu thành viên ban quản trị và là cổ đông lớn—tạo thêm mức độ phức tạp nữa cho bối cảnh của vụ kiện.

Điều gì sẽ xảy ra tiếp theo

Khi quá trình tại tòa diễn ra, mọi ánh mắt sẽ hướng vào cách hệ thống pháp lý xử lý những ranh giới mờ giữa nội dung công khai trên internet và dữ liệu huấn luyện độc quyền. Vụ việc có thể tạo ra tiền lệ cho các tranh chấp trong tương lai giữa các nền tảng nội dung và các nhà phát triển AI.

Trong lúc này, thách thức pháp lý của Reddit làm gia tăng mức độ căng thẳng ngày càng lớn về việc các mô hình AI được huấn luyện như thế nào và mức độ mà chủ sở hữu nền tảng có thể/ nên kiểm soát quyền truy cập vào dữ liệu do người dùng đóng góp của họ.

Vụ kiện cũng củng cố thông điệp rằng kỷ nguyên trích xuất dữ liệu không bị quản lý có thể đang dần đi đến hồi kết, đặc biệt khi nhận thức của công chúng về quyền dữ liệu ngày càng tăng và các nền tảng tìm cách khẳng định quyền kiểm soát lớn hơn đối với cách nội dung của họ được sử dụng trong các ứng dụng AI.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.