Reddit kiện Anthropic về việc sử dụng sai dữ liệu người dùng trong đào tạo mô hình AI


Khám phá tin tức và sự kiện fintech hàng đầu!

Đăng ký bản tin của FinTech Weekly

Được các lãnh đạo tại JP Morgan, Coinbase, Blackrock, Klarna và hơn thế nữa đọc


Reddit nộp đơn kiện chống lại Anthropic vì sử dụng trái phép dữ liệu người dùng

Reddit đã thực hiện hành động pháp lý chống lại công ty trí tuệ nhân tạo Anthropic, cáo buộc startup này vi phạm điều khoản dịch vụ và thực hiện những hành vi mà nền tảng gọi là “các hành vi kinh doanh trái pháp luật và không công bằng.” Vụ kiện, được nộp vào thứ Tư tại tòa án liên bang, làm leo thang căng thẳng liên quan đến việc sử dụng nội dung web công khai để huấn luyện các hệ thống AI thương mại.

Theo đơn khiếu nại, Reddit cáo buộc rằng Anthropic đã truy cập và sử dụng một khối lượng lớn nội dung do người dùng của Reddit tạo ra để huấn luyện các mô hình AI của mình mà không xin các quyền hoặc giấy phép cần thiết. Nền tảng mạng xã hội lập luận rằng điều này không chỉ vi phạm chính sách của họ mà còn khai thác sự đóng góp của người dùng để thu lợi thương mại mà không có sự đồng ý.

Vụ việc nêu bật những câu hỏi rộng hơn về việc ai sở hữu nội dung trực tuyến trong thời đại AI tạo sinh, và các công ty nên xử lý dữ liệu công khai như thế nào khi dữ liệu đó mang những sắc thái về kỳ vọng riêng tư và niềm tin của cộng đồng.

Một Thách thức Pháp lý Xuất phát từ Việc Sử dụng Nội dung và Lợi ích Thương mại

Reddit cho rằng Anthropic, dù tự giới thiệu mình là một công ty AI hoạt động vì đạo đức, đã có hành động coi nhẹ các quy tắc trên nền tảng của Reddit.

Trọng tâm của đơn khiếu nại xoay quanh cáo buộc rằng Anthropic đã huấn luyện các mô hình AI của mình—đặc biệt là Claude—trên dữ liệu Reddit bị trích xuất mà không được ủy quyền. Reddit chỉ ra rằng, không giống như OpenAI và Google, là những bên đã ký các thỏa thuận cấp phép tuân thủ các điều khoản của nền tảng và các biện pháp bảo vệ người dùng, Anthropic đã không có được các quyền tương tự.

Sự khác biệt này có thể là một yếu tố then chốt trong vụ án, đặc biệt khi các công ty AI ngày càng chịu áp lực phải làm rõ cách họ thu thập và xử lý dữ liệu huấn luyện, nhất là khi dữ liệu đó đến từ các nền tảng có nội dung do người dùng đóng góp.

Bùng nổ AI và Căng thẳng Trên Nền tảng

Từ cuối năm 2022, AI tạo sinh đã tạo ra những thay đổi đáng kể trên toàn ngành công nghệ, với các nền tảng như Reddit trở thành những kho lưu trữ có giá trị cao cho các hiểu biết, thảo luận và lời khuyên do con người tạo ra. Những đặc tính này khiến chúng trở nên hấp dẫn đối với các nhà phát triển AI đang xây dựng các mô hình có khả năng hơn và nhạy ngữ cảnh hơn.

Bản thân Reddit đã đi vào “nền kinh tế AI,” gần đây thông báo các quan hệ đối tác với OpenAI và Google cho phép các công ty đó sử dụng nội dung Reddit theo các điều khoản cấp phép cụ thể. Các thỏa thuận này nhằm bảo toàn quyền riêng tư của người dùng đồng thời tạo doanh thu từ 20 năm nội dung của nền tảng.

Tuy nhiên, theo vụ kiện, việc Anthropic bị cáo buộc sử dụng dữ liệu Reddit đã diễn ra mà không có các thỏa thuận như vậy. Nền tảng mạng xã hội lập luận rằng điều này đã gây ra tổn hại trực tiếp về tài chính và uy tín, khi viện dẫn việc sử dụng thương mại trái phép dữ liệu của họ để nâng cao sản phẩm của một đối thủ.

Nhóm pháp lý của Reddit nhấn mạnh rằng việc tôn trọng các quy tắc của nền tảng là điều không thể tùy chọn, đặc biệt trong các lĩnh vực như fintech và AI, nơi tính minh bạch và tuân thủ đang ngày càng bị người dùng và cơ quan quản lý soi xét.

Hàm ý Thị trường và Phản ứng của Ngành

Cổ phiếu của Reddit đã tăng hơn 6% vào thứ Tư sau khi công bố thông tin về vụ kiện, cho thấy sự ủng hộ của nhà đầu tư đối với quyết định của công ty trong việc thực thi các quyền dữ liệu của mình. Công ty, đã lên sàn vào đầu năm 2024, hiện nắm giữ vốn hóa thị trường khoảng 61.5Bỷ USD.

Trong khi đó, Anthropic nhanh chóng trở thành một trong những startup được tài trợ mạnh mẽ nhất trong ngành AI. Công ty được định giá 22Bỷ USD vào tháng 3, với sự hậu thuẫn từ các bên lớn như Amazon, Salesforce Ventures và Cisco Investments.

Mặc dù Anthropic đã tuyên bố rằng họ không đồng ý với các cáo buộc của Reddit, kết quả của vụ kiện có thể có những hệ quả dài hạn đối với cách các công ty AI tiếp cận việc thu thập dữ liệu. Nó cũng có thể ảnh hưởng đến việc các nền tảng định giá hoặc hạn chế quyền truy cập vào nội dung của họ cho mục đích huấn luyện.

Những người trong ngành đã chỉ ra rằng, dù việc phát triển AI thường liên quan đến việc trích xuất dữ liệu từ các miền công khai, ranh giới giữa “có sẵn công khai” và “có thể sử dụng cho mục đích thương mại” vẫn chưa rõ ràng. Các vụ kiện pháp lý như vụ này có thể thúc đẩy việc xây dựng các khung pháp lý được xác định rõ hơn nhằm cân bằng giữa đổi mới và việc sử dụng nội dung một cách có đạo đức.

Tập trung ngày càng tăng vào Đạo đức Dữ liệu trong AI

Hành động pháp lý của Reddit là một phần của xu hướng rộng hơn, trong đó các nền tảng bắt đầu phản kháng lại những gì họ cho là sự khai thác bởi các công ty AI. Khi ngày càng nhiều công ty công nghệ tìm cách kiếm tiền từ các tài sản dữ liệu của mình, việc cấp phép nội dung đã trở thành một “chiến trường.”

Reddit đã làm rõ trong đơn khiếu nại rằng họ không phản đối việc sử dụng dữ liệu của mình trong huấn luyện AI, mà phản đối việc sử dụng trái phép. Bằng cách đưa ra sự khác biệt giữa các công ty tôn trọng các điều khoản của họ—như OpenAI và Google—và những công ty mà theo cáo buộc là không, Reddit nhằm định vị mình vừa thân thiện với AI vừa có tính bảo vệ đối với cộng đồng người dùng của mình.

Trong đơn khiếu nại, quan hệ hợp tác hiện có của OpenAI với Reddit cũng được ghi nhận, và mối liên hệ giữa Reddit và CEO OpenAI Sam Altman—một cựu thành viên hội đồng quản trị và là cổ đông lớn—làm tăng thêm mức độ phức tạp cho bối cảnh của vụ kiện.

Chuyện gì sẽ xảy ra tiếp theo

Khi quy trình tòa án tiếp diễn, mọi ánh mắt sẽ đổ dồn vào việc hệ thống pháp lý sẽ xử lý ra sao các ranh giới mờ nhạt giữa nội dung công khai trên internet và dữ liệu huấn luyện mang tính độc quyền. Vụ án có thể tạo tiền lệ cho các tranh chấp trong tương lai giữa các nền tảng nội dung và các nhà phát triển AI.

Trước mắt, thách thức pháp lý của Reddit làm gia tăng thêm sự căng thẳng về cách các mô hình AI được huấn luyện và mức độ mà các chủ sở hữu nền tảng có thể, và nên, kiểm soát quyền truy cập vào dữ liệu do người dùng đóng góp.

Vụ kiện cũng củng cố thông điệp rằng kỷ nguyên trích xuất dữ liệu không được quản lý có thể sắp đi đến hồi kết, đặc biệt khi nhận thức của công chúng về quyền dữ liệu tăng lên và các nền tảng tìm cách khẳng định quyền kiểm soát nhiều hơn đối với cách nội dung của họ được sử dụng trong các ứng dụng AI.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim