Reddit kiện Anthropic về việc sử dụng sai dữ liệu người dùng trong đào tạo mô hình AI


Khám phá tin tức và sự kiện fintech hàng đầu!

Đăng ký nhận bản tin của FinTech Weekly

Được đọc bởi các giám đốc điều hành tại JP Morgan, Coinbase, Blackrock, Klarna và nhiều hơn nữa


Reddit đệ đơn kiện chống lại Anthropic vì sử dụng trái phép dữ liệu người dùng

Reddit đã thực hiện hành động pháp lý chống lại công ty trí tuệ nhân tạo Anthropic, cáo buộc startup này vi phạm điều khoản dịch vụ của họ và tiến hành những gì nền tảng gọi là “các hành vi kinh doanh bất hợp pháp và không công bằng”. Vụ kiện, được nộp vào thứ Tư tại tòa án liên bang, làm gia tăng căng thẳng liên quan đến việc sử dụng nội dung web có sẵn công khai để huấn luyện các hệ thống AI thương mại.

Theo đơn khiếu nại, Reddit cáo buộc rằng Anthropic đã truy cập và sử dụng một lượng lớn nội dung do người dùng tạo trên Reddit để huấn luyện các mô hình AI của mình mà không xin các quyền hoặc giấy phép cần thiết. Nền tảng mạng xã hội cho rằng việc này không chỉ vi phạm chính sách của họ mà còn khai thác những đóng góp của người dùng để thu lợi thương mại mà không có sự đồng ý.

Vụ việc nêu bật những câu hỏi rộng hơn về việc ai là chủ sở hữu nội dung trực tuyến trong kỷ nguyên AI tạo sinh, và các công ty nên xử lý dữ liệu công khai mang theo các sắc thái về kỳ vọng quyền riêng tư và niềm tin cộng đồng như thế nào.

Thách thức pháp lý bắt nguồn từ việc sử dụng nội dung và lợi ích thương mại

Reddit cho rằng Anthropic, dù tự trình bày là một công ty AI thúc đẩy đạo đức, đã có hành vi coi thường các quy tắc trên nền tảng của Reddit.

Trọng tâm của đơn khiếu nại xoay quanh cáo buộc rằng Anthropic đã huấn luyện các mô hình AI của mình—đặc biệt là Claude—trên dữ liệu Reddit được trích xuất mà không được ủy quyền. Reddit chỉ ra rằng, không giống như OpenAI và Google, những bên đã ký các thỏa thuận cấp phép tuân thủ các điều khoản của nền tảng và các biện pháp bảo vệ người dùng, Anthropic đã không xin được các quyền tương tự.

Sự khác biệt này có thể là một yếu tố then chốt trong vụ kiện, đặc biệt khi các công ty AI ngày càng chịu áp lực phải làm rõ cách họ thu thập và xử lý dữ liệu huấn luyện, nhất là khi dữ liệu đó đến từ các nền tảng có nội dung do người dùng đóng góp.

Bùng nổ AI và căng thẳng trên nền tảng

Từ cuối năm 2022, AI tạo sinh đã tạo ra những thay đổi đáng kể trên toàn ngành công nghệ, với các nền tảng như Reddit trở thành những kho lưu trữ có giá trị cao cho các hiểu biết, thảo luận và lời khuyên do con người tạo ra. Những đặc tính này khiến chúng trở nên hấp dẫn đối với các nhà phát triển AI khi xây dựng các mô hình có năng lực hơn và nhạy ngữ cảnh hơn.

Bản thân Reddit đã đi sâu vào nền kinh tế AI, gần đây thông báo các quan hệ đối tác với OpenAI và Google cho phép các công ty đó sử dụng nội dung Reddit theo các điều khoản cấp phép cụ thể. Những thỏa thuận này nhằm bảo toàn quyền riêng tư của người dùng trong khi vẫn tạo doanh thu từ 20 năm nội dung của nền tảng.

Tuy nhiên, theo vụ kiện, cáo buộc của Anthropic về việc sử dụng dữ liệu Reddit đã diễn ra mà không có các thỏa thuận như vậy. Nền tảng mạng xã hội lập luận rằng điều này đã gây ra tổn hại trực tiếp về tài chính và danh tiếng, khi dẫn chiếu việc sử dụng thương mại trái phép dữ liệu của họ để nâng cao sản phẩm của một đối thủ.

Nhóm pháp lý của Reddit nhấn mạnh rằng việc tôn trọng các quy tắc của nền tảng không phải là tùy chọn, đặc biệt trong các lĩnh vực như fintech và AI, nơi tính minh bạch và tuân thủ đang ngày càng bị người dùng và các cơ quan quản lý soi xét.

Hàm ý thị trường và phản ứng của ngành

Cổ phiếu của Reddit đã tăng hơn 6% vào thứ Tư sau thông báo về vụ kiện, cho thấy sự ủng hộ của nhà đầu tư đối với quyết định của công ty trong việc thực thi các quyền dữ liệu của mình. Công ty, đã niêm yết công khai vào đầu năm 2024, hiện nắm giữ vốn hóa thị trường xấp xỉ 22 tỷ USD.

Trong khi đó, Anthropic nhanh chóng trở thành một trong những startup được tài trợ nhiều nhất trong ngành AI. Công ty được định giá 61,5 tỷ USD vào tháng Ba, với sự hậu thuẫn từ các đối tác lớn như Amazon, Salesforce Ventures và Cisco Investments.

Mặc dù Anthropic đã tuyên bố rằng họ không đồng ý với các cáo buộc của Reddit, kết quả của vụ kiện có thể tạo ra những tác động dài hạn đối với cách các công ty AI tiếp cận việc thu thập dữ liệu. Nó cũng có thể ảnh hưởng đến cách các nền tảng định giá hoặc hạn chế quyền truy cập vào nội dung của họ cho mục đích huấn luyện.

Những người trong ngành đã chỉ ra rằng, dù phát triển AI thường liên quan đến việc trích xuất dữ liệu từ các miền công khai, ranh giới giữa “có sẵn công khai” và “có thể sử dụng thương mại” vẫn chưa rõ ràng. Các vụ kiện pháp lý như vụ này có thể thúc đẩy việc hình thành những khung pháp lý được xác định rõ hơn để cân bằng đổi mới với việc sử dụng nội dung một cách có đạo đức.

Tăng cường tập trung vào đạo đức dữ liệu trong AI

Hành động pháp lý của Reddit là một phần của xu hướng rộng hơn, theo đó các nền tảng đang bắt đầu phản ứng lại những gì họ xem là sự khai thác của các công ty AI. Khi ngày càng có nhiều công ty công nghệ tìm cách kiếm tiền từ các tài sản dữ liệu của mình, việc cấp phép nội dung đã trở thành một mặt trận.

Reddit đã nêu rõ trong đơn khiếu nại rằng họ không phản đối việc sử dụng dữ liệu của mình trong huấn luyện AI, mà là phản đối việc sử dụng trái phép. Bằng cách tạo sự khác biệt giữa các công ty tôn trọng các điều khoản của họ—như OpenAI và Google—và những công ty mà họ cáo buộc là không làm như vậy, Reddit nhằm định vị mình vừa thân thiện với AI vừa bảo vệ cộng đồng người dùng của mình.

Quan hệ đối tác hiện có của OpenAI với Reddit cũng được ghi nhận trong đơn khiếu nại, và mối liên hệ giữa Reddit và CEO của OpenAI là Sam Altman—một cựu thành viên ban quản trị và cổ đông lớn—lại làm tăng thêm độ phức tạp cho bối cảnh của vụ kiện.

Điều gì sẽ xảy ra tiếp theo

Khi quá trình tòa án diễn ra, mọi ánh nhìn sẽ đổ dồn vào cách hệ thống pháp lý xử lý những ranh giới bị mờ giữa nội dung mở của internet và dữ liệu huấn luyện độc quyền. Vụ việc có thể đặt ra tiền lệ cho các tranh chấp trong tương lai giữa các nền tảng nội dung và các nhà phát triển AI.

Trong thời điểm hiện tại, thách thức pháp lý của Reddit làm gia tăng thêm mức độ căng thẳng về cách các mô hình AI được huấn luyện và mức độ mà chủ sở hữu nền tảng có thể và nên kiểm soát việc truy cập vào dữ liệu do người dùng đóng góp của họ.

Vụ kiện cũng củng cố thông điệp rằng kỷ nguyên trích xuất dữ liệu không được quản lý có thể đang đi đến hồi kết, đặc biệt khi nhận thức của công chúng về quyền dữ liệu ngày càng tăng và các nền tảng tìm cách khẳng định quyền kiểm soát lớn hơn đối với việc nội dung của họ được sử dụng như thế nào trong các ứng dụng AI.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim