Reddit kiện Anthropic về việc sử dụng sai dữ liệu người dùng trong đào tạo mô hình AI


Khám phá tin tức và sự kiện fintech hàng đầu!

Đăng ký nhận bản tin của FinTech Weekly

Được đọc bởi các giám đốc điều hành tại JP Morgan, Coinbase, Blackrock, Klarna và nhiều hơn nữa


Reddit nộp đơn kiện chống lại Anthropic vì sử dụng trái phép dữ liệu người dùng

Reddit đã có hành động pháp lý chống lại công ty trí tuệ nhân tạo Anthropic, cáo buộc startup này vi phạm điều khoản dịch vụ và thực hiện những gì nền tảng gọi là “các hành vi kinh doanh bất hợp pháp và không công bằng.” Vụ kiện, được nộp vào thứ Tư tại tòa án liên bang, làm leo thang căng thẳng xung quanh việc sử dụng nội dung web sẵn có công khai để huấn luyện các hệ thống AI thương mại.

Theo đơn khiếu nại, Reddit cáo buộc rằng Anthropic đã truy cập và sử dụng khối lượng lớn nội dung do người dùng tạo trên Reddit để huấn luyện các mô hình AI của mình mà không xin các quyền hoặc giấy phép cần thiết. Nền tảng mạng xã hội cho rằng việc này không chỉ vi phạm chính sách của họ mà còn khai thác những đóng góp của người dùng để thu lợi thương mại mà không có sự đồng ý.

Vụ việc nêu bật các câu hỏi rộng hơn về việc ai sở hữu nội dung trực tuyến trong thời đại AI tạo sinh, và các công ty nên đối xử thế nào với dữ liệu công khai mang theo những sắc thái về kỳ vọng riêng tư và niềm tin cộng đồng.

Thách thức pháp lý bắt nguồn từ việc sử dụng nội dung và lợi ích thương mại

Reddit cho rằng Anthropic, dù tự giới thiệu là một công ty AI định hướng đạo đức, đã hành động bất chấp các quy tắc của nền tảng Reddit.

Trọng tâm của đơn khiếu nại xoay quanh cáo buộc rằng Anthropic đã huấn luyện các mô hình AI của mình—đặc biệt là Claude—trên dữ liệu Reddit bị trích xuất mà không được ủy quyền. Reddit chỉ ra rằng, không giống như OpenAI và Google, những bên đã ký các thỏa thuận cấp phép tuân thủ các điều khoản của nền tảng và các biện pháp bảo vệ người dùng, Anthropic đã không xin được các quyền tương tự.

Sự khác biệt này có thể là một yếu tố then chốt trong vụ kiện, đặc biệt khi các công ty AI ngày càng chịu áp lực phải làm rõ cách họ lấy và xử lý dữ liệu huấn luyện, nhất là khi dữ liệu đó đến từ các nền tảng có nội dung do người dùng đóng góp.

Bùng nổ AI và căng thẳng giữa các nền tảng

Từ cuối năm 2022, AI tạo sinh đã thúc đẩy những thay đổi đáng kể trên toàn ngành công nghệ, với các nền tảng như Reddit trở thành kho lưu trữ có giá trị cao cho các hiểu biết, cuộc thảo luận và lời khuyên do con người tạo ra. Những đặc tính này khiến chúng trở nên hấp dẫn đối với các nhà phát triển AI đang xây dựng các mô hình mạnh mẽ hơn và có khả năng nắm ngữ cảnh.

Bản thân Reddit đã đi vào nền kinh tế AI, gần đây công bố quan hệ đối tác với OpenAI và Google cho phép các công ty đó sử dụng nội dung Reddit theo những điều khoản cấp phép cụ thể. Các thỏa thuận này nhằm bảo toàn quyền riêng tư của người dùng trong khi vẫn tạo doanh thu từ 20 năm nội dung của nền tảng.

Tuy nhiên, việc Anthropic bị cáo buộc sử dụng dữ liệu Reddit đã diễn ra mà không có các thỏa thuận như vậy, theo vụ kiện. Nền tảng mạng xã hội cho rằng điều này đã gây ra thiệt hại trực tiếp về tài chính và danh tiếng, viện dẫn việc sử dụng thương mại trái phép dữ liệu của họ để nâng cấp các sản phẩm của đối thủ.

Nhóm pháp lý của Reddit nhấn mạnh rằng việc tôn trọng các quy tắc của nền tảng là điều không thể tùy chọn, đặc biệt trong các lĩnh vực như fintech và AI, nơi tính minh bạch và tuân thủ đang ngày càng chịu sự giám sát chặt chẽ từ cả người dùng lẫn các cơ quan quản lý.

Hàm ý thị trường và phản ứng của ngành

Cổ phiếu của Reddit đã tăng hơn 6% vào thứ Tư sau thông báo về vụ kiện, cho thấy sự ủng hộ của nhà đầu tư đối với quyết định của công ty trong việc thực thi các quyền dữ liệu của mình. Công ty, đã lên sàn vào đầu năm 2024, hiện nắm giữ vốn hóa thị trường khoảng 61.5Bỷ USD.

Trong khi đó, Anthropic nhanh chóng trở thành một trong những startup trong ngành AI được tài trợ mạnh nhất. Công ty được định giá 22Bỷ USD vào tháng Ba, với sự hậu thuẫn từ các bên lớn như Amazon, Salesforce Ventures và Cisco Investments.

Mặc dù Anthropic đã tuyên bố rằng họ không đồng ý với các cáo buộc của Reddit, kết quả của vụ kiện có thể tạo ra các hệ quả dài hạn đối với cách các công ty AI tiếp cận việc thu thập dữ liệu. Nó cũng có thể ảnh hưởng đến cách các nền tảng định giá hoặc hạn chế quyền truy cập vào nội dung của họ cho mục đích huấn luyện.

Những người trong ngành đã chỉ ra rằng, dù phát triển AI thường liên quan đến việc trích xuất dữ liệu từ các miền công khai, ranh giới giữa “công khai sẵn có” và “có thể sử dụng cho mục đích thương mại” vẫn chưa rõ ràng. Các vụ kiện pháp lý như vụ này có thể thúc đẩy việc xây dựng các khung pháp lý được xác định rõ hơn để cân bằng giữa đổi mới và việc sử dụng nội dung một cách có đạo đức.

Tập trung ngày càng tăng vào đạo đức dữ liệu trong AI

Hành động pháp lý của Reddit nằm trong một mô hình rộng hơn, trong đó các nền tảng đang bắt đầu phản kháng lại những gì họ cho là sự khai thác của các công ty AI. Khi ngày càng nhiều công ty công nghệ tìm cách kiếm tiền từ các tài sản dữ liệu của mình, việc cấp phép nội dung đã trở thành chiến trường.

Reddit đã làm rõ trong đơn khiếu nại rằng họ không phản đối việc sử dụng dữ liệu của mình trong huấn luyện AI, mà là phản đối việc sử dụng trái phép. Bằng cách rạch ròi ranh giới giữa các công ty tôn trọng điều khoản của họ—như OpenAI và Google—và những công ty bị cáo buộc là không làm như vậy, Reddit nhằm định vị mình vừa thân thiện với AI vừa bảo vệ cộng đồng người dùng.

Quan hệ đối tác hiện có của OpenAI với Reddit đã được ghi nhận trong đơn khiếu nại, và mối liên hệ giữa Reddit và Giám đốc điều hành OpenAI Sam Altman—người từng là thành viên hội đồng quản trị và là cổ đông lớn—tạo thêm phần phức tạp cho bối cảnh của vụ kiện.

Bước tiếp theo sẽ là gì

Khi quy trình tòa án diễn ra, mọi ánh mắt sẽ hướng vào việc hệ thống pháp lý giải quyết như thế nào ranh giới mờ giữa nội dung công khai trên internet và dữ liệu huấn luyện độc quyền. Vụ việc có thể tạo tiền lệ cho các tranh chấp trong tương lai giữa các nền tảng nội dung và các nhà phát triển AI.

Trong lúc này, thách thức pháp lý của Reddit góp phần làm gia tăng căng thẳng xoay quanh việc các mô hình AI được huấn luyện như thế nào và mức độ mà chủ sở hữu nền tảng có thể cũng như nên kiểm soát quyền truy cập vào dữ liệu do người dùng đóng góp của họ.

Vụ kiện cũng củng cố thông điệp rằng kỷ nguyên trích xuất dữ liệu thiếu sự quản lý có thể đang đi đến hồi kết, đặc biệt khi nhận thức của công chúng về quyền dữ liệu ngày càng tăng và các nền tảng tìm cách khẳng định quyền kiểm soát nhiều hơn đối với cách nội dung của họ được sử dụng trong các ứng dụng AI.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.31KNgười nắm giữ:2
    0.25%
  • Vốn hóa:$2.26KNgười nắm giữ:1
    0.00%
  • Ghim