Reddit 起诉 Anthropic,指控其在 AI 模型训练中涉嫌滥用用户数据


发现顶级金融科技新闻与活动!

订阅 FinTech Weekly 的通讯简报

由 JP Morgan、Coinbase、Blackrock、Klarna 等高管阅读


Reddit 因涉嫌未经授权使用用户数据起诉 Anthropic

Reddit 已对人工智能公司 Anthropic 采取法律行动,指控该初创公司违反其服务条款,并从事该平台所称的“非法且不公平的商业行为”。该诉讼于周三在联邦法院提起,进一步加剧了围绕使用公开可得的网页内容来训练商业化 AI 系统的紧张局势。

根据起诉状,Reddit 指称 Anthropic 在未获得必要许可或授权的情况下,访问并利用了大量由 Reddit 用户生成的内容来训练其 AI 模型。该社交平台认为,这不仅违反了其政策,还在未征得用户同意的情况下,借助用户的贡献为商业利益服务。

此案凸显了一个更广泛的问题:在生成式 AI 时代,谁拥有线上内容;以及公司应如何对待所承载的隐私期待与社区信任细微差别的公共数据。

一个植根于内容使用与商业获利的法律挑战

Reddit 指控,Anthropic 尽管自我呈现为一家在道德层面驱动的 AI 公司,但却无视 Reddit 的平台规则。

起诉状的核心在于:Anthropic 在未经授权的情况下,从爬取得到的 Reddit 数据上训练了其 AI 模型——尤其是 Claude。Reddit 指出,与进入符合平台条款和用户保护的许可协议的 OpenAI 和 Google 不同,Anthropic 未能获得类似的许可。

这种差异可能是本案的关键因素,尤其是在 AI 公司越来越受到压力,必须澄清其如何获取并处理训练数据时——尤其当这些数据来自包含用户贡献内容的平台。

AI 热潮与平台紧张

自 2022 年底以来,生成式 AI 已在整个科技行业引发了显著变革。像 Reddit 这样的平台也成为高价值的“人类生成洞察”、讨论与建议的存储库。这些特质使其对正在构建更强大且具备情境感知能力的模型的 AI 开发者极具吸引力。

Reddit 本身也已切入 AI 经济,最近宣布与 OpenAI 和 Google 建立合作,使这些公司能够在特定许可条款下使用 Reddit 内容。此类交易旨在在保护用户隐私的同时,为该平台 20 年的内容创造收入。

然而,据该诉讼所述,Anthropic 涉嫌使用 Reddit 数据发生在上述协议之外。该社交平台认为,这导致了直接的财务与声誉损害,并援引未经授权将其数据用于提升竞争对手产品的商业用途。

Reddit 的法务团队强调:遵守平台规则并非可选项,尤其是在金融科技和 AI 等领域——在这些领域中,透明度与合规正日益受到用户与监管机构的审视。

市场影响与行业回应

周三,Reddit 的股价上涨超过 6%,此前该公司在公布诉讼消息后吸引了投资者对其坚持数据权利决定的支持。该公司在 2024 年初上市,目前市值约为 220 亿美元。

与此同时,Anthropic 迅速成为 AI 行业获得融资最多的初创公司之一。3 月份,该公司估值达到 615 亿美元,支持方包括 Amazon、Salesforce Ventures 和 Cisco Investments 等主要机构。

尽管 Anthropic 表示不同意 Reddit 的指控,但诉讼结果可能对 AI 公司如何开展数据收集产生长期影响。它也可能影响平台如何定价或限制对其内容的访问,以用于训练目的。

业内人士指出,尽管 AI 开发往往涉及从公共领域进行数据爬取,“公开可用”与“可用于商业”的边界仍然不清晰。像本案这样的法律纠纷可能推动制定更明确的框架,在创新与合乎道德的内容使用之间取得平衡。

AI 中数据伦理的关注度不断提升

Reddit 此次诉讼行动是更大趋势的一部分:平台开始对它们认为是被 AI 公司剥削的行为进行反击。随着越来越多的科技公司希望将其数据资产变现,内容许可已成为一场“争夺战”。

Reddit 在其起诉状中明确表示:它并不反对在 AI 训练中使用其数据,而是反对未经授权的使用。通过区分那些遵守其条款的公司——例如 OpenAI 和 Google——以及那些据称未遵守的公司,Reddit 试图把自己定位为既对 AI 友好、又保护其用户群体的公司。

起诉状中提到了 OpenAI 与 Reddit 现有的合作关系。而 Reddit 与 OpenAI 首席执行官 Sam Altman 之间的联系——他曾是董事会成员并且是主要股东——也为诉讼背景增添了更多复杂性。

接下来会发生什么

随着法院程序展开,所有目光都将聚焦于法律体系如何处理“开放互联网内容”与“专有训练数据”之间界限模糊这一问题。本案或将为内容平台与 AI 开发者之间未来的争议树立先例。

目前而言,Reddit 的法律挑战进一步加剧了围绕 AI 模型如何被训练、以及平台所有者在多大程度上能够并应当控制对其由用户贡献的数据的访问所产生的紧张情绪。

该诉讼还强化了一条信息:不受监管的数据爬取时代可能正在走向终结,尤其是在公众对数据权利的认知不断提高的情况下,同时平台也希望对其内容在 AI 应用中的使用方式施加更强控制。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论