Reddit、AIモデルのトレーニングにおけるユーザーデータの不正使用でAnthropicを提訴


主要なフィンテックのニュースとイベントを発見!

FinTech Weeklyのニュースレターを購読

JPモルガン、Coinbase、Blackrock、Klarnaなどのエグゼクティブに読まれています


Reddit、Anthropicをユーザーデータの無断利用で提訴

Redditは、人工知能企業Anthropicに対して法的措置を取っており、同社が利用規約に違反し、プラットフォームが「不法かつ不公正な事業行為」と呼ぶ行為に関与したと非難している。水曜日に連邦裁判所へ提出されたこの訴訟は、商用AIシステムの学習に用いるための、公に利用可能なウェブコンテンツの利用をめぐる緊張をさらに引き上げている。

申立書によれば、Redditは、Anthropicが必要な許可またはライセンスを取得せずに、Redditのユーザー生成コンテンツの大量にアクセスし、それを利用してAIモデルを訓練したと主張している。ソーシャルプラットフォームは、これは同社のポリシーに違反するだけでなく、同意なくユーザーの貢献を商業的利益のために搾取していると論じている。

この案件は、生成AIの時代にオンラインコンテンツの所有者が誰なのか、そしてプライバシーに対する期待やコミュニティの信頼というニュアンスを含む公開データを企業がどのように扱うべきか、というより広範な問いを浮き彫りにしている。

コンテンツ利用と商業的利益に根差した法的争い

Redditは、倫理に基づくAI企業であると自らを位置づけながらも、AnthropicがRedditのプラットフォーム規則を無視して行動したと主張している。

申立書の中心は、Anthropicが無許可でスクレイピングされたRedditデータでAIモデル(とりわけClaude)を訓練したという主張にある。Redditは、プラットフォームの規約とユーザー保護に適合するライセンス契約を締結したOpenAIやGoogleとは異なり、Anthropicは同様の許可を確保できていなかったと指摘している。

この違いは訴訟における重要な要素になり得る。というのも、AI企業はますます、どのように学習データを調達し取り扱うのか、特にユーザーが投稿するコンテンツを含むプラットフォームから得られるデータの場合に、説明を求められる圧力が高まっているからだ。

AIブームとプラットフォーム間の緊張

2022年後半以降、生成AIはテクノロジー業界全体に大きな変化をもたらし、Redditのようなプラットフォームは、人が生成した洞察、議論、助言を集めた高価値のリポジトリになってきた。こうした特性が、より能力が高く、状況を踏まえたモデルを構築するAI開発者にとって魅力的な理由となっている。

Reddit自身もAI経済に乗り出しており、最近、OpenAIおよびGoogleと提携し、特定のライセンス条件のもとでそれらの企業がRedditのコンテンツを利用できるようにすると発表している。これらの取り決めは、ユーザーのプライバシーを維持しつつ、プラットフォームの20年分のコンテンツから収益を生み出すことを意図したものだ。

しかし、訴訟によれば、AnthropicによるRedditデータの使用は、そうした合意なしに行われたという。ソーシャルプラットフォームは、これが直接的な金銭的および評判上の損害につながったと主張し、競合他社の製品を強化するために自社データが無許可で商業利用されたとしている。

Redditの法務チームは、プラットフォーム規則を尊重することは任意ではなく、特にフィンテックやAIのような分野では、透明性とコンプライアンスが、利用者と規制当局の双方からますます厳しい監視を受けている、と強調した。

市場への影響と業界の対応

Redditの株価は、訴訟の発表を受けて水曜日に6%以上上昇し、同社がデータ権を行使するという判断に対する投資家の支持を示した。同社は2024年初めに上場しており、現在の時価総額は約$22 billionである。

一方のAnthropicは、AI業界で最も資金が厚く投じられているスタートアップの1つへと急速に成長している。同社の企業価値は3月時点で$61.5 billionと評価されており、Amazon、Salesforce Ventures、Cisco Investmentsのような主要プレイヤーからの支援がある。

AnthropicはRedditの主張に同意していないと述べているものの、訴訟の結果は、AI企業がデータ収集にどう取り組むかについて長期的な影響を与える可能性がある。また、プラットフォームが学習目的で自社コンテンツへのアクセスをどのように価格設定したり制限したりするかにも影響を及ぼすかもしれない。

業界のインサイダーは、AI開発がしばしばパブリックな領域からのデータスクレイピングを伴うとはいえ、**「公に利用可能」「商業的に利用可能」**の境界はなお不明確だ、と指摘している。この種の法的争いは、革新と倫理的なコンテンツ利用のバランスを取る、より明確な枠組みを求める方向へ押し進める可能性がある。

AIにおけるデータ倫理への関心の高まり

Redditによる今回の法的措置は、プラットフォームが、AI企業による搾取だと見なすものに対して反発し始めているという、より広いパターンの一部だ。テック企業がデータ資産を収益化しようとする動きが強まるにつれ、コンテンツのライセンスは激しい争点になっている。

Redditは、AI学習における自社データの利用に反対しているのではなく、無許可での利用に反対しているのだと、申立書で明確にしている。OpenAIやGoogleのように自社の条件を尊重する企業と、そうでない(とされる)企業とを区別することで、Redditは自らを「AIにやさしい」存在であり、かつユーザーのコミュニティを守る存在として位置づけようとしている。

申立書では、RedditとのOpenAIの既存の提携が言及されており、元取締役で主要株主でもあるSam Altman氏をめぐって、RedditとOpenAIのつながりが訴訟の背景にさらに複雑さを加えている。

次に来るもの

裁判手続きが進む中で、開かれたインターネットのコンテンツと、企業が所有する学習用データとの間に引かれた曖昧な線を、法制度がどのように扱うのかに注目が集まる。この訴訟は、コンテンツ・プラットフォームとAI開発者の間の将来の紛争に先例を作る可能性がある。

当面は、Redditによる今回の法的異議申し立てが、AIモデルがどのように訓練されるのか、そしてプラットフォームの所有者がユーザーが投稿したデータへのアクセスをどの程度コントロールでき、またコントロールすべきなのかをめぐる緊張の高まりに拍車をかけることになる。

この訴訟はまた、無規制のデータスクレイピングの時代が終わりに近づいているというメッセージを補強している。特に、データ権に対する世間の認識が広がる一方で、プラットフォームが自社コンテンツがAIアプリケーションでどのように使われるかについて、より強く統制を主張しようとしているためだ。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン