Reddit poursuit Anthropic pour utilisation abusive présumée des données des utilisateurs dans la formation de modèles d'IA


Découvrez les principales actualités et événements fintech !

Abonnez-vous à la newsletter de FinTech Weekly

Lue par des dirigeants chez JP Morgan, Coinbase, Blackrock, Klarna et plus encore


Reddit dépose une plainte contre Anthropic pour utilisation non autorisée des données des utilisateurs

Reddit a engagé une action en justice contre l’entreprise d’intelligence artificielle Anthropic, l’accusant d’avoir enfreint ses conditions d’utilisation et de s’être livré à ce que la plateforme qualifie d’« actes commerciaux illégaux et déloyaux ». Le procès, déposé mercredi devant un tribunal fédéral, fait monter la tension autour de l’utilisation de contenus web accessibles au public pour entraîner des systèmes d’IA commerciaux.

Selon la plainte, Reddit allègue qu’Anthropic a accédé et utilisé de larges volumes de contenus générés par les utilisateurs de Reddit pour entraîner ses modèles d’IA sans obtenir les autorisations ou licences nécessaires. La plateforme de médias sociaux soutient que cela enfreint non seulement ses politiques, mais qu’elle exploite aussi les contributions de ses utilisateurs à des fins commerciales sans consentement.

L’affaire met en lumière des questions plus vastes sur la propriété des contenus en ligne à l’ère de l’IA générative, et sur la manière dont les entreprises devraient traiter les données publiques porteuses des nuances liées aux attentes en matière de confidentialité et à la confiance de la communauté.

Un défi juridique ancré dans l’utilisation du contenu et le gain commercial

Reddit affirme qu’Anthropic, malgré sa présentation comme une entreprise d’IA guidée par l’éthique, a agi en méconnaissance des règles de la plateforme de Reddit.

Le cœur de la plainte porte sur l’affirmation selon laquelle Anthropic a entraîné ses modèles d’IA — tout particulièrement Claude — sur des données Reddit prélevées sans autorisation. Reddit souligne que, contrairement à OpenAI et Google, qui ont conclu des accords de licence conformes aux conditions de la plateforme et aux protections des utilisateurs, Anthropic n’a pas réussi à obtenir des autorisations similaires.

Cette distinction pourrait constituer un facteur clé dans l’affaire, d’autant plus que les entreprises d’IA subissent de plus en plus de pression pour clarifier comment elles identifient et traitent les données d’entraînement, en particulier lorsque ces données proviennent de plateformes avec du contenu contribué par les utilisateurs.

Boom de l’IA et tensions entre plateformes

Depuis la fin de 2022, l’IA générative a provoqué des changements considérables dans l’industrie technologique, des plateformes comme Reddit devenant des référentiels à forte valeur pour les insights, discussions et conseils générés par des humains. Ces caractéristiques les rendent attrayantes pour les développeurs d’IA qui construisent des modèles plus performants et sensibles au contexte.

Reddit s’est lui-même tourné vers l’économie de l’IA, annonçant récemment des partenariats avec OpenAI et Google permettant à ces entreprises d’utiliser le contenu de Reddit dans le cadre de conditions de licence spécifiques. Ces accords visent à préserver la confidentialité des utilisateurs tout en permettant de générer des revenus grâce aux 20 années de contenu de la plateforme.

L’utilisation alléguée par Anthropic de données Reddit, cependant, a eu lieu sans de tels accords, selon la plainte. La plateforme de médias sociaux soutient que cela a entraîné un préjudice financier et réputationnel direct, en citant l’usage commercial non autorisé de ses données pour renforcer les produits d’un concurrent.

L’équipe juridique de Reddit a souligné que le respect des règles de la plateforme n’est pas facultatif, en particulier dans des secteurs comme la fintech et l’IA, où la transparence et la conformité font l’objet d’un examen croissant de la part des utilisateurs et des régulateurs.

Implications pour le marché et réaction de l’industrie

L’action de Reddit a grimpé de plus de 6 % mercredi après l’annonce du dépôt de la plainte, signalant le soutien des investisseurs à la décision de la société d’appliquer ses droits sur les données. L’entreprise, devenue publique début 2024, détient actuellement une capitalisation boursière d’environ 22 milliards de dollars.

Entre-temps, Anthropic est rapidement devenue l’une des startups du secteur de l’IA les plus fortement financées. La société a été valorisée à 61,5 milliards de dollars en mars, avec le soutien d’acteurs majeurs comme Amazon, Salesforce Ventures et Cisco Investments.

Bien qu’Anthropic ait déclaré être en désaccord avec les affirmations de Reddit, l’issue du procès pourrait avoir des implications à long terme sur la manière dont les entreprises d’IA abordent la collecte de données. Elle pourrait aussi influencer la façon dont les plateformes fixent le prix ou restreignent l’accès à leur contenu à des fins d’entraînement.

Des initiés du secteur ont indiqué qu’à rebours de ce qu’on pourrait croire, même si le développement de l’IA implique souvent du scraping de données dans des domaines publics, la frontière entre « accessible au public » et « utilisable à des fins commerciales » reste floue. Des affaires judiciaires comme celle-ci pourraient pousser à définir davantage des cadres qui équilibrent l’innovation et l’usage éthique des contenus.

Renforcement de l’attention portée à l’éthique des données dans l’IA

L’action en justice engagée par Reddit s’inscrit dans un schéma plus large, où des plateformes commencent à riposter contre ce qu’elles considèrent comme une exploitation de la part des entreprises d’IA. À mesure que davantage de sociétés technologiques cherchent à monétiser leurs actifs de données, l’octroi de licences de contenus est devenu un terrain de confrontation.

Reddit a clairement indiqué dans sa plainte qu’il n’est pas opposé à l’utilisation de ses données dans l’entraînement en IA, mais plutôt à leur utilisation non autorisée. En établissant une distinction entre les entreprises qui respectent ses conditions — comme OpenAI et Google — et celles qui ne le feraient pas, Reddit cherche à se positionner à la fois comme une plateforme favorable à l’IA et protectrice de sa communauté d’utilisateurs.

Le partenariat existant d’OpenAI avec Reddit a été relevé dans la plainte, et le lien entre Reddit et le PDG d’OpenAI, Sam Altman, ancien membre du conseil d’administration et principal actionnaire, ajoute encore de la complexité au contexte de la poursuite.

Ce qui se passe ensuite

À mesure que la procédure devant le tribunal se déroule, tous les regards se tourneront vers la manière dont le système judiciaire abordera les frontières brouillées entre le contenu ouvert sur Internet et les données d’entraînement propriétaires. L’affaire pourrait établir un précédent pour les futurs litiges entre plateformes de contenus et développeurs d’IA.

Pour l’instant, la contestation judiciaire de Reddit renforce la tension croissante autour de la manière dont les modèles d’IA sont entraînés, et du degré auquel les propriétaires de plateformes peuvent et doivent contrôler l’accès aux données qu’ils collectent auprès de leurs utilisateurs.

Le procès réaffirme aussi le message selon lequel l’ère du scraping de données non réglementé pourrait être en train de toucher à sa fin, notamment à mesure que la sensibilisation du public aux droits sur les données augmente et que les plateformes cherchent à exercer davantage de contrôle sur la façon dont leur contenu est utilisé dans des applications d’IA.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler