Reddit poursuit Anthropic pour utilisation abusive présumée des données des utilisateurs dans la formation de modèles d'IA


Découvrez les principales actualités et événements fintech !

Abonnez-vous à la newsletter de FinTech Weekly

Lue par des dirigeants chez JP Morgan, Coinbase, Blackrock, Klarna et plus


Reddit dépose une plainte contre Anthropic pour utilisation non autorisée des données des utilisateurs

Reddit a intenté une action en justice contre l’entreprise d’intelligence artificielle Anthropic, l’accusant d’avoir enfreint ses conditions d’utilisation et de s’être livré, ce que la plateforme appelle, à des « actes commerciaux illégaux et déloyaux ». Le procès, déposé mercredi devant un tribunal fédéral, fait monter les tensions autour de l’utilisation de contenus web accessibles au public pour entraîner des systèmes d’IA commerciaux.

D’après la plainte, Reddit allègue qu’Anthropic a accédé et utilisé de larges volumes de contenu généré par les utilisateurs de Reddit pour entraîner ses modèles d’IA sans obtenir les autorisations ou licences nécessaires. La plateforme sociale soutient que cela viole non seulement ses politiques, mais qu’elle exploite également les contributions de ses utilisateurs à des fins commerciales sans consentement.

L’affaire soulève des questions plus larges sur qui détient la propriété des contenus en ligne à l’ère de l’IA générative, et sur la manière dont les entreprises devraient traiter les données publiques qui portent les nuances liées aux attentes de confidentialité et à la confiance au sein des communautés.

Un défi juridique fondé sur l’utilisation de contenus et le profit commercial

Reddit affirme qu’Anthropic, malgré sa présentation comme une entreprise d’IA guidée par l’éthique, a agi en faisant fi des règles de la plateforme de Reddit.

Le cœur de la plainte porte sur l’affirmation selon laquelle Anthropic a entraîné ses modèles d’IA—le plus notable étant Claude—sur des données issues de Reddit, moissonnées sans autorisation. Reddit souligne qu’à la différence d’OpenAI et de Google, qui ont conclu des accords de licence conformes aux conditions de la plateforme et aux protections des utilisateurs, Anthropic n’a pas réussi à obtenir des autorisations similaires.

Cette distinction pourrait être un facteur clé dans l’affaire, en particulier alors que les entreprises d’IA subissent de plus en plus de pression pour clarifier leur mode de sourcing et de traitement des données d’entraînement, surtout lorsque ces données proviennent de plateformes comportant du contenu contribué par les utilisateurs.

Boom de l’IA et tensions entre plateformes

Depuis fin 2022, l’IA générative a provoqué des changements substantiels dans l’industrie technologique, des plateformes comme Reddit devenant des réservoirs à forte valeur pour des informations, discussions et conseils générés par des humains. Ces qualités les rendent attrayantes pour les développeurs d’IA qui construisent des modèles plus capables et sensibles au contexte.

Reddit s’est lui-même appuyé sur l’économie de l’IA, annonçant récemment des partenariats avec OpenAI et Google permettant à ces entreprises d’utiliser le contenu de Reddit dans le cadre de conditions de licence spécifiques. Ces accords visent à préserver la confidentialité des utilisateurs tout en permettant de générer des revenus grâce aux 20 années de contenu de la plateforme.

L’utilisation alléguée par Anthropic de données issues de Reddit, en revanche, s’est produite sans de tels accords, selon le procès. La plateforme sociale soutient que cela a causé un préjudice financier et en termes de réputation direct, en citant l’utilisation commerciale non autorisée de ses données pour améliorer les produits d’un concurrent.

L’équipe juridique de Reddit a souligné que le respect des règles de la plateforme n’est pas une option, particulièrement dans des secteurs comme la fintech et l’IA, où la transparence et la conformité font l’objet d’un contrôle croissant de la part à la fois des utilisateurs et des régulateurs.

Répercussions sur le marché et réponse de l’industrie

L’action de Reddit a grimpé de plus de 6 % mercredi après l’annonce du dépôt de la plainte, signalant un soutien des investisseurs à la décision de l’entreprise de faire respecter ses droits sur les données. La société, devenue publique début 2024, affiche actuellement une capitalisation boursière d’environ 22 milliards de dollars.

Entre-temps, Anthropic est rapidement devenu l’une des startups du secteur de l’IA les plus fortement financées. La société a été valorisée à 61,5 milliards de dollars en mars, avec des soutiens de grands acteurs tels qu’Amazon, Salesforce Ventures et Cisco Investments.

Bien qu’Anthropic ait déclaré être en désaccord avec les affirmations de Reddit, l’issue du procès pourrait avoir des implications à long terme sur la manière dont les entreprises d’IA abordent la collecte de données. Elle pourrait aussi influencer la manière dont les plateformes fixent les prix ou restreignent l’accès à leur contenu à des fins d’entraînement.

Des initiés de l’industrie ont souligné que, même si le développement de l’IA implique souvent du moissonnage de données à partir de domaines publics, la frontière entre « publiquement disponible » et « utilisable à des fins commerciales » reste floue. Des affaires judiciaires comme celle-ci pourraient pousser à définir davantage de cadres qui équilibrent l’innovation et l’utilisation éthique des contenus.

Accent croissant sur l’éthique des données dans l’IA

L’action en justice de Reddit s’inscrit dans un schéma plus large selon lequel les plateformes commencent à riposter contre ce qu’elles considèrent comme une exploitation par des entreprises d’IA. Alors que de plus en plus de firmes technologiques cherchent à monétiser leurs actifs de données, la licence de contenus est devenue un terrain de bataille.

Reddit a clairement indiqué dans sa plainte qu’il n’est pas opposé à l’utilisation de ses données dans l’entraînement à l’IA, mais bien à leur utilisation non autorisée. En établissant une distinction entre les entreprises qui respectent ses conditions—telles qu’OpenAI et Google—et celles qui, selon les allégations, ne le feraient pas, Reddit cherche à se positionner à la fois comme une plateforme favorable à l’IA et comme protectrice de sa communauté d’utilisateurs.

Le partenariat existant d’OpenAI avec Reddit a été mentionné dans la plainte, et le lien entre Reddit et le PDG d’OpenAI, Sam Altman, ancien membre du conseil d’administration et actionnaire important, ajoute encore à la complexité du contexte de l’affaire.

Qu’est-ce qui vient ensuite

À mesure que la procédure judiciaire se déroule, tous les regards se tourneront vers la manière dont le système juridique traite les frontières floues entre le contenu ouvert sur Internet et les données d’entraînement propriétaires. L’affaire pourrait établir un précédent pour les futurs différends entre plateformes de contenus et développeurs d’IA.

Pour l’instant, le défi juridique de Reddit s’ajoute à la tension grandissante sur la manière dont les modèles d’IA sont entraînés et sur la mesure dans laquelle les propriétaires de plateformes peuvent et doivent contrôler l’accès à leurs données contribué par les utilisateurs.

Le procès renforce également le message selon lequel l’ère du moissonnage de données non réglementé pourrait bien toucher à sa fin, notamment à mesure que la sensibilisation du public aux droits sur les données augmente et que les plateformes cherchent à exercer davantage de contrôle sur la manière dont leur contenu est utilisé dans les applications d’IA.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler