Reddit poursuit Anthropic pour utilisation abusive présumée des données des utilisateurs dans la formation de modèles d'IA


Découvrez les meilleures actualités et événements fintech !

Abonnez-vous à la newsletter de FinTech Weekly

Lu par des dirigeants de JP Morgan, Coinbase, Blackrock, Klarna et plus encore


Reddit dépose une action en justice contre Anthropic pour utilisation non autorisée des données des utilisateurs

Reddit a intenté une action en justice contre l’entreprise d’intelligence artificielle Anthropic, l’accusant d’avoir enfreint ses conditions d’utilisation et de s’être engagé dans ce que la plateforme qualifie d’« actes commerciaux illégaux et déloyaux ». Le procès, déposé mercredi devant un tribunal fédéral, fait monter les tensions autour de l’utilisation de contenus web accessibles au public pour entraîner des systèmes d’IA commerciaux.

Selon la plainte, Reddit allègue qu’Anthropic a accédé et exploité de grandes quantités de contenu généré par les utilisateurs de Reddit pour entraîner ses modèles d’IA sans obtenir les autorisations ou licences nécessaires. La plateforme sociale soutient que cela viole non seulement ses politiques, mais qu’elle tire également profit des contributions de ses utilisateurs à des fins commerciales, sans consentement.

L’affaire met en lumière des questions plus larges sur la propriété des contenus en ligne à l’ère de l’IA générative, et sur la manière dont les entreprises devraient traiter des données publiques qui portent les nuances des attentes en matière de confidentialité et de la confiance de la communauté.

Une contestation juridique fondée sur l’utilisation de contenu et le gain commercial

Reddit affirme qu’Anthropic, bien qu’elle se présente comme une entreprise d’IA guidée par l’éthique, a agi en méconnaissance des règles de la plateforme de Reddit.

Le cœur de la plainte porte sur l’affirmation selon laquelle Anthropic a entraîné ses modèles d’IA — le plus notablement Claude — sur des données Reddit récupérées sans autorisation. Reddit souligne que, contrairement à OpenAI et Google, qui ont conclu des accords de licence conformes aux conditions de la plateforme et aux protections des utilisateurs, Anthropic n’a pas réussi à obtenir des autorisations similaires.

Cette distinction pourrait être un facteur clé dans l’affaire, en particulier alors que les entreprises d’IA subissent de plus en plus de pressions pour clarifier comment elles s’approvisionnent en données d’entraînement et comment elles les traitent, surtout lorsque ces données proviennent de plateformes avec du contenu contribué par les utilisateurs.

Boom de l’IA et tensions entre plateformes

Depuis la fin de 2022, l’IA générative a provoqué des changements substantiels dans l’industrie technologique, des plateformes comme Reddit devenant des réservoirs de grande valeur d’enseignements, de discussions et de conseils générés par les humains. Ces qualités les rendent attrayantes pour les développeurs d’IA qui construisent des modèles plus performants et plus sensibles au contexte.

Reddit s’est lui-même tourné vers l’économie de l’IA, annonçant récemment des partenariats avec OpenAI et Google permettant à ces entreprises d’utiliser le contenu de Reddit dans le cadre de conditions de licence spécifiques. Ces accords visent à préserver la confidentialité des utilisateurs tout en permettant de générer des revenus grâce aux 20 ans de contenu de la plateforme.

L’utilisation alléguée des données de Reddit par Anthropic, en revanche, aurait eu lieu sans de tels accords, selon le procès. La plateforme sociale soutient que cela a causé un préjudice financier et réputationnel direct, en citant l’utilisation commerciale non autorisée de ses données pour améliorer les produits d’un concurrent.

L’équipe juridique de Reddit a insisté sur le fait que le respect des règles de la plateforme n’est pas facultatif, en particulier dans des secteurs comme la fintech et l’IA où la transparence et la conformité font l’objet d’un examen croissant de la part des utilisateurs et des régulateurs.

Conséquences sur le marché et réaction de l’industrie

L’action de Reddit a progressé de plus de 6 % mercredi après l’annonce du procès, signalant un soutien des investisseurs à la décision de l’entreprise d’appliquer ses droits sur les données. La société, introduite en bourse début 2024, détient actuellement une capitalisation boursière d’environ 22 milliards de dollars.

Anthropic, pendant ce temps, est rapidement devenue l’une des startups du secteur de l’IA les plus fortement financées. La société a été valorisée à 61,5 milliards de dollars en mars, avec des investisseurs comme Amazon, Salesforce Ventures et Cisco Investments.

Bien qu’Anthropic ait déclaré être en désaccord avec les affirmations de Reddit, l’issue du procès pourrait avoir des implications à long terme sur la manière dont les entreprises d’IA abordent la collecte de données. Elle pourrait aussi influencer la façon dont les plateformes fixent le prix ou restreignent l’accès à leur contenu à des fins d’entraînement.

Des initiés du secteur ont souligné que, même si le développement de l’IA implique souvent du scraping de données à partir de domaines publics, la frontière entre « disponible publiquement » et « utilisable commercialement » demeure floue. Des affaires judiciaires comme celle-ci pourraient pousser à définir davantage des cadres qui équilibrent l’innovation et l’usage éthique du contenu.

Intérêt croissant pour l’éthique des données dans l’IA

L’action en justice intentée par Reddit s’inscrit dans un schéma plus large, selon lequel les plateformes commencent à riposter contre ce qu’elles perçoivent comme une exploitation par des entreprises d’IA. Alors que de plus en plus de firmes technologiques cherchent à monétiser leurs actifs de données, l’octroi de licences pour le contenu est devenu un terrain de bataille.

Reddit a clairement indiqué dans sa plainte qu’elle n’est pas opposée à l’utilisation de ses données pour l’entraînement en IA, mais à leur utilisation non autorisée. En établissant une distinction entre les entreprises qui respectent ses conditions — comme OpenAI et Google — et celles qui ne le feraient pas, Reddit cherche à se positionner à la fois comme une plateforme favorable à l’IA et protectrice pour sa communauté d’utilisateurs.

Le partenariat existant d’OpenAI avec Reddit a été mentionné dans la plainte, et le lien entre Reddit et le PDG d’OpenAI, Sam Altman, ancien membre du conseil et actionnaire important, ajoute encore de la complexité au contexte de la procédure.

Qu’est-ce qui vient ensuite

À mesure que la procédure devant le tribunal se déroule, tous les regards seront tournés vers la manière dont le système judiciaire traite les frontières floues entre le contenu ouvert de l’internet et les données d’entraînement propriétaires. L’affaire pourrait créer un précédent pour de futurs différends entre plateformes de contenu et développeurs d’IA.

Pour l’instant, la contestation judiciaire de Reddit ajoute à la tension grandissante concernant la manière dont les modèles d’IA sont entraînés et le degré auquel les propriétaires de plateformes peuvent — et devraient — contrôler l’accès à leurs données fournies par les utilisateurs.

Le procès renforce également le message selon lequel l’ère du scraping de données non réglementé pourrait toucher à sa fin, notamment à mesure que la sensibilisation du public aux droits sur les données augmente et que les plateformes cherchent à exercer davantage de contrôle sur la manière dont leur contenu est utilisé dans des applications d’IA.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler