Reddit Processa Anthropic por Alegada Utilização Indevida de Dados de Utilizadores no Treino de Modelos de IA


Descubra as principais notícias e eventos de fintech!

Subscreva a newsletter do FinTech Weekly

Lida por executivos da JP Morgan, Coinbase, Blackrock, Klarna e mais


Reddit apresenta uma ação judicial contra a Anthropic por uso não autorizado de dados de utilizadores

O Reddit tomou medidas legais contra a empresa de inteligência artificial Anthropic, acusando o startup de violar os seus termos de serviço e de praticar o que a plataforma descreve como “atos comerciais ilícitos e injustos”. A ação judicial, apresentada na quarta-feira num tribunal federal, intensifica as tensões em torno da utilização de conteúdos web publicamente disponíveis para treinar sistemas comerciais de IA.

De acordo com a queixa, a Reddit alega que a Anthropic acedeu e utilizou grandes volumes de conteúdos gerados pelos utilizadores do Reddit para treinar os seus modelos de IA sem obter as permissões ou licenças necessárias. A plataforma social sustenta que isso não só viola as suas políticas, como também explora as contribuições dos seus utilizadores para obter ganhos comerciais sem consentimento.

O caso levanta questões mais amplas sobre quem é o proprietário do conteúdo online na era da IA generativa, e sobre como as empresas devem tratar os dados públicos que transportam as nuances das expectativas de privacidade e da confiança da comunidade.

Um desafio legal enraizado no uso de conteúdo e no ganho comercial

O Reddit afirma que a Anthropic, apesar de se apresentar como uma empresa de IA orientada pela ética, agiu com desrespeito pelas regras da plataforma do Reddit.

O cerne da queixa centra-se na alegação de que a Anthropic treinou os seus modelos de IA — sobretudo Claude — com dados do Reddit recolhidos sem autorização. O Reddit salienta que, ao contrário da OpenAI e da Google, que celebraram acordos de licenciamento que cumprem os termos da plataforma e proteções dos utilizadores, a Anthropic não conseguiu obter permissões semelhantes.

Esta distinção pode ser um fator-chave no caso, especialmente à medida que as empresas de IA estão sob pressão crescente para clarificar como obtêm e tratam dados de treino, sobretudo quando esses dados provêm de plataformas com conteúdo contribuído pelos utilizadores.

Boom de IA e tensões na plataforma

Desde finais de 2022, a IA generativa tem provocado mudanças substanciais em toda a indústria tecnológica, com plataformas como o Reddit a tornarem-se repositórios de elevado valor para insights, discussões e conselhos gerados por humanos. Estas características fazem delas um alvo atrativo para programadores de IA que constroem modelos mais capazes e sensíveis ao contexto.

O próprio Reddit tem apostado na economia de IA, tendo recentemente anunciado parcerias com OpenAI e Google que permitem a essas empresas utilizar conteúdos do Reddit ao abrigo de condições específicas de licenciamento. Esses acordos destinam-se a preservar a privacidade dos utilizadores, ao mesmo tempo que permitem gerar receitas com os 20 anos de conteúdo da plataforma.

No entanto, o alegado uso de dados do Reddit pela Anthropic ocorreu sem tais acordos, segundo o processo. A plataforma social argumenta que isso causou danos financeiros e reputacionais diretos, ao referir o uso comercial não autorizado dos seus dados para melhorar os produtos de um concorrente.

A equipa jurídica do Reddit sublinhou que respeitar as regras da plataforma não é opcional, especialmente em setores como fintech e IA, onde a transparência e a conformidade estão a ser alvo de escrutínio crescente por parte de utilizadores e reguladores.

Implicações no mercado e resposta da indústria

As ações do Reddit subiram mais de 6% na quarta-feira após o anúncio da ação judicial, sinalizando apoio dos investidores à decisão da empresa de fazer valer os seus direitos sobre os dados. A empresa, que abriu o capital no início de 2024, tem atualmente uma capitalização de mercado de aproximadamente $22 mil milhões.

A Anthropic, entretanto, tornou-se rapidamente um dos startups de IA mais financiados da indústria. A empresa foi avaliada em $61,5 mil milhões em março, com apoio de grandes players como Amazon, Salesforce Ventures e Cisco Investments.

Embora a Anthropic tenha afirmado que discorda das alegações do Reddit, o desfecho do processo pode ter implicações de longo prazo para a forma como as empresas de IA abordam a recolha de dados. Também pode influenciar a forma como as plataformas definem preços ou restringem o acesso ao seu conteúdo para fins de treino.

Insiders da indústria apontaram que, apesar de o desenvolvimento de IA muitas vezes envolver a recolha de dados por scraping a partir de domínios públicos, a fronteira entre “publicamente disponível” e “utilizável comercialmente” continua pouco clara. Casos legais como este podem impulsionar a criação de enquadramentos mais definidos que equilibrem a inovação com o uso ético de conteúdos.

Foco crescente na ética dos dados na IA

A ação legal da Reddit faz parte de um padrão mais amplo em que as plataformas começam a reagir contra o que consideram ser exploração por parte de empresas de IA. À medida que mais empresas tecnológicas procuram monetizar os seus ativos de dados, o licenciamento de conteúdos tornou-se um campo de batalha.

O Reddit deixou claro na sua queixa que não se opõe ao uso dos seus dados no treino de IA, mas sim ao seu uso não autorizado. Ao fazer uma distinção entre empresas que respeitam os seus termos — como a OpenAI e a Google — e aquelas que alegadamente não o fazem, o Reddit pretende posicionar-se como simultaneamente favorável à IA e protetora da sua comunidade de utilizadores.

Na queixa, foi referida a parceria existente da OpenAI com o Reddit, e a ligação entre o Reddit e o CEO da OpenAI, Sam Altman, um antigo membro do conselho e grande acionista, acrescenta ainda mais complexidade ao pano de fundo do processo.

O que vem a seguir

À medida que o processo judicial se desenrola, todas as atenções estarão voltadas para a forma como o sistema jurídico lida com as linhas ténues entre conteúdos abertos da internet e dados proprietários de treino. O caso poderá estabelecer um precedente para futuros litígios entre plataformas de conteúdo e programadores de IA.

Por agora, o desafio legal do Reddit aumenta a tensão acumulada em torno de como os modelos de IA são treinados e do grau em que os proprietários de plataformas podem e devem controlar o acesso aos seus dados contribuídos pelos utilizadores.

A ação judicial reforça também a mensagem de que a era do scraping de dados sem regulamentação poderá estar a chegar ao fim, especialmente à medida que aumenta a consciência pública sobre os direitos dos dados e as plataformas procuram afirmar mais controlo sobre como o seu conteúdo é utilizado em aplicações de IA.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar