Reddit Processa Anthropic por Alegada Utilização Indevida de Dados de Utilizadores no Treino de Modelos de IA


Descubra as principais notícias e eventos de fintech!

Subscreva a newsletter da FinTech Weekly

Lida por executivos da JP Morgan, Coinbase, Blackrock, Klarna e mais


Reddit interpõe uma ação judicial contra a Anthropic por uso não autorizado de dados de utilizadores

A Reddit tomou medidas legais contra a empresa de inteligência artificial Anthropic, acusando a startup de violar os seus termos de serviço e de envolver-se no que a plataforma classifica como “práticas comerciais ilícitas e injustas”. A ação judicial, apresentada na quarta-feira num tribunal federal, intensifica as tensões em torno do uso de conteúdos da web publicamente disponíveis para treinar sistemas comerciais de IA.

De acordo com a queixa, a Reddit alega que a Anthropic acedeu e utilizou grandes volumes de conteúdos gerados pelos utilizadores da Reddit para treinar os seus modelos de IA sem obter as permissões ou licenças necessárias. A plataforma social sustenta que isso não só viola as suas políticas, como também explora as contribuições dos seus utilizadores para obter ganhos comerciais sem consentimento.

O caso realça questões mais amplas sobre quem é o proprietário dos conteúdos online na era da IA generativa e sobre como as empresas devem tratar os dados públicos que carregam as nuances das expectativas de privacidade e da confiança da comunidade.

Um desafio legal enraizado no uso de conteúdos e no ganho comercial

A Reddit afirma que a Anthropic, apesar de se apresentar como uma empresa de IA guiada pela ética, agiu em desrespeito pelas regras da plataforma da Reddit.

O cerne da queixa centra-se na alegação de que a Anthropic treinou os seus modelos de IA—mais notavelmente o Claude—com dados da Reddit obtidos por scraping sem autorização. A Reddit salienta que, ao contrário da OpenAI e da Google, que celebraram acordos de licenciamento que cumprem os termos da plataforma e as proteções dos utilizadores, a Anthropic não conseguiu obter permissões semelhantes.

Esta distinção pode ser um fator determinante no caso, especialmente à medida que as empresas de IA estão cada vez mais sujeitas a pressão para esclarecer como é que obtêm e tratam os dados de treino, sobretudo quando esses dados provêm de plataformas com conteúdos contribuídos pelos utilizadores.

Boom de IA e tensões na plataforma

Desde finais de 2022, a IA generativa impulsionou mudanças substanciais em todo o setor tecnológico, com plataformas como a Reddit a tornarem-se repositórios de elevado valor para insights, discussões e conselhos gerados por humanos. Estas características fazem com que sejam especialmente atrativas para programadores de IA que pretendem construir modelos mais capazes e sensíveis ao contexto.

A própria Reddit tem vindo a apostar na economia de IA, anunciando recentemente parcerias com a OpenAI e a Google que permitem a essas empresas utilizar conteúdos da Reddit ao abrigo de condições específicas de licenciamento. Estes acordos destinam-se a preservar a privacidade dos utilizadores, ao mesmo tempo que possibilitam receitas com base nos 20 anos de conteúdos da plataforma.

O alegado uso, pela Anthropic, de dados da Reddit, no entanto, ocorreu sem tais acordos, segundo a ação judicial. A plataforma social argumenta que isso causou danos financeiros e reputacionais diretos, citando o uso comercial não autorizado dos seus dados para melhorar os produtos de um concorrente.

A equipa jurídica da Reddit sublinhou que respeitar as regras da plataforma não é opcional, especialmente em setores como fintech e IA, onde a transparência e a conformidade estão a ser cada vez mais escrutinadas por utilizadores e reguladores.

Implicações para o mercado e resposta da indústria

As ações da Reddit subiram mais de 6% na quarta-feira após o anúncio da ação judicial, sinalizando apoio dos investidores à decisão da empresa de fazer valer os seus direitos sobre os dados. A empresa, que abriu capital no início de 2024, tem atualmente uma capitalização bolsista de aproximadamente 22 mil milhões de dólares.

Entretanto, a Anthropic tornou-se rapidamente uma das startups de IA mais fortemente financiadas. A empresa foi avaliada em 61,5 mil milhões de dólares em março, com apoio de grandes intervenientes como a Amazon, a Salesforce Ventures e a Cisco Investments.

Embora a Anthropic tenha afirmado discordar das alegações da Reddit, o desfecho do processo poderá ter implicações a longo prazo na forma como as empresas de IA abordam a recolha de dados. Poderá também influenciar o modo como as plataformas fixam preços ou restringem o acesso aos seus conteúdos para fins de treino.

Insiders da indústria apontaram que, apesar de o desenvolvimento de IA muitas vezes envolver scraping de dados a partir de domínios públicos, a fronteira entre “publicamente disponível” e “utilizável comercialmente” continua pouco clara. Processos legais como este poderão impulsionar a criação de enquadramentos mais definidos que equilibrem a inovação com o uso ético de conteúdos.

Aumenta o foco na ética dos dados em IA

A ação legal da Reddit faz parte de um padrão mais amplo em que as plataformas começam a reagir ao que consideram ser exploração por parte de empresas de IA. À medida que mais empresas tecnológicas procuram monetizar os seus ativos de dados, o licenciamento de conteúdos tornou-se um terreno de disputa.

A Reddit deixou claro, na sua queixa, que não se opõe ao uso dos seus dados no treino de IA, mas sim ao seu uso não autorizado. Ao estabelecer uma distinção entre empresas que respeitam os seus termos—como a OpenAI e a Google—e aquelas que alegadamente não o fazem, a Reddit procura posicionar-se como simultaneamente favorável à IA e protetora da sua comunidade de utilizadores.

A parceria existente da OpenAI com a Reddit foi referida na queixa, e a ligação entre a Reddit e o CEO da OpenAI, Sam Altman, um antigo membro do conselho e grande acionista, acrescenta ainda mais complexidade ao pano de fundo do processo.

O que vem a seguir

À medida que o processo judicial avança, todos os olhares estarão voltados para como o sistema legal lida com as linhas ténues entre conteúdo aberto da Internet e dados de treino proprietários. O caso poderá estabelecer precedentes para futuras disputas entre plataformas de conteúdos e programadores de IA.

Por agora, o desafio legal da Reddit acrescenta-se ao aumento da tensão sobre como os modelos de IA são treinados e o grau em que os proprietários das plataformas podem e devem controlar o acesso aos seus dados contribuídos pelos utilizadores.

A ação judicial reforça também a mensagem de que a era do scraping de dados sem regulamentação poderá estar a chegar ao fim, especialmente à medida que a consciencialização sobre os direitos de dados cresce e as plataformas procuram impor maior controlo sobre a forma como os seus conteúdos são utilizados em aplicações de IA.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar