Perceptron está transformando largura de banda ociosa em dados de treinamento de IA.

O setor de inteligência artificial está enfrentando atualmente um grave gargalo de dados de treinamento, especialmente porque os monopólios tecnológicos centralizados estão excluindo desenvolvedores iniciantes de pipelines de informações de alta qualidade. A plataforma de infraestrutura de dados descentralizada Perceptron está tentando resolver esse gargalo estrutural implantando uma camada de infraestrutura descentralizada que coleta informações da web por meio de dispositivos de usuários comuns.

Resumo

  • A Perceptron está usando a largura de banda ociosa do consumidor para coletar dados públicos da web e fornecer conjuntos de dados de treinamento de IA de custo mais baixo.
  • A plataforma afirma que sua rede abrange mais de 150 países e recompensa os contribuintes, verificando a qualidade dos dados antes de fornecê-los a clientes empresariais.
  • A Perceptron lançou um Fundo de Dados de IA de US$ 10 milhões para ajudar desenvolvedores a acessar infraestrutura de dados e acelerar o desenvolvimento de modelos de IA.

A mídia moderna está totalmente focada em destacar como os principais nomes do espaço de inteligência artificial estão constantemente implantando sistemas de hardware de última geração para aumentar seu poder computacional bruto. Mas uma das restrições operacionais menos discutidas é a qualidade dos dados de treinamento que formam a base central de qualquer modelo de IA funcional.

O problema é que, com a grande maioria do conteúdo aberto da web já totalmente coletado, o controle corporativo agressivo sobre as interfaces de programação de aplicativos públicas bloqueou os fundamentos restantes da coleta de conjuntos de dados por trás de paywalls multimilionários exorbitantes. Tornou-se essencialmente um privilégio exclusivo proibitivamente caro para um punhado de gigantescos monopólios de tecnologia.

Para os gigantes da tecnologia que estão atualmente liderando a corrida da IA, garantir esses pipelines de informação de alto custo não é um grande desafio financeiro, mas e os inovadores com poucos recursos? Sem os orçamentos necessários, as startups em estágio inicial ficam lutando para construir produtos competitivos.

"A OpenAI paga aproximadamente US$ 60 milhões a US$ 100 milhões por ano para empresas como Reddit e Twitter para poder acessar dados por meio de APIs", disse Peter Anthony, cofundador e CEO da Perceptron, à crypto.news durante uma entrevista recente

"Muitos novos projetos de IA por aí não têm orçamentos para gastar US$ 60 milhões a US$ 100 milhões para acessar dados. Se você construir o melhor modelo do mundo, ele é praticamente inútil se não tiver acesso a dados de boa qualidade. Você pode ser o garoto mais inteligente da escola, mas se não conseguir acessar nenhum livro, você realmente não tem muita informação para apresentar."

Anthony percebeu que essa assimetria de mercado deixa espaço para infraestrutura alternativa que atenderia ao segmento de mercado independente, o que o levou a cofundar a Perceptron, uma plataforma que planeja usar a largura de banda ociosa do consumidor para resolver "o problema do gargalo de dados" que a IA está enfrentando atualmente.

"A maioria dos dados do mundo já foi acessada e extraída, mas há muitos dados que estão meio que escondidos em lugares diferentes que ainda não são acessíveis, então estamos coletando dados e nos posicionando para poder fornecer dados para empresas de IA a um custo reduzido", explicou Anthony.

Colhendo a largura de banda ociosa

Mas o que é essa largura de banda ociosa que a Perceptron planeja aproveitar? Anthony explicou que este é o ativo econômico não reconhecido que os usuários comuns produzem constantemente por meio da navegação digital rotineira, apenas para ver grandes corporações extraírem e lucrarem com ele.

"Agora, toda vez que você e eu usamos a internet em nossos telefones, nossos computadores, estamos gerando dados. Esses dados são coletados, empacotados em conjuntos de dados massivos por empresas como o Google e vendidos por milhões, às vezes bilhões de dólares. No entanto, você e eu nunca vemos um centavo desse valor."

O que a Perceptron fez foi virar completamente esse modelo extrativista de cabeça para baixo. Eles construíram uma rede que abrange mais de 150 países, composta por aproximadamente 800.000 nós, e esses nós são alimentados por usuários individuais que estão simplesmente executando uma extensão de navegador no Chrome ou um aplicativo em seus dispositivos Android.

Embora essas instalações de ponto final não coletem arquivos digitais privados nem forneçam à empresa telemetria pessoal confidencial, elas garantem perspectivas geográficas localizadas, que Anthony descreveu como "diferentes pontos de vista" na web aberta, que podem então ser extraídos em pequenas peças e combinados em um conjunto de dados significativo.

"É muito importante que nos concentremos no fato de que não está usando dados de indivíduos, não está acessando seus dados e informações pessoais, mas digamos que agora você está no Malawi. Quando você está olhando para um site específico, eu poderia ir e olhar para o mesmo site, mas as chances são de que, como estou em Dubai, veremos um conjunto diferente de resultados. Tudo o que estamos ganhando com esta situação é poder usar seu computador para olhar algo como uma página web normal, ou o que quer que seja."

Para ilustrar, Anthony observou que, se um cliente corporativo precisar de um conjunto de dados de postagens em mídias sociais relacionadas à saúde dos EUA, a Perceptron pode coordenar sua malha global de nós para extrair postagens públicas individuais sem interagir com APIs empresariais restritivas.

Como esses dados já são livremente acessíveis ao público por meio de qualquer navegador padrão, rotear a coleta por meio de nós terminais individuais contorna legalmente os paywalls comerciais. Depois que esses pequenos pacotes de dados são recuperados, a rede transfere os dados não refinados de volta para um servidor centralizado, onde modelos especializados de inteligência artificial limpam e auditam as informações para controle de qualidade.

"Ao fazer isso, podemos reduzir significativamente o custo atualmente cobrado por muitas das grandes empresas centralizadas como o Google."

Alimentado por um loop econômico que incentiva participantes de rede de qualidade

A próxima pergunta é: por que alguém voluntariaria seu hardware para uma rede como esta? E a resposta é simples: um loop de valor compartilhado que garante que esses nós ganhem pontos por sua conectividade passiva, que estão programados para se converter em tokens nativos criptográficos no futuro.

De acordo com Anthony, este modelo distribuído "permitirá que eles ganhem pontos" que atuam como uma métrica direta de sua contribuição para a rede e, portanto, "sempre que houver receita gerada pela empresa, os tokens serão realimentados no ecossistema" para sustentar um loop econômico cíclico.

"Também haverá tokens reservados que são usados para recompra de tokens", acrescentou.

No entanto, nem todo mundo que executa um nó se qualifica essencialmente para recompensas consistentes, pois há o desafio sempre presente do controle de qualidade, que pode comprometer a integridade do conjunto de dados se não for verificado.

A Perceptron resolve isso roteando os pacotes coletados de volta para um servidor centralizado, onde algoritmos automatizados avaliam sistematicamente as entradas em relação aos benchmarks alvo antes de liberar qualquer compensação.

Além disso, Anthony disse que a startup adquiriu recentemente uma empresa especializada em software de verificação de transações e pagamentos para automatizar estruturalmente esse processo de validação.

Para engajar ainda mais os participantes da rede, ao mesmo tempo em que impulsiona a criação de conjuntos de dados, a Perceptron também planeja lançar uma plataforma estruturada de Data Questing (Busca de Dados), que permitirá que os contribuidores transformem o esforço humano ativo em entradas de treinamento exclusivas.

"Nosso objetivo é ser capazes de construir conjuntos de dados e criar conjuntos de dados que atualmente não estão disponíveis por meio de processos centralizados", acrescentou Anthony.

O objetivo final

A longo prazo, Anthony disse que gostaria de ver a rede fazer a transição para um modelo focado em inteligência de negócios que seja capaz de fornecer análises em camadas profundas para clientes empresariais.

"A diferença é que os conjuntos de dados tradicionais são estáticos, são coletados uma vez e rapidamente se tornam desatualizados. Mas há uma quantidade enorme de dados sendo gerados toda vez que você interage com qualquer coisa online, e atualmente, a maior parte deles está simplesmente sendo desperdiçada", disse Anthony.

"Um único servidor tentando monitorar todos esses diferentes usuários não consegue realmente coletar inteligência significativa nessa escala. O que precisamos é de uma mudança em direção à inteligência de negócios distribuída, para que possamos realmente melhorar os serviços em áreas como comércio eletrônico, negociação e muito mais."

A Perceptron também lançou um Fundo de Dados de IA de US$ 10 milhões, por meio do qual a plataforma espera financiar desenvolvedores independentes e apoiar a implantação de "projetos reais que estão fornecendo serviços reais". Sob os termos do programa, as equipes de engenharia selecionadas recebem cinco semanas de assistência dedicada à infraestrutura de dados e até 5 TB de dados do mundo real gratuitamente para acelerar a otimização de modelos de IA em estágio inicial.

"O objetivo é apoiar projetos à medida que eles crescem e suas necessidades de dados aumentam. Podemos nos tornar um de seus provedores de referência, é tanto um investimento no ecossistema mais amplo quanto uma maneira de construirmos uma receita consistente e de longo prazo", observou Anthony.

No momento da publicação, Anthony disse que a Perceptron já está fornecendo ativamente diversos produtos de dados para uma variedade de empresas comerciais. A rede fornece extensos conjuntos de dados de imagem para plataformas generativas de texto para vídeo, incluindo uma empresa chamada Everlyn AI, para treinar modelos a sintetizar com precisão conteúdo visual.

Além disso, o projeto também está indo além da compilação padrão de imagens, já que a plataforma entrou no setor de análise de sentimento ao rastrear o discurso público no Twitter, YouTube e mercados de ativos digitais. Analisar esse sentimento público ajuda empresas de criptomoedas e exchanges a construir ferramentas de rastreamento que fornecem sinais precoces para antecipar oscilações repentinas de preço.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado