Perceptron está a transformar largura de banda inativa em dados de treino de IA.

O setor de inteligência artificial está atualmente a lidar com um grave estrangulamento nos dados de treino, especialmente porque os monopólios tecnológicos centralizados estão a bloquear o acesso de programadores em fase inicial a pipelines de informação de alta qualidade. A plataforma de infraestrutura de dados descentralizada Perceptron está a tentar resolver este estrangulamento estrutural através da implementação de uma camada de infraestrutura descentralizada que recolhe informação da web através de dispositivos de utilizadores comuns.

Sumário

  • A Perceptron está a utilizar largura de banda de consumo inativa para recolher dados web publicamente disponíveis e fornecer conjuntos de dados de treino de IA a custos mais baixos.
  • A plataforma afirma que a sua rede abrange mais de 150 países e recompensa os contribuidores enquanto verifica a qualidade dos dados antes de os fornecer a clientes empresariais.
  • A Perceptron lançou um Fundo de Dados de IA de 10 milhões de dólares para ajudar programadores a aceder a infraestrutura de dados e acelerar o desenvolvimento de modelos de IA.

Os media atuais estão totalmente focados em destacar como os nomes de topo no espaço da inteligência artificial estão constantemente a implementar sistemas de hardware de próxima geração para aumentar o seu poder de computação bruto. Mas uma das limitações operacionais menos discutidas é a qualidade dos dados de treino que constituem a base fundamental de qualquer modelo de IA funcional.

O problema é que, com a grande maioria do conteúdo da web aberta já amplamente recolhida, o controlo corporativo agressivo sobre as interfaces de programação de aplicações públicas bloqueou as restantes bases da recolha de conjuntos de dados atrás de muros de pagamento exorbitantes de milhões de dólares. Tornou-se essencialmente um privilégio exclusivo proibitivamente caro para um punhado de gigantescos monopólios tecnológicos.

Para os gigantes tecnológicos que lideram atualmente a corrida da IA, garantir estes pipelines de informação de alto custo não é um grande desafio financeiro, mas e os inovadores com menos financiamento? Sem os orçamentos necessários, as startups em fase inicial debatem-se para construir produtos competitivos.

"A OpenAI paga aproximadamente 60 a 100 milhões de dólares por ano a empresas como a Reddit e a Twitter para poder aceder a dados através de APIs", disse Peter Anthony, cofundador e CEO da Perceptron, ao crypto.news durante uma entrevista recente.

"Muitos novos projetos de IA por aí não têm orçamentos para gastar 60 a 100 milhões de dólares para aceder a dados. Se construíres o melhor modelo do mundo, é bastante inútil se não tiver acesso a dados de boa qualidade. Podes ser o miúdo mais inteligente da escola, mas se não conseguires aceder a nenhum livro, não tens muita informação para apresentar."

Anthony percebeu que esta assimetria de mercado deixa espaço para infraestruturas alternativas que serviriam o segmento de mercado independente, o que acabou por levá-lo a cofundar a Perceptron, uma plataforma que planeia utilizar a largura de banda de consumo inativa para resolver "o problema do estrangulamento de dados" de que a IA sofre atualmente.

"A maioria dos dados do mundo já foram acedidos e extraídos, mas há muitos dados que estão meio escondidos atrás de diferentes locais que ainda não estão acessíveis, por isso estamos a recolher dados e a posicionar-nos para poder fornecer dados a empresas de IA a um custo reduzido", explicou Anthony.

A aproveitar a largura de banda inativa

Mas o que é esta largura de banda inativa que a Perceptron planeia aproveitar? Anthony explicou que este é o ativo económico não reconhecido que os utilizadores comuns produzem constantemente através da navegação digital rotineira, apenas para verem grandes empresas a extraí-lo e a lucrar com ele.

"Neste momento, cada vez que tu e eu usamos a internet nos nossos telemóveis, nos nossos computadores, estamos a gerar dados. Esses dados são recolhidos, embalados em conjuntos de dados massivos por empresas como a Google, e vendidos por milhões, por vezes milhares de milhões de dólares. No entanto, tu e eu nunca vemos um cêntimo desse valor."

O que a Perceptron fez foi virar completamente este modelo extrativo ao contrário. Construíram uma rede que abrange mais de 150 países com cerca de 800.000 nós, e estes nós são alimentados por utilizadores individuais que estão simplesmente a executar uma extensão de navegador no Chrome ou uma aplicação nos seus dispositivos Android.

Embora estas instalações de ponto final não extraiam ficheiros digitais privados nem forneçam à empresa telemetria pessoal sensível, garantem, em vez disso, perspetivas geográficas localizadas, que Anthony descreveu como "diferentes pontos de vista" na web aberta, que podem depois ser extraídos em pequenas partes e combinados num único conjunto de dados significativo.

"É muito importante que nos concentremos no facto de que não está a usar dados individuais, não está a aceder aos teus próprios dados e informações pessoais, mas digamos que estás neste momento no Malawi. Quando estás a olhar para um determinado site, eu poderia ir ver o mesmo site, mas é provável que, como estou no Dubai, vejamos um conjunto diferente de resultados. Tudo o que ganhamos com esta situação é a capacidade de usar o teu computador para olhar para algo como uma página web normal, ou o que quer que seja."

Para ilustrar, Anthony notou que se um cliente corporativo precisar de um conjunto de dados de publicações de redes sociais relacionadas com saúde dos EUA, a Perceptron pode coordenar-se através da sua malha global de nós para extrair publicações públicas individuais sem interagir com APIs empresariais restritivas.

Como estes dados já estão livremente acessíveis ao público através de qualquer navegador web padrão, encaminhar a recolha através de nós terminais individuais contorna legalmente os muros de pagamento comerciais. Assim que estes pequenos pacotes de dados são recuperados, a rede transfere os dados não refinados de volta para um servidor centralizado onde modelos de inteligência artificial especializados limpam e auditam a informação para controlo de qualidade.

"Ao fazer isto, podemos reduzir significativamente o custo que está atualmente a ser cobrado por muitas das grandes empresas centralizadas como a Google."

Alimentado por um ciclo económico que incentiva participantes de qualidade na rede

A próxima questão é porque é que alguém se voluntariaria para usar o seu hardware numa rede como esta, e a resposta é direta: um ciclo de valor partilhado que garante que estes nós ganhem pontos pela sua conetividade passiva, que estão programados para se converterem em tokens criptográficos nativos no futuro.

De acordo com Anthony, este modelo distribuído "permitir-lhes-á ganhar pontos" que funcionam como uma métrica direta da sua contribuição para a rede e, portanto, "sempre que houver receita gerada pela empresa, os tokens serão realimentados no ecossistema" para sustentar um ciclo económico cíclico.

"Haverá também tokens reservados que serão usados para recomprar tokens", acrescentou.

No entanto, nem todos os que executam um nó se qualificam essencialmente para recompensas consistentes, pois há o desafio sempre presente do controlo de qualidade, que pode comprometer a integridade do conjunto de dados se não for verificado.

A Perceptron aborda isto encaminhando os pacotes recolhidos de volta para um servidor centralizado, onde algoritmos automatizados avaliam sistematicamente as entradas em relação a referências-alvo antes de libertar qualquer compensação.

Além disso, Anthony disse que a startup adquiriu recentemente uma empresa especializada em software de verificação de transações e pagamentos para automatizar estruturalmente este processo de validação.

Para envolver ainda mais os participantes da rede e também impulsionar a criação de conjuntos de dados, a Perceptron planeia também lançar uma plataforma estruturada de Data Questing, que permitirá aos contribuidores transformar esforço humano ativo em entradas de treino únicas.

"Pretendemos ser capazes de construir conjuntos de dados e criar conjuntos de dados que atualmente não estão disponíveis através de processos centralizados", acrescentou Anthony.

O objetivo final

A longo prazo, Anthony disse que gostaria de ver a rede fazer a transição para um modelo focado em inteligência comercial que seja capaz de fornecer análises de camada profunda para clientes empresariais.

"A diferença é que os conjuntos de dados tradicionais são estáticos, são recolhidos uma vez e rapidamente se tornam desatualizados. Mas há uma quantidade enorme de dados a ser gerada cada vez que interages com algo online, e neste momento, a maior parte está simplesmente a ser desperdiçada", disse Anthony.

"Um único servidor a tentar monitorizar todos estes diferentes utilizadores não consegue realmente recolher inteligência significativa a essa escala. O que precisamos é de uma mudança para inteligência comercial distribuída, para que possamos realmente melhorar serviços em áreas como comércio eletrónico, negociação e muito mais."

A Perceptron também lançou um Fundo de Dados de IA de 10 milhões de dólares, através do qual a plataforma espera financiar programadores independentes e apoiar a implementação de "projetos reais que prestam serviços reais". Nos termos do programa, as equipas de engenharia selecionadas recebem cinco semanas de assistência dedicada à infraestrutura de dados e até 5 TB de dados do mundo real gratuitamente para acelerar a otimização de modelos de IA em fase inicial.

"O objetivo é apoiar os projetos à medida que crescem e as suas necessidades de dados aumentam. Podemos tornar-nos um dos seus fornecedores de referência, é tanto um investimento no ecossistema mais amplo como uma forma de construirmos receitas consistentes a longo prazo", notou Anthony.

À hora da publicação, Anthony disse que a Perceptron já está ativamente a fornecer diversos produtos de dados a uma variedade de empresas comerciais. A rede fornece conjuntos de dados de imagem extensos a plataformas generativas de texto para vídeo, incluindo uma empresa chamada Everlyn AI, para treinar modelos a sintetizar com precisão conteúdo visual.

Para além disso, o projeto também está a ir além da compilação padrão de imagens, pois a plataforma entrou no setor de análise de sentimento ao acompanhar o discurso público no Twitter, YouTube e mercados de ativos digitais. Analisar este sentimento público ajuda as empresas de criptomoedas e exchanges a construir ferramentas de rastreio que dão sinais precoces para antecipar movimentos súbitos de preços.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado