Após o "pai do camarão" criticar a internet humana, finalmente alguém levou isso a sério.

(来源:Máquina do Coração)

Editor|Zhang Qian

Não sei se ainda se lembram, mas no mês de Março do ano passado, o grande especialista em IA Karpathy publicou um tweet. Em linhas gerais, o que ele quis dizer foi o seguinte: a maior parte do conteúdo actualmente é escrita para humanos, mas no futuro quem lê esses conteúdos pode já não ser humano, e sim IA. Por isso, a partir de agora, precisamos de pensar em como escrever documentos de forma mais amigável para a IA.

A verdade é que, quando vi esse ponto de vista, eu ainda não percebi bem o que isso significava. Muitos internautas provavelmente também se sentem assim; até houve quem dissesse «considerar isto ainda é cedo demais, afinal o principal ainda são pessoas».

Mas em apenas um ano, a situação mudou. Muita gente já experimentou «caranguejo-do-mar» e, depois disso, até organizar ficheiros num ambiente de trabalho fica a preguiça de fazer sozinhos — quanto mais ir buscar informação na Internet, essas tarefas sujas e trabalhosas.

Quase sem dúvida que o que a Karpathy disse — a IA tornar-se a principal força na Internet — se tornará realidade em breve, porque os humanos que já provaram o doce não conseguem voltar atrás. E como está a nossa Internet agora? Como disse um internauta — continua sendo «uma estrada de calçada cheia de brita na era das carroças».

Para os Agents, esta estrada é cheia de obstáculos — todo o tipo de validações, programas de início de sessão travam quando travam; as ferramentas encontradas na Internet têm de se testar uma a uma; os tokens são usados como se fossem de graça (na prática, são muito caros); mesmo quando a tarefa é bem-sucedida, ainda é preciso esperar meio dia, como naquela altura em que se fazia ligação telefónica para navegar na Internet.

O Liu Hongtao, que atravessou a era do PC Internet e do mobile Internet, disse-me: neste momento, esta situação é simplesmente inaceitável. Para se ter uma ideia, o padrão de disponibilidade da Internet humana é 99,9%; e esse grupo de pessoas já chegou a lutar para adicionar mais «9» a esse número. E agora, a taxa de sucesso de Agents ao chamar ferramentas externas é apenas 60% — e mesmo isso é o resultado de uma chamada em passo único; com mais passos, cai para abaixo de 30%.

Por isso, quando «o pai do caranguejo-do-mar» Peter Steinberger reclamou numa entrevista que a infra-estrutura actual da Internet é extremamente «pouco amigável» para Agents, o Liu Hongtao sentiu uma forte identificação. E o problema apontado pelo Peter é precisamente a direcção de arranque que ele tinha considerado no ano passado, e que formalizou na entrada no final da Primavera — Agent Internet Infra.

O julgamento central do Peter Steinberger é: a Internet actual não foi desenhada para agentes e, por causa de bloqueios, verificação por captcha, sistemas de permissões, falta de CLI/API e outras razões, está a tornar-se cada vez mais desfavorável para agentes; portanto, a próxima geração de infra-estrutura de Internet/software deve ser reestruturada de forma a ser friendly para agentes. (Legenda gerada por IA)

A nova empresa montada pelo Liu Hongtao chama-se AgentEarth. Os três do núcleo são todos muito sólidos no currículo. Ele próprio já foi presidente na cloud de Inteligência Operacional, um unicórnio de operações inteligentes, tendo passado por validação em escala de infra-estrutura empresarial do 0 para o 1. O CTO, Dan Minghui (Lucas), foi um dos construtores iniciais do sistema de operações inteligentes da Didi; ele tem experiência em construir e operar sistemas de correspondência em tempo real de larga escala para centenas de milhões de pessoas e enormes volumes de carros de aluguer. O principal cientista, o Professor Xue, aprofunda há muitos anos as tecnologias de rede avançadas ao nível nacional; o stack de protocolos de base é a sua especialidade.

CEO da AgentEarth

Liu Hongtao (esquerda) e CTO Dan Minghui (direita)

Com essa combinação, é óbvio que não é com a intenção de fazer uma ferramenta simples de Agent. Nas palavras do Liu Hongtao, o que eles querem fazer é trabalho de infra-estrutura: na base, construir para o Agent Internet uma «linha rodoviária de alta velocidade» para que a transmissão de dados funcione de forma estável e rápida; acima disso, abrir uma «loja própria de alta qualidade» — não para as pessoas passearem, mas para servir o Agent como utilizador final real: entra na loja e consegue chamar rapidamente ferramentas de alta qualidade, seleccionadas e governadas. O primeiro é feito com os seus protocolos de transmissão de nova geração que desenvolveram ao longo de vários anos; o segundo é tornar sólida a agregação, o hosting e a orquestração inteligente de ferramentas, para que o Agent não tenha de andar a testar e a bater de um lado para o outro como um «tonto sem cabeça», poupando tempo e tokens preciosos.

Quanto a como o fazem especificamente, o Liu Hongtao também falou em detalhe.

Internet desenhada para humanos

Demais para os Agents

Recentemente, a Anthropic e a OpenAI voltaram a pôr em circulação uma palavra: Harness Engineering. A Anthropic, no seu blog, disse que com o mesmo modelo e as mesmas instruções, no início o jogo que sai não pode ser jogado; mas ao trocar o modo de execução e o ambiente, ele passa a conseguir produzir um jogo muito bom.

Essas instituições de ponta avisaram-nos através de experiências — embora as melhorias do próprio modelo sejam crucialmente importantes, o ambiente externo em torno da execução do modelo não pode ser ignorado; caso contrário, afecta o desempenho dos modelos de grande escala.

Isto também explica por que razão a OpenAI já tinha afirmado em 2024 que, em certos aspectos, os modelos de grande dimensão tinham atingido o nível de um doutor; mas só este ano é que, no lado da produtividade, começou a haver uma sensação real, concreta e sentível.

Construir esse ambiente é muito mais complexo do que se imagina. Nos últimos um ou dois anos, engenheiros na área Agent Infra têm estado a tentar resolver alguns problemas, como armazenamento de memória de longo prazo e orquestração de execução, fornecendo sistemas de suporte de nível inferior para o funcionamento estável de Agents. Mas esta vaga de «febre do caranguejo-do-mar» expôs de forma ainda mais evidente uma lacuna — chamadas externas. Afinal, mesmo uma operação simples de reserva de bilhetes, o Agent tem de chamar dezenas de ferramentas externas. Por isso, quando o Agent começa a «tratar de assuntos na Internet» como um humano, a camada de rede torna-se o novo campo de batalha.

O Liu Hongtao mencionou que, ao lidar com este novo campo de batalha, a construção das infra-estruturas relevantes tem de seguir uma lógica nova, porque o modo como os Agents navegam na Internet é completamente diferente do dos humanos.

O humano ao navegar na Internet abre um navegador, procura palavras-chave e depois clica nas páginas que lhe interessam. Em seguida, é navegar, pensar, avaliar e decidir. O tempo de permanência do ser humano numa única página é relativamente longo, mas o comportamento global de navegação não é complicado; além disso, existem tecnologias de cache como a CDN (uma cache que serve uma grande multidão de pessoas de uma só vez), que garantem a velocidade, há vários designs requintados de UI para melhorar a eficiência, e as várias ferramentas são usadas de forma relativamente fluida há muitos anos.

Mas o Agent é diferente: ele não «vê» a Internet; ele usa a Internet para «concluir tarefas». Uma tarefa que ele precisa pode envolver ferramentas através de múltiplos modelos e plataformas, com uma cadeia de execução muito longa; quando um lugar fica bloqueado, toda a tarefa cai num buraco negro de tentativa e erro. Além disso, a exigência de velocidade para ele até é maior do que para humanos, porque ele não precisa de tempo de resposta — quer apenas resultados o mais rápido possível, para entrar imediatamente na etapa seguinte.

O problema, porém, é que, na realidade, a maioria das páginas e das ferramentas na Internet actual ainda foi feita para humanos (como as validações do tipo «não sou um robô» mencionadas pelo Peter na entrevista). Não foi feita selecção nem adaptação para Agents; por isso, a cadeia longa do Agent tem grande probabilidade de se partir. Além disso, algumas das coisas que o Agent recolhe ao navegar são apenas o que ele próprio precisa (por exemplo, gerar uma imagem específica), e os outros não conseguem usá-las; por isso, a CDN deixa de funcionar e a velocidade não consegue subir.

A soma destas características faz com que a infra-estrutura da Internet humana comece a «não se adaptar» diante dos Agents. E agora, a Agent Internet ainda está numa fase bárbara de crescimento — ferramentas externas são um peixe misturado, interfaces desorganizadas, qualidades muito variáveis; durante as chamadas, o Agent «fica sem noção» repetidamente, queimando uma grande quantidade de tokens de forma inútil em tentativas e erros e na repetida transmissão de contexto; e a velocidade de conclusão das tarefas também não sobe.

Dito isto, as coisas que a Agent Internet Infra precisa de fazer ficam bem claras: fornecer um conjunto de protocolos de rede e middleware por baixo que permita a descoberta autónoma, ligações seguras e colaboração fiável entre um grande volume de agentes inteligentes; dedicar-se a resolver como os Agents se ligam a entidades externas e como os Agents colaboram entre si de forma perfeita, como os humanos usam a Internet. As capacidades centrais incluem autenticação de identidade, protocolos de comunicação, governação de permissões, chamadas de ferramentas entre plataformas, optimização da transferência de dados, pagamentos de transacções, gestão de segurança, etc.

Actualmente, já há algumas empresas a apostar nesta direcção; por exemplo, a Cloudflare lançou o Markdown for Agents, que facilita a leitura de páginas por Agents; a Google lançou o WebMCP que liga o ambiente do navegador e os recursos de computação locais. Mas, no geral, ainda se encontra numa fase inicial; continua a faltar um fornecedor de Agent Internet Infra da próxima geração.

Internet para Agents

Como poupar dinheiro e tempo?

Nesta direcção, a lógica de arranque de pessoas como o Liu Hongtao tem um núcleo: desde o primeiro dia tratar os Agents como o utilizador principal da rede — ou seja, end user (no passado, por defeito, eram humanos). Este ponto alinha com o julgamento da Karpathy.

Assim que essa âncora é definida, a direcção da optimização da infra-estrutura de rede deixa de ser «servir a experiência dos humanos» e passa a ser «servir a taxa e a eficiência de conclusão de tarefas»; deixa de ser «a plataforma fornece ligações» e passa a ser «a plataforma é responsável pelos resultados». Ou seja, o que consideram principalmente é: o seu «caranguejo-do-mar» consegue concluir tarefas com alta qualidade, alta fiabilidade e alta eficiência com a ajuda da minha plataforma? Eu quero ser responsável pelos seus resultados e, para si, poupar dinheiro e tempo.

O mais importante é que isto não ficou apenas no conceito; foi transformado em decisão de produto.

O ponto mais evidente é que eles deliberadamente não fazem interfaces voltadas para humanos, nem oferecem experiências complexas para programadores; em vez disso, fazem apenas interfaces de Agent padronizadas. Por detrás disso, há na realidade um julgamento muito firme: no futuro, não será o programador a configurar ferramentas; serão os próprios Agents a montar e equipar ferramentas. Se acreditarem nisso, então todas as camadas desenhadas para a conveniência «para operação humana» são apenas uma transição a curto prazo.

Como é que, então, fizeram «alta qualidade e alta fiabilidade» como ponto diferenciador? Na prática, há três camadas no stack tecnológico.

Na camada do meio, eles deslocaram o problema «qualidade das ferramentas» do lado do Agent para o lado da plataforma. O método dominante agora é fazer o Agent escolher ferramentas e testar por si mesmo, usando mais tokens para preencher as falhas. O resultado é custo elevado, taxa de sucesso baixa e, além disso, é incontrolável. Nesta camada, eles assumem o controlo: criam para o Agent um «único gateway» de acesso a serviços externos. Ou seja, o Agent não precisa saber quais ferramentas são boas; a plataforma já escolheu e também já assegura uma cobertura; quando ocorrer uma falha, muda imediatamente. A liquidação também é unificada aqui: os dados são totalmente transparentes, e as pessoas por trás do Agent conseguem ver quais ferramentas foram usadas e quantas chamadas foram feitas; os tokens são claramente contabilizados, sem mais ser um buraco negro que engole dinheiro.

E a camada acima disso dedica-se a garantir a qualidade inicial com uma lógica de «loja própria». No início, em vez de abrir ecossistema, seleccionavam ferramentas por conta própria, enfatizando estabilidade, eficiência e alta qualidade — tal como nas lojas self-operated da JD no início, em que o essencial era apoiar os «caranguejos-do-mar» a concluir tarefas com alta qualidade. Quando começa a gerar tráfego, também abrem a entrada de terceiros e adoptam um tipo de algoritmo de recomendação e estratégia de optimização de chamadas de ferramentas baseada em modelos de grande dimensão, de modo a tornar o processo altamente inteligente.

A camada de baixo, que é também a mais «rígida», é tornar «fiabilidade» mais profunda, descendo para a camada de transporte, usando um protocolo próprio de integração de transmissão-armazenamento-computação para acelerar a transferência de dados na base.

Em testes em ambiente real, este protocolo é 2 a 10 vezes mais rápido do que o melhor protocolo open source da indústria — Google QUIC; e nos testes mais recentes até atingiu dezenas de vezes. Isto significa que, se o seu Agent quiser transferir ficheiros, imagens e vídeo a partir de um ponto remoto, especialmente conteúdos personalizados que foram gerados agora mesmo, este protocolo será muito mais rápido do que os métodos tradicionais.

Quem está no sector provavelmente já sabe que protocolos são uma série de regras autoconsistentes; por isso, desenvolver protocolos não é um trabalho de curto prazo, como escrever uma APP e depois dividir em módulos para avançar em paralelo. Criar um novo protocolo é como criar uma nova espécie: começa-se com uma semente e, numa ordem específica, ela cresce devagar. Em cada etapa, é preciso esperar que a anterior esteja totalmente definida para começar. Mesmo que se juntem mais engenheiros, não se consegue comprimir o tempo de «deixar crescer». Além disso, o design do protocolo inclui conhecimentos implícitos — casos-limite de comportamento na rede, buracos em que se tropeçou — que dependem de acumulação a longo prazo. O Liu Hongtao diz que este protocolo não foi feito de um dia para o outro; os ciclos de desenvolvimento contam-se a dez anos. A acumulação de experiência mais antiga, na verdade, era para optimizar TCP/IP; nunca se esperou que acabaria por se tornar a barreira tecnológica central da empresa.

O teto desta coisa

Talvez seja mais alto do que imagina

Na era do PC Internet e do mobile Internet, o crescimento do número de utilizadores e do tempo que cada utilizador passa online costuma ser visto como a força motora central para o crescimento do mercado. Mas à medida que ambos se aproximam dos limites, esse crescimento já atingiu o topo.

O surgimento desta nova pista, Agent Internet, está a reescrever as regras do jogo. Uma empresa ou uma pessoa pode implementar centenas ou milhares de Agents; um Agent pode executar várias tarefas em simultâneo; e esses Agents nem sequer precisam de dormir. Isto significa que, para a Agent Internet Infra, o limite de tráfego e valor que ela pode suportar, agora, ainda é difícil de estimar.

Isto também implica que facilmente surgirá uma série de novas grandes empresas nesta camada. Olhando para trás para o PC Internet e para o mobile Internet, praticamente em cada camada de infra-estrutura surgiram empresas independentes no final, porque os problemas eram suficientemente comuns e as necessidades eram suficientemente fortes; mais cedo ou mais tarde, alguém transformaria isso em plataforma. A Agent Internet é igual — e desta vez, o tamanho da base de utilizadores e a intensidade de chamadas são ainda mais extremos; muitos problemas fundamentais estão em branco, o que deixa ainda mais espaço.

Nesta fase inicial de arranque, a AgentEarth já ocupa uma posição razoável.

Por um lado, a decisão foi relativamente cedo e relativamente firme: desde o início construíram o sistema assumindo «Agent como utilizador», focando o cumprimento de tarefas com alta fiabilidade e alta qualidade. Por outro lado, a estrutura da equipa é menos comum — capacidades de protocolo de base dificilmente se conseguem alcançar de repente; e as pessoas que já lutaram em cenários de «centenas de milhões de utilizadores e matching de recursos em tempo real em grande escala» também são de facto raras. Exigências deste tipo para estabilidade, eficiência e tolerância a falhas são extremamente extremas; normalmente, quase não há oportunidades para treinar isso no dia-a-dia. Quando a escala de chamadas de Agents se levantar, essa experiência torna-se muito valiosa e, além disso, não se consegue compensar a curto prazo.

Ontem mesmo, a AgentEarth acabou de publicar a versão de teste do seu produto e começou testes em pequena escala. A ligação de teste é a seguinte: Agentearth.ai

Os leitores interessados também podem usar o código QR para entrar no grupo e trocar experiências:

Grande quantidade de informação, interpretação precisa, tudo na app de finanças da Sina (Sina Finance)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar