A ansiedade dos investidores em IA para 2026: Quando os modelos engolirem tudo, o que sobrará das vantagens competitivas das startups?

Autor: Sarah Guo

Tradução: Deep潮 TechFlow

Deep潮 Guia: Quando grandes modelos começam a dominar todas as listas, os investidores entram numa espécie de desespero: além da Anthropic e da Nvidia, há mais alguma coisa que valha a pena investir? Este investidor de topo do Vale do Silício usa dados e casos para mostrar que a verdadeira vantagem competitiva não está nas listas — ela está naquelas áreas que não podem ser medidas por benchmarks.

Em meados de 2026, a versão de AI dos investidores é uma espécie de loucura desesperada: não há mais nada que valha a pena, devíamos investir todo o dinheiro na Anthropic e na Nvidia e voltar para casa.

Nunca tive essa sensação. Estou convencido de que os modelos estão vários níveis à minha frente, estou disposto a comprar Anthropic e Nvidia ao preço de mercado, e todos os meus amigos mais inteligentes acreditam que a autoaperfeiçoamento vai acontecer rapidamente — mas ainda assim, não sinto esse desespero.

Esse desespero não é estúpido. A lógica é a seguinte: se os modelos continuam a melhorar em tudo, então cada empresa construída sobre eles é apenas uma camada fina de embalagem, esperando ser absorvida; o único valor que sobrevive é a capacidade computacional e os pesos de ponta.

Tomemos o software como exemplo, que é o caso mais apoiado pelos desesperados. Quando lançado em 2024, Devin só conseguiu resolver 13% das tarefas nos benchmarks padrão de software, sendo praticamente ignorado. Um ano e meio depois, o melhor agente consegue atingir mais de 80 pontos, realizando trabalhos reais na Goldman Sachs e no Exército dos EUA. Quase todos tiraram a mesma lição errada: os modelos estão a consumir a engenharia de software. Mas quando os modelos engolem as partes mais fáceis de medir na engenharia de software, estamos a redescobrir algo que muitas equipes já sabiam — que a engenharia sempre resistiu à medição, e que as partes mais fáceis de medir podem não ser as mais importantes.

Mert Demirer do MIT e seus colaboradores finalmente apresentaram números: entre mais de 100 mil desenvolvedores, o mais recente agente de codificação aumentou a quantidade de código escrito em cerca de 180%, enquanto a quantidade de código realmente lançado aumentou cerca de 30%. Escrever código ficou mais barato. O restante ainda depende de humanos, e isso é muito importante. Claro, o impacto líquido ainda é impressionante.

Benchmarks são aquilo que você consegue medir, e o que você consegue medir é aquilo para o qual treina o seu modelo. Portanto, os agentes de codificação amadureceram primeiro: compiladores são verificadores gratuitos, suítes de testes são verificadores gratuitos, e quando as respostas podem verificar a si mesmas gratuitamente, você pode continuamente aprimorá-las até superá-las. Mas testes nunca disseram se uma mudança é correta para um sistema complexo, que inclui módulos não documentados, pipelines implantados que dependem de um código antigo mantido por um cron job que ninguém quer admitir que escreveu.

Essa correção não pode ser lida em rankings, na verdade, não pode ser lida em nada. Você só aprende ao rodar o sistema no mundo real por tempo suficiente para descobrir se um sistema tão complexo funciona, e modelos mais inteligentes não fazem o mundo rodar mais rápido. Ninguém faz testes unitários em algo do tamanho do Google e confia na marca de verificação verde; você confia porque ele resistiu a anos de carga real. Essa correção não é apenas privada, ela é uma vantagem competitiva lenta que o capital não consegue derrubar. Mesmo os otimistas admitem que o tempo não pode ser pulado: Noam Brown, pioneiro nos modelos de raciocínio da OpenAI, escreveu recentemente que a única maneira confiável de avaliar um agente ao longo de um ano pode ser... rodando-o durante um ano.

Como disse Gabe Pereyra, a verdadeira automação não é apenas os modelos melhorarem. É o produto, os modelos, os fluxos de trabalho e as empresas se moverem juntos, e três desses quatro se movem na velocidade da organização.

O que se move é a parte que os benchmarks não alcançam: fazer um sócio cético mudar sua forma de lidar com as coisas, mantendo a equipe unida durante uma reconstrução. É por isso que, ao contratar um CEO, a capacidade de lidar com pessoas é pelo menos tão importante quanto a de analisar, e modelos mais inteligentes não mudam esse peso. O feedback é vago, o horizonte é de anos, e a confiança pertence a uma pessoa. Sei que todas as empresas fazem seus engenheiros usarem modelos de codificação de ponta, mas nenhuma muda sua organização de engenharia na mesma velocidade. Um trimestre de adoção — quão incrível foi esse trimestre de crescimento de tokens! — mas a reconstrução leva anos.

O que está saindo de cena é visível. O trabalho valioso é estruturalmente invisível: tudo que você consegue colocar em rankings, você consegue treinar para melhorar, então tudo que é mensurável já está na direção da mercantilização. Esse processo leva tempo e nunca será completo, mas a direção nunca se reverte. Como diria meu amigo Matt MacInnis, na Rippling: tokens gastos para responder a perguntas gerais valem quase nada, porque qualquer modelo pode respondê-las, enquanto tokens gastos para raciocinar com os dados da sua empresa valem muito mais, porque fazem o que você realmente quer, não apenas o que parece razoável.

O trabalho visível está sendo consumido de duas direções. De baixo para cima, a saturação de tarefas: uma vez que uma tarefa pode ser checada de forma barata, o comprador não pergunta mais qual modelo a fez, mas quanto custou, e o trabalho passa a ser feito pelo modelo open source ou destilado mais barato da semana. Onde eles podem fazer impacto, a margem de lucro torna-se crucial. De cima para baixo, os laboratórios tentam fazer os modelos engolirem suas próprias estruturas. Recuperação, roteamento entre chamadas baratas e caras, uso de ferramentas, estratégias de raciocínio — todas as estruturas que antes envolviam modelos estão sendo incorporadas nos pesos, até que o empacotador seja o próprio modelo. Essa é a absorção do front-end. A pressão por margem também reduz esse efeito: agentes gerais precisam estar prontos para tudo, o que é caro, enquanto aplicações focadas podem ajustar um fluxo de trabalho até rodar com uma fração de tokens, e, ao contrário de laboratórios que vendem tokens, elas mantêm a margem.

Portanto, podemos fazer duas perguntas sobre qualquer tipo de trabalho: sua correção é privada e de alto custo de construção, uma verdade que só existe dentro dos dados de alguém? Ela está isolada, trancada em um sistema inacessível? Comparando isso com o grau de saturação da tarefa, você obtém uma matriz 2x2. Trabalho de resposta aberta e saturado é token de mercadoria, que é open source. Trabalho de ponta com resposta aberta, onde o benchmark está, é o domínio do laboratório, porque quando a avaliação é gratuita, tê-la não é grande coisa. A recompensa está no canto final, aquele que não pode ser treinado: a correção só existe na fronteira privada de trabalho de ponta. Você pode vê-la na nuvem de inferência de pioneiros de IA hospedados, onde a maioria dos tokens é gerada por modelos customizados, não por modelos open source universais.

O acesso ao último canto varia em altura. Um repositório de código de um desenvolvedor individual é portátil e padronizado, então a escalada é curta. Sistemas de produção de bancos não são assim; você não consegue obter acesso root por ser 2% mais inteligente no SWE-Bench Verified.

A capacidade consome muita coisa, mas modelos melhores não transformam fatos privados em públicos. Eles não possuem licença, não assumem responsabilidade, não têm propriedade sobre os documentos da empresa, e quando dão uma resposta errada, não podem ser processados. A inteligência não é o gargalo aqui. Licenças e responsabilidades, essas sim. Você pode imaginar um modelo muito mais inteligente que ainda assim precisa ser autorizado a entrar, e alguém precisa assinar por ele.

Essa porta tem uma fechadura e uma tranca. A fechadura é o ambiente: só é possível verificar se a IA fez algo útil após ela passar por uma revisão de segurança, integração, contratos de assinatura de resultados. A tranca é o usuário. Hoje, a maioria dos médicos nos EUA abre o OpenEvidence todos os dias, e nenhuma quantidade de poder computacional consegue comprar isso. Os laboratórios podem treinar um modelo médico perfeito amanhã, mas ainda assim não entram na rotina dos médicos ou nos processos de decisão da Universidade da Califórnia em São Francisco, porque a confiança é construída lentamente, baseada em relacionamentos, e requer permissão do usuário, não uma eliminação de sua gradiente descendente.

Essa também é uma tarefa. Uma aplicação ganha seu lugar na esquina inacessível fazendo trabalhos discretos: organizando a realidade privada da empresa para que o modelo possa agir nela, fornecendo ferramentas para o modelo agir, colaborando com clientes para mudar a realidade de seus funcionários. Uma empresa de tradução que traz traduções é difícil de copiar — e a tradução nunca termina. A integração e manutenção duram tanto quanto o tempo e os relacionamentos, e uma equipe que coloca engenheiros especializados e ferramentas ao lado dos clientes é quem vence.

Por exemplo, em um dos principais escritórios de advocacia de "calçado branco", apenas a área de fusões e aquisições realiza quase mil transações por ano. Por razões de confidencialidade e outras, você não pode deixar centenas de assistentes baixarem arquivos de clientes em seus desktops e pedir a um agente genérico que os leia, mesmo que pudesse, o que aprenderia seriam fragmentos, uma correção por assistente, sem ver como toda a transação se move. Os sinais importantes estão no nível da transação, que tem uma forma: para fusões e aquisições, são acordos de confidencialidade, listas de termos, diligências, contratos de compra, documentos anexos, listas de entrega; para litígios de propriedade intelectual, são moções, revelações de provas, tecnologia existente, mais moções. Cada área de negócio tem seus próprios documentos, e advogados e ferramentas não podem trocar entre si. E o que a firma realmente resolve está numa camada acima de tudo isso: executar paralelamente cada área de negócio, como sócio de topo gerenciando centenas de casos ao mesmo tempo, introduzindo novos casos e treinando assistentes. Transformar uma firma assim não é uma tarefa que se possa avaliar com uma única métrica. Precisa de um operador que use análise de dados, com objetivos extremamente vagos, feedback incompleto, longo prazo, num ambiente que não para.

Infelizmente, o valor invisível também é difícil de vender, pelo mesmo motivo que é difícil de mercantilizar: as empresas não conseguem avaliar externamente se a IA vai transformar suas operações, assim como benchmarks não podem avaliar. Então, as empresas mais fortes param de tentar provar isso externamente e passam a fazer isso internamente, colocando o valor nos resultados. A Sierra cobra por resolver problemas de clientes com seus agentes, não cobrando quando passa o problema para humanos, então o preço é uma avaliação — e só funciona quando a Sierra tem uma definição de "resolvido". Devin, da Cognition, faz o mesmo em software, oferecendo uma "garantia de desempenho", que só pode ser avaliada dentro de um sistema confiável.

Mesmo tokens de serviço, que todos gostam de chamar de mercadoria pura, não funcionam como mercadorias. As melhores empresas nativas de IA concentram seus serviços em um ou dois fornecedores (Baseten ou Fireworks), porque o custo por token é mercantilizado de acordo com o plano, mas a confiabilidade sob carga real e o acesso a capacidade escassa de computação não. Onde você serve é uma escolha diferente de quais modelos usa. O preço é a única parte que funciona como mercadoria na inferência.

Uma objeção comum é: os laboratórios são seus fornecedores — por que eles não operam seus próprios produtos de primeira linha abaixo do custo para te explorar, ou revogam seu acesso à API e dominam o mercado? Essa é a versão desesperada, que só funciona se o nível do modelo for um jogo de um só jogador. Claramente, não — parece mais uma corrida de três e meio jogadores, com uma turma de competidores internacionais treinando seis meses atrás, com alianças cinco vezes maiores do que no ano passado. Os clientes querem competição entre fornecedores, e os laboratórios querem mais mercado, não que um aplicativo morra.

Você vê isso na competição direta entre laboratórios. Nos chats com consumidores, os melhores modelos nunca vencem facilmente. O ChatGPT manteve-se na liderança por anos de competição real, e sua fatia de mercado que está sendo perdida vai para o Gemini, apoiado por Android e busca, não por modelos melhores. A Anthropic, avaliada como a melhor em modelos (e pelo clima da internet e mercados futuros), quase não é uma força nos chats com consumidores, mas construiu seu negócio em empresas e codificação. Se modelos melhores não conseguirem roubar usuários dos concorrentes nas aplicações mais centrais, eles não vão atravessar registros hospitalares ou bancos via integração. As escolhas do público hoje não se baseiam apenas em codificação. Se a fronteira se mantiver competitiva, sua camada superior será valiosa.

Se o trabalho não pode ser avaliado externamente, alguém interno deve decidir o que é uma boa resposta, e essa decisão é o jogo inteiro. Quantas dessas decisões forem feitas, registradas, tornam-se um benchmark. Harvey criou um para o setor jurídico, Sierra para agentes de voz. Você ganha o direito de definir o que significa fazer bem ao se tornar aquele que já é usado na área, conquistando esse direito pela adoção real.

A avaliação que decide o valor real é privada e varia de empresa para empresa: essa firma, nesse tipo de tarefa, aceitará o que for considerado um bom trabalho, e isso ainda não está completo, pois a profundidade do direito faz qualquer teste público parecer insignificante. A OpenEvidence está definindo como é uma resposta clínica segura. Tudo isso não é uma verdadeira medida, é uma avaliação do que é verdadeiro e do que é bom, que se escreve até se tornar o padrão de todos os outros, e que os laboratórios mais inteligentes não podem criar, pois esse status só existe dentro do domínio. Essa autoridade tende a ficar onde ela já está. Advogados experientes criam benchmarks jurídicos. A definição de respostas clínicas seguras fica com os médicos. E "resolvido" significa que qualquer empresa com clientes já sabe o que isso significa.

A fronteira de ponta está sempre subindo, pois aprendemos a medir mais trabalhos, e o que é mensurável é consumido. O terreno não treinável sob os pés de quem está por cima dele diminui, então você não consegue encontrar um ponto defensável e descansar. Você continua avançando em direção ao que ainda não pode ser avaliado, reassegurando continuamente. Em tarefas estreitas, usando seus dados privados e suas próprias avaliações, você pode treinar na fronteira e vencer modelos gerais em pontos importantes, e esse modelo especializado se torna uma vantagem competitiva. Por outro lado, competir com modelos gerais é uma guerra de capital: você perde para quem tem mais capacidade computacional, que é o truque de empresas com acesso superficial e tarefas visíveis. Promete que, no dia em que treinar na fronteira para tarefas gerais for suficiente para sobreviver, o vencedor será decidido pelo tamanho do centro de dados, e o resultado geralmente não é um campeão independente, mas uma venda para quem tem muita capacidade computacional.

Tudo isso é uma defesa. O mais difícil é o ataque: decidir o que construir primeiro. É isso que tenho procurado por um ano, e talvez tenha encontrado três vezes. Modelos aqui não ajudam. Eles farão qualquer coisa que você indique, mas não podem te dizer o que vale a pena indicar, nem você pode benchmarkar isso, então não consegue treiná-los. Essa é uma das razões pelas quais empresas existentes não tomam tudo: elas mantêm seu território, enquanto o próximo vem de quem descobriu uma aplicação antes de todos os outros. Talvez o que seja mais escasso que capacidade computacional seja o investimento em intenção, mais do que em poder de processamento.

A desesperança está certa em metade. As camadas finas de embalagem estão sendo absorvidas, e hoje muitas coisas parecem camadas finas de uma empresa. Mas ela está errada sobre o que sobra. O mecanismo é claro; o destino, não. Aposto na direção: inteligência fica cada vez mais barata, e o valor escorregando para os poucos lugares que os modelos não alcançam. O que não pode ser treinado é de valor histórico. Então, entrei em um, fazendo traduções discretas, começando a escrever o que significa ser bom lá, porque alguém vai fazer. A pontuação de benchmark mais citada este ano é um mapa de territórios que logo se tornará inútil, e uma notificação sobre quem está prestes a perder o direito de dizer o que é considerado bom.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado