A ansiedade dos investidores em IA para 2026: Quando os modelos engolirem tudo, o que sobrará das vantagens competitivas das startups?

Autor: Sarah Guo

Tradução: TechFlow Deep潮

Deep潮 Guia: Quando grandes modelos começam a dominar todas as listas, os investidores entram em um estado de desespero: além da Anthropic e da Nvidia, há algo mais que valha a pena investir? Este investidor de elite do Vale do Silício usa dados e casos para mostrar que a verdadeira barreira de proteção não está nas listas — ela está naquelas áreas que não podem ser medidas por benchmarks.

Em meados de 2026, a versão de AI dos investidores de uma loucura desesperada é uma espécie de desespero: não há mais nada valendo a pena, devemos investir todo o dinheiro na Anthropic e na Nvidia e voltar para casa.

Nunca tive essa sensação. Estou convencido de que os modelos são várias versões mais inteligentes do que eu, estou disposto a comprar Anthropic e Nvidia pelo preço de mercado, e todos os meus amigos mais inteligentes acreditam que a autoaperfeiçoamento vai acontecer rapidamente — mas ainda assim, não sinto esse desespero.

Esse desespero não é tolo. A lógica é a seguinte: se os modelos melhoram continuamente em tudo, então cada empresa construída sobre eles é apenas uma camada fina de embalagem, esperando ser absorvida, e o único valor que pode sobreviver é a capacidade computacional e os pesos de ponta.

Tomando o software como exemplo, esse é o caso mais apoiado pelos desesperados. Quando lançado em 2024, Devin conseguiu resolver apenas 13% das tarefas em benchmarks padrão de software, sendo praticamente ignorado. Um ano e meio depois, o melhor agente consegue atingir mais de 80 pontos, realizando trabalhos reais na Goldman Sachs e no Exército dos EUA. Quase todos chegaram à mesma lição errada: os modelos estão consumindo a engenharia de software. Mas quando os modelos engolem as partes mais fáceis de medir na engenharia de software, estamos redescobrindo algo que muitas equipes já sabiam — engenharia sempre resistiu à medição, e as partes mais fáceis de medir podem não ser as únicas importantes.

Mert Demirer do MIT e seus colaboradores finalmente apresentaram números: entre mais de 100 mil desenvolvedores, o agente de codificação mais recente aumentou a quantidade de código escrito em cerca de 180%, enquanto a quantidade de código realmente lançado aumentou cerca de 30%. Escrever código ficou mais barato. O restante ainda depende de humanos, e isso é muito importante. Claro, o impacto líquido ainda é impressionante.

Benchmark é aquilo que você consegue medir, e aquilo que você consegue medir é aquilo para o qual você treina. Portanto, o agente de codificação foi o primeiro a amadurecer: compiladores são verificadores gratuitos, suítes de testes são verificadores gratuitos, e quando a resposta verifica a si mesma gratuitamente, você pode continuamente aprimorá-la até superá-la. Mas testes nunca disseram se uma mudança é correta para um sistema com três módulos não documentados, uma pipeline de implantação sustentada por um antigo código de uma década, que depende de um cron job que ninguém quer admitir que escreveu.

Essa correção não pode ser lida em rankings, na verdade, não pode ser lida em nada. Você só aprende ao rodar o sistema no mundo real por tempo suficiente para descobrir se um sistema complexo é eficaz, e modelos mais inteligentes não fazem o mundo rodar mais rápido. Ninguém faz testes unitários em algo do tamanho do Google e acredita na marca de verificação verde; você acredita porque ele resistiu a anos de carga real. Essa correção não é apenas privada, ela é uma barreira de proteção lenta que o capital não consegue derrubar. Mesmo os otimistas admitem que o tempo não pode ser pulado: Noam Brown, pioneiro nos modelos de raciocínio da OpenAI, escreveu recentemente que a única maneira confiável de avaliar um agente ao longo de um ano pode ser... executá-lo por um ano.

Como disse Gabe Pereyra, a verdadeira automação não é apenas os modelos melhorando. É o produto, o modelo, o fluxo de trabalho e a empresa se movendo juntos, e três desses quatro se movendo na velocidade da organização.

O que se move é a parte que os benchmarks não alcançam: fazer um parceiro cético mudar sua forma de lidar com as coisas, manter a equipe unida durante a reconstrução. É por isso que, ao contratar um CEO, a capacidade de lidar com pessoas é pelo menos tão importante quanto a de analisar, e modelos mais inteligentes não mudam esse peso. O feedback é vago, o horizonte temporal é de anos, e a confiança pertence a uma pessoa. Sei que todas as empresas fazem com que seus engenheiros usem modelos de codificação de ponta, mas nenhuma muda sua organização de engenharia na mesma velocidade. Uma mudança que leva um trimestre — quão incrível é esse trimestre de crescimento de tokens! — mas a reconstrução leva anos.

O que está desaparecendo é visível. O trabalho valioso é estruturalmente invisível: tudo que você consegue colocar em rankings, você pode treinar para melhorar, então tudo que é mensurável já está na direção da mercantilização. Esse processo leva tempo e nunca será completo, mas a direção nunca se reverte. Como disse meu amigo Matt MacInnis, na Rippling: tokens gastos para responder perguntas gerais valem quase nada, porque qualquer modelo pode respondê-las, enquanto tokens gastos para raciocinar com os dados da sua empresa valem muito mais, porque fazem o que você realmente quer, não apenas o que parece razoável.

O trabalho visível é consumido de duas formas. De baixo para cima, a saturação de tarefas: uma vez que uma tarefa pode ser checada de forma barata, o comprador não pergunta mais qual modelo a fez, mas quanto ela custou, e o trabalho passa a ser feito pelo modelo open source ou destilado mais barato da semana. Onde quer que possam fazer impacto, a margem de lucro se torna importante. De cima para baixo, os laboratórios tentam fazer os modelos engolirem suas próprias estruturas. Recuperação, roteamento entre chamadas baratas e caras, uso de ferramentas, estratégias de raciocínio — todas as instalações que antes envolviam modelos estão sendo incorporadas aos pesos, até que o empacotador seja o próprio modelo. Essa é a absorção de ponta. A pressão por margem também reduz esse efeito: agentes gerais precisam estar prontos para qualquer coisa, o que é caro, enquanto aplicações focadas podem ajustar um fluxo de trabalho até que funcione com uma pequena fração de tokens, e, ao contrário de laboratórios que vendem esses tokens, eles mantêm a margem.

Portanto, podemos fazer duas perguntas sobre qualquer tipo de trabalho: sua correção é privada e de alto custo de construção, uma verdade que só existe dentro dos dados de alguém? Ela está isolada, trancada em um sistema que você não consegue acessar? Comparando isso com o grau de saturação da tarefa, você obtém uma matriz 2x2. Trabalho saturado com respostas públicas é token de mercadoria, que é open source. Trabalho de ponta com respostas públicas, onde o benchmark está, é o domínio dos laboratórios, porque quando a avaliação é gratuita, tê-la não é um diferencial. O prêmio fica na última esquina, na parte não treinável: a correção só existe na fronteira privada, no trabalho de ponta. Você pode vê-la na nuvem de inferência de pioneiros de AI hospedada, onde a maior parte dos tokens é gerada por modelos customizados, não por modelos open source universais.

Aquela última esquina tem alturas variadas. Um repositório de código de um desenvolvedor individual é portátil e padronizado, então a escalada é curta. Os sistemas de produção de bancos não são assim; você não consegue obter acesso root por ser 2% mais inteligente no SWE-Bench Verified.

A capacidade consome muita coisa, mas modelos melhores não transformam fatos privados em públicos. Eles não possuem licença, não assumem responsabilidade, não têm propriedade sobre os documentos da empresa, e quando dão uma resposta errada, não podem ser processados. A inteligência não é o gargalo aqui. Licenças e responsabilidades são. Você pode imaginar um modelo muito mais inteligente que ainda assim precisa ser autorizado a entrar, e alguém precisa assinar por ele.

Essa porta tem uma fechadura e uma tranca. A fechadura é o ambiente: só após ser confiável dentro do sistema, após auditoria de segurança, integração, contratos de assinatura de resultados, é que se pode verificar se a IA fez algo útil. A tranca é o usuário. Hoje, na maioria dos médicos nos EUA, eles abrem o OpenEvidence todos os dias, e nenhuma quantidade de poder computacional pode comprar isso. Os laboratórios podem treinar amanhã um modelo médico perfeito, mas ainda assim não entram na rotina dos médicos ou nos processos de decisão da Universidade da Califórnia em São Francisco, porque a confiança é construída lentamente, baseada em relacionamentos, e requer permissão do usuário, não uma supressão de seus gradientes descendentes.

Essa também é uma tarefa. Uma aplicação ganha seu lugar na esquina não treinável fazendo trabalhos discretos: organizando a realidade privada da empresa para que o modelo possa agir nela, fornecendo ferramentas para o modelo agir, colaborando com clientes para mudar a realidade de seus funcionários. Uma empresa de tradução que traz traduções é difícil de copiar — e a tradução nunca termina. A integração e manutenção duram tanto quanto o tempo e os relacionamentos, e uma equipe que coloca engenheiros especializados e ferramentas ao lado do cliente vence.

Por exemplo, em um escritório de advocacia de elite, apenas o setor de fusões e aquisições realiza quase mil transações por ano. Por razões de confidencialidade e outros motivos, você não pode deixar centenas de assistentes baixarem arquivos de clientes em seus desktops e pedir que um agente genérico os leia, mesmo que pudesse, o que aprenderia seriam fragmentos, uma correção por assistente, sem ver como toda a transação se move. Os sinais importantes existem na camada de transações, que têm uma forma: para fusões e aquisições, são acordos de confidencialidade, listas de termos, diligências, contratos de compra, documentos anexos, listas de entrega; para litígios de propriedade intelectual, são petições, revelações de provas, tecnologia existente, mais petições. Cada área de negócio tem suas próprias, e advogados e ferramentas não podem trocar entre si. E o problema que o escritório realmente resolve está em um nível acima de tudo isso: executar paralelamente cada área de negócio, como sócios de topo gerenciam centenas de casos ao mesmo tempo, introduzindo novos casos e treinando assistentes. Transformar um escritório assim não é uma tarefa que se pode avaliar com uma única métrica. Precisa de um operador que use análise de dados, com objetivos extremamente vagos, feedback incompleto, longo prazo, em um ambiente que não para.

Infelizmente, o valor invisível também é difícil de vender, pelo mesmo motivo que é difícil de mercantilizar: a empresa não consegue julgar externamente se a IA vai transformar suas operações, assim como benchmarks não podem julgar. Então, as empresas mais fortes param de tentar provar isso externamente e passam a avaliar internamente, colocando preço nos resultados. A Sierra cobra por resolver problemas de clientes com seus agentes, não cobrando quando passa o problema para humanos, então o preço se torna uma avaliação, que só funciona quando a Sierra tem uma definição de "resolvido". Devin da Cognition faz o mesmo em software, oferecendo uma "garantia de desempenho", que só pode ser avaliada em um sistema em que você foi confiado a entrar.

Mesmo tokens de serviço, que todos gostam de chamar de camada de mercadoria pura, não funcionam como mercadoria de verdade. As melhores empresas nativas de AI concentram seus serviços em um ou dois fornecedores (Baseten ou Fireworks), porque o custo por token é planejado para se tornar mercadoria, enquanto a confiabilidade sob carga real e o acesso a capacidade escassa de computação não são. Onde você serve é uma escolha diferente de quais modelos usa. O preço é a única parte que funciona como mercadoria na inferência.

Uma objeção comum é: os laboratórios são seus fornecedores — por que eles não operariam seus próprios produtos de primeira linha abaixo do custo para te explorar, ou revogariam seu acesso à API e dominariam o mercado? Essa é a versão desesperada, que só funciona se o nível do modelo for um jogo de um só jogador. Claramente não — parece mais uma corrida de três lados, com jogadores internacionais treinando com seis meses de atraso, com alianças cinco vezes maiores do que no ano passado. Os clientes querem competição entre fornecedores, e os laboratórios querem mais participação de mercado, não acabar com um aplicativo.

Você pode ver isso na competição direta dos laboratórios no mercado. Nos chats com consumidores, os melhores modelos nunca vencem facilmente. O ChatGPT manteve sua liderança por anos de competição real, e sua fatia de mercado que está sendo perdida agora está indo para o Gemini, apoiado por Android e busca, não por modelos melhores. A Anthropic, avaliada como a melhor em modelos (e pelo clima da internet e mercados futuros), quase não é uma força nos chats com consumidores, mas construiu seu negócio em empresas e codificação. Se modelos melhores não conseguirem roubar usuários dos concorrentes nas aplicações mais centrais, eles não passarão por registros hospitalares ou bancos via integração. As escolhas do público hoje não se baseiam apenas em codificação. Se a fronteira se mantiver apertada, sua camada superior será valiosa.

Se o trabalho não pode ser avaliado externamente, alguém interno deve decidir o que é uma boa resposta, e essa decisão é o jogo inteiro. Muitas dessas decisões, escritas, se tornam benchmarks. Harvey criou um para o setor jurídico, Sierra criou um para agentes de voz. Você ganha o direito de definir o que significa bom nesse setor ao se tornar aquele que já é utilizado nele, conquistando esse direito pela adoção real.

A avaliação que decide o valor real é privada e varia de empresa para empresa: essa empresa, nesse tipo de tarefa, aceitará o que for considerado um bom trabalho, e isso ainda não está completo, pois a profundidade do direito faz qualquer teste público parecer insignificante. A OpenEvidence está definindo como são as respostas clínicas seguras. Tudo isso não é uma verdadeira medida, é uma questão de julgamento do que é verdadeiro e bom, escrito até se tornar o padrão de avaliação de todos os outros, e os laboratórios mais inteligentes não podem escrevê-lo, pois esse status só existe dentro do setor. Essa autoridade tende a ficar onde ela já está. Advogados experientes criam benchmarks jurídicos. A definição de respostas clínicas seguras fica com os médicos. E "resolvido" significa que qualquer empresa com clientes já sabe o que isso significa.

A fronteira de ponta está sempre subindo, pois aprendemos a medir mais trabalhos, e o que é mensurável é consumido. O terreno não treinável sob os pés de quem está acima dele diminui, então você não consegue encontrar um ponto defensável e descansar. Você continua avançando em direção ao que ainda não pode ser avaliado, reassegurando continuamente. Em tarefas estreitas, usando seus dados privados e suas próprias avaliações, você pode treinar até a fronteira e derrotar modelos gerais em pontos importantes, e esse modelo especializado se torna uma barreira de proteção. Por outro lado, competir com modelos gerais é uma guerra de capital: você perde para quem tem mais capacidade computacional, que é o truque de empresas com acesso superficial e tarefas visíveis. Promete que, no dia em que treinar além da fronteira para sobreviver, o vencedor será decidido pelo tamanho do centro de dados, e o resultado geralmente não é um campeão independente, mas uma venda para quem tem muita capacidade de computação.

Tudo isso é defesa. O mais difícil é o ataque, decidir o que construir primeiro. É isso que procurei por um ano, e talvez tenha encontrado três vezes. Modelos aqui não ajudam. Eles farão qualquer coisa que você indicar, mas não podem te dizer o que vale a pena indicar, você não pode benchmarkar isso, então não consegue treiná-los. Essa também é a razão pela qual empresas existentes não tomam tudo: elas mantêm seu território, enquanto o próximo vem de quem descobriu uma aplicação antes de todos os outros. Talvez a intenção seja uma entrada mais escassa do que capacidade computacional.

O desespero está certo em metade. As camadas finas de embalagem estão sendo absorvidas, e hoje muitas coisas parecem camadas finas de embalagem. Mas o que está errado é o restante. O mecanismo é claro; o destino, não. Aposto na direção: inteligência fica cada vez mais barata, e o valor escorregando para os poucos lugares onde o modelo não consegue chegar. O que não pode ser treinado é de valor histórico. Então, entre em um, faça traduções discretas, comece a escrever o que significa bom lá, porque alguém vai fazer. A pontuação de benchmark mais citada este ano é um mapa de territórios que logo se tornará inútil, e uma notificação sobre quem está prestes a perder o direito de dizer o que é considerado bom.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado