Na era da IA, a análise definitiva da guerra de oferta e procura de tokens

Título do vídeo: A Oferta e a Procura de Tokens de IA | Entrevista com Dylan Patel
Autor do vídeo: Invest Like The Best
Tradução: Peggy, BlockBeats

Nota do editor: Com o contínuo avanço das capacidades dos modelos de IA, ferramentas como Claude Code, Cursor e outras sendo amplamente adotadas por empresas, a discussão no setor está mudando de “quão forte é o modelo” para “como o modelo entra na produção”. Mas, à medida que a programação de IA, análise automatizada e modelagem de dados se tornam consensuais, uma questão mais fundamental começa a emergir: quando os custos de execução são rapidamente reduzidos, o que realmente é escasso — mão de obra, capital ou o direito de usar modelos de ponta e tokens?

À esquerda, o apresentador Patrick O’Shaughnessy, à direita, Dylan Patel

Este artigo é uma compilação de uma conversa entre Patrick O’Shaughnessy e Dylan Patel, fundador da SemiAnalysis. Dylan há muito tempo acompanha infraestrutura de IA, cadeia de suprimentos de semicondutores e economia de modelos. Nesta conversa, partindo do aumento explosivo nos gastos de sua própria empresa com Claude Code, ele discute como a IA está mudando a organização empresarial, serviços de informação, demanda por tokens, cadeia de fornecimento de poder computacional e o clima social.

O aspecto mais interessante dessa conversa não é a repetição de um modelo que bate um novo benchmark, mas sim a forma como ela oferece uma compreensão da economia de IA — vendo a IA como um sistema de produção que está redistribuindo capacidades de execução, eficiência organizacional e lucros industriais, e não apenas uma atualização de ferramenta de software.

A conversa pode ser entendida de cinco perspectivas principais.

Primeiro, o custo de execução foi quebrado. Antes, ideias não eram escassas; o verdadeiro desafio era transformar ideias em produtos, sistemas e serviços entregáveis. Agora, Claude Code permite que não técnicos escrevam código, construam aplicações e façam análise de dados, tarefas que antes exigiam uma equipe dedicada por longo tempo, agora realizadas por poucos com o auxílio de modelos. Os gastos anuais com Claude Code na SemiAnalysis já atingiram 7 milhões de dólares, mais de um quarto de seus custos com salários, indicando que a IA deixou de ser apenas uma ferramenta de aumento de eficiência e está se tornando um novo capital de produção para as empresas.

Em segundo lugar, o setor de serviços de informação é o primeiro a ser reescrito. A atividade de Dylan, que basicamente vende análises, consultorias e conjuntos de dados, é justamente uma das áreas mais facilmente comercializadas por IA. Análise reversa de chips, modelagem de redes de energia, construção de indicadores macroeconômicos — tarefas que antes demandavam equipes de longo prazo, agora podem ser feitas por poucos em semanas. Isso significa que a pressão da IA sobre empresas de serviços de informação não é “vai substituir pessoas”, mas “quem consegue refazer os produtos dos concorrentes mais rápido”. Empresas que não adotarem IA serão rapidamente substituídas por outras mais ágeis, e as que adotarem precisarão continuamente elevar seus padrões para evitar serem substituídas por concorrentes mais eficientes.

Mais profundamente, tokens estão se tornando novos meios de produção. Antes, empresas compravam assinaturas de software, cujo foco era a usabilidade da ferramenta; agora, o acesso a modelos de ponta, limites de taxa, contratos empresariais e orçamentos de tokens começam a determinar a capacidade de produção. Modelos mais poderosos nem sempre custam mais, pois tokens mais inteligentes podem realizar tarefas de maior valor com menos passos. A competição real está mudando de “quem usa IA” para “quem consegue obter o modelo mais forte e usar os tokens mais caros nos cenários de maior valor”.

Essa demanda se estende por toda a cadeia de suprimentos. O aumento no uso de tokens, impulsionado pelo crescimento explosivo na demanda por modelos, acabará pressionando continuamente GPUs, CPUs, memória, FPGA, PCBs, cobre, equipamentos semicondutores e gastos de capital em fábricas de wafers. O chamado “efeito chicote” mencionado no artigo é exatamente essa lógica: uma demanda aparentemente apenas por chamadas de modelos na ponta da cadeia pode se transformar, na cadeia de suprimentos, em pedidos multiplicados por vários fatores, levando a expansão de capacidade e aumento de preços. Assim, os lucros da indústria de IA não ficarão restritos às empresas de modelos ou à NVIDIA, mas se espalharão ao longo da cadeia de semicondutores e centros de dados.

Por fim, a reação social à IA pode chegar antes do esperado. Quando a IA realmente entra no fluxo de trabalho, as preocupações públicas com substituição de empregos, consumo de energia, expansão de data centers e concentração de poder também aumentam. Dylan até prevê protestos em massa contra IA em até três meses. Para as empresas de modelos, continuar a enfatizar que “IA vai mudar o mundo” pode não aliviar a ansiedade, mas reforçar a sensação de perda de controle por parte do público. O setor de IA precisará, a partir de agora, provar não apenas sua capacidade técnica, mas como ela cria valor público concreto e perceptível no momento presente.

Hoje, a questão central da IA está mudando de “o que os modelos podem fazer” para “quem consegue obter os modelos, como usá-los e quem captura o valor que eles criam”. Nesse sentido, o foco não é mais apenas Claude Code, Anthropic ou uma única empresa de IA, mas uma reestruturação que envolve produtividade, gastos de capital, eficiência organizacional e aceitação social.

A seguir, o conteúdo original (reorganizado para facilitar a leitura):

TL; DR

· O principal fator de IA está mudando de “poder fazer” para “vale a pena fazer”; após a queda rápida de custos de execução, o que realmente escasseia são ideias de alto valor que podem ser ampliadas pelos modelos.

· Gastos com Claude Code representam 25% dos custos com salários, apenas o começo; IA está se tornando um novo capital de produção para as empresas.

· A competição por modelos de ponta não é mais apenas de capacidades, mas de direitos de acesso a tokens; quem consegue obter os modelos mais fortes mais cedo e de forma estável pode criar novas barreiras comerciais.

· O setor de serviços de informação será o primeiro a ser reestruturado pela IA, pois os custos de produção de dados, análises e pesquisas estão caindo rapidamente, e empresas mais lentas serão substituídas por mais ágeis.

· A demanda por tokens não diminuirá com a redução de preços de modelos antigos, pois a evolução dos modelos mais avançados sempre gera novos casos de uso de alto valor, levando os usuários a modelos mais caros.

· A maior mudança trazida pela IA não é a redução do trabalho humano, mas a capacidade de poucos de produzirem várias vezes mais em igual tempo; quem não consegue criar e capturar valor de tokens ficará “permanentemente na base”.

· A escassez de poder computacional está se espalhando por toda a cadeia de semicondutores, de GPUs, CPUs, memórias a fabricantes de placas e equipamentos; a demanda de IA virou uma força de pressão de preços em toda a indústria.

· O valor econômico da IA é difícil de ser capturado pelo PIB tradicional; o verdadeiro problema não é quanto as empresas de modelos ganham, mas quanto o uso de tokens, suas decisões, eficiência e efeitos em cadeia geram de “PIB fantasma”.

Entrevista original:

Claude Code virou uma nova força de trabalho

Patrick O’Shaughnessy (apresentador):
Você me contou uma história muito interessante sobre a mudança na quantidade de tokens usados pela sua equipe neste ano. Pode repetir? Como isso mudou sua compreensão do que está acontecendo no mundo?

Dylan Patel (fundador da SemiAnalysis):
No ano passado, achávamos que éramos usuários intensivos de IA. Todo mundo usando ChatGPT, todo mundo usando Claude, eu também assinando várias plataformas para a equipe. Na época, nossos gastos com isso eram de alguns milhares de dólares por ano.

Mas este ano, os gastos dispararam. O ponto de partida foi no final de dezembro passado, com o lançamento do Opus. Inclui também Doug, nosso presidente, que lidera a iniciativa de fazer não técnicos escreverem código com IA. Ele praticamente levou toda a empresa nisso. Claro, engenheiros já usavam, mas a partir de janeiro, nossos gastos começaram a subir de forma acentuada, e logo explodiram.

Depois, fechamos contrato empresarial com a Anthropic. Quando conversamos na última vez, nossos gastos anuais eram de cerca de 5 milhões de dólares; agora, já estão em 7 milhões.

Patrick O’Shaughnessy:
E isso foi na semana passada.

Dylan Patel:
Sim, grande parte é o volume de uso mesmo. O mais interessante é que pessoas que nunca tinham programado antes agora usam Claude Code, e alguns gastam milhares de dólares por dia. Mas, no total, nossos gastos anuais com Claude Code já atingiram 7 milhões, enquanto nossos salários somam cerca de 25 milhões. Ou seja, gastos com Claude Code representam 25% dos custos com salários.

Se essa tendência continuar, até o final do ano pode ultrapassar 100% dos salários. É assustador. Mas, felizmente, não preciso escolher entre “pessoas” e “IA”, porque a empresa está crescendo rápido. É mais uma questão de: posso não contratar tanto, mas gastar mais com IA, que realmente funciona e acelera o crescimento.

Mas acho que, cedo ou tarde, outras empresas vão enfrentar o mesmo problema: se uma pessoa usando Claude Code consegue fazer o trabalho de cinco, dez ou quinze pessoas, o que fazer? Primeiro, talvez seja preciso cortar pessoal; segundo, esses usos são muito diversos.

Por exemplo, temos um laboratório de engenharia reversa em Oregon, que funciona há um ano e meio. Tem equipamentos avançados, microscópios eletrônicos, etc. O foco é analisar chips, extrair arquitetura, materiais usados na fabricação. Esses dados também vendemos.

Antes, essa análise era lenta. Agora, um membro da equipe gastou só alguns milhares de tokens de IA para criar uma aplicação que acelera o GPU, rodando em servidores na CoreWeave. Basta enviar uma foto de chip, e ela marca materiais, cobre, tântalo, germânio, cobalto, tudo visualizado, com análise de elementos finitos.

Ele trabalhou na Intel antes, e disse que antes isso era coisa de uma equipe inteira. Agora, com IA, é algo que toda a empresa consegue fazer.

Outro exemplo interessante é Malcolm, ex-economista de um grande banco. A equipe dele tinha entre 100 e 200 pessoas. Agora, ele criou algo impressionante.

Conectou vários dados — FRED, relatórios de emprego, APIs diversas — e construiu um modelo de regressão para analisar o impacto de mudanças econômicas na inflação ou deflação.

O Bureau de Estatísticas do Trabalho dos EUA tem cerca de 2000 tarefas categorizadas. Malcolm usou IA para avaliar quais tarefas podem ser feitas por IA, quais não, e atribuiu notas. Resultado: cerca de 3% das tarefas já podem ser feitas por IA.

Criou um índice para medir o que pode ser automatizado e qual o efeito deflacionário. A produção pode aumentar, mas, por causa da redução de custos, o PIB pode encolher — chamou de “PIB fantasma”.

Ele fez uma análise completa com esse conceito, incluindo um benchmark de modelos de linguagem com cerca de 2000 avaliações.

Patrick O’Shaughnessy:
Tudo isso foi feito por ele sozinho?

Dylan Patel:
Sim, tudo por ele. Ele me disse: “Irmão, isso antes levaria uma equipe de 200 economistas um ano para fazer.” Agora, ele está imerso em Claude, e tudo mudou.

Patrick O’Shaughnessy:
Como empresário, como você interpreta isso? Vocês começaram com quase nenhum gasto, agora já é 25% dos salários, e continua crescendo. Em que ponto você pensa: “Espera, talvez seja hora de frear”? Talvez reduzir gastos? Talvez usar modelos mais baratos que o Opus 4.7?

Dylan Patel:
No fundo, eu faço negócio de informação. Vendemos análises, consultorias, conjuntos de dados. Não vejo motivo para acreditar que esses produtos não serão totalmente comercializados rapidamente.

Se eu não melhorar continuamente, o primeiro produto de dados que vendi há um tempo já está sendo replicado por outros. Ainda vendemos porque melhoramos, detalhamos. Mas, em 2023, nossa abordagem é semelhante à de outros hoje. Se não elevar os padrões, serei substituído. Se agir devagar, perco vantagem.

A questão é: sim, IA vai comercializar muitas coisas, como faz com software. Mas quem age rápido, mantém boas relações com clientes, oferece serviços excelentes e continua inovando, não encolhe, cresce. Os ineficazes, que não fazem nada, perdem.

É uma questão de sobrevivência: se não adotar IA, outros vão, e vão me superar.

Outro exemplo simples é o setor de energia. Há um ano, alguns analistas tentaram montar um modelo energético. É um mercado de cerca de 9 bilhões de dólares, um grande alvo. Mas, mesmo após um ano, não entramos de fato nesse mercado de dados energéticos.

Até que veio o “Claude Code doente”. Jeremy, responsável por energia de data centers, começou a usar Claude Code, gastando bastante — cerca de 6 mil dólares por dia — e criou um mapa de toda a rede elétrica dos EUA, com dados de usinas, linhas de transmissão, demanda, tudo acessado por APIs públicas.

Montou um painel para monitorar escassez e excesso de energia em regiões específicas, tudo em semanas.

Mostramos isso a clientes que já compram nossos dados de centros de dados, incluindo traders de energia. Eles disseram: “Quanto tempo levou? Está ótimo, melhor que a de uma grande empresa que tem 100 pessoas há dez anos.”

Claro, nosso produto ainda não é tão completo quanto o deles, mas em alguns aspectos já é melhor. Assim, estamos começando a comercializar esses dados energéticos. Mas, se não acelerarmos, quem vai fazer isso por nós?

Para um empresário, o problema não é gastar muito. É: o que esses gastos me trouxeram? Mais receita? Se sim, valeu a pena.

Patrick O’Shaughnessy:
Você não teme que, no final, os controladores de capital — os investidores que contratam vocês — digam: “Temos nossos analistas, eles são inteligentes, podemos fazer internamente”? Se for tão fácil, tudo pode voltar para dentro das instituições de investimento, que têm maior alavancagem com esses dados.

Dylan Patel:
Primeiro, toda atividade de informação é assim: o valor que eu obtenho de uma informação, é menor que o valor que o cliente consegue extrair dela.

Se eu vender por 1 dólar, o cliente aceita porque sabe que essa informação ajuda na decisão, que pode gerar mais de 1 dólar de lucro. Ou seja, ele faz uma arbitragem, ganha mais do que paga.

Fundos de investimento também têm sua capacidade de análise. Como Jane Street, Citadel, que têm dados profundos. Mas eles continuam comprando nossos dados, e nossa parceria cresce.

Tem um “fator X” aqui: somos mais rápidos, mais ágeis, com uma equipe menor, focada em infraestrutura de IA e na revolução que ela provoca — IA, economia de tokens, tudo mais. Percebemos tendências mais cedo, construímos mais rápido.

Por isso, profissionais de investimento tentam fazer o que fazemos, mas, na maioria das vezes, compram nossos dados e constroem sobre eles. É mais barato do que começar do zero. Mas, claro, alguém vai tentar fazer internamente também.

Tokens como novos meios de produção

Patrick O’Shaughnessy:
Sempre que converso com você, volto ao mesmo ponto: oferta e demanda de tokens. É o que mais me interessa agora. Com sua experiência, você tem uma nova compreensão da demanda? Quando você sente isso na pele, sua avaliação sobre a demanda por tokens muda?

Dylan Patel:
Se olharmos de forma macro, a receita anual da Anthropic pode ter crescido de 9 bilhões para 35-40 bilhões de dólares. Quando este episódio for ao ar, talvez já esteja em 40-45 bilhões.

Mas o poder computacional deles não cresceu na mesma proporção. Se assumirmos que não reduziram o investimento em pesquisa e desenvolvimento — o que não fizeram, pois continuam lançando modelos como Metis, Opus 4, 4.7 — então, mesmo que toda a capacidade adicional seja usada para inferência, a margem de lucro bruta deles deve estar ao redor de 72%.

Na prática, parte dessa capacidade adicional também vai para pesquisa, então a margem real pode ser maior. No começo do ano, vazaram alguns documentos de financiamento da Anthropic, mostrando uma margem de lucro de cerca de 30%.

Como uma empresa consegue aumentar sua margem de lucro tão rapidamente? Em princípio, a demanda é tão alta que eles podem restringir uso, limitar taxas e aplicar restrições. O mais importante é ter gerentes de clientes, contratos empresariais e capacidade de aumentar limites de taxa. Caso contrário, tokens se tornarão extremamente escassos.

Quem pode pagar, consegue acesso. A Anthropic enfrenta o mesmo problema — que, na verdade, é a lógica do capitalismo: clientes pagam, e o valor que eles criam com tokens é muito maior que o custo.

Cada empresa valoriza tokens de forma diferente. Mas, à medida que os modelos ficam mais inteligentes, o que importa é: quem consegue obter os tokens mais inteligentes e usá-los nas tarefas mais valiosas.

Como pessoa, você decide: como usar esses tokens para expandir seu negócio e criar valor. Muitos querem tokens, consomem tokens, mas empresas comuns que usam Claude para criar software em São Francisco talvez não criem valor real. Logo, esses tokens vão sendo expulsos do mercado por preços mais altos.

Patrick O’Shaughnessy:
Hoje, no meu voo para cá, tentei usar o Opus 4.7 e fui limitado. Queria usar imediatamente, mas não consegui. Nem consigo imaginar usar o 4.6, que já era ótimo.

Você fica surpreso com a insistência das pessoas em usar os modelos mais caros e avançados?

Dylan Patel:
De jeito nenhum. Uma das memórias mais engraçadas das últimas semanas foi eu e meu amigo Leopold implorando ao cofundador da Anthropic por acesso ao Metis.

Sabíamos que existia, então pedimos: “Por favor, deixe-nos usar.” E ele respondeu: “Não sei do que vocês estão falando.”

Patrick O’Shaughnessy:
Quando aparece a tabela de preços ou o cartão de avaliação, qual sua reação?

Dylan Patel:
Na Bay Area, já se ouvia rumores de que o modelo seria muito forte. Benchmark, claro, muda o tempo todo, mas Mephisto / Metis provavelmente é o maior salto de capacidade nos últimos dois anos.

Isso é muito importante: é tão forte que a Anthropic nem quer lançar tudo de uma vez. Mesmo com preços cinco ou dez vezes maiores, eles não querem liberar tudo, por receio do impacto no mundo real.

Hoje, o que nos oferecem é uma versão inferior, o Opus 4.7, e eles deixam claro na ficha técnica que fizeram uma pré-otimização para reduzir capacidades de segurança. Você leu essa parte?

Minha ideia é: qualquer um com capital suficiente deve assinar a Anthropic, pagar por token, e não por assinatura comum, para evitar limitações.

Depois, é preciso pensar: como usar esses tokens na tarefa de maior valor e ganhar dinheiro com isso? Porque, no fundo, talvez em um ou dois anos, muitas operações sejam arbitragem de tokens. Tokens são poderosos, mas o segredo é saber onde usá-los.

Daqui a três ou quatro anos, os próprios modelos vão saber como usar tokens para gerar o máximo valor.

Se você olhar qualquer benchmark, verá que o custo para atingir determinado nível de capacidade caiu para uma fração do que era antes — por exemplo, alcançar o nível GPT-4 agora custa cerca de um sexto do que antes. E esse custo continua caindo.

Claro, ninguém mais se preocupa com GPT-4. O que importa são os modelos de ponta, que podem gerar valor econômico real. Mas esses modelos ainda podem ser usados em tarefas menores.

A demanda é impulsionada por novos casos de uso, não pela redução de custos de capacidades antigas. Hoje, usamos Opus 4.6 ou 4.7. Daqui a um ano, para obter uma capacidade equivalente, talvez precise gastar só 70 mil dólares, uma redução de cem vezes.

Mas isso não importa, porque, na prática, usaremos um modelo mais forte para tarefas mais valiosas.

O modelo Metis, por ser mais eficiente, consome muito menos tokens para fazer a mesma coisa, mesmo sendo mais caro por token.

Patrick O’Shaughnessy:
Na última vez que te vi, o Metis tinha acabado de sair, ou a ficha técnica tinha sido divulgada. Você disse que era tão forte que dava medo. O que você quis dizer?

Dylan Patel:
A meta da Anthropic para 2025, e até de 2024, é que o modelo tenha o nível de um engenheiro de software L4. Eles basicamente alcançaram isso com o Opus 4.6.

Mas o que eles não disseram é que, comparando com o Metis, que é mais avançado, ele parece um engenheiro L6 — mais experiente, mais capaz.

L4 é um engenheiro iniciante, L6 é um experiente.

A Anthropic disse que esse modelo já está disponível internamente desde fevereiro, ou seja, em dois meses, eles passaram de L4 para L6. E o que vem depois?

Ao pensar na evolução dos modelos, percebemos que ela está acelerando. A velocidade de lançamento da Anthropic está aumentando, assim como a do OpenAI. Por quê? Porque para fazer modelos melhores, você precisa de três coisas:

Primeiro, muita capacidade computacional, que é cara e tem seu próprio ritmo. Estamos monitorando isso, e ela cresce, mas de forma relativamente previsível. Os contratos de capacidade já firmados estão basicamente definidos.

Segundo, ótimos pesquisadores, pelos quais as empresas pagam milhões de dólares.

Terceiro, a implementação. Historicamente, era difícil transformar ideias em realidade. Agora, ideias abundam, e a implementação ficou mais fácil, embora custe caro.

A questão é: como decidir quais ideias implementar? Quando a implementação fica tão fácil, você consegue fazer mais ideias, acelerando seu ritmo.

Isso acontece na pesquisa de IA, onde o ciclo de modelos passou de seis meses para dois meses. E em outros setores, como o de energia, onde podemos modelar cada usina, cada linha de transmissão, fazer regressões, analisar oferta e demanda em micro-regiões — tudo agora é possível.

Ideias são baratas. O que importa é: quais valem a pena? Quais justificam investir em tokens para realizá-las? Porque a capacidade de realizar já está aí. Essa é a maior mudança.

Se os custos de implementação continuarem caindo — e eles estão caindo — ainda nem usamos o Metis de verdade. O Opus 4.7 foi lançado há poucas horas, e nossa equipe já está empolgada.

O que isso vai fazer ao mundo? Acho que vai reordenar a forma como a economia funciona.

Antes, a execução era difícil, e as ideias eram baratas. Agora, ideias são abundantes e baratas, mas executar ficou fácil. Então, só vale a pena investir naquelas que, mesmo com custos baixos, podem gerar valor comprovado.

Você está realmente assustado? Ou isso é só uma incerteza difícil de controlar?

Dylan Patel:
Incerteza certamente existe. Mas acho que isso vai gerar algum medo. O problema é: como a sociedade vai se reorganizar?

Quando você vive num mundo onde a capacidade de realizar algo não é mais tão importante, o que importa? Importa se você consegue escolher a ideia certa para a IA realizar, se consegue vendê-la, ou se consegue vender o que a IA produz, ou captar capital para esse projeto. Essas coisas vão passar a ser prioritárias.

E isso volta à questão anterior: quem consegue acesso às últimas versões dos modelos?

A Anthropic tem um projeto, que eu chamo de Earwig — não é o nome oficial, mas gosto de usar esse apelido, que brinca com o sentido de “inseto que se insinua”. Eles só fornecem Metis para algumas empresas, para cenários de segurança cibernética. Acho que esse tipo de coisa vai continuar, com modelos cada vez mais restritos, menos acessíveis ao público geral.

Nota: Earwig, em inglês, significa “inseto que se insinua”, como um percevejo. Aqui, o uso é uma brincadeira, sugerindo algo que “entra sorrateiramente” ou “influencia secretamente”.

Se a OpenAI, a Anthropic e outras empresas dizem que querem democratizar IA, elas também sabem que ela é muito cara. Quem vai pagar pela infraestrutura de trilhões de dólares? São os ricos, que podem construir coisas úteis com IA.

Você também não quer que alguém distile seu modelo e o libere amplamente, então vai restringir o acesso a poucos clientes. E esses clientes vão competir por tokens.

A menos que a Anthropic aumente muito os preços. Pode dobrar o preço do Opus, e eu ainda pagarei. A maioria dos usuários também continuará pagando. Mas isso não resolve o problema de capacidade.

Então, a questão é: onde essa rodada de concentração vai parar? Quando o uso de tokens e o valor gerado por eles ficarem concentrados em poucas mãos, o que acontecerá?

Eu não tenho o Metis agora, mas quem tem? Os maiores bancos, por exemplo. Eles podem usar em segurança cibernética, mas também podem querer acesso antecipado ou limites maiores, se tiverem contratos com a Anthropic.

Se eu tiver esses privilégios, posso superar meus concorrentes.

Outra possibilidade é alguém como Ken Griffin, da Citadel, que tem conexões e dinheiro. Pode fazer um acordo com OpenAI ou Anthropic, comprando os primeiros bilhões de dólares em tokens, e assim dominar o mercado.

Isso pode acontecer também na segurança cibernética, ou na análise de dados, ou em qualquer setor onde o controle de modelos seja estratégico.

O impacto é amplo. Ainda não sabemos o que esses modelos podem fazer de verdade. A Anthropic, a OpenAI, ninguém sabe ao certo. No final, cabe ao usuário final descobrir: onde esses tokens podem ser usados? O que podem construir? Como podem se espalhar na economia?

Tudo isso pode aumentar muito a produtividade, com efeitos positivos, mas também pode concentrar recursos e poder.

Robôs vão atender às próximas demandas

Patrick O’Shaughnessy:
Hoje, o uso de tokens por robôs ou na robótica é quase insignificante comparado a outros setores. Como você vê? Pode se tornar uma segunda curva de demanda? Aqui, dentro de um quilômetro, surgem novas startups tentando fazer coisas interessantes com robôs.

Dylan Patel:
Existe um conceito chamado “singularidade apenas de software”. Ou seja, o mundo pode primeiro experimentar uma singularidade de IA no software, mas a maior parte do mundo ainda é física. No final, tudo se organiza em torno de hardware, não só de software. Então, acho que a “singularidade de software” será uma fase curta, não o fim. Porque, no final, vamos precisar de hardware: programação, microcontroladores, atuadores, controle de tudo isso.

Modelos de IA têm uma característica interessante: sua eficiência de aprendizado é baixa. Eles aprendem com uma quantidade enorme de dados, e aí superam os humanos em algumas tarefas.

Mas, hoje, modelos como VLA (Vision-Language-Action) são populares, mas podem não ser a solução definitiva. Eles têm baixa eficiência de dados, e não conseguimos escalar rapidamente a quantidade de dados de robôs.

No futuro, haverá uma forma de pré-treinar modelos de robôs em grande escala, como fazemos com humanos, que veem muitos exemplos na vida. Humanos são “altamente amostrados”, aprendem com poucos exemplos.

Se essa capacidade for aplicada a robôs, tudo muda. Quando a singularidade de software acontecer, ela será barata, acessível a todos, e os robôs realmente úteis começarão a surgir.

Nos próximos 6 a 18 meses, veremos avanços reais na robótica, com foco em few-shot learning — poucos exemplos para aprender tarefas. Assim, teremos modelos pré-treinados, e basta mostrar alguns exemplos para o robô executar.

Você mostra duas coisas, e ele faz. Diz: “Mantenha o equilíbrio”, e ele tenta. Já derrubei várias coisas assim.

Acredito que robôs com poucos exemplos de aprendizado vão surgir.

Hoje, há muitas empresas fazendo robôs, alguns para publicidade, outros para tarefas simples. Mas, em breve, a especialização vai crescer: robôs para dobrar roupas, limpar quadros, etc. Podem ser serviços de aluguel ou pacotes de modelos que você baixa e usa.

De qualquer forma, o setor físico vai acelerar, gerando deflação. E isso vai impulsionar a demanda por tokens. Portanto, não acho que a demanda vá diminuir.

Patrick O’Shaughnessy:
O que você aprendeu com o Metis e sua construção? Se dividir as leis de escala em partes, como pré-treinamento…

Dylan Patel:
É um modelo muito maior que os anteriores. Dez vezes maior que o Blackwell, equivalente a dezenas de milhares de chips. Claro, a velocidade de lançamento de TPU e Triton é diferente, mas, no geral, o Metis é um avanço claro.

Ele mostra que as leis de escala continuam válidas: mais capacidade computacional leva a modelos melhores.

E, ao longo do processo, também melhoramos na eficiência de cálculo. Todo o esforço de pesquisa e desenvolvimento se traduz em uma coisa: para atingir um determinado nível de capacidade, o custo cai drasticamente a cada seis meses ou dois meses. E, se aumentarmos a escala, ainda assim, há saltos de capacidade.

Sim, isso prova que a tendência continua. Google, Anthropic, OpenAI — todos estão acelerando.

Este ano, veremos modelos cada vez melhores, com ritmo de lançamento cada vez mais rápido.

Patrick O’Shaughnessy:
Já conversamos bastante, mas quase não mencionamos a OpenAI. Isso é estranho.

Dylan Patel:
Pois é. Agora, muitos dizem: “A Anthropic já ganhou, né? Têm o Metis desde fevereiro, mas não lançaram ainda, acham que não precisam.” Eles já estão vendendo capacidade, faturando 100 bilhões por mês, e lançaram o Opus 4.7 antes do rumor do “Spud” da OpenAI, que saiu na mídia.

Na superfície, parece que a Anthropic está na frente, e a OpenAI ficou para trás. Mas, na verdade, a Anthropic tem limitações de capacidade. Eles podem expandir lentamente. Dario até dizia que a OpenAI era mais agressiva na expansão de capacidade, enquanto a Anthropic era mais racional.

Hoje, talvez eles pensem: “Deveríamos ter investido mais em capacidade.”

A OpenAI, por outro lado, tem recursos para pagar tudo isso. Já levantaram muito dinheiro, compraram capacidade de vários fornecedores, incluindo Oracle, CoreWeave, SoftBank, Microsoft, e agora também Trainium da Amazon.

Eles estão fazendo uma expansão louca, e sabem que precisam de mais.

Se olharmos para o Opus 4.6, sem considerar melhorias de modelo, a adoção por empresas será rápida, mas não instantânea. Ainda assim, até o final do ano, um modelo como esse pode gerar 100 bilhões de dólares de receita por ano, o que não é exagero, considerando que já gastam 40 bilhões.

Patrick O’Shaughnessy:
Isso é uma projeção linear.

Dylan Patel:
Sim, uma projeção linear, não exponencial. Para crescimento exponencial, precisamos de modelos melhores. Mas a Anthropic não tem capacidade suficiente para atender a tudo. Se a OpenAI ou Google atingirem esse nível, quem será o próximo?

A Anthropic talvez consiga uma margem de 70%, mas se a OpenAI chegar lá, mesmo com 50%, vai captar toda essa demanda adicional. E provavelmente também não terá capacidade suficiente para todos. Então, um modelo como o Metis, se houver capacidade global, pode gerar 500 bilhões de dólares de receita, ou mais. A demanda por tokens é enorme, e a oferta de capacidade, limitada.

Já vimos isso na alta do preço do H100. A vida útil das GPUs está se estendendo. Mesmo laboratórios secundários estão vendendo tokens, e os principais também. Os melhores modelos criam valor mais rápido do que a infraestrutura consegue fornecer.

Essa lacuna vai se ampliar. Os lucros dos laboratórios de modelos vão subir até que a cadeia de hardware perceba: “Por que não aumentar minha margem?”

Patrick O’Shaughnessy:
Então, sua avaliação da demanda, especialmente com o exemplo da SemiAnalysis, é explosiva. E, mais amplamente, com a “psicose de IA” que você mencionou, as pessoas sentem que podem fazer tudo, que a implementação é quase instantânea. Eu também sinto isso. Em poucas semanas, meus gastos com tokens dispararam.

Isso é uma boa avaliação de demanda. Mas há algo que estamos deixando passar? Se você não usar mais tokens, ficará preso na “base permanente”. Pode explicar essa frase?

Quer dizer: ou você usa mais tokens e gera valor econômico, ou fica na inércia. Muitas pessoas usam IA de forma preguiçosa, pensando: “Daqui pra frente, trabalho uma hora por dia, deixo a IA fazer o resto.”

Dylan Patel:
Isso é uma abordagem chata. Uma forma mais interessante é: eu continuo trabalhando oito horas por dia, mas faço oito vezes mais, ou ganho cinco vezes mais. Talvez não cinco, mas a direção é essa.

Claro, se você só trabalha para uma empresa, é difícil. Mas há quem tenha múltiplos empregos, crie negócios, venda produtos. Antes que a IA se torne padrão, é preciso aproveitar seu valor econômico. Porque ela ainda não é padrão. Se você não usar mais tokens, não criar valor com eles, não capturar esse valor, ficará na base.

Tem três questões: usar mais tokens; criar valor com eles; capturar esse valor. Se não fizer essas três coisas, com o avanço dos modelos e a concentração de recursos, ficará na base para sempre.

Vamos falar de oferta. O que está acontecendo? Se a demanda explode, toda a cadeia de suprimentos está mudando. Com a demanda crescendo, os preços de GPUs, CPUs, memórias, equipamentos, tudo sobe. E a vida útil também se alonga.

O preço do H100 mostra isso. Antes, diziam que GPUs durariam cinco anos, mas não é verdade. Algumas clusters de Hopper, de três ou quatro anos atrás, estão renovando contratos por mais três ou quatro anos.

A vida útil das GPUs é maior, e os preços continuam subindo na renovação.

Isso significa que a margem de lucro de um cluster é maior do que 35%. Os lucros de nuvem e hardware estão crescendo. A NVIDIA, por exemplo, ainda cobra cerca de 75% de margem.

Na cadeia, a margem de memória também sobe, assim como de módulos de luz, chips lógicos, etc. Algumas empresas estão recebendo adiantamentos, e suas margens aumentam lentamente.

Empresas como a TSMC, que fabrica chips, também estão pagando adiantamentos enormes. Mesmo que a margem não aumente muito, o custo de capital, fluxo de caixa e retorno de investimento estão crescendo.

Na cadeia toda, isso é evidente. A ASML, por exemplo, vende tudo, precisa expandir a produção de lentes. Cada etapa está vendendo tudo, com margens maiores ou recebendo adiantamentos, o que aumenta o retorno de capital investido.

Essa tendência é geral na cadeia de suprimentos. Até no PCB, com cobre e fibra, há escassez e adiantamentos.

Se a cadeia estiver “viva”, com demanda forte, todos vão competir por mais capacidade, antecipando a oferta futura.

Escassez de capacidade de computação se espalha por toda a indústria

Dylan Patel:
A cadeia costuma reagir rápido, mas desta vez é diferente. A cadeia está mais complexa, os projetos mais elaborados, e os prazos de entrega mais longos. Não é só que há ciclos de 18 meses, mas que a construção de nova capacidade leva anos.

Memória, por exemplo, cresce 20-30% ao ano, às vezes menos. NAND, até menos. Mesmo com sinais fortes de demanda, a expansão real só acontecerá em 2027 ou 2028.

Resultado: os preços de memória estão nas alturas. Especialmente DRAM, que pode dobrar ou triplicar de preço.

Muita gente acha que a história da memória já é conhecida, mas não é. Ainda há espaço para preços subirem mais, porque a demanda é grande. Para atender, eles precisam de mais capacidade, e a única forma de reduzir preços é aumentar os preços, destruindo parte da demanda.

Na lógica do capitalismo, isso significa margens maiores.

Na lógica de chips de lógica, também há problemas de capacidade. TSMC está aumentando investimentos, mas construir fábricas leva tempo. Eles tentam extrair mais de fábricas existentes, mas não podem aumentar preços muito, pois são “bons”.

No final, o mercado de semicondutores está se ajustando: TSMC, por exemplo, pode gastar até 1000 bilhões de dólares em três anos, se necessário.

Isso significa que a cadeia

TOKEN-1,13%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar