Entender a Cerebras: o poder de computação impulsiona o pensamento de IA, a memória capacita o agente a agir

Autor: Ben Thompson

O poder de cálculo faz a IA aprender a pensar, a memória faz o Agente aprender a trabalhar.

Nesta semana de IPO da Cerebras, o último artigo de Ben Thompson explica tudo: a IA evoluiu de “conversar” para “executar tarefas autonomamente”, e o gargalo na arquitetura dos chips mudou.

Você espera na conversa com o豆包 pelo velocidade; quando Kimi Claw executa uma tarefa por 5 horas para você, não se importa se é 3 segundos mais rápido ou 30 segundos mais lento — importa se consegue lembrar do contexto, se consegue trabalhar continuamente. A cada passo, a memória de trabalho (KV Cache) se expande uma camada. GPU foi projetada para “esperar na tela”: durante o prefill, a memória de vídeo fica ociosa, na decodificação, o poder de processamento também — metade do tempo esperando.

O verdadeiro gargalo não é a velocidade de cálculo, mas quanto consegue armazenar e quão rápido consegue ler. Mas, mais fundamentalmente, agentes de longa duração transformam a KV Cache de uma cache temporária em uma memória de trabalho persistente. Quem conseguir manter essa memória por mais tempo, reutilizá-la mais eficientemente e a um custo menor, terá a chave da economia de Agentes.

Isso é muito mais importante do que benchmarks de velocidade.

Quanto ao momento de IPO, fazer uma empresa de chips em maio de 2026 seria quase ideal. A Reuters relatou no fim de semana:

Duas fontes familiarizadas disseram à Reuters neste domingo que, impulsionada pela demanda contínua do mercado por ações dessa empresa de chips de IA, a Cerebras Systems deve aumentar rapidamente o tamanho e o preço de sua oferta pública inicial (IPO). As fontes indicaram que a empresa está considerando elevar o intervalo de preço de US$ 115–125 por ação para US$ 150–160, e o número de ações de 28 milhões para 30 milhões; como as informações ainda não foram divulgadas, ambas as fontes pediram anonimato.

A alta contínua das ações de semicondutores é, fundamentalmente, impulsionada pela IA — especialmente pelo fato de o mercado estar percebendo que: Agentes inteligentes (Agents) vão consumir uma quantidade massiva de poder de cálculo (Compute). Mas a proposição apontada pela Cerebras é mais ampla: até agora, a narrativa de poder de cálculo da IA quase só envolvia GPUs, só Nvidia; no futuro, o cenário será cada vez mais heterogêneo (Heterogeneous).

Era GPU

A história de como a GPU se tornou o centro da IA já é antiga, resumidamente:

  • Assim como desenhar pixels na tela é um processo paralelo — quanto mais unidades de processamento, mais rápido a renderização — o cálculo de IA é assim também: o número de unidades de processamento determina a velocidade de cálculo.

  • A Nvidia aproveitou essa “dupla utilidade”: tornou os processadores gráficos programáveis (Programmable), e com o ecossistema completo de software CUDA, levou essa capacidade de programação a todos os desenvolvedores.

  • A diferença fundamental entre gráficos e IA está na escala do problema — modelos são muito maiores do que texturas de jogos. Isso levou a duas evoluções em cadeia: expansão dramática da capacidade de memória de alta largura de banda (HBM) em uma única GPU; e avanços na interconexão entre chips (Chip-to-chip networking), permitindo que múltiplas GPUs trabalhem como um sistema endereçável. Em ambas as frentes, a Nvidia lidera.

  • O uso principal da GPU sempre foi treinamento, e o treinamento é especialmente exigente na terceira frente. Cada passo de treinamento é altamente paralelo, mas entre passos, é sequencial: antes de passar para o próximo, cada GPU deve sincronizar seus resultados com todas as outras. É por isso que um modelo de trilhões de parâmetros precisa caber na memória total de dezenas de milhares de GPUs — e essas GPUs precisam se comunicar como uma única máquina. Nvidia domina esses dois desafios: primeiro, garantindo a oferta de HBM antes de toda a indústria; segundo, investindo pesadamente em tecnologia de rede.

Claro, treinamento não é a única carga de trabalho de IA, outro é inferência. A inferência tem três partes principais:

1. Pré-preenchimento (Prefill): codificar tudo que o grande modelo de linguagem (LLM) precisa entender em um estado compreensível; altamente paralelo, a capacidade de cálculo é crucial.

2. Decodificação da primeira parte (Decode Part 1): leitura do KV cache — que armazena o contexto, incluindo a saída da fase de pré-preenchimento — para cálculo de atenção. É uma etapa sequencial com largura de banda crítica, e a demanda de memória varia e cresce com o tempo.

3. Decodificação da segunda parte (Decode Part 2): cálculo de feed-forward na base dos pesos do modelo; também sequencial, com largura de banda crítica, e a demanda de memória depende do tamanho do modelo.

Essas duas etapas de decodificação alternam-se por camada do modelo (não são sequenciais, mas intercaladas), ou seja, a decodificação é sequencial e limitada pela largura de banda de memória (Memory-bandwidth bound). Cada token gerado exige leitura completa de dois pools de memória: o KV cache, que armazena o contexto e cresce com cada token, e os pesos do modelo. Ambos precisam ser acessados integralmente para produzir um único token de saída.

As GPUs atendem bem a esses três requisitos: fornecem alta capacidade de cálculo para pré-preenchimento, memória HBM suficiente para KV cache e pesos, e, quando a memória de uma GPU não basta, a interconexão entre chips permite pool de memória. Em outras palavras, a arquitetura que funciona para treinamento também funciona para inferência — como mostra a parceria entre SpaceX e Anthropic. No blog oficial da Anthropic, eles dizem:

“Assinamos um acordo para usar toda a capacidade de computação do data center Colossus 1 da SpaceX. Isso nos dá mais de 300 MW de capacidade adicional (mais de 220 mil GPUs Nvidia). Isso aumentará diretamente a capacidade de serviço do Claude Pro e Claude Max.”

A SpaceX mantém o Colossus 2 — provavelmente para treinar modelos futuros e fazer inferência com modelos existentes. A razão de poder fazer ambos na mesma instalação é que os modelos de xAI atualmente não usam muita capacidade; mais importante, eles podem fazer isso porque treinamento e inferência podem ser feitos na GPU. De fato, as GPUs que a Anthropic assinou inicialmente eram originalmente para treinamento; a flexibilidade das GPUs é uma vantagem enorme.

Entendendo a Cerebras

O que a Cerebras faz é completamente diferente. Apesar de o wafer de silício ter 300mm de diâmetro, o limite de máscara (Reticle limit) — a área máxima que a ferramenta de litografia pode expor na fabricação do wafer — é cerca de 26mm x 33mm. Essa é a dimensão máxima do chip; ultrapassá-la requer conectar dois chips independentes via uma camada intermediária, como a Nvidia fez com o B200. A Cerebras inventou uma técnica de roteamento que atravessa as linhas de divisão do wafer (Scribe lines), transformando toda a peça de wafer em um único chip, sem precisar de interconexões entre chips, que são relativamente lentas.

O resultado é um chip com uma capacidade de cálculo assustadora, com uma enorme quantidade de SRAM e acesso ultrarrápido. Em comparação: o WSE-3 da Cerebras tem 44GB de SRAM no chip, com largura de banda de 21 PB/s; enquanto o H100 da Nvidia tem 80GB de HBM, com largura de banda de 3,35 TB/s. Ou seja, o WSE-3, apesar de ter metade da memória do H100, tem 6000 vezes mais largura de banda.

A comparação entre WSE-3 e H100 é porque o H100 é o chip mais usado na inferência atualmente, e a inferência é a especialidade da Cerebras. Você pode treinar com Cerebras, mas sua história de interconexão entre chips não é atraente, o que significa que grande parte do poder de cálculo e memória no chip fica ociosa; o que realmente importa é a velocidade de geração de tokens, que é muito maior do que a de GPUs.

Por outro lado, a limitação do treinamento também se aplica à inferência: enquanto toda a informação couber na memória do chip, o desempenho da Cerebras é extremo; mas, se a demanda de memória ultrapassar o limite (modelo maior ou cache KV mais longo), a Cerebras deixa de fazer sentido, especialmente pelo custo. Essa tecnologia de wafer único implica alta taxa de rendimento, o que é um grande desafio e aumenta bastante o custo.

Ao mesmo tempo, acredito que chips no estilo Cerebras terão mercado: a empresa enfatiza atualmente a velocidade como vantagem prática para programação — inferência significa gerar muitos tokens, o que aumenta a quantidade de tokens por segundo, acelerando o raciocínio. Mas vejo isso como uma solução temporária, por uma razão que explicarei em breve. O que realmente importa é quanto tempo o humano leva para obter uma resposta; com a popularização de dispositivos vestíveis de IA, a velocidade de interação (especialmente por voz, que depende da velocidade de geração de tokens) terá impacto direto na experiência do usuário.

Agentes de Inferência

Já propus antes que, na era dos LLMs, passamos por três pontos de inflexão:

1. O ChatGPT provou a utilidade da previsão de tokens.

2. O o1 introduziu o conceito de raciocínio, ou seja, mais tokens levam a respostas melhores.

3. O Opus 4.5 e Claude Code trouxeram os primeiros Agentes práticos, capazes de usar modelos de raciocínio e um framework com ferramentas, verificação de tarefas, etc., para realizar tarefas reais.

Embora tudo isso seja “raciocínio”, acho que a distinção entre fornecer respostas — que chamo de “raciocínio de resposta” (Answer inference) — e executar tarefas — que chamo de “raciocínio de agente (Agentic inference)” — está se tornando clara. O mercado da Cerebras é para “raciocínio de resposta”; a longo prazo, acredito que a arquitetura de “raciocínio de agente” será completamente diferente, até mesmo de GPUs.

Já mencionei que o raciocínio rápido para programação é uma solução temporária. Hoje, usar LLMs para programar ainda requer intervenção humana: definir tarefas, revisar código, fazer pull requests, etc. Mas não é difícil imaginar que, no futuro, tudo isso será feito por máquinas. Isso se aplicará amplamente ao trabalho de agentes: a verdadeira força de um agente não está em ajudar humanos, mas em trabalhar de forma autônoma, sem intervenção.

Assim, a melhor abordagem para resolver o raciocínio de agentes será bem diferente do raciocínio de resposta. O que importa no raciocínio de resposta é a velocidade de tokens; já no raciocínio de agente, o que mais importa é a memória (Memory). Agentes precisam de contexto, estado e histórico. Parte disso está na cache ativa de KV, parte na memória principal ou SSD, e mais ainda em bancos de dados, logs, embeddings e armazenamento de objetos. O ponto-chave é que o raciocínio de agentes não será mais uma GPU respondendo a uma questão, mas um sistema complexo de camadas de memória construído ao redor do modelo.

Um aspecto crucial é que essa hierarquia de memória dedicada ao agente implica uma troca inevitável: velocidade por capacidade. E, se o sistema não requer intervenção humana em tempo real, a velocidade deixa de ser prioridade. Se um agente estiver rodando tarefas durante a noite, não se importa com latência na experiência do usuário; só se importa se consegue completar a tarefa. Se uma nova abordagem de memória tornar tarefas complexas possíveis, uma certa latência será aceitável.

Ao mesmo tempo, se a latência deixar de ser prioridade, a busca por máxima capacidade de cálculo e alta largura de banda (HBM) perde sentido: se a latência não for uma restrição rígida, memórias mais lentas e baratas (como DRAM tradicional) tornam-se mais atraentes. Se o sistema estiver basicamente esperando por respostas de memória, o chip não precisa usar processos de fabricação de ponta. Isso provocará uma mudança profunda na arquitetura, mas não significa que as arquiteturas atuais desaparecerão:

  • Treinamento (Training): continuará importante, e a arquitetura atual da Nvidia (alto poder de cálculo, alta largura de banda, rede rápida) continuará dominando.
  • Raciocínio de resposta (Answer inference): será um mercado importante, mas relativamente pequeno, onde chips como Cerebras ou Groq serão muito úteis.
  • Raciocínio de agente (Agentic inference): será cada vez mais separado das GPUs. As limitações de GPU na pré-preenchimento (uso de memória) e na decodificação (uso de processamento) ficarão evidentes. Substituir-se-á por sistemas com alta capacidade de memória, baixo custo, com “poder de cálculo suficiente”. Na verdade, a velocidade de processamento de ferramentas por CPU pode ser mais importante do que GPU.

Além disso, esses mercados diferem em escala e importância. Especificamente, o raciocínio de agente será o maior mercado do futuro, pois não será limitado pelo número de humanos ou pelo tempo. Os atuais agentes são apenas respostas sofisticadas; os verdadeiros agentes do futuro serão sistemas que executam tarefas sob comando de outros sistemas, com escala que não depende da população, mas do poder de cálculo expandido.

Implicações do raciocínio de agente para o poder de cálculo

Até agora, falar em “expandir com mais poder de cálculo” geralmente implica otimismo com Nvidia. Mas a vantagem relativa da Nvidia até aqui se baseia muito na latência: seus chips são extremamente rápidos, mas para evitar ociosidade, é preciso investir pesado em HBM e redes. Se a latência deixar de ser a restrição principal, a proposta da Nvidia pode não justificar o preço premium.

A Nvidia também percebe essa mudança: lançou o Dynamo, uma estrutura de raciocínio que ajuda a decompor o raciocínio em partes, além de produtos de memória e racks de CPU independentes, para ampliar o cache de KV e acelerar chamadas de ferramentas, mantendo as GPUs ocupadas. Mas, no final, grandes provedores de nuvem podem preferir alternativas mais baratas e simples para tarefas de raciocínio de agentes, que não dependam de GPUs.

Por outro lado, a China, embora não tenha o mesmo nível de poder de cálculo de ponta, possui tudo que um agente precisa: GPUs rápidas, CPUs rápidas, DRAM e armazenamento. O desafio está no poder de cálculo para treinamento; além disso, o raciocínio de resposta pode ser mais importante para segurança nacional (especialmente aplicações militares).

Outro ângulo interessante é o espaço (Space): chips mais lentos tornam os “data centers espaciais” mais viáveis. Primeiro, se a memória puder ser externa, os chips podem ser mais simples e mais frios. Segundo, processos mais antigos, com dimensões físicas maiores, resistem melhor à radiação espacial. Terceiro, processos mais antigos consomem menos energia, gerando menos calor. Quarto, processos mais antigos são mais confiáveis, o que é crucial em satélites que não podem ser consertados.

O CEO da Nvidia, Jensen Huang, costuma dizer que “a Lei de Moore morreu”; sua ideia é que o avanço virá de inovações em nível de sistema. Mas, quando agentes podem agir de forma autônoma, a maior lição talvez seja: a Lei de Moore deixou de importar. Aumentar o poder de cálculo hoje é mais uma questão de perceber que já temos “poder suficiente”.

NVDAX-4,97%
XAI-5,56%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado