Entender a Cerebras: o poder de computação impulsiona o pensamento de IA, a memória capacita o agente a agir

Autor: Ben Thompson

O poder de cálculo faz a IA aprender a pensar, a memória faz o Agente aprender a trabalhar.

Nesta semana de IPO da Cerebras, o último artigo de Ben Thompson explica tudo: a IA evoluiu de “conversar” para “executar tarefas autônomas”, e o gargalo de toda arquitetura de chips mudou.

Você espera na conversa com o豆包 pela velocidade; quando Kimi Claw executa uma tarefa por 5 horas para você, não se importa se é 3 segundos mais rápido ou 30 segundos mais lento — importa se consegue lembrar do contexto, se consegue trabalhar continuamente. A cada passo, a memória de trabalho (KV Cache) se expande uma camada. GPU foi projetada para “esperar na tela”: durante o prefill, a memória de vídeo fica ociosa, na decodificação, o poder de processamento também — metade do tempo esperando.

O verdadeiro gargalo não é a velocidade de cálculo, mas quanto consegue armazenar e quão rápido consegue ler. Mas, mais fundamentalmente, agentes de longa duração transformam a KV Cache de uma cache temporária em uma memória de trabalho persistente. Quem conseguir manter essa memória por mais tempo, reutilizá-la mais eficientemente e a um custo menor, terá a chave da economia de Agentes.

Isso é muito mais importante do que benchmarks de velocidade.

Quanto ao momento de IPO, fazer uma empresa de chips em maio de 2026 seria quase ideal. A Reuters no fim de semana reportou:

Duas fontes familiarizadas disseram à Reuters neste domingo que, impulsionada pela demanda contínua do mercado por ações desta empresa de chips de IA, a Cerebras Systems deve aumentar o tamanho e o preço de sua oferta pública inicial (IPO) na segunda-feira. As fontes afirmaram que a empresa está considerando elevar o intervalo de preço de US$ 115–125 por ação para US$ 150–160, e o número de ações de 28 milhões para 30 milhões; como as informações ainda não foram divulgadas, ambas as fontes pediram anonimato.

A alta contínua das ações de semicondutores é, fundamentalmente, impulsionada pela IA — especialmente pelo fato de o mercado estar percebendo que: Agentes inteligentes (Agents) vão consumir uma quantidade massiva de poder de cálculo (Compute). Mas a proposição apontada pela Cerebras é mais ampla: até agora, a narrativa de poder de cálculo da IA quase só girou em torno de GPUs, da Nvidia; no futuro, o cenário será cada vez mais heterogêneo (Heterogeneous).

Era GPU

A história de como as GPUs se tornaram o centro da IA já é antiga, resumidamente:

  • Assim como a renderização de pixels na tela é um processo paralelo — quanto mais unidades de processamento, mais rápido a renderização — o cálculo de IA funciona do mesmo modo: o número de unidades de processamento determina a velocidade de cálculo.

  • A Nvidia aproveitou essa “dupla utilidade”: tornou os processadores gráficos programáveis (Programmable) e, com o ecossistema completo de software CUDA, levou essa capacidade de programação a todos os desenvolvedores.

  • A diferença fundamental entre gráficos e IA está na escala do problema — modelos são muito maiores do que texturas de jogos. Isso gerou duas evoluções em cadeia: a expansão da capacidade de memória de alta largura de banda (HBM, High-bandwidth memory) em cada GPU; e avanços na interconexão entre chips (Chip-to-chip networking), permitindo que múltiplas GPUs trabalhem como um sistema endereçável (Addressable system). Em ambas, a Nvidia lidera.

  • O uso principal da GPU sempre foi o treinamento, e esse uso é especialmente exigente na terceira evolução. Cada passo de treinamento é altamente paralelo, mas entre passos é sequencial: antes de passar para o próximo, cada GPU precisa sincronizar seus resultados com as demais. É por isso que um modelo de trilhões de parâmetros precisa caber na memória total de dezenas de milhares de GPUs — e essas GPUs precisam se comunicar como uma única máquina. A Nvidia domina esses dois desafios: primeiro, garantindo o fornecimento de HBM antes de qualquer outro; segundo, investindo pesado em tecnologia de rede por anos.

Claro, o treinamento não é a única carga de trabalho de IA, há também a inferência (Inference). A inferência tem três partes principais:

1. Pré-preenchimento (Prefill): codificar tudo que o grande modelo de linguagem (LLM) precisa entender em um estado compreensível; altamente paralelo, depende de poder de cálculo.

2. Decodificação da primeira parte (Decode Part 1): leitura do KV cache (KV Cache) — que armazena o contexto, incluindo a saída da fase de pré-preenchimento — para cálculo de atenção. É uma etapa serial de largura de banda crítica, com requisitos de memória variáveis e em crescimento.

3. Decodificação da segunda parte (Decode Part 2): cálculo de feed-forward na rede de pesos do modelo; também uma etapa serial de largura de banda crítica, cuja memória necessária depende do tamanho do modelo.

Essas duas etapas de decodificação alternam-se em cada camada do modelo (não são sequenciais, mas intercaladas), ou seja, a decodificação é serial e limitada pela largura de banda de memória (Memory-bandwidth bound). Cada token gerado exige leitura completa de dois pools de memória: o KV cache, que cresce com cada token, e os pesos do modelo. Ambos precisam ser acessados integralmente para produzir um único token de saída.

As GPUs atendem bem a essas três necessidades: fornecem alta capacidade de cálculo para pré-preenchimento, memória HBM suficiente para KV cache e pesos, e, quando a memória de uma GPU não basta, a interconexão entre chips permite pooling de memória. Em outras palavras, a arquitetura que funciona para treinamento também funciona para inferência — como mostra a parceria entre SpaceX e a Anthropic. No blog oficial da Anthropic, eles dizem:

“Assinamos um acordo para usar toda a capacidade de computação do data center Colossus 1 da SpaceX. Isso nos dá mais de 300 MW de capacidade adicional (mais de 220 mil GPUs Nvidia). Isso aumentará diretamente a capacidade de serviço do Claude Pro e Claude Max.”

A SpaceX mantém o Colossus 2 — provavelmente para treinar modelos futuros e fazer inferência com modelos atuais. A razão de poder fazer ambas as tarefas no mesmo data center é que os modelos de xAI atualmente não usam muita capacidade; mas o mais importante é que treinamento e inferência podem ser feitos na GPU. De fato, as GPUs contratadas pela Anthropic originalmente eram do Colossus 1, usadas inicialmente para treinamento; a flexibilidade das GPUs é uma vantagem enorme.

Decodificando a Cerebras

O que a Cerebras faz é completamente diferente. Apesar do diâmetro do wafer de silício ser 300mm, o limite de retícula (Reticle limit) — a área máxima que a ferramenta de litografia consegue expor na fabricação — é cerca de 26mm x 33mm. Essa é a dimensão máxima de um chip; ultrapassá-la requer conectar dois chips independentes por uma camada intermediária, como a Nvidia fez com o B200. A Cerebras inventou uma técnica de roteamento que atravessa as linhas de corte (Scribe lines, ou seja, as fronteiras entre exposições de máscara), transformando toda a lâmina de silício em um único chip, sem precisar de interconexões entre chips, que são relativamente lentas.

O resultado é um chip com uma capacidade de cálculo assustadora, com uma enorme quantidade de SRAM e velocidades de acesso incrivelmente altas. Em comparação: o WSE-3 da Cerebras tem 44GB de SRAM no chip, com largura de banda de 21 PB/s; enquanto o H100 da Nvidia tem 80GB de HBM, com largura de banda de 3,35 TB/s. Ou seja, o WSE-3, apesar de ter metade da memória do H100, tem 6000 vezes mais largura de banda.

A comparação entre WSE-3 e H100 é porque o H100 é o chip mais usado na inferência atualmente, e a Cerebras é especialista nisso. Você pode treinar com Cerebras, mas sua história de interconexão entre chips não é atraente, o que significa que grande parte do poder de cálculo e memória no chip fica ociosa; o que realmente importa é que ela gera tokens muito mais rápido do que GPUs.

Por outro lado, a limitação do treinamento também existe na inferência: enquanto todos os dados couberem na memória do chip, a velocidade da Cerebras é máxima; quando a memória necessária ultrapassa o limite (seja por modelos maiores ou caches de KV mais longos), a Cerebras deixa de fazer sentido, especialmente pelo custo. Essa tecnologia de “um wafer inteiro como chip” implica alta taxa de rendimento (yield), o que aumenta bastante o custo.

Ainda assim, acredito que chips no estilo Cerebras terão mercado: a empresa enfatiza atualmente a velocidade como vantagem prática — inferência exige gerar muitos tokens, e aumentar a taxa de tokens por segundo equivale a pensar mais rápido. Mas vejo isso como uma aplicação temporária, por motivos que explicarei a seguir. O que realmente importa é quanto tempo o humano precisa esperar por uma resposta; com dispositivos vestíveis de IA cada vez mais comuns, a velocidade de interação (especialmente por voz, que depende da geração de tokens) terá impacto direto na experiência do usuário.

Agentes de inferência (Agentic Inference)

Já propus antes que, na era dos LLMs, passamos por três pontos de inflexão:

1. ChatGPT provou a utilidade da previsão de tokens.

2. o1 introduziu o conceito de inferência, ou seja, mais tokens significam respostas melhores.

3. Opus 4.5 e Claude Code trouxeram os primeiros Agentes, capazes de usar modelos de inferência e um framework com ferramentas, verificação de tarefas, etc., para realizar tarefas de fato.

Embora tudo isso seja “inferência”, acredito que a distinção entre fornecer respostas — que chamo de “inferência de resposta” (Answer inference) — e executar tarefas — que chamo de “inferência de agente” (Agentic inference) — está se tornando clara. O mercado da Cerebras é para “inferência de resposta”; a longo prazo, acho que a arquitetura de “inferência de agente” será completamente diferente, até mesmo de GPUs.

Já mencionei que inferência rápida para programação é uma aplicação temporária. Hoje, usar LLMs para programar ainda requer intervenção humana: definir tarefas, revisar código, fazer pull requests (PRs); mas não é difícil imaginar que, no futuro, tudo isso será feito por máquinas. Isso se aplicará amplamente ao trabalho de agentes: a verdadeira força de um agente não está em ajudar humanos, mas em trabalhar de forma autônoma, sem intervenção.

Assim, a melhor abordagem para resolver a inferência de agentes será bem diferente da de respostas. A inferência de resposta valoriza a velocidade de tokens; a inferência de agente valoriza a memória (Memory). Agentes precisam de contexto, estado e histórico. Parte disso está na KV cache ativa, parte na memória principal ou SSD, e mais ainda em bancos de dados, logs, embeddings e armazenamento de objetos. O ponto-chave é: a inferência de agentes não será mais uma GPU respondendo a uma questão, mas um sistema complexo de camadas de memória construído ao redor do modelo.

Um aspecto crucial é que essa hierarquia de memória dedicada ao agente implica uma troca inevitável: velocidade por capacidade. E, se o sistema não precisar de intervenção humana em tempo real, a velocidade deixa de ser prioridade. Se um agente estiver rodando tarefas durante a noite, não se importa com latência na experiência do usuário; só se importa se consegue completar a tarefa. Se uma nova abordagem de memória tornar tarefas complexas possíveis, uma certa latência será aceitável.

Ao mesmo tempo, se a latência deixar de ser prioridade, a busca por máxima capacidade de cálculo e memória de alta largura de banda (HBM) perde sentido: se a latência não for uma restrição rígida, memórias mais lentas e baratas (como a DRAM tradicional) tornam-se mais atraentes. Se o sistema estiver basicamente esperando por respostas de memória, o chip não precisa mais do processo mais avançado de fabricação. Isso provocará uma mudança profunda na arquitetura, mas não significa que a arquitetura atual desapareça:

  • Treinamento (Training): continuará importante, com a arquitetura atual da Nvidia — alta capacidade, alta largura de banda, rede rápida — dominando.
  • Inferência de resposta (Answer inference): será um mercado importante, mas relativamente menor, onde chips como Cerebras ou Groq serão muito úteis.
  • Inferência de agente (Agentic inference): se desvinculará gradualmente das GPUs. As limitações de GPU na pré-preenchimento (desperdício de memória) e na decodificação (desperdício de poder de processamento) ficarão evidentes. Substituir-se-á por sistemas com alta capacidade de memória, baixo custo, com “poder de cálculo suficiente”. Na verdade, a velocidade de processamento de ferramentas por CPU pode ser mais importante do que GPU.

Além disso, esses mercados não terão o mesmo tamanho ou importância. Especificamente, a inferência de agentes será o maior mercado do futuro, pois não será limitada pelo número de humanos ou pelo tempo. Os atuais agentes são apenas respostas sofisticadas; os verdadeiros agentes do futuro serão sistemas que executam tarefas sob comando de outros sistemas, cujo mercado não crescerá com a população, mas com a expansão do poder de cálculo.

O que a inferência de agentes nos ensina sobre poder de cálculo

Até agora, falar em “expandir com o aumento do poder de cálculo” geralmente implica uma visão favorável à Nvidia. Mas a vantagem relativa da Nvidia até aqui se baseou muito na latência: seus chips são extremamente rápidos, mas para manter o cálculo ativo, é preciso investir pesado na expansão de HBM e rede. Se a latência deixar de ser uma restrição, a proposta da Nvidia pode não valer mais o preço premium.

A Nvidia também percebe essa mudança: lançou o Dynamo, uma estrutura de inferência que ajuda a dividir as diferentes partes do raciocínio, além de produtos de memória independente e racks de CPU, para ampliar o cache KV e acelerar chamadas de ferramentas, mantendo as GPUs ocupadas. Mas, no final, grandes provedores de nuvem podem preferir alternativas mais baratas e simples para tarefas de inferência de agentes, que não dependam de GPUs.

Por outro lado, a China, embora não tenha o mesmo nível de poder de cálculo de ponta, possui tudo que é necessário para inferência de agentes: GPUs rápidas, CPUs rápidas, DRAM, discos rígidos. O desafio está no poder de cálculo para treinamento; além disso, a inferência de resposta pode ser mais importante em aplicações de segurança nacional (especialmente militares).

Outro ponto interessante é o espaço (Space): chips mais lentos tornam os “data centers espaciais” mais viáveis. Primeiro, se a memória puder ser externa, os chips podem ser mais simples e mais frios. Segundo, processos mais antigos, com dimensões físicas maiores, resistem melhor à radiação espacial. Terceiro, processos mais antigos consomem menos energia, gerando menos calor. Quarto, processos mais antigos são mais confiáveis, o que é crucial em satélites que não podem ser consertados.

O CEO da Nvidia, Jensen Huang, costuma dizer que “a Lei de Moore morreu”; sua ideia é que o avanço futuro virá de inovações em sistemas. Mas, quando agentes podem agir de forma autônoma, a maior lição talvez seja: a Lei de Moore deixou de importar. Aumentar o poder de cálculo que temos hoje é perceber que ele já é “suficientemente bom”.

NVDA-4,36%
XAI-5,39%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado