Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
Serviços VIP
Enormes descontos nas taxas
Gestão de ativos
Solução integral para a gestão de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicações Gate
Transferência Bancária OTC
Deposite e levante moeda fiduciária
Programa de corretora
Mecanismo generoso de reembolso de API
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas adicionais
Entender a Cerebras: o poder de computação impulsiona o pensamento de IA, a memória capacita o agente a agir
Autor: Ben Thompson
O poder de cálculo faz a IA aprender a pensar, a memória faz o Agente aprender a trabalhar.
Nesta semana de IPO da Cerebras, o último artigo de Ben Thompson explica tudo: a IA evoluiu de “conversar” para “executar tarefas autônomas”, e o gargalo de toda arquitetura de chips mudou.
Você espera na conversa com o豆包 pela velocidade; quando Kimi Claw executa uma tarefa por 5 horas para você, não se importa se é 3 segundos mais rápido ou 30 segundos mais lento — importa se consegue lembrar do contexto, se consegue trabalhar continuamente. A cada passo, a memória de trabalho (KV Cache) se expande uma camada. GPU foi projetada para “esperar na tela”: durante o prefill, a memória de vídeo fica ociosa, na decodificação, o poder de processamento também — metade do tempo esperando.
O verdadeiro gargalo não é a velocidade de cálculo, mas quanto consegue armazenar e quão rápido consegue ler. Mas, mais fundamentalmente, agentes de longa duração transformam a KV Cache de uma cache temporária em uma memória de trabalho persistente. Quem conseguir manter essa memória por mais tempo, reutilizá-la mais eficientemente e a um custo menor, terá a chave da economia de Agentes.
Isso é muito mais importante do que benchmarks de velocidade.
Quanto ao momento de IPO, fazer uma empresa de chips em maio de 2026 seria quase ideal. A Reuters no fim de semana reportou:
A alta contínua das ações de semicondutores é, fundamentalmente, impulsionada pela IA — especialmente pelo fato de o mercado estar percebendo que: Agentes inteligentes (Agents) vão consumir uma quantidade massiva de poder de cálculo (Compute). Mas a proposição apontada pela Cerebras é mais ampla: até agora, a narrativa de poder de cálculo da IA quase só girou em torno de GPUs, da Nvidia; no futuro, o cenário será cada vez mais heterogêneo (Heterogeneous).
Era GPU
A história de como as GPUs se tornaram o centro da IA já é antiga, resumidamente:
Assim como a renderização de pixels na tela é um processo paralelo — quanto mais unidades de processamento, mais rápido a renderização — o cálculo de IA funciona do mesmo modo: o número de unidades de processamento determina a velocidade de cálculo.
A Nvidia aproveitou essa “dupla utilidade”: tornou os processadores gráficos programáveis (Programmable) e, com o ecossistema completo de software CUDA, levou essa capacidade de programação a todos os desenvolvedores.
A diferença fundamental entre gráficos e IA está na escala do problema — modelos são muito maiores do que texturas de jogos. Isso gerou duas evoluções em cadeia: a expansão da capacidade de memória de alta largura de banda (HBM, High-bandwidth memory) em cada GPU; e avanços na interconexão entre chips (Chip-to-chip networking), permitindo que múltiplas GPUs trabalhem como um sistema endereçável (Addressable system). Em ambas, a Nvidia lidera.
O uso principal da GPU sempre foi o treinamento, e esse uso é especialmente exigente na terceira evolução. Cada passo de treinamento é altamente paralelo, mas entre passos é sequencial: antes de passar para o próximo, cada GPU precisa sincronizar seus resultados com as demais. É por isso que um modelo de trilhões de parâmetros precisa caber na memória total de dezenas de milhares de GPUs — e essas GPUs precisam se comunicar como uma única máquina. A Nvidia domina esses dois desafios: primeiro, garantindo o fornecimento de HBM antes de qualquer outro; segundo, investindo pesado em tecnologia de rede por anos.
Claro, o treinamento não é a única carga de trabalho de IA, há também a inferência (Inference). A inferência tem três partes principais:
1. Pré-preenchimento (Prefill): codificar tudo que o grande modelo de linguagem (LLM) precisa entender em um estado compreensível; altamente paralelo, depende de poder de cálculo.
2. Decodificação da primeira parte (Decode Part 1): leitura do KV cache (KV Cache) — que armazena o contexto, incluindo a saída da fase de pré-preenchimento — para cálculo de atenção. É uma etapa serial de largura de banda crítica, com requisitos de memória variáveis e em crescimento.
3. Decodificação da segunda parte (Decode Part 2): cálculo de feed-forward na rede de pesos do modelo; também uma etapa serial de largura de banda crítica, cuja memória necessária depende do tamanho do modelo.
Essas duas etapas de decodificação alternam-se em cada camada do modelo (não são sequenciais, mas intercaladas), ou seja, a decodificação é serial e limitada pela largura de banda de memória (Memory-bandwidth bound). Cada token gerado exige leitura completa de dois pools de memória: o KV cache, que cresce com cada token, e os pesos do modelo. Ambos precisam ser acessados integralmente para produzir um único token de saída.
As GPUs atendem bem a essas três necessidades: fornecem alta capacidade de cálculo para pré-preenchimento, memória HBM suficiente para KV cache e pesos, e, quando a memória de uma GPU não basta, a interconexão entre chips permite pooling de memória. Em outras palavras, a arquitetura que funciona para treinamento também funciona para inferência — como mostra a parceria entre SpaceX e a Anthropic. No blog oficial da Anthropic, eles dizem:
A SpaceX mantém o Colossus 2 — provavelmente para treinar modelos futuros e fazer inferência com modelos atuais. A razão de poder fazer ambas as tarefas no mesmo data center é que os modelos de xAI atualmente não usam muita capacidade; mas o mais importante é que treinamento e inferência podem ser feitos na GPU. De fato, as GPUs contratadas pela Anthropic originalmente eram do Colossus 1, usadas inicialmente para treinamento; a flexibilidade das GPUs é uma vantagem enorme.
Decodificando a Cerebras
O que a Cerebras faz é completamente diferente. Apesar do diâmetro do wafer de silício ser 300mm, o limite de retícula (Reticle limit) — a área máxima que a ferramenta de litografia consegue expor na fabricação — é cerca de 26mm x 33mm. Essa é a dimensão máxima de um chip; ultrapassá-la requer conectar dois chips independentes por uma camada intermediária, como a Nvidia fez com o B200. A Cerebras inventou uma técnica de roteamento que atravessa as linhas de corte (Scribe lines, ou seja, as fronteiras entre exposições de máscara), transformando toda a lâmina de silício em um único chip, sem precisar de interconexões entre chips, que são relativamente lentas.
O resultado é um chip com uma capacidade de cálculo assustadora, com uma enorme quantidade de SRAM e velocidades de acesso incrivelmente altas. Em comparação: o WSE-3 da Cerebras tem 44GB de SRAM no chip, com largura de banda de 21 PB/s; enquanto o H100 da Nvidia tem 80GB de HBM, com largura de banda de 3,35 TB/s. Ou seja, o WSE-3, apesar de ter metade da memória do H100, tem 6000 vezes mais largura de banda.
A comparação entre WSE-3 e H100 é porque o H100 é o chip mais usado na inferência atualmente, e a Cerebras é especialista nisso. Você pode treinar com Cerebras, mas sua história de interconexão entre chips não é atraente, o que significa que grande parte do poder de cálculo e memória no chip fica ociosa; o que realmente importa é que ela gera tokens muito mais rápido do que GPUs.
Por outro lado, a limitação do treinamento também existe na inferência: enquanto todos os dados couberem na memória do chip, a velocidade da Cerebras é máxima; quando a memória necessária ultrapassa o limite (seja por modelos maiores ou caches de KV mais longos), a Cerebras deixa de fazer sentido, especialmente pelo custo. Essa tecnologia de “um wafer inteiro como chip” implica alta taxa de rendimento (yield), o que aumenta bastante o custo.
Ainda assim, acredito que chips no estilo Cerebras terão mercado: a empresa enfatiza atualmente a velocidade como vantagem prática — inferência exige gerar muitos tokens, e aumentar a taxa de tokens por segundo equivale a pensar mais rápido. Mas vejo isso como uma aplicação temporária, por motivos que explicarei a seguir. O que realmente importa é quanto tempo o humano precisa esperar por uma resposta; com dispositivos vestíveis de IA cada vez mais comuns, a velocidade de interação (especialmente por voz, que depende da geração de tokens) terá impacto direto na experiência do usuário.
Agentes de inferência (Agentic Inference)
Já propus antes que, na era dos LLMs, passamos por três pontos de inflexão:
1. ChatGPT provou a utilidade da previsão de tokens.
2. o1 introduziu o conceito de inferência, ou seja, mais tokens significam respostas melhores.
3. Opus 4.5 e Claude Code trouxeram os primeiros Agentes, capazes de usar modelos de inferência e um framework com ferramentas, verificação de tarefas, etc., para realizar tarefas de fato.
Embora tudo isso seja “inferência”, acredito que a distinção entre fornecer respostas — que chamo de “inferência de resposta” (Answer inference) — e executar tarefas — que chamo de “inferência de agente” (Agentic inference) — está se tornando clara. O mercado da Cerebras é para “inferência de resposta”; a longo prazo, acho que a arquitetura de “inferência de agente” será completamente diferente, até mesmo de GPUs.
Já mencionei que inferência rápida para programação é uma aplicação temporária. Hoje, usar LLMs para programar ainda requer intervenção humana: definir tarefas, revisar código, fazer pull requests (PRs); mas não é difícil imaginar que, no futuro, tudo isso será feito por máquinas. Isso se aplicará amplamente ao trabalho de agentes: a verdadeira força de um agente não está em ajudar humanos, mas em trabalhar de forma autônoma, sem intervenção.
Assim, a melhor abordagem para resolver a inferência de agentes será bem diferente da de respostas. A inferência de resposta valoriza a velocidade de tokens; a inferência de agente valoriza a memória (Memory). Agentes precisam de contexto, estado e histórico. Parte disso está na KV cache ativa, parte na memória principal ou SSD, e mais ainda em bancos de dados, logs, embeddings e armazenamento de objetos. O ponto-chave é: a inferência de agentes não será mais uma GPU respondendo a uma questão, mas um sistema complexo de camadas de memória construído ao redor do modelo.
Um aspecto crucial é que essa hierarquia de memória dedicada ao agente implica uma troca inevitável: velocidade por capacidade. E, se o sistema não precisar de intervenção humana em tempo real, a velocidade deixa de ser prioridade. Se um agente estiver rodando tarefas durante a noite, não se importa com latência na experiência do usuário; só se importa se consegue completar a tarefa. Se uma nova abordagem de memória tornar tarefas complexas possíveis, uma certa latência será aceitável.
Ao mesmo tempo, se a latência deixar de ser prioridade, a busca por máxima capacidade de cálculo e memória de alta largura de banda (HBM) perde sentido: se a latência não for uma restrição rígida, memórias mais lentas e baratas (como a DRAM tradicional) tornam-se mais atraentes. Se o sistema estiver basicamente esperando por respostas de memória, o chip não precisa mais do processo mais avançado de fabricação. Isso provocará uma mudança profunda na arquitetura, mas não significa que a arquitetura atual desapareça:
Além disso, esses mercados não terão o mesmo tamanho ou importância. Especificamente, a inferência de agentes será o maior mercado do futuro, pois não será limitada pelo número de humanos ou pelo tempo. Os atuais agentes são apenas respostas sofisticadas; os verdadeiros agentes do futuro serão sistemas que executam tarefas sob comando de outros sistemas, cujo mercado não crescerá com a população, mas com a expansão do poder de cálculo.
O que a inferência de agentes nos ensina sobre poder de cálculo
Até agora, falar em “expandir com o aumento do poder de cálculo” geralmente implica uma visão favorável à Nvidia. Mas a vantagem relativa da Nvidia até aqui se baseou muito na latência: seus chips são extremamente rápidos, mas para manter o cálculo ativo, é preciso investir pesado na expansão de HBM e rede. Se a latência deixar de ser uma restrição, a proposta da Nvidia pode não valer mais o preço premium.
A Nvidia também percebe essa mudança: lançou o Dynamo, uma estrutura de inferência que ajuda a dividir as diferentes partes do raciocínio, além de produtos de memória independente e racks de CPU, para ampliar o cache KV e acelerar chamadas de ferramentas, mantendo as GPUs ocupadas. Mas, no final, grandes provedores de nuvem podem preferir alternativas mais baratas e simples para tarefas de inferência de agentes, que não dependam de GPUs.
Por outro lado, a China, embora não tenha o mesmo nível de poder de cálculo de ponta, possui tudo que é necessário para inferência de agentes: GPUs rápidas, CPUs rápidas, DRAM, discos rígidos. O desafio está no poder de cálculo para treinamento; além disso, a inferência de resposta pode ser mais importante em aplicações de segurança nacional (especialmente militares).
Outro ponto interessante é o espaço (Space): chips mais lentos tornam os “data centers espaciais” mais viáveis. Primeiro, se a memória puder ser externa, os chips podem ser mais simples e mais frios. Segundo, processos mais antigos, com dimensões físicas maiores, resistem melhor à radiação espacial. Terceiro, processos mais antigos consomem menos energia, gerando menos calor. Quarto, processos mais antigos são mais confiáveis, o que é crucial em satélites que não podem ser consertados.
O CEO da Nvidia, Jensen Huang, costuma dizer que “a Lei de Moore morreu”; sua ideia é que o avanço futuro virá de inovações em sistemas. Mas, quando agentes podem agir de forma autônoma, a maior lição talvez seja: a Lei de Moore deixou de importar. Aumentar o poder de cálculo que temos hoje é perceber que ele já é “suficientemente bom”.