All In Podcast episódio mais recente: o que os grandes nomes pensam sobre a Micron, o gargalo do armazenamento, os modelos open-source chineses e a inferência distribuída


Este episódio do All In Podcast tem muita informação. Selecionei alguns tópicos que considerei mais interessantes para organizar.
Primeiro, a linha dos modelos open-source chineses: o progresso é mais rápido do que se imaginava.
A Zhipu AI lançou a nova geração do modelo open-source Frontier, o GLM 5.2, com 744 mil milhões de parâmetros, contexto de 100 mil tokens, e sob a licença MIT. Os dados de avaliação são impressionantes: no benchmark de programação de engenharia de software, derrotou o GPT-5.5 e ficou a menos de 1% do melhor modelo da Anthropic, o Claude Opus 4.8, mas o preço da API é 85% mais barato do que o dos modelos americanos com desempenho equivalente.
Houve um detalhe interessante no programa: um método que as equipas chinesas estão a usar para acelerar a recuperação do atraso. Usam milhares de telemóveis e iPads para criar uma quinta de dispositivos, fazem perguntas de alta densidade às APIs dos melhores modelos Frontier americanos através de contas encriptadas, recolhem as cadeias de raciocínio deles e alimentam os seus próprios modelos open-source para treino por reforço. Isto equivale a usar as respostas padrão, que os laboratórios americanos gastaram fortunas a obter, como cábulas, conseguindo um desempenho próximo a um custo muito baixo.
A atitude de Sacks foi bastante mordaz. Criticou Dario, da Anthropic, por ter pressionado o governo dos EUA a estabelecer procedimentos de aprovação de segurança complicados, afirmando que essa autolimitação acabou por atrasar o ritmo dos próprios EUA. O modelo Fable foi retirado do mercado devido a acusações de jailbreak, e a aprovação do novo modelo da OpenAI também está a ser difícil. A sua opinião é que os modelos chineses estão tecnicamente cerca de 9 meses atrás e nos chips cerca de 24 meses, mas já concluíram o treino da família GLM5 usando exclusivamente chips nacionais como o Huawei Ascend. No futuro, estas "caixas de IA" baratas e bem otimizadas para chips locais poderão ser vendidas a preços baixos no mercado global, enquanto os EUA continuam a impor várias restrições, acabando por ceder este mercado de exportação de biliões de dólares.
Quanto aos resultados financeiros da Micron, o programa fez uma análise precisa: a DRAM é o verdadeiro gargalo de toda a vaga da IA.
As receitas trimestrais da Micron quadruplicaram em termos homólogos, passando de 9 mil milhões para 42 mil milhões, com orientações muito acima do esperado. Toda a capacidade de produção de HBM para 2026 já está vendida.
Houve um ponto claro no programa: antes, as pessoas andavam à procura de pequenas empresas japonesas de componentes como "ações de gargalo", mas o verdadeiro calcanhar de Aquiles é apenas a DRAM, especialmente a HBM. A razão é simples: a largura de banda e a capacidade da memória determinam o teto físico do desempenho de inferência de todos os grandes modelos. É uma restrição física, impossível de contornar. Foi até mencionado que a superfábrica que a Musk está a construir tem o seu núcleo tecnológico focado na DRAM, e não na fibra ótica, na fonte de alimentação ou na NAND flash.
A Micron também fez uma mudança interessante no modelo de negócio: assinou contratos de fornecimento de longo prazo com os principais fornecedores de cloud, com cláusulas de "preço mínimo e máximo", garantindo 50% das receitas futuras. Isto significa que, mesmo que o ciclo da indústria entre em baixa, o preço mínimo contratual será superior ao pico de margem bruta de qualquer ciclo anterior.
Quanto às barreiras de entrada, embora a chinesa ChangXin Memory Technologies esteja a preparar a sua IPO e possa, no futuro, usar memórias de baixo custo para consumidores de gama média-baixa para aliviar a pressão de custos de grandes empresas como a Apple, no domínio da HBM de topo necessária para servidores de IA, apenas três empresas no mundo (Micron, SK Hynix e Samsung) conseguem produzi-la. A dificuldade do processo é extremamente elevada e não é algo que se consiga recuperar a curto prazo.
O programa fez uma previsão bastante ousada: no próximo ano, 30% a 40% de todo o Capex global em hiperescala irá diretamente para os fabricantes de chips DRAM. Este aumento de custos já levou a Apple a aumentar os preços de retalho de toda a linha MacBook e Mac Studio.
Quanto à computação de borda e inferência distribuída, esta foi a parte mais imaginativa do episódio. Partilho algumas ideias que achei interessantes.
A Tesla registou, a 18 de junho, uma marca comercial de hardware chamada "Megapod". A lógica física por detrás disto é: construir um centro de dados de 1 gigawatt no solo, com processos de aprovação extremamente longos para terreno, consumo de energia e refrigeração líquida. A ideia do Megapod é integrar GPUs, redes de baterias e sistemas de arrefecimento num centro de dados modular em contentor, que pode ser diretamente instalado na rede de Superchargers da Tesla, que já têm aprovação, rede elétrica e terreno disponível, contornando os maiores gargalos da construção de centros de dados tradicionais: a aprovação e a ligação elétrica.
A lógica da inferência distribuída também é interessante: responder a uma pergunta de um modelo pode ser dividido em duas fases: a fase Prefill, de compreensão da pergunta, e a fase Decode, de alta largura de banda e alto consumo de memória. Grandes investidores podem comprar placas gráficas usadas e desvalorizadas, com chips externos especializados em otimização de descodificação, formando uma rede de inferência distribuída de menor custo.
Uma ideia ainda mais louca: no futuro, dar descontos a utilizadores que comprem a bateria doméstica Powerwall, obrigando a que cada bateria tenha um chip de IA incorporado, combinado com a ligação por satélite Starlink. Quando a bateria não está a ser usada, forma-se automaticamente um enorme pool P2P de inferência distribuída, obtendo uma fonte contínua e quase gratuita de poder computacional offshore. Se esta ideia se concretizar, será um golpe devastador para os grandes fornecedores de cloud tradicionais.
A parte mais louca é a computação espacial. Construir um centro de dados de 1 gigawatt no solo requer 35 mil milhões de dólares em chips e 25 mil milhões em mão de obra para refrigeração, além de várias disputas de uso do solo. Mas, com a Starship da SpaceX a tornar-se totalmente reutilizável, o custo de enviar 1 gigawatt de poder computacional para órbita terrestre, interligado por laser, pode cair para apenas 5 mil milhões de dólares. O ambiente naturalmente frio do espaço e a energia solar quase ilimitada podem fazer com que a economia de operação de centros de dados espaciais ultrapasse a dos centros de dados terrestres em 3 a 4 anos.
DRAM-4,91%
SKHYNIX-8,97%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado