OpenClaw fez com que a empresa de modelos experimentasse pela primeira vez os benefícios da economia de Token.


Em 17 de junho, GLM-5.2 foi lançado como código aberto. Desta vez, diferente.
Licença MIT: pode modificar, vender à vontade, a única obrigação é manter a declaração de direitos autorais.
Risco de propriedade intelectual zerado, empresas podem integrar modelos com segurança em seus produtos comerciais, modificar sem precisar devolver.
Em contraste com licenças como GPL, que "exigem que o código modificado também seja aberto", MIT elimina a barreira.
Mais importante ainda — todos os modelos, a partir de agora, entram na era do raciocínio prolongado.
O que exatamente o GLM-5.2 mudou?
Na era OpenClaw, o trabalho do Agente era "corrida de curta distância" — cada tarefa tinha uma janela limitada, planejamento-execução-fim, o tamanho do cache KV era controlado, a pressão de hardware era principalmente de poder de processamento.
O raciocínio de longo prazo do GLM-5.2 é uma "maratona" — contexto de 1 milhão de tokens sem perdas, o modelo pode manter todo o código, todo o histórico de decisões, todas as restrições em uma única tarefa.
Nos testes reais, processou quase 88 mil tokens de uma só vez, quase preenchendo toda a janela.
O que essa mudança significa?
No passado, IA era "pergunta e resposta", o consumo de tokens terminava após uma rodada.
Após o GLM-5.2, o Agente começou a realizar tarefas realmente de longo prazo: decompor objetivos → planejamento em múltiplas rodadas → validação contínua → ajuste de ferramentas → escrever código e executar → replanejar com base no feedback.
Uma única tarefa pode disparar centenas de ciclos de raciocínio.
Cada ciclo exige carregar o contexto completo na memória para recalcular.
Cálculo contínuo, comunicação contínua, leitura e escrita contínuas.
Esses três "continuar" mudaram completamente a lógica de precificação de hardware.
Raciocínio de longo prazo do Agente, afinal, beneficia o quê?
🥇 HBM
O cache KV cresce linearmente com as rodadas de diálogo e o comprimento do contexto, esgotando rapidamente a capacidade de HBM da GPU.
Quando o cache KV sai da GPU, a largura de banda cai de TB/s para centenas de GB/s — o problema passa de "poder de processamento" para "largura de banda de memória".
As três principais fabricantes têm capacidade esgotada, com uma lacuna de 50%-60%, e o mercado deve atingir US$ 54,6 bilhões em 2026.
🥈 Chips de luz/InP
O raciocínio de longo prazo roda em clusters, cada ciclo requer sincronização entre nós.
Quanto mais longa a tarefa, mais ciclos, maior o volume de comunicação.
O mercado de módulos de luz deve atingir US$ 26 bilhões em 2026, com crescimento anual de 60%.
A lacuna de substratos InP é superior a 70%, o preço do índio subiu 90% em um ano.
🥉 CPU
Tarefas de longo prazo exigem decomposição contínua, chamadas de ferramentas, gerenciamento de fluxo, agendamento do cache KV.
Essas tarefas não são bem feitas por GPU, dependem de CPU.
A proporção de CPU/GPU está se aproximando de 1:1, o CEO da Intel afirmou publicamente que "várias empresas estão ligando para acelerar a entrega de CPUs".
❄️ Refrigeração líquida
A inferência curta é uma carga de pulso, a de longo prazo é uma carga contínua total.
A mesma placa, o consumo real de energia de tarefas de longo prazo é 3-5 vezes maior que o de inferência curta.
O consumo do rack sobe de 36 kW para 200 kW, o ar frio não aguenta, a refrigeração líquida passa de "alternativa" para "necessária".
🔌 Switches
A demanda de largura de banda para clusters de raciocínio sobe de 100G para 400G, dezenas de milhares de placas precisam de agendamento.
IB e Ethernet de alta velocidade beneficiam-se de toda a linha.
📦 Placa ABF
Clusters passam de mil para dez mil chips, cada chip precisa ser encapsulado.
A Monolito de sabor Zhi possui mais de 90% de monopolização na membrana ABF, com uma lacuna de 42% em 2028.
O preço da farinha sobe, o pão só vai ficar mais caro.
🧪 CCL M9
Placas-mãe e backplanes de clusters de raciocínio precisam de substratos de alta velocidade.
O M9 custa 10 vezes mais que o FR4 comum, o mercado de CCL de IA deve atingir US$ 18,7 bilhões em 2027, crescendo mais rápido que módulos de luz.
OpenClaw acendeu a chama, GLM-5.2 fornece a lenha.
O primeiro fez as empresas de modelos ganharem seu primeiro Token, o segundo levou esse mercado do laboratório para a indústria.
Operações simples ainda permanecem na memória, na luz, desfrutando da bolha de IA.
$MU $SKHYNIX $LITE
TOKEN2,71%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado