Estes dias, ao discutir o τ scaling (microencolhimento temporal) da Huawei com algumas pessoas, percebi que a discussão ficou apenas na superfície, sem abordar sua essência. Provavelmente porque muitos amigos não são formados em Engenharia Elétrica e não conhecem o significado clássico do símbolo τ em circuitos. A constante de tempo mais antiga aprendida nas aulas de circuitos é τ=RC, onde a resistência de um fio multiplicada por sua capacitância é a ordem de grandeza do tempo necessário para um sinal passar por esse fio. Quanto mais longo o fio, maiores a resistência e a capacitância, mais lento o sinal. Nesse framework, o microencolhimento geométrico dos últimos sessenta anos foi reinterpretado como uma forma de implementar o microencolhimento temporal. Os transistores são miniaturizados para reduzir o atraso de chaveamento, e os circuitos são dispostos de forma mais compacta para encurtar as interconexões metálicas e reduzir o atraso de propagação do sinal. O microencolhimento geométrico é apenas um meio; o objetivo real é comprimir o atraso. A teoria da Huawei é que, quando o microencolhimento geométrico não é mais viável, outros métodos são usados para continuar comprimindo o atraso.


Por coincidência, o artigo de He Tingbo sobre τ scaling teve sua segunda versão (v2) publicada há dois dias, com o conteúdo expandido de 16 para 23 páginas. Comparei as duas versões e os dados e conclusões permanecem inalterados. O conteúdo adicionado basicamente responde a várias críticas da indústria sobre a v1. Existem três pontos principais que vale a pena discutir.
O mais importante é que o anteriormente declarado "aumento de 41% na eficiência energética" agora é acompanhado de evidências de teste. Na v1, esse número não tinha linha de base nem condições de teste, sendo o ponto mais facilmente questionado. A v2 adicionou uma tabela de comparação completa. A linha de base é o Kirin 9030 Pro de 2025, com dois chips usando o mesmo nó de processo maduro. A diferença crucial é que a linha de base usa design planar tradicional, enquanto o Kirin 2026 dobra os caminhos críticos entre as duas camadas de wafer. Essa dobra encurta as interconexões e reduz o atraso de interconexão, e a folga de temporização extra nos caminhos críticos é diretamente convertida em aumento da frequência máxima do clock. A uma tensão de alimentação de 1,1 V, a frequência máxima atinge 3,1 GHz, 13% maior que a linha de base. Já o "aumento de 41% na eficiência energética" vem de um ponto de operação especificamente definido: com tensão reduzida para 0,9 V e frequência reduzida para 2,5 GHz, fazendo uma comparação de desempenho equivalente com a linha de base. O consumo de energia medido a 25°C é 0,59 vezes o da linha de base. Teoricamente, também faz sentido: a potência dinâmica é aproximadamente proporcional ao quadrado da tensão; reduzir a tensão de alimentação em 18% já contribui com cerca de um terço da redução apenas pelo termo quadrático. Somando a redução de 9% na frequência e a capacitância de interconexão reduzida pela dobra, o resultado fica próximo de 0,59. Portanto, o significado preciso do aumento de 41% na eficiência energética é a redução do consumo de energia em desempenho equivalente. A essência é trocar a folga de temporização obtida pela dobra por redução de consumo, e o ganho na relação de eficiência energética vem da lógica dobrada. Além disso, a v2 também inclui um dado de que, após a pilha dupla, a densidade de potência é 5,6% menor que a da linha de base.
O segundo acréscimo responde à pergunta mais comum dos colegas: empilhamento 3D já existe há muito tempo, com AMD usando 3D V-Cache e Intel com Foveros em produção. O que há de novo no seu LogicFolding? Para entender a resposta do artigo, é preciso primeiro saber como os sinais são transmitidos entre as duas camadas de chip: através de pontos de ligação entre as camadas, que funcionam como elevadores conectando as duas camadas. Nos empilhamentos 3D anteriores em produção, o espaçamento planar dos pontos de ligação era de 9 micrômetros a dezenas de micrômetros, resultando em cerca de 10 mil conexões por milímetro quadrado, suficiente para uma barramento de cache inteiro. Assim, o design anterior movia blocos funcionais completos para a camada superior, como a AMD colocando um cache inteiro sobre o processador, com cada camada projetada separadamente e interconectada por interfaces. Mas dentro de um chip, um milímetro quadrado pode conter centenas de milhões de transistores. Para que portas lógicas adjacentes estejam em camadas diferentes, a densidade de conexão precisa ser muito maior. O Kirin 2026 reduz o espaçamento planar dos pontos de ligação para 1,5 micrômetro, resultando em 440 mil conexões por milímetro quadrado, quase a mesma densidade dos fios metálicos da camada superior dentro do chip. Assim, o custo de passar um fio entre camadas é quase o mesmo que passar um fio dentro das camadas metálicas do chip. Nesse ponto, as duas camadas de silício se fundem funcionalmente como uma única peça, e as ferramentas EDA podem decidir em nível de porta lógica qual fica na camada superior e qual na inferior, permitindo otimização global por algoritmo. O grau de liberdade de design é incomparavelmente maior do que antes. O artigo também explica por que não optaram por uma rota mais agressiva: fabricar uma segunda camada de dispositivos diretamente sobre a primeira. Essa rota oferece as conexões entre camadas mais densas, mas a fabricação da segunda camada requer altas temperaturas, que danificariam a primeira camada já concluída, sendo inviável para produção atualmente.
O terceiro ponto é a gestão térmica. O empilhamento vertical aumenta significativamente a densidade térmica por unidade de área, e o caminho de dissipação de calor da camada inferior é bloqueado pela camada superior. Esta é a primeira crítica inevitável ao empilhamento 3D, e a v1 não a abordou em profundidade. A v2 reconhece frontalmente que a gestão térmica continua sendo um desafio chave para a arquitetura LogicFolding. A contramedida apresentada é uma partição e um planejamento de layout sensíveis ao calor, excluindo circuitos de alto consumo de energia do escopo da dobra durante a fase de design, e evitando que módulos de alto consumo fiquem adjacentes verticalmente para evitar sobreposição de pontos quentes. O artigo não especifica se essa estratégia é imposta manualmente por engenheiros ou se já está integrada como um processo automático nas ferramentas EDA internas; apenas menciona claramente a cadeia de ferramentas multifísicas como o investimento mais importante para a próxima década. Combinando com o dado de medição real de que, no ponto de operação de desempenho equivalente, a densidade de potência é 5,6% menor que a da linha de base, o problema de dissipação de calor recebe uma resposta positiva. No entanto, essa abordagem é essencialmente evasiva: à medida que o número de camadas empilhadas aumenta para três ou quatro, o espaço para circuitos dobráveis continuará sendo comprimido por restrições térmicas. O artigo não discute esse limite.
Além disso, a v2 também adicionou uma micrografia de seção transversal da interface de ligação entre as duas camadas de silício, e afirma explicitamente que usa ligação híbrida wafer sobre wafer. Esse padrão merece comparação com a indústria: ligação híbrida wafer sobre wafer com espaçamento de 1,5 micrômetro não tem precedentes em chips lógicos de produção. Atualmente, o SoIC da TSMC tem espaçamento de 6 micrômetros, e o Foveros Direct da Intel, de 9 micrômetros. É realmente impressionante.
Depois de comparar as duas versões do artigo, ainda tenho duas perguntas. Uma sobre equipamento: quem forneceu o equipamento de ligação com esse padrão? O artigo apenas diz que é resultado de anos de desenvolvimento de processo em um ecossistema de múltiplos fornecedores. A outra sobre ferramentas EDA: projetar duas camadas de silício como um chip único é algo que as ferramentas EDA existentes no mercado não conseguem fazer. O artigo admite isso e afirma que os detalhes da metodologia serão publicados "em alguns meses". No entanto, na tabela de frequências, o Kirin de 3,39 GHz da geração de 2027 já está marcado como tendo um chip físico real, indicando que essa ferramenta já foi validada internamente na Huawei, e por pelo menos duas gerações de produtos. Minha suspeita pessoal é que essa EDA foi desenvolvida pela própria Huawei. Se alguém tiver informações, seja bem-vindo para compartilhar.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado