Estes dias, ao discutir o τ scaling (microescala temporal) da Huawei com outras pessoas, percebi que a discussão se limitou ao sentido literal, sem tocar na sua essência. Provavelmente, muitos amigos não são formados em Engenharia Elétrica e não conhecem o significado clássico do símbolo τ em circuitos. A primeira constante de tempo aprendida nas aulas de circuitos é τ = RC, a resistência de um fio multiplicada pela sua capacitância, que é a ordem de grandeza do tempo que um sinal leva para percorrer esse fio. Quanto mais longo o fio, maior a resistência e a capacitância, e mais lento o sinal. Neste quadro, a microescala geométrica dos últimos sessenta anos foi reinterpretada como uma forma de implementar a microescala temporal: os transístores são miniaturizados para encurtar o atraso de comutação, os circuitos são dispostos mais apertados para encurtar as interligações metálicas e reduzir o atraso de propagação do sinal. A microescala geométrica é apenas um meio; o objetivo é comprimir o atraso. A teoria da Huawei é que, quando a microescala geométrica já não é viável, se encontram outras formas de continuar a comprimir o atraso.


Por acaso, o artigo sobre τ scaling de He Tingbo lançou a versão v2 há dois dias, com o conteúdo a passar de 16 para 23 páginas. Comparei as duas versões: os dados e as conclusões não foram alterados; o conteúdo acrescentado responde basicamente a várias críticas da indústria à v1. Existem três pontos principais que vale a pena discutir.
O mais importante é a adição de provas de teste para a declaração anterior de "melhoria de 41% na eficiência energética". Na v1, este número não tinha linha de base nem condições de teste, sendo o ponto mais suscetível a questionamentos. A v2 acrescenta uma tabela de comparação completa. A linha de base é o Kirin 9030 Pro de 2025, com dois chips utilizando o mesmo nó de processo maduro. A diferença chave é que a linha de base é um design planar tradicional, enquanto o Kirin 2026 dobra o caminho crítico em duas camadas de wafer. A dobragem encurta as interligações, reduz o atraso das interconexões, e a margem de temporização extra no caminho crítico é convertida diretamente num aumento do limite de frequência do relógio, atingindo uma frequência máxima de 3,1 GHz a 1,1 V, 13% superior à linha de base. Já a "melhoria de 41% na eficiência energética" provém de outro ponto de operação especificamente definido, com redução de tensão para 0,9 V e redução de frequência para 2,5 GHz, fazendo uma comparação de desempenho equivalente com a linha de base. A 25°C, a potência medida é 0,59 vezes a da linha de base. Teoricamente, também é válido: a potência dinâmica é aproximadamente proporcional ao quadrado da tensão; uma redução de 18% na tensão de alimentação contribui com cerca de um terço da redução apenas pelo termo quadrático. Adicionando a redução de 9% na frequência e a redução da capacitância das interligações devido à dobragem, o resultado fica perto de 0,59. Portanto, o significado preciso da melhoria de 41% na eficiência energética é a redução de potência com desempenho equivalente, convertendo essencialmente a margem de temporização ganha com a dobragem em redução de potência. A melhoria da eficiência energética provém da dobragem lógica. Além disso, a v2 inclui um dado adicional: após a empilhação de duas camadas, a densidade de potência é 5,6% inferior à da linha de base.
O segundo conteúdo acrescentado responde à pergunta mais comum dos colegas: a empilhação 3D já existe há muito tempo, com o 3D V-Cache da AMD e o Foveros da Intel já em produção em massa. O que há de novo no vosso LogicFolding? Para entender a resposta do artigo, é preciso saber primeiro como os sinais são transmitidos entre as duas camadas do chip: através de pontos de ligação entre camadas, que funcionam como elevadores a ligar as duas camadas. Nas empilhações 3D em produção em massa anteriores, o espaçamento planar dos pontos de ligação variava entre 9 micrómetros e várias dezenas de micrómetros, permitindo cerca de dezenas de milhares de ligações por milímetro quadrado, suficiente para ligar um barramento a um cache inteiro. Por isso, os designs anteriores transferiam blocos funcionais completos para a camada superior, como a AMD que empilha um cache inteiro sobre o processador, com as duas camadas a serem projetadas separadamente e ligadas por interfaces. No entanto, dentro de um chip, há centenas de milhões de transístores por milímetro quadrado. Para que portas lógicas vizinhas fiquem uma na camada superior e outra na inferior, a densidade de ligações está muito longe do necessário. O Kirin 2026 reduz o espaçamento planar dos pontos de ligação para 1,5 micrómetros, com 440 000 ligações por milímetro quadrado, já próximo da densidade dos fios metálicos das camadas superiores do chip. Passar um fio entre camadas tem um custo quase idêntico ao de passar um fio nas camadas metálicas internas do chip. A este nível, as duas camadas de silício fundem-se numa só a nível de circuito, e as ferramentas EDA podem decidir ao nível das portas lógicas qual delas fica na camada superior e qual na inferior, deixando a otimização global para algoritmos. O grau de liberdade de design é completamente diferente do anterior. O artigo também explica por que não seguiu outra via mais radical, que consiste em fabricar uma segunda camada de dispositivos diretamente sobre a primeira. Essa via tem as interligações mais densas, mas a fabricação da segunda camada requer altas temperaturas, que danificam a primeira camada já construída, tornando a produção em massa inviável atualmente.
O terceiro ponto é a gestão térmica. A empilhação vertical aumenta significativamente a densidade térmica por unidade de área, e o caminho de dissipação de calor da camada inferior de silício é ainda bloqueado pela camada superior. Esta é a primeira crítica inevitável à empilhação 3D, que a v1 não abordou em profundidade. A v2 reconhece abertamente que a gestão térmica continua a ser um desafio chave para a arquitetura LogicFolding. A solução apresentada é uma partição e planeamento de layout com sensibilidade térmica: durante a fase de design, os circuitos de alta potência são excluídos do âmbito da dobragem, e evita-se estruturalmente que módulos de alta potência fiquem adjacentes na vertical, prevenindo a sobreposição de pontos quentes. O artigo não especifica se esta estratégia é uma restrição aplicada manualmente pelos engenheiros ou se já está incorporada no fluxo automático das ferramentas EDA internas, indicando apenas que a cadeia de ferramentas multifísicas é listada como o investimento mais importante para a próxima década. Com os dados medidos de densidade de potência 5,6% inferior à linha de base no ponto de operação de desempenho equivalente, o problema térmico recebeu uma resposta positiva. No entanto, esta abordagem é essencialmente evasiva. Quando o número de camadas empilhadas aumentar para três ou quatro, o espaço de circuitos passíveis de dobragem será continuamente comprimido pelas restrições térmicas. O artigo não discute este limite.
Além disso, a v2 acrescenta uma fotografia de microscopia de uma secção transversal da interface de ligação entre duas camadas de silício, e especifica claramente que é utilizada uma ligação híbrida wafer sobre wafer. Vale a pena comparar esta especificação com a indústria: uma ligação híbrida wafer a wafer com espaçamento de 1,5 micrómetros não tem precedentes em chips lógicos de produção em massa. O SoIC da TSMC atualmente tem um espaçamento de 6 micrómetros em produção, e o Foveros Direct da Intel tem 9 micrómetros. É realmente impressionante.
Depois de comparar as duas versões do artigo, ainda tenho duas perguntas. Uma sobre o equipamento: quem forneceu o equipamento de ligação com esta especificação? O artigo apenas diz que é o resultado de anos de desenvolvimento de processos num ecossistema de vários fornecedores. A outra sobre as ferramentas EDA: projetar duas camadas de silício como um único chip não é possível com as ferramentas EDA atuais disponíveis no mercado. O artigo reconhece isso, afirmando apenas que os detalhes da metodologia serão publicados "dentro de meses". No entanto, na tabela de frequências, o Kirin de 2027 com 3,39 GHz já está marcado como tendo um chip físico, o que significa que este conjunto de ferramentas já foi implementado internamente na Huawei, e pelo menos em duas gerações de produtos. A minha suposição pessoal é que estas ferramentas EDA foram desenvolvidas pela própria Huawei. São bem-vindos comentários de quem conhece a situação.
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado