这段时间跟人讨论华为的τ scaling(时间微缩),发现讨论仅停留在字面,没有触及它的实质,大概因为不少朋友不是EE出身,不知道τ这个符号在电路里的经典含义。电路课上最早学的时间常数就是τ=RC,一段导线的电阻乘上它的电容,就是信号通过这段线所需时间的量级。线越长,电阻和电容越大,信号就越慢。在这套框架里,过去六十年的几何微缩被重新解释成时间微缩的一种实现方式,晶体管做小是为了缩短开关延迟,电路排得更紧是为了缩短金属连线、降低信号的传播延迟,几何微缩只是手段,压缩延迟才是目的。华为这套理论,就是当几何微缩走不动之后,换其他办法继续压缩延迟。


正好,何庭波那篇τ scaling论文前两天出了v2,内容从16页变成23页。我对比了两个版本,数据和结论均没有改动,补充的内容基本都在回应行业里对v1的几点质疑。主要有三个点值得聊聊。
最重要的一处,是给之前声明式的"能效提升41%"补上了测试证据。v1里这个数字没有基线也没有测试条件,是最容易被质疑追问的一点。v2补了一张完整的对比表。基线是2025年的Kirin 9030 Pro,两颗芯片采用同一成熟工艺节点,关键差异在于基线是传统平面设计,Kirin 2026把关键路径折叠到了上下两层晶圆。折叠缩短连线、压低互连延迟,关键路径上多出的时序余量直接转化为时钟频率上限的提升,1.1V供电下最高频率达到3.1GHz,比基线高13%。而"能效提升41%"出自另一个专门设置的工作点,降压到0.9V、降频到2.5GHz,与基线做等性能对比,25℃实测功耗为基线的0.59倍。从理论上估算也成立,动态功耗近似与电压平方成正比,供电电压下调18%,仅平方项就贡献约三分之一的降幅,再计入降频9%和折叠削减的连线电容,正好落在0.59附近。所以能效提升41%的准确含义是等性能下的功耗降低,本质是把折叠挣出的时序余量兑换成功耗的降低,能效比的提升来自逻辑折叠。此外,v2还附带一个数据,双层堆叠后功率密度反而比基线低5.6%。
第二处新增内容,回答的是同行最容易提的问题:3D堆叠早就有了,AMD的3D V-Cache、Intel的Foveros都在量产,你这个LogicFolding新在哪。要理解论文的回答,得先知道两层芯片之间怎么通信号,靠的是层间的键合点,作用类似连接上下两层的电梯。此前量产的3D堆叠,键合点平面间距在9微米到几十微米之间,算下来每平方毫米能安排一万多个连接,给一整块缓存接总线够用了,所以过去的设计方式是把完整的功能块整个搬到上层,比如AMD把一整块缓存叠在处理器上面,两层各自设计,中间用接口相连。但芯片内部一平方毫米里挤着上亿个晶体管,想让相邻的逻辑门一个在上层一个在下层,这个连接密度差得远。Kirin 2026把键合点的平面间距做到1.5微米,每平方毫米44万个连接,和芯片内部顶层金属导线的密度已经差不太多,跨层走一根线,和在芯片内部金属层走一根线,开销已经相差无几。到了这个程度,两层硅片在电路意义上就融成了一整块,EDA工具可以在逻辑门这个粒度上决定谁放上层谁放下层,交给算法做全局优化,设计自由度和以前完全不是一个量级。论文还解释了为什么不走另一条更激进的路线,直接在一层器件上面再制造一层器件。那条路层间连接最细密,但制造第二层需要高温,会损伤已经做好的第一层,目前量产走不通。
第三处是热管理。垂直堆叠会显著增加单位面积的热密度,下层硅片的散热路径还被上层遮挡,这是3D堆叠绕不开的第一个质疑,v1并未深入讨论。v2正面承认热管理仍是LogicFolding架构的关键挑战,给出的对策是热感知的划分与布图规划,设计阶段就把高功耗电路排除在折叠范围之外,并在结构上避免高功耗模块在垂直方向相邻,防止热点叠加。这套策略是工程师手工施加的约束,还是已经固化进内部EDA工具的自动流程,论文没有说明,只把多物理场的工具链明确列为未来十年最重要的一项投资。配合等性能工作点下功率密度低于基线5.6%的实测数据,散热问题算是有了正面回应。不过这套处理方法本质上是回避式的,堆叠层数增加到三层四层之后,可折叠电路的选择空间会被热约束持续压缩,论文没有展开讨论这个边界。
此外,v2还补了一张两层硅片键合界面的显微截面照片,并且明确写了用的是wafer on wafer混合键合。这个规格值得跟同行业比较一下,1.5微米间距的晶圆对晶圆混合键合用在量产逻辑芯片上没有先例,台积电SoIC目前量产间距是6微米,Intel的Foveros Direct是9微米,实属厉害。
对比完两个版本的论文,我还有两个问题。一个关于设备,这个规格的键合设备是谁供的,论文只说是跨供应商生态多年工艺开发的结果。另一个关于EDA工具,把两层硅片当一整块芯片做设计,市面上现有的EDA工具干不了这个活,论文承认这一点,只说方法学细节"几个月内发表"。可是频率表里,2027年那代3.39GHz的Kirin已经标注有实体芯片,说明这套工具在华为内部早就跑通了,而且至少跑通了两代产品。个人猜测,这套EDA是华为自己做的。欢迎了解情况的朋友聊聊。
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆