この間、華為のτ scaling(時間スケーリング)について人々と議論したところ、議論は表面的な言葉にとどまり、その本質に触れていないことがわかった。おそらく多くの友人がEE(電気工学)出身ではなく、回路におけるτという記号の古典的な意味を知らないからだろう。回路の授業で最初に学ぶ時定数はτ=RCであり、導線の抵抗とそのキャパシタンスの積が、信号がその線を通過するのに必要な時間のオーダーを表す。線が長いほど抵抗とキャパシタンスが大きくなり、信号は遅くなる。この枠組みでは、過去60年間の幾何学的スケーリングは、時間スケーリングの一実現方法として再解釈される。トランジスタを小さくするのはスイッチング遅延を短縮するためであり、回路をより密に配置するのは金属配線を短くして信号伝搬遅延を低減するためである。幾何学的スケーリングは手段であり、遅延の圧縮が目的である。華為のこの理論は、幾何学的スケーリングが進まなくなった後、別の方法で遅延圧縮を継続するというものである。



ちょうど、何庭波のτ scaling論文のv2が先日出され、内容が16ページから23ページに増えた。両バージョンを比較したが、データと結論は変更されておらず、追加された内容はほぼ業界からv1に寄せられたいくつかの疑問に応えるものだった。主に3つのポイントについて議論する価値がある。

最も重要な点は、以前の宣言的な「エネルギー効率41%向上」に対し、テスト証拠を補足したことである。v1ではこの数字にベースラインもテスト条件もなく、最も疑問視されやすい点だった。v2では完全な比較表が追加された。ベースラインは2025年のKirin 9030 Proであり、2つのチップは同じ成熟プロセスノードを採用している。重要な違いは、ベースラインが従来の平面設計であるのに対し、Kirin 2026はクリティカルパスを上下2層のウェーハに折り畳んでいることである。折り畳みにより配線が短縮され、相互接続遅延が低減される。クリティカルパスで生まれたタイミングマージンは、クロック周波数の上限向上に直接変換され、1.1V供給下で最高周波数は3.1GHzに達し、ベースラインより13%高い。一方、「エネルギー効率41%向上」は別の専用動作点から生まれており、電圧を0.9Vに降下、周波数を2.5GHzに低下させ、ベースラインと等性能で比較したところ、25℃実測消費電力はベースラインの0.59倍だった。理論的な推定でも成立する。動的消費電力は電圧の2乗にほぼ比例するため、供給電圧を18%低下させると、2乗項だけで約3分の1の削減が寄与し、さらに9%の周波数低下と折り畳みによる配線容量の削減を加えると、ちょうど0.59付近になる。したがって、エネルギー効率41%向上の正確な意味は、等性能における消費電力の低減であり、本質的には折り畳みによって得られたタイミングマージンを消費電力低減に変換したものであり、効率比の向上は論理折り畳みに由来する。さらにv2では、二層スタック後の電力密度がベースラインより5.6%低いというデータも付記されている。

2つ目の追加内容は、同業者が最も質問しやすい問題に回答するものである。「3Dスタックは既に存在する。AMDの3D V-CacheやIntelのFoverosは量産されている。あなたのLogicFoldingは何が新しいのか?」という問いである。論文の回答を理解するには、まず2層のチップ間で信号をどう通すかを知る必要がある。層間のボンディングポイント(結合点)がその役割を果たし、上下2層を結ぶエレベーターのようなものである。これまで量産されてきた3Dスタックでは、ボンディングポイントの平面ピッチは9μmから数十μmの間であり、1平方ミリメートルあたり1万以上の接続を配置でき、キャッシュ全体にバスを接続するには十分だった。そのため、従来の設計方法は完全な機能ブロックを丸ごと上層に移動させるものだった。例えばAMDはキャッシュ全体をプロセッサの上にスタックし、2層はそれぞれ独立に設計され、インターフェースで接続されていた。しかし、チップ内部の1平方ミリメートルには数億個のトランジスタが詰まっており、隣接する論理ゲートを一つは上層、一つは下層に配置するには、この接続密度ははるかに不足していた。Kirin 2026では、ボンディングポイントの平面ピッチを1.5μm、1平方ミリメートルあたり44万接続とし、チップ内部の最上層金属配線の密度とほぼ同等になった。層をまたいで1本の配線を引くコストは、チップ内部の金属層で1本の配線を引くコストとほぼ変わらなくなった。このレベルに達すると、2層のシリコンウェーハは回路の意味で一体化し、EDAツールは論理ゲートの粒度でどちらを上層に置くか下層に置くかを決定できるようになり、アルゴリズムによるグローバル最適化が可能となり、設計の自由度は以前とは桁違いになる。論文では、なぜ別のより急進的なルート(一層のデバイスの上にさらに別のデバイス層を製造する)を取らないのかも説明されている。そのルートは層間接続が最も細かいが、第二層の製造には高温が必要であり、既に完成した第一層を損傷するため、現時点では量産は困難である。

3つ目は熱管理である。垂直スタックは単位面積あたりの熱密度を著しく増加させ、下層のシリコンウェーハの放熱経路は上層に遮られる。これは3Dスタックで最初に疑問視される点であり、v1では深く議論されていなかった。v2では正面から熱管理が依然としてLogicFoldingアーキテクチャの重要な課題であると認め、その対策として熱感知型の分割とフロアプランニングを挙げている。設計段階で高消費電力回路を折り畳み範囲から除外し、構造的に高消費電力モジュールが垂直方向に隣接しないようにして、ホットスポットの重なりを防ぐ。この戦略がエンジニアによる手動制約なのか、それとも社内のEDAツールに組み込まれた自動フローなのかは論文には明記されていないが、マルチフィジックスツールチェーンを将来10年で最も重要な投資として明確に挙げている。等性能動作点における電力密度がベースラインより5.6%低いという実測データと合わせて、放熱問題には前向きな回答が与えられた。ただし、この処理方法は本質的に回避的なものであり、スタック層数が3層、4層に増えると、折り畳み可能な回路の選択空間は熱的制約によって継続的に圧縮される。論文ではこの限界については詳しく議論されていない。

さらにv2では、2層のシリコンウェーハの接合界面の顕微鏡断面写真が追加され、wafer on waferハイブリッド接合を使用していることが明確に記されている。この仕様は同業他社と比較する価値がある。1.5μmピッチのウェーハ対ウェーハハイブリッド接合が量産ロジックチップに使われた前例はない。TSMCのSoICは現在の量産ピッチが6μm、IntelのFoveros Directは9μmであり、実に優れている。

2つのバージョンの論文を比較した後、私にはさらに2つの疑問がある。一つは装置についてである。この仕様の接合装置は誰が供給しているのか。論文では「複数サプライヤのエコシステムにわたる長年のプロセス開発の結果」とだけ述べている。もう一つはEDAツールについてである。2層のシリコンウェーハを1つのチップとして設計するには、市販のEDAツールでは対応できない。論文はその点を認め、方法論の詳細は「数ヶ月以内に発表する」としている。しかし、周波数表では、2027年世代の3.39GHzのKirinには既に実体チップが存在することが示されており、このツールが華為内部で既に動作し、少なくとも2世代の製品で実証されていることを意味する。個人的な推測では、このEDAは華為が自作したものである。事情を知る方の意見を歓迎する。
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め