Цей час я обговорював τ scaling (мікромасштабування часу) від Huawei і виявив, що обговорення залишається лише на поверхні, не торкаючись суті. Ймовірно, тому, що багато друзів не мають освіти в галузі електроніки і не знають класичного значення символу τ у схемотехніці. Перша постійна часу, яку вивчають на курсах схемотехніки, — це τ=RC: добуток опору провідника на його ємність дає порядок часу, необхідного сигналу для проходження через цей провідник. Чим довший провідник, тим більші опір і ємність, і тим повільніший сигнал. У цій структурі геометричне масштабування за останні шістдесят років переосмислюється як спосіб реалізації мікромасштабування часу. Транзистори зменшуються, щоб скоротити затримку перемикання; схеми розташовуються щільніше, щоб зменшити довжину металевих з'єднань і знизити затримку поширення сигналу. Геометричне масштабування — лише засіб, а стиснення затримки — мета. Теорія Huawei полягає в тому, що коли геометричне масштабування більше не працює, використовуються інші методи для продовження стиснення затримки.



Саме вчора вийшла v2 статті He Tingbo про τ scaling, обсяг збільшився з 16 до 23 сторінок. Я порівняв дві версії: дані та висновки не змінилися, доповнення в основному відповідають на кілька зауважень індустрії до v1. Варто обговорити три основні моменти.

Найважливіше — до раніше заявленого «підвищення енергоефективності на 41%» додано тестові докази. У v1 це число не мало базового рівня або умов тестування, що робило його найлегшою мішенню для запитань. У v2 додано повну порівняльну таблицю. Базовим рівнем є Kirin 9030 Pro 2025 року; обидва чіпи використовують один і той же зрілий технологічний вузол, але ключова відмінність у тому, що базовий — традиційний планарний дизайн, а Kirin 2026 складає критичний шлях на дві верхні та нижні пластини. Складання скорочує з'єднання та зменшує затримку з'єднань, а надлишковий часовий запас на критичному шляху безпосередньо перетворюється на підвищення верхньої межі тактової частоти: при напрузі живлення 1,1 В максимальна частота досягає 3,1 ГГц, що на 13% вище за базовий рівень. А «підвищення енергоефективності на 41%» походить з іншої спеціально встановленої робочої точки: зниження напруги до 0,9 В, зниження частоти до 2,5 ГГц, порівняння з базовим рівнем за однакової продуктивності, виміряна потужність при 25°C становить 0,59 від базової. Теоретичні оцінки також підтверджують це: динамічне споживання приблизно пропорційне квадрату напруги, зниження напруги живлення на 18% дає лише квадратичний внесок приблизно на третину зниження, додаючи 9% зниження частоти та зменшення ємності з'єднань через складання, результат точно близький до 0,59. Отже, точне значення підвищення енергоефективності на 41% — це зниження споживання потужності при однаковій продуктивності, суть полягає в обміні часового запасу, отриманого від складання, на зниження споживання; підвищення коефіцієнта енергоефективності походить від логічного складання. Крім того, v2 включає дані, що після двошарового стекування щільність потужності навіть нижча за базовий рівень на 5,6%.

Другий новий пункт відповідає на найпоширеніше запитання колег: 3D-стекування вже давно існує, 3D V-Cache від AMD і Foveros від Intel знаходяться в серійному виробництві, чим ваш LogicFolding новий? Щоб зрозуміти відповідь статті, спершу потрібно знати, як сигнали передаються між двома шарами чіпа — через точки з'єднання між шарами, які діють як ліфт, що з'єднує верхній і нижній шари. У попередніх серійних 3D-стекуваннях інтервал між точками з'єднання в площині становив від 9 мкм до десятків мікрометрів, що дозволяло розташовувати понад десять тисяч з'єднань на квадратний міліметр, достатньо для підключення шини до цілого кешу. Тому попередні конструкції просто переносили цілі функціональні блоки на верхній шар, наприклад AMD накладала цілий кеш на процесор, два шари проектувалися окремо, з'єднуючись через інтерфейс. Але всередині чіпа на одному квадратному міліметрі розташовані сотні мільйонів транзисторів; щоб сусідні логічні вентилі знаходилися один на верхньому, а інший на нижньому шарі, щільність з'єднань має бути набагато вищою. Kirin 2026 доводить інтервал між точками з'єднання до 1,5 мкм, тобто 440 000 з'єднань на квадратний міліметр, що майже не відрізняється від щільності верхніх металевих провідників всередині чіпа. Вартість прокладання лінії через шари майже така ж, як і всередині металевого шару чіпа. На цьому рівні два кремнієві шари об'єднуються в одну цілу схему; інструменти EDA можуть вирішувати на рівні логічних вентилів, що розташовувати на верхньому, а що на нижньому шарі, передаючи це алгоритмам для глобальної оптимізації, що дає зовсім інший рівень свободи проектування. Стаття також пояснює, чому не обрано більш радикальний шлях — виготовлення ще одного шару пристроїв безпосередньо поверх першого. Цей шлях має найщільніші міжшарові з'єднання, але виготовлення другого шару потребує високих температур, що пошкодить готовий перший шар, тому наразі серійне виробництво неможливе.

Третій пункт — теплове управління. Вертикальне стекування значно підвищує теплову щільність на одиницю площі, а шлях відведення тепла нижньої кремнієвої пластини блокується верхньою — це перше запитання, якому не можна уникнути при 3D-стекуванні; v1 не обговорювала це детально. У v2 прямо визнається, що теплове управління залишається ключовим викликом архітектури LogicFolding, а запропоноване рішення — тепловідчутний поділ і планування розташування. На етапі проектування високоспоживні схеми виключаються з діапазону складання, а структурно уникають вертикального сусідства високоспоживних модулів, щоб запобігти накладанню гарячих точок. Чи є ця стратегія обмеженнями, введеними вручну інженерами, чи автоматизованим процесом, вбудованим у внутрішні інструменти EDA, стаття не зазначає, лише чітко вказує, що багатофізичний інструментарій є найважливішою інвестицією на наступне десятиліття. У поєднанні з виміряними даними, що при робочій точці з однаковою продуктивністю щільність потужності нижча за базовий рівень на 5,6%, проблема охолодження отримала пряму відповідь. Однак цей підхід по суті є ухильним; при збільшенні кількості шарів до трьох або чотирьох простір для вибору складних схем буде постійно стискатися тепловими обмеженнями, а стаття не обговорює цю межу.

Крім того, v2 додала мікроскопічне поперечне зображення інтерфейсу з'єднання двох кремнієвих пластин і чітко вказала, що використовується гібридне з'єднання пластина-на-пластину (wafer-on-wafer hybrid bonding). Цей параметр варто порівняти з іншими гравцями галузі: гібридне з'єднання пластина-на-пластину з кроком 1,5 мкм для серійних логічних чіпів не має прецедентів; поточний серійний крок SoIC від TSMC становить 6 мкм, а Foveros Direct від Intel — 9 мкм. Це справді вражає.

Після порівняння двох версій статті у мене залишилося два питання. Одне стосується обладнання: хто постачає обладнання для з'єднання з таким кроком? Стаття лише зазначає, що це результат багаторічної розробки процесів у міжпостачальницькій екосистемі. Інше стосується інструментів EDA: проектування двох кремнієвих пластин як одного цілого чіпа не під силу наявним на ринку інструментам EDA. Стаття визнає це, зазначаючи лише, що деталі методології будуть опубліковані «протягом кількох місяців». Однак у таблиці частот Kirin 2027 року з частотою 3,39 ГГц вже позначено як фізичний чіп, що означає, що цей інструментарій вже давно працює всередині Huawei, принаймні для двох поколінь продуктів. Особисто я припускаю, що ці EDA створені самою Huawei. Ласкаво просимо обговорити це з тими, хто знайомий з ситуацією.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено