SemiAnalysis phân tích Huawei Kirin 9030: quy trình sản xuất không tiến triển được nữa, gập lại chip để tiết kiệm không gian

Viết bài: Nghiên cứu xu hướng công nghệ

Trong lĩnh vực kỹ thuật ngược bán dẫn, TechInsights đã thống trị hàng chục năm. Vừa qua cuối tuần, Dylan Patel của SemiAnalysis chính thức phát hành báo cáo tháo rỡ công khai đầu tiên của phòng thí nghiệm STEEL (Teardown Engineering & Evaluation Lab) của họ, nhằm vào một trong những chip được quan tâm nhất toàn cầu, Huawei Mate 80 Pro trang bị chip Kirin 9030 Pro, sử dụng quy trình N+3 tiên tiến nhất của SMIC.

Thời điểm này thật đáng suy nghĩ. TechInsights đang chuẩn bị bán lại cho các nhà đầu tư tư nhân, trong khi doanh thu của SemiAnalysis đã vượt qua gã khổng lồ lâu năm này. Dylan chọn đúng thời điểm này để ra tay, bằng một báo cáo tháo rỡ có độ kỹ thuật cao, kèm theo hình ảnh chip thực tế từ phòng thí nghiệm tại Oregon.

Tiêu đề của báo cáo chính là một quả bom: Khoảng cách kim loại nhỏ nhất (M0 pitch) của SMIC N+3 chỉ 32.5nm, nhỏ hơn cả 36nm của quy trình 18A mới nhất của Intel trên bộ xử lý Panther Lake.

SMIC không có máy khắc EUV, mà vẫn đạt được khoảng cách kim loại nhỏ hơn Intel?

Nếu chỉ nhìn vào tiêu đề, tin này đủ làm cả giới bán dẫn chấn động, nhưng SemiAnalysis đã dội nước lạnh ngay trong đoạn thứ hai của báo cáo, khi gọi đây là một "chỉ số chọn lọc" (cherry picked metric), một chỉ số được chọn lọc có chủ ý.

Bài viết này sẽ giúp bạn hiểu rõ báo cáo tháo rỡ này,

Tăng mật độ, đổi lấy chi phí cao

Quy trình N+3 của SMIC thực sự đã bắt kịp mật độ transistor của TSMC N6.

Phòng thí nghiệm STEEL qua phân tích TEM (kính hiển vi điện tử truyền qua) cắt ngang, đo được mật độ Bohr của N+3 là 113.4 MTr/mm², cao hơn một chút so với N6 của TSMC là 107.7 MTr/mm². Chiều cao của cell giảm từ 252nm của N+2 xuống còn 228nm, khoảng cách tiếp xúc cổng (CGP) giảm từ 63nm xuống còn 57nm. Những con số này cho thấy, SMIC đã đạt được mật độ logic tương đương quy trình 7nm của TSMC mà không cần EUV, chỉ dựa vào khắc DUV thuần túy.

Chi phí là gì?

Lớp M0 của SMIC sử dụng công nghệ tự căn chỉnh bốn lần (SAQP), nghĩa là dùng một mặt nạ để tạo ra các mẫu hình qua bốn lần xử lý nhằm đạt độ nét cao hơn. Trong khi đó, TSMC N6 chỉ cần hai lần khắc (SADP) trên cùng một lớp. Bốn lần nghĩa là số lượng mặt nạ nhiều hơn, yêu cầu độ chính xác cao hơn, quy trình phức tạp hơn, và chi phí cũng cao hơn nhiều.

SemiAnalysis đã trực tiếp thấy rõ chi phí của SAQP qua hình cắt ngang: Các rãnh M0 của N+3 có hình dạng rõ rệt như hình thang ngược (đáy hẹp hơn đỉnh), có lớp chắn rõ ràng tích tụ ở đáy rãnh. Dù hình dạng này giúp lấp đầy đồng dễ hơn, nhưng với khoảng cách 32.5nm, độ kiểm soát quy trình trở nên cực kỳ khó khăn.

Một ví dụ dễ hiểu cho nhà giao dịch: SMIC đang in tiền giấy cùng mệnh giá, nhưng mỗi tờ in ra tốn gấp nhiều lần so với TSMC, và tỷ lệ thành phẩm cũng thấp hơn. Mật độ giống nhau, nhưng về mặt kinh tế thì hoàn toàn khác.

Kirin 9030: Tận dụng tối đa từng inch của wafer trong điều kiện hạn chế

Khả năng thiết kế chip của Huawei HiSilicon là một câu chuyện ở một chiều khác.

Xét về diện tích chip, Kirin 9030 gần như bằng với thế hệ trước 9020 (khoảng 140mm²), nhưng bên trong đã chứa nhiều thành phần hơn: CPU từ 1 nhân lớn + 3 nhân trung bình nâng cấp thành 1 lớn + 4 trung bình, GPU từ 4 đơn vị tăng lên 6, NPU cũng thêm một nhân Tiny, các bộ nhớ đệm các cấp đều mở rộng. Nhờ mật độ N+3 tăng cao, Huawei có thể tích hợp nhiều đơn vị logic hơn trong cùng kích thước chip.

Về hiệu năng, phòng thí nghiệm STEEL trích dẫn dữ liệu điểm số công khai, định vị rõ ràng: Hiệu năng GPU của Kirin 9030 (Maleoon 935) xấp xỉ các flagship năm 2022, điểm 3DMark WLE tăng 70% so với thế hệ trước, vượt qua Snapdragon 8+ Gen 1 một chút, nhưng so với flagship Snapdragon 8 Elite Gen 5 hiện tại, khoảng cách là 2.4 đến 2.6 lần.

Tình hình CPU còn rõ ràng hơn. Hiệu năng mỗi xung của nhân lớn TaiShan Prime (IPC) tương đương Arm Cortex-X2, một thiết kế của năm 2021. Nhân Firestorm của Apple M1 ra mắt năm 2020, IPC vẫn cao hơn 35%. Nhân mới nhất Apple M5 P, IPC cao hơn 60%, hiệu năng tuyệt đối gấp 2.7 lần.

Nguyên nhân của chênh lệch không nằm ở thiết kế, mà ở quy trình chế tạo. Apple và Qualcomm sử dụng quy trình TSMC N4, N3P, những quy trình này có lợi thế rõ rệt về điện áp-tần số: cùng diện tích, có thể tích hợp nhiều transistor hơn; cùng mức tiêu thụ năng lượng, có thể đạt tần số cao hơn. Trong khi đó, trình độ thiết kế của Huawei chỉ ngang các thế hệ cao hơn một chút, nhưng lại bị giới hạn bởi công nghệ chế tạo của hai thế hệ trước.

Khi quy trình không còn tiến xa hơn nữa, Huawei chuẩn bị "gập lại"

Phần có giá trị dự báo cao nhất của báo cáo là phần Huawei công bố tại hội nghị ISCAS 2026 về quy luật thu nhỏ τ và lộ trình LogicFolding.

Phương pháp thu nhỏ bán dẫn truyền thống tiến trên mặt phẳng hai chiều: làm nhỏ transistor, làm mảnh kim loại. Định luật Moore đã đi qua hàng chục năm, về cơ bản là làm điều này. Huawei đề xuất τ thu nhỏ, chuyển mục tiêu tối ưu từ không gian sang thời gian, trọng tâm là rút ngắn thời gian di chuyển và xử lý dữ liệu, bao gồm độ trễ chuyển mạch của transistor, độ trễ truyền tín hiệu, độ trễ tính toán và lưu trữ.

LogicFolding là cách thực thi kỹ thuật của lý thuyết này. Nói đơn giản, là tách một mô-đun logic thành hai lớp trên dưới, xếp chồng đối diện nhau, kết nối bằng hàn ghép hỗn hợp với khoảng cách cực kỳ nhỏ. Ưu điểm trực tiếp là rút ngắn đường tín hiệu dài nhất. Trong các chip hiện đại, phần lớn tiêu thụ năng lượng và độ trễ đều nằm ở việc điều khiển các đường dây dài và bộ đệm trung gian. Khi gập logic theo chiều dọc, đường dẫn chính ngắn hơn, tần số có thể tăng, tiêu thụ năng lượng giảm.

Huawei đưa ra một lộ trình đầy tham vọng: Kirin 9030 nhân lớn đạt 2.75GHz, trong phòng thí nghiệm đã chạy thử mẫu 3.39GHz, mục tiêu là đạt 5GHz vào năm 2031, đồng thời qua công nghệ xếp chồng 3D, nâng mật độ tương đương lên 295 MTr/mm², đối chiếu với cấp độ 14A của TSMC.

SemiAnalysis cảnh báo: Họ cho rằng cách tính mật độ của Huawei khác các nhà gia công truyền thống: mật độ xếp chồng 3D tính theo diện tích đóng gói, nghĩa là xếp chồng nhiều lớp logic có nguồn gốc, tự nhiên sẽ cho ra con số cao hơn. Nếu áp dụng cách tính này cho AMD MI450X (lớp N2 + N3P), mật độ lý thuyết có thể lên tới 460.2 MTr/mm², vượt xa mục tiêu 2031 của Huawei.

Nhưng hướng đi này đáng để chú ý. Huawei đang đi theo con đường này, về cơ bản là trong giới hạn của công nghệ chế tạo, họ đã chuyển "công việc của nhà gia công" sang cho các công ty thiết kế hệ thống. AMD V-Cache xếp chồng 3D trong bộ nhớ đệm, AMD MI350X chuyển IO và liên kết xuống chip nền, Huawei còn làm triệt để hơn, trực tiếp tách các khối logic thành các phần phân phối theo chiều dọc, đây là một thách thức kỹ thuật ở một cấp độ khác.

Chính sách kiểm soát xuất khẩu đã định hình lại chiều cạnh cạnh tranh

Kết luận cuối cùng của SemiAnalysis rất rõ ràng: kiểm soát xuất khẩu không ngăn cản tiến bộ của chip Trung Quốc, mà thay đổi cách thức và chi phí của tiến bộ đó.

SMIC N+3 chứng minh rằng, không cần EUV vẫn có thể đạt được mật độ logic N6. Nhưng con đường này đòi hỏi chi phí cao hơn, quy trình phức tạp hơn, tỷ lệ thành phẩm thấp hơn. Đi xuống các bước tiếp theo, rào cản biên giới càng lớn: nhiều mặt nạ hơn, độ chính xác khắc cao hơn, khắc nhiều lớp hơn, chi phí cao hơn. Lý thuyết là N+4 có thể đạt 137.8 MTr/mm² (đối chiếu N5 của TSMC), N+5 nếu thêm cấp nguồn phía sau, thậm chí gần bằng HP của Intel 18A. Nhưng mỗi bước đều khó hơn, đắt hơn, ít sai số hơn.

Trong khi đó, quy trình N+2 và N+3 của SMIC đang chuyển hướng sang Huahong, các công ty thiết kế như Alibaba Pingtouge, Cambrian cũng có thể hưởng lợi. Kiến thức sản xuất chip đang lan rộng từ các nhà gia công đơn lẻ sang hệ sinh thái, khiến các lệnh trừng phạt nhắm vào một doanh nghiệp càng trở nên yếu ớt hơn.

Về phía thiết kế, Huawei và Đại học Bắc Kinh đã bắt đầu phát triển nguyên mẫu công cụ EDA nội địa cho LogicFolding. Điều này không có nghĩa thay thế toàn bộ bộ công cụ của Synopsys và Cadence, nhưng EDA nội địa đang tiến theo hướng "tối ưu phối hợp kiến trúc - quy trình - đóng gói".

Một chi tiết thú vị: Trong tháo rỡ, SemiAnalysis phát hiện Kirin 9030 Pro dùng DRAM của Samsung (K4L2E165YD, LPDDR5X-9600, công nghệ 1a), trong khi phiên bản Pro Max 16GB xuất hiện cả chip của Samsung và ChangXin Memory (CXMT) trong cùng một gói. Thông tin đóng gói của chip ChangXin ghi rõ là năm 2025, tuần 45, mật độ quy trình tương đương cấp 1z của ngành. Điều này cho thấy, chip lưu trữ nội địa Trung Quốc đã bắt đầu vào chuỗi cung ứng cao cấp của Huawei, dù vẫn còn kém hơn Samsung và SK Hynix một đến hai thế hệ.

Đối với nhà đầu tư, tín hiệu thực sự đáng theo dõi là liệu lộ trình xếp chồng 3D của Huawei có thể đạt đến mức đủ dùng trong các ứng dụng điện thoại, AI inference, mạng lưới với chi phí kiểm soát được hay không.

Một khi đạt được mức đó, giá trị chiến lược của chuỗi cung ứng này sẽ được định giá lại.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim