Gần đây, tôi có cơ hội nghiên cứu sâu về Micron Technology. Thành thật mà nói, tôi ngạc nhiên về sự mờ nhạt của sự hiện diện của công ty này. Dưới bóng của Nvidia và TSMC, họ hầu như không được chú ý, nhưng lại là nền tảng hỗ trợ hạ tầng AI.



Nhớ lại năm 2012, khi Elpida của Nhật Bản phá sản, thì Micron là công ty mua lại tài sản của họ. Lúc đó, ngành công nghiệp bộ nhớ DRAM gần như biến mất khỏi Nhật Bản, và Samsung cùng SK Hynix của Hàn Quốc kiểm soát thị trường. Trong bối cảnh đó, chỉ có Micron là còn tồn tại tại Mỹ, là doanh nghiệp duy nhất có thể sản xuất hàng loạt chip nhớ cao cấp.

Tại sao lại xảy ra chuyện này? Trong bối cảnh AI phát triển nhanh chóng, mọi người đều chỉ nói về tốc độ tính toán. Hiệu năng GPU, TFLOPS, khả năng xử lý. Nhưng thực tế, điểm nghẽn chính lại nằm ở chỗ hoàn toàn khác. Đó chính là băng thông bộ nhớ.

Thời gian GPU chờ dữ liệu sau khi hoàn thành tính toán dài hơn thời gian tính toán thực tế. Điều này gọi là "bức tường bộ nhớ". Để chạy một mô hình có 700 tỷ tham số, cần khoảng 140GB bộ nhớ ở định dạng FP16. Bộ nhớ video của các GPU cao cấp như A100 hay H100 chỉ khoảng 80GB đến 192GB. Tức là, phải chia sẻ dữ liệu giữa nhiều card để xử lý.

Để giải quyết vấn đề này, Nvidia đã phát triển bộ nhớ băng thông cao, tức HBM, ngay cạnh GPU. Đó là gì? Là việc xếp chồng nhiều lớp DRAM dọc theo chiều dày, sau đó đóng gói trên silicon interposer. Micron chính là nhà sản xuất HBM này.

HBM không chỉ đơn thuần là bộ nhớ, mà còn là trái tim của tính toán AI. Trong giai đoạn suy luận, tải trọng tính toán của GPU cực kỳ thấp, toàn bộ hệ thống bị giới hạn bởi băng thông bộ nhớ. Năng lượng tiêu thụ cho truyền dữ liệu cao gấp 100 đến 200 lần so với tính toán. Tức là phần lớn điện năng của trung tâm dữ liệu dành cho truyền dữ liệu qua bus.

Lý do Micron không được chú ý là vì họ không có những đổi mới kiến trúc rầm rộ. Nvidia đổi mới trong thiết kế GPU. TSMC đổi mới trong quy trình sản xuất chip logic. Trong khi đó, Micron âm thầm làm những công việc cốt lõi: tiến bộ công nghệ quy trình ở cấp độ gamma, đóng gói nhiều lớp phức tạp, tối ưu hóa năng lượng.

Việc sản xuất HBM đòi hỏi xếp chồng nhiều lớp DRAM theo chiều dọc, nếu có lỗi ở một lớp thì toàn bộ module sẽ không thể sử dụng được. Tỷ lệ thành công của HBM3E 8 lớp là khoảng 61%. Với HBM4 12 lớp, tỷ lệ này giảm còn 48%. Ảnh hưởng của từng lớp không cộng dồn mà nhân lên theo cấp số nhân.

SK Hynix chiếm hơn 50% thị trường HBM vì công nghệ đóng gói liquid encapsulation MR-MUF của họ trực tiếp nâng cao tỷ lệ thành công của liên kết giữa các lớp. Trong khi đó, Micron sử dụng quy trình TC-NCF, kém hơn về khả năng tản nhiệt. Tuy nhiên, HBM của Micron tiêu thụ ít điện năng hơn 20-30%, tạo lợi thế về hiệu quả năng lượng.

Thị trường DRAM toàn cầu do Samsung, SK Hynix và Micron chiếm tới 95%. Nhưng vị thế lại hoàn toàn khác biệt. Micron có tốc độ tiến bộ công nghệ quy trình nhanh nhất. Tăng mật độ bộ nhớ trên wafer, giảm chi phí sản xuất trên mỗi bit.

Samsung gặp khó khăn về tỷ lệ thành công trong các node dưới 14nm, làm chậm tiến trình cung ứng. Tốc độ tiến bộ của quy trình của SK Hynix gần như tương đương Micron.

Tỷ lệ P/E của cổ phiếu Micron là 21 lần, cao hơn nhiều so với mức 8-10 lần của các công ty bộ nhớ truyền thống. Lý do là do phương thức đặt hàng theo đơn hàng của HBM. Họ ký hợp đồng dài hạn với khách hàng như Nvidia, cố định giá cả và số lượng. Năng lực sản xuất HBM năm 2026 đã được bán hết, theo báo cáo.

Điều này giảm thiểu đáng kể tính chu kỳ kinh doanh của các công ty bộ nhớ. Phố Wall cũng đánh giá cao điều này, xếp Micron vào vị trí nhà cung cấp hạ tầng. Thêm vào đó, bối cảnh địa chính trị Mỹ cần khả năng sản xuất chip nhớ tiên tiến trong nước cũng thúc đẩy dòng vốn của các nhà đầu tư tổ chức.

Chiến trường tiếp theo của HBM là CXL. CXL là viết tắt của Compute Express Link, một giao thức chia sẻ bộ nhớ giữa nhiều máy chủ, tự động quản lý tính nhất quán của cache. Trong các trung tâm dữ liệu quy mô lớn, tỷ lệ bộ nhớ không sử dụng chiếm tới 20-30%. CXL giúp giải quyết vấn đề này qua pooling bộ nhớ.

Micron đã công bố module mở rộng bộ nhớ CXL Type 3. Trong đó, HBM cung cấp băng thông cực cao hàng trăm gigabyte và độ trễ thấp, còn module CXL có thể tích trữ hàng terabyte, linh hoạt phân bổ bộ nhớ. Khi kết hợp cả hai, dữ liệu nóng thường xuyên truy cập có thể được offload vào HBM cục bộ, còn dữ liệu lạnh sẽ chuyển sang pool bộ nhớ CXL.

Nếu trả lời câu hỏi "HBM là gì?", thì đó không chỉ đơn thuần là bộ nhớ, mà là kết quả tất yếu của sự tiến bộ trong hạ tầng AI. Trong bối cảnh khả năng tính toán phát triển vượt xa băng thông bộ nhớ, cách duy nhất để giải quyết điểm nghẽn vật lý này chính là HBM.

Trong dài hạn, ngành công nghiệp bán dẫn sẽ đối mặt với giới hạn của khoa học vật liệu. Tiến trình thu nhỏ mạch theo chiều phẳng gần đạt giới hạn vật lý, tỷ lệ thành công của xếp chồng 3D giảm theo cấp số nhân. Tính toán trong bộ nhớ cũng gặp mâu thuẫn căn bản về quy trình. Transistor DRAM cần điện áp thấp, trong khi chip logic cần điện áp thấp ngưỡng. Hai yêu cầu này hoàn toàn mâu thuẫn.

Cuối cùng, sức cạnh tranh của Micron sẽ không dựa vào một công nghệ đơn lẻ, mà dựa vào khả năng tổng thể giảm thiểu lỗi trong các khía cạnh như nâng cao tỷ lệ thành công, quy trình đóng gói, tích hợp hệ thống. Để tích lũy năng lực này, cần hàng chục năm kinh nghiệm sản xuất. Đó chính là "hố sâu" thực sự.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim