Công nghệ TurboQuant mới của Google có nghĩa là cuộc chơi đã kết thúc đối với Micron?

Hơn một năm trước, một quỹ phòng hộ định lượng của Trung Quốc đã chuyển đổi thành một phòng thí nghiệm AI và phát hành một mô hình AI tiên tiến gọi là DeepSeek. Mặc dù còn tranh luận về chính xác mức độ rẻ của việc huấn luyện DeepSeek và trên những chip nào, không thể phủ nhận rằng DeepSeek đã thực hiện những đổi mới mang tính đột phá, giúp nâng cao đáng kể hiệu quả huấn luyện một mô hình AI với ít chip bán dẫn hơn và “kém hơn”.

Cổ phiếu của các công ty bán dẫn AI và cổ phiếu bộ nhớ đã giảm mạnh sau tin này, dựa trên ấn tượng ban đầu rằng các công ty AI sẽ không cần phải mua nhiều chip logic và bộ nhớ như trước nữa. Tuy nhiên, chúng ta đều đã biết rằng các cổ phiếu này sau đó đã phục hồi, thậm chí còn tăng mạnh hơn, khi hiệu quả của mô hình lớn hơn không làm giảm nhu cầu về chip. Ngược lại, các công ty AI đã dùng các lợi ích về hiệu quả để đầu tư vào các mô hình còn tiên tiến hơn, từ đó làm tăng tổng cầu về năng lực tính toán và bộ nhớ.

Tuần trước, Alphabet (GOOG +5.02%) (GOOGL +5.10%) của Google Research đã công bố TurboQuant, một công nghệ nén bộ nhớ AI dựa trên phần mềm, cho phép suy luận hiệu quả hơn nhiều với ít bộ nhớ hơn. Đáp lại, các công ty bộ nhớ lớn như Micron (MU +4.80%) cùng các nhà cung cấp đã bán tháo mạnh.

Tuy nhiên, đây có phải chỉ là một khoảnh khắc DeepSeek khác mà các nhà đầu tư nên mua vào?

Mở rộng

NASDAQ: MU

Micron Technology

Thay đổi hôm nay

(4.80%) $15.46

Giá hiện tại

$337.26

Các điểm dữ liệu chính

Vốn hóa thị trường

$381 tỷ

Biên độ trong ngày

$311.50 - $337.70

Khoảng 52 tuần

$61.54 - $471.34

Khối lượng giao dịch

3.1 triệu

KLGD trung bình

40 triệu

Biên lợi nhuận gộp

58.54%

Tỷ suất cổ tức

0.18%

TurboQuant là gì?

TurboQuant tăng đáng kể dung lượng và tốc độ của bộ nhớ đệm khóa-giá trị (KV cache) trong suy luận AI. KV-cache là một loại bộ nhớ cho phép thuật toán AI giữ lại ngữ cảnh trước đó mà không cần tính lại toàn bộ các token đã xuất ra để tạo ra token mới. Vì vậy, KV-cache chính là “câu chuyện” về các kết quả trước của AI.

Nhưng nếu KV-cache là “câu chuyện” của ngữ cảnh quá khứ, thì TurboQuant chính là một bản “tóm tắt” nhanh nhưng chính xác của câu chuyện đó.

Nói một cách dễ hiểu, TurboQuant hoạt động như sau. Một mô hình AI hiểu ngữ cảnh bằng cách lưu trữ dữ liệu dưới dạng các vector, hay các biểu đồ đa chiều với nhiều “embedding” (biểu diễn), tức là các điểm nằm trong trục X-Y-Z. Một token có vector tương tự với token khác nghĩa là chúng có mối quan hệ tương tự.

Để đơn giản, giả sử một mặt phẳng X-Y. Một embedding có thể được mô tả bằng hướng “đi ba ô về phía đông và bốn ô về phía bắc”.

TurboQuant đơn giản hóa các lệnh này bằng cách nói: “đi năm ô theo hướng đông bắc với góc 37 độ”. Cách này giảm đáng kể các phép tính cần thiết để hiểu ngữ cảnh, mặc dù có thể dẫn đến các sai số còn dư. Nhưng TurboQuant sau đó bổ sung một cơ chế hiệu chỉnh lỗi 1-bit để xử lý các sai số này. Ngay cả với bit bổ sung, kỹ thuật này vẫn sử dụng ít bộ nhớ hơn nhiều so với phương pháp tiêu chuẩn dựa trên tọa độ XYZ cho các vector AI.

Nhờ cơ chế hiệu chỉnh lỗi này, Google Research tuyên bố TurboQuant có thể tăng gấp sáu lần dung lượng của KV-cache, đồng thời giúp suy luận AI nhanh gấp tám lần — tất cả mà không làm giảm độ chính xác.

TurboQuant thúc đẩy mạnh mẽ khả năng suy luận AI. Nguồn ảnh: Getty Images.

TurboQuant sẽ ảnh hưởng thế nào đến bộ nhớ AI

Nếu suy luận AI có thể sử dụng ít hơn sáu lần DRAM và chạy nhanh hơn tám lần, thì giả thiết là nhu cầu về bộ nhớ trong các ứng dụng suy luận trong tương lai có thể giảm đi.

Điều này có vẻ hơi đơn giản, mặc dù vẫn có một kịch bản tiêu cực hợp lý. Một rủi ro là thị phần của thị trường suy luận AI có thể chuyển từ các GPU đắt tiền, có bộ nhớ băng thông cao (HBM), sang các CPU chạy trên các loại bộ nhớ “truyền thống” như DDR5 hoặc MRDIMM.

HBM nhanh hơn nhiều so với các loại bộ nhớ cũ này, nhưng lại chứa ít ngữ cảnh hơn và đắt hơn nhiều. Nhờ tốc độ gấp tám lần của KV-cache nhờ TurboQuant, một công ty muốn triển khai nhiều tác nhân AI suy luận trên một lượng dữ liệu lớn, như một tài liệu pháp lý dài 1.000 trang, có thể sử dụng DDR5 hoặc MR-DIMM hiệu quả hơn. Dù HBM cũng sẽ được “tăng tốc” nhờ TurboQuant, các dạng bộ nhớ cũ hơn do CPU dùng có thể đủ nhanh để đáp ứng nhu cầu của các doanh nghiệp lớn muốn giảm chi phí.

HBM đã là một trong những yếu tố chính gây ra tình trạng thiếu cung bộ nhớ hiện nay, vì để sản xuất một bit HBM cần lượng thiết bị gấp khoảng 3 đến 4 lần so với bộ nhớ truyền thống. Vì vậy, khi nhu cầu chuyển sang các loại bộ nhớ truyền thống hơn cho suy luận, thị trường bộ nhớ có thể không còn bị hạn chế về cung như trước nữa.

Nhưng câu chuyện lạc quan có khả năng cao hơn

Mặc dù TurboQuant có thể đặt ra rủi ro cho thị trường HBM, vốn đang “hút” phần lớn nguồn cung của ngành, nhà đầu tư này vẫn cho rằng kịch bản tích cực vẫn là khả năng xảy ra cao hơn.

Thứ nhất, HBM cũng sẽ được hưởng lợi từ TurboQuant, nhờ khả năng mở rộng “cửa sổ ngữ cảnh” của HBM trong suy luận. Vì vậy, suy luận AI sẽ không chuyển hoàn toàn sang CPU hoặc bộ nhớ truyền thống. Đối với các ứng dụng yêu cầu độ trễ cực thấp, HBM vẫn có thể sẽ được sử dụng một phần.

Ngoài ra, HBM vẫn là loại bộ nhớ chính để huấn luyện mô hình AI, và TurboQuant không ảnh hưởng đến phần này. Dù suy luận sẽ là thị trường lớn hơn trong tương lai, nhu cầu HBM cho huấn luyện vẫn có khả năng tiếp tục tăng. Hiện tại, chúng ta đang rất thiếu cung HBM, và TurboQuant thậm chí còn chưa được triển khai ngoài phòng thí nghiệm của Google, nên các công ty bộ nhớ còn thời gian để điều chỉnh tăng trưởng cung phù hợp.

Việc điều chỉnh cung có thể không cần thiết, vì nghịch lý Jevon có thể đúng với TurboQuant như đã đúng với DeepSeek. Nghịch lý Jevon nói rằng khi một quá trình trở nên hiệu quả hơn, thay vì sử dụng ít hơn các đầu vào, thì nhu cầu đối với các nguồn lực đó lại thực tế tăng lên, vì hiệu quả cao hơn thúc đẩy việc áp dụng rộng rãi và tạo ra nhiều trường hợp sử dụng hơn.

Hầu hết các công ty công nghệ hàng đầu vẫn tin rằng chúng ta còn ở giai đoạn đầu của kỷ nguyên AI, và nếu TurboQuant thúc đẩy tốc độ các doanh nghiệp và người tiêu dùng tích hợp AI vào hoạt động của họ, thì làn sóng tăng trưởng nhu cầu này sẽ kéo theo lợi ích chung cho tất cả các “tàu”.

Tổng kết, đợt bán tháo bộ nhớ này có thể là một cơ hội. Trong khi cổ phiếu của Micron và các công ty thiết bị bán dẫn liên quan vẫn tăng mạnh trong năm qua, thì “nỗi sợ” này có thể là cơ hội để bổ sung hoặc mua vào một vị thế ban đầu, nếu bạn đã bỏ lỡ đà tăng của năm vừa rồi.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim