2026-03-26 05:50:23

Một bài báo đã khuấy động thị trường trị giá hàng nghìn tỷ, chip lưu trữ sụp đổ...

Không ai ngờ được, sáng thứ Tư tuần này, khi mở cửa thị trường Mỹ, ngành chip lưu trữ đã trải qua "giờ đen", cổ phiếu của các ông lớn đều giảm mạnh —

Đến cuối ngày, Micron giảm 4%, Western Digital giảm 4.4%, Seagate giảm 5.6%, SanDisk còn giảm mạnh hơn 6.5%.

Nguyên nhân gây ra cơn bán tháo này chính là thuật toán nén TurboQuant do Google phát hành.

Như mọi người đều biết, khi mô hình lớn hoạt động, bộ đệm KV (KV cache) gần như là "quái vật nuốt tiền" trong thế giới bộ nhớ.

Để tránh tính toán lại Token trước đó, LLM duy trì một "khoảng nhớ vận hành", theo thời gian đối thoại càng dài, khoảng nhớ này sẽ nhanh chóng phình to như quả bóng tuyết lăn.

TurboQuant của Google đã đưa ra một giải pháp "bạo lực" cực kỳ tối giản:

Đầu tiên, xoay các vector chiều cao trong bộ đệm KV, sau đó chuyển sang hệ tọa độ cực để mô tả, giảm thiểu chi phí bộ nhớ về 0.

Tiếp theo, dùng chỉ 1-bit không gian bổ sung, đặt vào một "bộ hiệu chỉnh" toán học, giúp loại bỏ chính xác các sai lệch hệ thống do nén gây ra.

Bài báo về TurboQuant sẽ chính thức được trình bày tại ICLR 2026 vào tháng tới.

Kết quả rất ấn tượng: không cần huấn luyện lại, TurboQuant đã nén bộ đệm xuống còn 3-bit điên rồ.

Như vậy, chi phí bộ đệm KV giảm 6 lần, quan trọng hơn, hiệu suất suy luận gần như không bị ảnh hưởng.

Trên H100, so với cơ sở 32-bit, tốc độ tính toán chú ý với 4-bit tăng vọt gấp 8 lần. Không chỉ tiết kiệm không gian, còn chạy nhanh hơn.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.