Phá vỡ cổ phiếu lưu trữ 900 tỷ USD của Google AI bị cáo buộc gian lận trong thí nghiệm

2026-03-30 12:57:29

Tác giả bài viết: Deep潮 TechFlow

Một bài báo của Google tuyên bố “nén dung lượng bộ nhớ AI xuống còn 1/6” đã gây ra sự kiện mất hơn 900 tỷ USD giá trị thị trường của các cổ phiếu chip nhớ toàn cầu như Micron, SanDisk vào tuần trước.

Tuy nhiên, chỉ hai ngày sau khi bài báo được phát hành, đối tượng so sánh mà thuật toán “vượt mặt” — hậu tiến sĩ tại ETH Zurich Gao Jianyang đã đăng thư công khai dài hàng vạn chữ, cáo buộc nhóm của Google trong thí nghiệm đã dùng script Python chạy trên CPU đơn nhân để thử nghiệm đối thủ, còn dùng GPU A100 để thử nghiệm chính mình, và đã được thông báo về vấn đề này trước khi gửi bài nhưng vẫn từ chối sửa chữa. Lượt đọc trên Zhihu nhanh chóng vượt 4 triệu, tài khoản chính thức của Stanford NLP chia sẻ lại, khiến giới học thuật và thị trường cùng chấn động.

Vấn đề cốt lõi của tranh cãi này không phức tạp: Một bài báo của Google được quảng bá quy mô lớn, trực tiếp gây hoảng loạn bán tháo trong ngành chip toàn cầu, liệu có hệ thống xuyên tạc một công trình đã công bố trước đó, và qua việc cố ý tạo ra các thí nghiệm không công bằng, đã xây dựng một câu chuyện về hiệu năng ảo?

TurboQuant đã làm gì: Giảm bớt “bản nháp” của AI xuống còn 1/6 ban đầu

Các mô hình ngôn ngữ lớn khi tạo ra câu trả lời cần vừa viết vừa quay lại xem các nội dung đã tính toán trước đó. Các kết quả trung gian này tạm thời được lưu trong bộ nhớ đệm GPU, trong ngành gọi là “KV Cache” (bộ nhớ khóa-giá trị). Thời gian dài hơn của cuộc đối thoại, tấm “bản nháp” này càng dày, tiêu thụ bộ nhớ GPU nhiều hơn, chi phí cũng cao hơn.

Thuật toán TurboQuant do nhóm nghiên cứu của Google phát triển, điểm bán hàng chính là nén tấm “bản nháp” này xuống còn 1/6, đồng thời tuyên bố không mất độ chính xác, tốc độ suy luận tối đa tăng gấp 8 lần. Bài báo lần đầu được đăng trên nền tảng preprint arXiv vào tháng 4 năm 2025, sau đó được chấp nhận tại hội nghị hàng đầu về AI ICLR 2026 vào tháng 1 năm 2026, và ngày 24 tháng 3 được Google chính thức đăng lại và quảng bá trên blog.

Về mặt kỹ thuật, ý tưởng của TurboQuant có thể hiểu đơn giản là: trước tiên dùng một phép biến đổi toán học để “rửa sạch” dữ liệu rối rắm thành dạng đồng nhất, rồi dùng bảng nén tối ưu đã tính sẵn để nén từng phần, cuối cùng dùng một cơ chế sửa lỗi 1 bit để điều chỉnh sai số do nén gây ra. Các bản thực thi độc lập của cộng đồng đã xác nhận hiệu quả nén của nó là hợp lý, và đóng góp toán học của thuật toán là có thật.

Vấn đề tranh cãi không phải là TurboQuant có thể dùng hay không, mà là Google đã làm gì để chứng minh rằng nó “vượt xa đối thủ”.

Thư công khai của Gao Jianyang: Ba cáo buộc, đều chạm đúng điểm then chốt

Vào lúc 10 giờ tối ngày 27 tháng 3, Gao Jianyang đăng bài dài trên Zhihu, đồng thời gửi bình luận chính thức trên nền tảng phản biện của ICLR là OpenReview. Gao Jianyang là tác giả chính của thuật toán RaBitQ, được công bố vào năm 2024 tại hội nghị hàng đầu về cơ sở dữ liệu SIGMOD, giải quyết cùng loại vấn đề — nén hiệu quả vector chiều cao.

Các cáo buộc của anh chia thành ba điểm, mỗi điểm đều có bằng chứng qua email và dòng thời gian rõ ràng.

Cáo buộc thứ nhất: Dùng phương pháp cốt lõi của người khác mà không đề cập trong toàn văn.

Cốt lõi kỹ thuật của TurboQuant và RaBitQ đều có một bước chung quan trọng: trước khi nén dữ liệu, làm một phép “xoay ngẫu nhiên” dữ liệu đó. Mục đích của bước này là biến dữ liệu phân bố không đều ban đầu thành phân bố đều có thể dự đoán được, từ đó giảm đáng kể độ khó của việc nén. Đây là phần cốt lõi, gần như là điểm gần nhất giữa hai thuật toán.

Chính tác giả của TurboQuant trong phản hồi bình luận cũng thừa nhận điều này, nhưng trong toàn văn bài báo chưa từng đề cập rõ ràng mối liên hệ này với RaBitQ. Thêm vào đó, bối cảnh quan trọng là: tác giả thứ hai của TurboQuant, Majid Daliri, vào tháng 1 năm 2025 đã chủ động liên hệ với nhóm của Gao Jianyang, yêu cầu giúp debug phiên bản Python dựa trên mã nguồn của RaBitQ. Trong email, Daliri mô tả chi tiết các bước tái tạo và lỗi gặp phải — rõ ràng nhóm TurboQuant rất hiểu rõ các chi tiết kỹ thuật của RaBitQ.

Một bình luận độc lập từ một reviewer ẩn danh của ICLR cũng chỉ ra rằng hai phương pháp đã sử dụng chung kỹ thuật, yêu cầu thảo luận đầy đủ. Nhưng trong bản cuối cùng của bài báo, nhóm TurboQuant không bổ sung thảo luận, mà còn chuyển phần mô tả về RaBitQ (đã không đầy đủ) vào phần phụ lục.

Cáo buộc thứ hai: Tuyên bố “kém tối ưu” về lý thuyết của đối phương mà không có căn cứ.

Trong bài báo của TurboQuant, RaBitQ bị gắn mác “kém tối ưu” (suboptimal), lý do là phân tích toán học của RaBitQ “có phần sơ sài”. Tuy nhiên, Gao Jianyang chỉ ra rằng, bản mở rộng của RaBitQ đã chứng minh chặt chẽ rằng sai số nén đạt tới giới hạn tối ưu về mặt toán học — kết luận này đã được công bố tại hội nghị hàng đầu về lý thuyết tính toán.

Vào tháng 5 năm 2025, nhóm của Gao Jianyang đã qua nhiều vòng email giải thích rõ ràng về tính tối ưu của lý thuyết RaBitQ. Daliri, tác giả thứ hai của TurboQuant, cũng xác nhận đã thông báo cho toàn bộ tác giả. Nhưng cuối cùng, bài báo vẫn giữ nguyên mô tả “kém tối ưu” mà không đưa ra bất kỳ lý lẽ phản biện nào.

Cáo buộc thứ ba: So sánh thí nghiệm “đặt điều, chơi xấu”.

Đây là điểm gây tổn thương nhất trong toàn bài. Gao Jianyang chỉ ra rằng, trong các thí nghiệm so sánh tốc độ, TurboQuant đã ghép hai điều kiện không công bằng:

Thứ nhất, RaBitQ chính thức cung cấp mã C++ tối ưu (hỗ trợ đa luồng mặc định), nhưng nhóm TurboQuant không dùng, mà dùng phiên bản Python do tự dịch. Thứ hai, khi thử nghiệm RaBitQ, nhóm dùng CPU đơn nhân và tắt đa luồng, còn TurboQuant dùng GPU NVIDIA A100.

Kết quả của hai điều kiện này là: người đọc thấy kết luận “RaBitQ chậm hơn TurboQuant vài bậc”, nhưng không biết rằng điều kiện tiên quyết của kết quả này là nhóm Google đã “dồn” đối thủ vào thế khó rồi mới chạy. Các điều kiện thử nghiệm này không được tiết lộ đầy đủ trong bài báo.

Phản hồi của Google: “Xoay ngẫu nhiên là kỹ thuật phổ biến, không thể trích dẫn tất cả”

Theo Gao Jianyang tiết lộ, trong email hồi đáp tháng 3 năm 2026, nhóm TurboQuant nói: “Việc sử dụng xoay ngẫu nhiên và biến đổi Johnson-Lindenstrauss đã trở thành kỹ thuật tiêu chuẩn trong lĩnh vực này, chúng tôi không thể trích dẫn tất cả các bài báo đã dùng các phương pháp này.”

Nhóm Gao Jianyang cho rằng đây là cách đánh tráo khái niệm: vấn đề không phải là có nên trích dẫn tất cả các bài dùng xoay ngẫu nhiên hay không, mà là RaBitQ là công trình đầu tiên kết hợp phương pháp này với nén vector trong cùng một thiết lập vấn đề, và đã chứng minh tính tối ưu của nó. Do đó, bài của Google cần mô tả chính xác mối liên hệ này.

Tài khoản chính thức của nhóm NLP Stanford đã chia sẻ lại tuyên bố của Gao Jianyang. Nhóm của anh đã đăng bình luận công khai trên nền tảng OpenReview của ICLR, gửi đơn tố cáo chính thức tới chủ tịch và ủy ban đạo đức của hội nghị, và sẽ tiếp tục đăng báo cáo kỹ thuật chi tiết trên arXiv.

Nhà phân tích độc lập Dario Salvati nhận xét trung lập: TurboQuant thực sự có đóng góp về mặt toán học, nhưng mối liên hệ với RaBitQ còn chặt chẽ hơn nhiều so với mô tả trong bài.

Giá trị thị trường mất 900 tỷ USD: Tranh cãi về bài báo cộng với hoảng loạn thị trường

Thời điểm xảy ra tranh cãi này rất nhạy cảm. Sau khi Google đăng bài về TurboQuant ngày 24 tháng 3, ngành chip nhớ toàn cầu bắt đầu bán tháo dữ dội. Theo CNBC và các báo khác, cổ phiếu của Micron giảm liên tiếp sáu phiên, tổng giảm hơn 20%; SanDisk giảm 11% trong ngày; SK Hynix giảm khoảng 6%, Samsung Electronics giảm gần 5%, Kioxia Nhật Bản giảm khoảng 6%. Lý do hoảng loạn của thị trường rất đơn giản: phần mềm nén có thể giảm nhu cầu bộ nhớ suy luận AI gấp 6 lần, triển vọng của ngành chip lưu trữ sẽ bị điều chỉnh giảm theo cấu trúc.

Các nhà phân tích của Morgan Stanley, Joseph Moore, ngày 26 tháng 3 đã phản bác logic này, giữ nguyên xếp hạng “nâng cao” đối với cổ phiếu của Micron và SanDisk. Moore nói rằng TurboQuant chỉ nén bộ đệm KV Cache — một loại bộ nhớ đệm đặc thù — chứ không phải toàn bộ bộ nhớ, và gọi đó là “cải tiến năng suất bình thường”. Các nhà phân tích của Wells Fargo, như Andrew Rocha, cũng dựa trên “nguyên lý Jensen” để cho rằng, việc nâng cao hiệu quả giảm chi phí có thể thúc đẩy triển khai AI quy mô lớn hơn, cuối cùng làm tăng nhu cầu bộ nhớ.

Bài cũ, cách mới: Rủi ro trong chuỗi truyền tải từ nghiên cứu học thuật đến thị trường

Theo phân tích của blogger công nghệ Ben Pouladian, bài báo TurboQuant đã được công bố từ tháng 4 năm 2025, không phải nghiên cứu mới. Ngày 24 tháng 3, Google đã “tái đóng gói” và quảng bá lại, nhưng thị trường lại coi đó như một bước đột phá mới hoàn toàn. Chiến lược “bài cũ, đăng mới” này, cộng với các sai lệch trong thí nghiệm có thể tồn tại trong bài, phản ánh rủi ro hệ thống trong chuỗi truyền tải từ nghiên cứu AI học thuật đến thị trường.

Đối với nhà đầu tư hạ tầng AI, khi một bài báo tuyên bố đạt “hàng nhiều cấp số nhân” về hiệu năng, điều đầu tiên cần hỏi là điều kiện so sánh có công bằng hay không.

Nhóm Gao Jianyang đã rõ ràng cam kết sẽ tiếp tục thúc đẩy giải quyết vấn đề chính thức. Phía Google vẫn chưa có phản hồi chính thức về các cáo buộc trong thư công khai này.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.