Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
CFD
Phái sinh CFD cổ phiếu Hoa Kỳ
Cổ phiếu Hoa Kỳ
Tiếp cận cổ phiếu và quỹ ETF thực của Hoa Kỳ
Cổ phiếu Hongkong
Giao dịch cổ phiếu chất lượng được niêm yết tại Hongkong
Cổ phiếu Hàn Quốc
SK Hynix
Giao dịch cổ phiếu Hàn Quốc thực và đầu tư vào các tài sản phổ biến
Futures cổ phiếu
Đòn bẩy cao, giao dịch 24/7
Cổ phiếu token hóa
Được hỗ trợ bởi tài sản cổ phiếu thực
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
GUSD
Đúc GUSD để nhận lợi suất từ RWA kho bạc
Hoạt động cổ phiếu
Giao dịch cổ phiếu phổ biến và nhận airdrop hấp dẫn
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
Thiên hạ khổ vì DRAM đã lâu rồi.
Hiện tại, các trung tâm dữ liệu đang phải đối mặt với một cuộc khủng hoảng mới – không phải thiếu sức mạnh tính toán, mà là bộ nhớ quá đắt.
Trong những năm gần đây, với sự mở rộng nhanh chóng của các dịch vụ AI như suy luận mô hình lớn, cơ sở dữ liệu trong bộ nhớ và điện toán hiệu năng cao, các trung tâm dữ liệu đang bị đẩy đến điểm tới hạn về tài nguyên bộ nhớ. DRAM, từng là thành phần tiêu chuẩn của máy chủ, nay đã trở thành tài nguyên cơ sở hạ tầng đắt đỏ và khan hiếm nhất, với giá tăng vọt và nguồn cung cứng nhắc, trở thành yếu tố then chốt hạn chế tốc độ triển khai sức mạnh tính toán AI.
Theo dữ liệu theo dõi của Counterpoint Research, giá bộ nhớ DIMM 64GB đã tăng 3,5 lần từ quý 3 năm 2025 đến quý 1 năm 2026, và đà tăng chưa có dấu hiệu dừng lại – dự kiến đến quý 3 năm 2026, mức tăng tích lũy sẽ đạt 5 lần.
Dữ liệu của TrendForce còn trực quan hơn: giá hợp đồng DRAM trong quý 1 năm 2026 tăng từ 93% đến 98% theo quý, kéo theo doanh thu tổng thể của ngành DRAM toàn cầu tăng 81% theo quý, đạt 97 tỷ USD. Bước sang quý 2, đà tăng vẫn chưa dừng lại, giá hợp đồng dự kiến sẽ tăng thêm 58% đến 63%.
Tín hiệu từ thị trường giao ngay càng rõ ràng hơn: giá đơn vị giao ngay hiện tại của DDR5 RDIMM cấp máy chủ dao động từ 27 đến 37 USD mỗi GB, chỉ riêng việc xây dựng một pool bộ nhớ 12TB, chi phí mua sắm phần cứng DRAM thuần đã gần 500.000 USD.
Khủng hoảng DRAM bùng phát toàn diện
Gốc rễ của cơn bão giá này là sự xâm lấn liên tục của HBM vào công suất DRAM.
Theo dữ liệu liên quan, với sự bùng nổ nhu cầu về bộ nhớ băng thông cao cho huấn luyện và suy luận AI, tỷ lệ HBM trong công suất wafer DRAM đã tăng từ 2% vào năm 2020 lên ước tính 25% vào năm 2026. Ba nhà sản xuất chính là Samsung, SK Hynix và Micron đều đang chuyển hướng công suất chất lượng cao sang HBM có biên lợi nhuận cao. Từ năm 2025 đến 2027, tỷ lệ sản lượng wafer HBM so với tổng sản lượng wafer DRAM lần lượt là 18%, 22% và khoảng 30%. Một wafer HBM tiêu tốn công suất tương đương khoảng ba wafer DDR5. Ba nhà sản xuất chính chủ động cắt giảm các đơn hàng biên lợi nhuận thấp cho điện thoại di động và PC, dồn toàn bộ công suất cho AI. Hơn nữa, các nhà cung cấp dịch vụ đám mây siêu quy mô lại ký hợp đồng dài hạn nhiều năm để khóa trước sản lượng wafer trong tương lai, càng làm giảm nguồn cung DRAM tiêu chuẩn cho lĩnh vực máy chủ.
Và tính cứng nhắc của phía cung cấp quyết định rằng sự thiếu hụt khó có thể giảm bớt trong ngắn hạn.
Quy trình sản xuất DRAM tiên tiến phụ thuộc nhiều vào máy quang khắc EUV, mỗi máy có giá khoảng 200 triệu USD. Đầu tư cho một nhà máy wafer hiện đại thường lên tới hàng chục tỷ USD, và ngay cả khi mọi việc suôn sẻ, thời gian xây dựng cũng kéo dài vài năm. Tốc độ mở rộng công suất xa vời không theo kịp tốc độ tăng trưởng nhu cầu AI.
Jefferies ước tính, nếu không tính đến tác động của các nhà sản xuất nội địa, tăng trưởng nguồn cung bit lưu trữ toàn cầu năm 2026 chỉ là 7% đến 8%. Tổng DRAM và NAND có thể thiếu hụt khoảng 150.000 đến 200.000 wafer mỗi tháng. Trong báo cáo tài chính quý 3 năm tài chính 2026, Micron Technology cho biết, ngay cả khi nguồn cung ngành có thể cải thiện dần vào năm 2028, hiện vẫn khó đánh giá khi nào nguồn cung lưu trữ có thể theo kịp nhu cầu đang tăng trưởng liên tục.
Ngoài ra, áp lực đã lan từ trung tâm dữ liệu sang phía người tiêu dùng.
Giám đốc điều hành Xbox Asha Sharma công khai cho biết, trong hai năm qua, chi phí bộ nhớ đã tăng khoảng năm lần, trực tiếp dẫn đến việc công ty không thể sản xuất đủ số lượng máy chơi game để đáp ứng nhu cầu thị trường. Apple cũng đã thông báo tăng giá cho iPhone, Mac, iPad và các sản phẩm khác.
Nhóm phân tích của Shawn Kim tại Morgan Stanley còn thẳng thắn hơn, cho rằng giá bộ nhớ tăng vọt và sự khan hiếm nguồn cung đang trở thành rủi ro toàn diện cho nền kinh tế kỹ thuật số, "từ nút thắt cổ chai của cơ sở hạ tầng AI, lan sang biên lợi nhuận phần cứng, khả năng chi trả của thiết bị, chi phí đám mây, lạm phát và thậm chí cả chính sách".
Trong danh sách vật tư của máy chủ, sự thay đổi tỷ trọng DRAM càng cho thấy vấn đề. Năm 2023, DRAM chiếm khoảng 50% chi phí toàn bộ máy chủ; đến giữa năm 2026, tỷ lệ này đã tăng lên 60% đến 90%, trung bình khoảng 75%. Giá CPU không giảm, nhưng dưới ánh sáng của giá bộ nhớ tăng vọt, mức tăng của CPU trở nên không đáng kể.
Trớ trêu thay, bộ nhớ mua với giá cao lại không được sử dụng hiệu quả – dữ liệu thử nghiệm từ các nhà sản xuất siêu quy mô như Meta cho thấy, bộ nhớ trong trung tâm dữ liệu chỉ có khoảng một nửa dung lượng chứa "dữ liệu nóng" hoạt động, một lượng lớn dữ liệu lạnh chiếm giữ tài nguyên DRAM đắt đỏ trong thời gian dài.
Đối mặt với sự đắt đỏ và khan hiếm của DRAM, những người chơi trong ngành bắt đầu tìm hướng đi mới – không còn đơn thuần chất đống phần cứng, mà sử dụng các biện pháp kỹ thuật để giảm sự phụ thuộc vào DRAM.
AMD: Lập lịch dự đoán AI, biến flash thành bộ nhớ "vô hình"
AMD chọn con đường phần mềm nhẹ nhất.
Vào tháng 6 năm 2026, AMD tuyên bố mua lại MEXT, một công ty tối ưu hóa bộ nhớ, với mục tiêu cốt lõi là giới thiệu công nghệ phân lớp bộ nhớ do AI điều khiển, chuyển dữ liệu lạnh từ DRAM giá cao sang NAND flash chi phí thấp, mở rộng dung lượng bộ nhớ hiệu quả với chi phí thấp.
Được biết, MEXT được thành lập vào năm 2023, đội ngũ sáng lập có lý lịch ấn tượng – đồng sáng lập kiêm CEO Gary Smerdon từng là Giám đốc Chiến lược và Sản phẩm của Fusion-io, người tiên phong trong việc thương mại hóa lưu trữ flash trên quy mô lớn. Hơn mười năm trước, Apple và Meta Platforms là những khách hàng chính của ông.
MEXT đã đưa ra công nghệ phân lớp bộ nhớ dựa trên AI (memory tiering) để giải quyết nút thắt cổ chai về hiệu quả bộ nhớ. Công nghệ này có thể chuyển dữ liệu được truy cập tần suất thấp từ DRAM đắt đỏ sang NAND flash có chi phí trên mỗi đơn vị dung lượng thấp hơn nhiều mà không ảnh hưởng đến hoạt động của ứng dụng.
Sản phẩm cốt lõi của MEXT là Predictive Memory Engine, một giải pháp phân lớp bộ nhớ hoàn toàn dựa trên phần mềm: nó liên tục giám sát các mẫu truy cập của ứng dụng ở cấp độ trang bộ nhớ, tự động di chuyển dữ liệu lạnh ít được truy cập sang NAND flash – chi phí mỗi bit của flash chỉ bằng khoảng 1/55 so với DRAM; đồng thời, thông qua mô hình AI học các quy luật truy cập của khối lượng công việc, dự đoán các trang dữ liệu sắp được gọi và chủ động prefetch chúng trở lại DRAM trước khi ứng dụng gửi yêu cầu, cho phép phần mềm đọc dữ liệu như thể truy cập trực tiếp vào bộ nhớ chính, từ đó đảm bảo hiệu năng không bị ảnh hưởng.
Toàn bộ cơ chế hoàn toàn trong suốt đối với hệ điều hành và các ứng dụng cấp trên, không cần sửa đổi bất kỳ mã nghiệp vụ nào, cũng không cần thêm phần cứng chuyên dụng, có thể triển khai trong vài phút.
Dữ liệu chính thức cho thấy, giải pháp này có thể tăng dung lượng bộ nhớ hiệu quả của hệ thống lên 2 đến 4 lần, và giảm tổng chi phí cơ sở hạ tầng khoảng 50%. Trong các tình huống điển hình như cơ sở dữ liệu đồ thị Neo4j, mô phỏng EDA, kết xuất phim, cấu hình tỷ lệ DRAM:flash 1:1 có thể đạt khoảng 95% thông lượng của cấu hình DRAM thuần, nhưng chi phí giảm đáng kể.
MEXT trước đó đã thực hiện các thử nghiệm so sánh trên máy chủ Dell và các phiên bản đám mây AWS:
Hiệu năng và hiệu quả chi phí của cơ sở dữ liệu đồ thị Neo4j khi sử dụng MEXT mở rộng bộ nhớ với tỷ lệ bộ nhớ và flash 1:1 và 1:3:
Mặc dù ý tưởng của MEXT không mang tính cách mạng – phân lớp bộ nhớ, chuyển dữ liệu lạnh sang phương tiện lưu trữ rẻ hơn – những khái niệm này đã tồn tại khá lâu. Nhưng các công nghệ trước đây không thể triển khai quy mô lớn trong trung tâm dữ liệu, điểm mấu chốt là độ chính xác của thuật toán dự đoán không đủ. Một khi dự đoán sai, khi chương trình cần dữ liệu thì phải chuyển từ flash về DRAM, độ trễ sẽ lộ ra ngay, và tổn thất hiệu năng là không thể chấp nhận được.
Bước đột phá của MEXT là sử dụng mô hình AI để làm việc này. Predictive Memory Engine của nó liên tục phân tích các mẫu truy cập bộ nhớ, thông qua AI để xác định trang dữ liệu nào có khả năng được sử dụng tiếp theo, và chủ động chuyển dữ liệu từ flash về DRAM trước khi ứng dụng thực sự gửi yêu cầu.
Đối với AMD, thương vụ mua lại này bổ sung một mảnh ghép quan trọng cho khả năng full-stack. Bên cạnh EPYC CPU, Instinct GPU và ngăn xếp phần mềm ROCm, lớp hiệu quả bộ nhớ do MEXT mang lại cho phép AMD cung cấp cho khách hàng các giải pháp hoàn chỉnh từ chip đến điều phối luồng dữ liệu, vừa giúp khách hàng giảm tổng chi phí sở hữu, giảm thời gian nhàn rỗi GPU "chờ dữ liệu", vừa củng cố khả năng cạnh tranh của chính mình trên thị trường cơ sở hạ tầng AI.
Vào ngày công bố thương vụ mua lại, cổ phiếu AMD đã tăng gần 7% trong phiên, thị trường đã bỏ phiếu ủng hộ hướng đi này.
Tất nhiên, phải nói thêm rằng, công nghệ của MEXT cuối cùng có thể triển khai đến mức độ nào trong các sản phẩm trung tâm dữ liệu của AMD vẫn cần thời gian để kiểm chứng. Sự khác biệt về độ trễ vật lý giữa NAND flash và DRAM là tồn tại khách quan, liệu AI dự đoán ở lớp phần mềm có thể thực sự thu hẹp khoảng cách này hay không, cần xem hiệu suất thực tế sau khi triển khai quy mô lớn.
Apple: Mô hình đầu cuối, "lưu trữ" mô hình vào flash
Khi trung tâm dữ liệu đau đầu vì chi phí DRAM, đầu cuối cũng phải đối mặt với những ràng buộc tương tự – dung lượng DRAM của các thiết bị như điện thoại di động cực kỳ hạn chế, nhưng lại phải chịu tải suy luận của mô hình lớn đầu cuối. Câu trả lời của Apple là để mô hình lớn thường trú trên flash, tải vào bộ nhớ khi cần.
AFM 3 Core Advanced mới nhất của Apple là một mô hình lớn đầu cuối 20 tỷ tham số. Nếu tải toàn bộ vào DRAM theo cách truyền thống, sẽ vượt quá giới hạn bộ nhớ của thiết bị tiêu dùng. Apple đã giải quyết vấn đề này thông qua kiến trúc kích hoạt thưa thớt: toàn bộ mô hình được lưu trữ trong NAND flash, khi suy luận không tải tất cả trọng số, mà dựa trên prompt đầu vào để chọn module chuyên gia cần thiết cho lần suy luận này, chỉ tải tập làm việc từ 1 tỷ đến 4 tỷ tham số vào DRAM.
Khác với mô hình MoE truyền thống chuyển đổi chuyên gia theo từng token, dẫn đến việc di chuyển dữ liệu thường xuyên, Apple sử dụng cơ chế định tuyến theo mức độ prompt, kết hợp với các chuyên gia dùng chung tỷ lệ cao thường trú trong DRAM, giảm đáng kể số lần trao đổi giữa flash và bộ nhớ, giảm độ trễ tải xuống mức tối thiểu. Kết hợp với tối ưu hóa như cắt tỉa ở mức lệnh (IFP), tinh giản lớp Transformer, cuối cùng kiểm soát mức sử dụng DRAM đỉnh của mô hình 20 tỷ tham số trong khoảng 2GB đến 8GB, cân bằng hơn nữa giữa mức sử dụng bộ nhớ và hiệu quả tính toán, giải quyết hiệu quả vấn đề DRAM chiếm dụng quá lớn khi triển khai MoE trên đầu cuối, cho phép nó chạy mượt mà trên các thiết bị đầu cuối như iPhone, đạt được suy luận đầu cuối "mô hình lớn bộ nhớ nhỏ".
Kiến trúc này không phải là sản phẩm của sự cố gắng tạm thời.
Trên thực tế, ngay từ năm 2024, nhóm nghiên cứu của Apple đã công bố bài báo "LLM in a Flash", xác minh một cách có hệ thống con đường kỹ thuật lưu trữ các tham số mô hình lớn trong flash và lập lịch theo yêu cầu, đồng thời giảm chi phí tính toán đám mây và cung cấp hỗ trợ kiến trúc bộ nhớ khả thi cho các ứng dụng AI đầu cuối, đạt tốc độ suy luận nhanh hơn 4 đến 5 lần trên CPU và 20 đến 25 lần trên GPU so với tải thuần túy.
Tổng quan, hai hướng đi của AMD và Apple lần lượt tiến hóa song song cho trung tâm dữ liệu và đầu cuối, nhưng cùng chỉ đến một kết luận: Các tầng bộ nhớ suy luận AI đang được tái cấu trúc, KV cache tần suất thấp, trọng số mô hình và dữ liệu đầu cuối sẽ dần dần chuyển từ HBM/DRAM giá cao xuống lớp NAND Flash/SSD, hình thành kiến trúc lưu trữ đa tầng.
Sự chuyển đổi kiến trúc này đang tạo ra các hiệu ứng lan truyền đa tầng dọc theo chuỗi công nghiệp. Theo phân tích của Citrini Research, lớp hưởng lợi trực tiếp nhất là các nhà sản xuất NAND gốc.
Marvell: Nén phần cứng + CXL, mở rộng bộ nhớ vật lý
Nếu AMD và Apple đi theo con đường tối ưu hóa phần mềm và kiến trúc, thì Marvell chọn đột phá ở lớp phần cứng, dựa trên giao thức kết nối tốc độ cao CXL, sử dụng công nghệ nén nội tuyến phần cứng để trực tiếp tăng dung lượng tương đương của DRAM vật lý.
Vào tháng 6 năm 2026, Marvell phát hành dòng bộ điều khiển CXL Structera – Structera X (bộ mở rộng bộ nhớ) và Structera A (bộ tăng tốc gần bộ nhớ). Cả hai chip đều tích hợp mô-đun nén phần cứng CDB (Compression-Decompression Block) tự phát triển.
Theo thông tin, khi dữ liệu được ghi vào DRAM, mô-đun CDB sẽ nén thời gian thực thông qua thuật toán LZ4 không mất dữ liệu tùy chỉnh; khi đọc, nó đồng bộ giải nén. Toàn bộ quá trình diễn ra độc lập trong đường dẫn bộ nhớ, không tiêu tốn sức mạnh tính toán của CPU máy chủ, và hoàn toàn trong suốt đối với các ứng dụng cấp trên. Tùy thuộc vào loại dữ liệu, 1GB DRAM vật lý có thể cung cấp dung lượng logic tương đương gấp 2 đến 3,64 lần – trong các tình huống hỗn hợp cơ sở dữ liệu, tỷ lệ nén trung bình có thể đạt 3,64:1, tương đương với việc sử dụng ít hơn một phần ba bộ nhớ vật lý để đáp ứng các nhu cầu kinh doanh tương tự.
Ngoài ra, giải pháp này còn có hai giá trị giảm chi phí khác: Một là tái sử dụng bộ nhớ cũ, bộ điều khiển Structera X hỗ trợ kết nối bộ nhớ DDR4, có thể đưa DRAM DDR4 đã ngừng hoạt động vào pool bộ nhớ CXL, giảm nhu cầu mua mới DDR5 đắt đỏ; Hai là pool hóa bộ nhớ, thông qua giao thức CXL phá vỡ giới hạn độc quyền của từng CPU đối với bộ nhớ, cho phép nhiều máy chủ chia sẻ tài nguyên bộ nhớ, tiêu thụ dung lượng nhàn rỗi trong hệ thống.
Với giá giao ngay hiện tại của DDR5 là 27 đến 37 USD mỗi GB, một pool bộ nhớ 12TB chỉ riêng chi phí phần cứng DRAM đã gần 500.000 USD; nếu ước tính theo tỷ lệ nén 3 lần, lượng mua DRAM vật lý có thể giảm hai phần ba, mỗi pool tiết kiệm hơn 300.000 USD.
Sandisk: Nhét NAND dưới GPU
Giải pháp của Sandisk (SanDisk) còn mạnh mẽ hơn – tái cấu trúc kiến trúc bộ nhớ của chip AI từ cấp độ đóng gói.
Sandisk đang hợp tác với SK Hynix để thúc đẩy tiêu chuẩn hóa High Bandwidth Flash (HBF), cố gắng đưa NAND flash đến gần hơn với lõi tính toán, tạo ra một tầng lưu trữ mới giữa HBM và SSD.
Giải pháp bằng sáng chế của Sandisk đề xuất kiến trúc "NAND dưới GPU": xếp chồng NAND flash dung lượng cao ngay dưới GPU hoặc bộ tăng tốc AI, xung quanh là các chồng HBM, bằng cách rút ngắn đáng kể khoảng cách truyền dữ liệu, tăng băng thông truy cập flash. Theo kế hoạch, HBF sẽ tương thích vật lý với HBM4, dung lượng có thể đạt 8 đến 16 lần so với HBM cùng thể tích, trong khi chi phí có lợi thế đáng kể, nhắm vào các tình huống đọc nhiều như suy luận ngữ cảnh dài, KV cache, tải trọng số mô hình theo luồng.
Công nghệ này, được gọi là HBF (High Bandwidth Flash, Flash băng thông cao), định vị giữa HBM và SSD. Nếu coi HBM như "sách tham khảo" trên bàn, thì HBF dựa trên NAND giống như "tủ sách" đặt cạnh GPU. HBM xử lý dữ liệu cần phản hồi ngay lập tức, trong khi NAND dưới GPU lưu trữ dữ liệu lớn hơn và đọc ghi lặp đi lặp lại.
Mục tiêu của Sandisk là phát triển HBF có băng thông gần bằng HBM, cung cấp dung lượng gấp 8 đến 16 lần HBM với chi phí tương tự. Vào tháng 2 năm 2026, Sandisk và SK Hynix chính thức khởi động liên minh tiêu chuẩn hóa thông số kỹ thuật HBF. SK Hynix đóng góp công nghệ xếp chồng, đóng gói và lớp trung gian tích lũy trong HBM, trong khi Sandisk mang đến khả năng thiết kế NAND và flash. Hai bên dự kiến ra mắt các mẫu HBF đầu tiên vào nửa cuối năm 2026, và áp dụng cho các thiết bị suy luận AI vào đầu năm 2027. Mục tiêu là xây dựng kiến trúc bộ nhớ ba tầng: HBM chịu trách nhiệm tính toán tức thời với độ trễ cực thấp, HBF tiếp nhận dữ liệu đọc lặp đi lặp lại với dung lượng lớn, thông lượng cao, và SSD chịu trách nhiệm lưu trữ lạnh, mỗi tầng thực hiện chức năng riêng.
Tất nhiên, HBF vẫn cần vượt qua nhiều rào cản để tiến tới thương mại hóa quy mô lớn. Mật độ nhiệt cao do chip tính toán và NAND xếp chồng, thách thức về tỷ lệ thành công của liên kết hỗn hợp và định tuyến phức tạp, cũng như hệ sinh thái phần mềm để phân lớp lập lịch dữ liệu nóng lạnh, tất cả đều cần thời gian để hoàn thiện dần.
Theo dự báo của Shinhan Securities Hàn Quốc, thị trường HBF dự kiến hình thành vào năm 2027, và tăng lên 12 tỷ USD vào năm 2030.
Đối với các nhà cung cấp dịch vụ đám mây với hàng chục nghìn nút, điều này có nghĩa là tối ưu hóa chi tiêu vốn khổng lồ. Hiện tại, Structera là bộ điều khiển CXL nén nội tuyến phần cứng đầu tiên trên thị trường được sản xuất hàng loạt, các giải pháp kỹ thuật liên quan đã được gửi để tiêu chuẩn hóa dự án tính toán mở OCP, và phạm vi thích ứng sẽ được mở rộng hơn nữa trong tương lai.
Bài học từ quá khứ: Con đường dang dở của 3D XPoint
Nói đến, việc sử dụng flash để mở rộng bộ nhớ chính không phải là mới.
Ngay từ năm 2015, Intel và Micron đã cùng ra mắt công nghệ lưu trữ 3D XPoint, tầm nhìn của nó trúng ngay điểm đau của ngành hiện nay – tạo ra một phương tiện lưu trữ mới có hiệu năng giữa DRAM và NAND flash, hỗ trợ định địa chỉ byte, chi phí gần với flash, xây dựng một tầng mới giữa bộ nhớ và lưu trữ truyền thống.
Đáng tiếc, 3D XPoint cuối cùng đã không thực hiện được lời hứa ban đầu.
Sự chậm trễ trong phát triển quy trình sản xuất khiến chi phí của nó đuổi kịp DRAM, trong khi hiệu năng chỉ nhanh hơn flash thông thường vài lần; kết hợp với chiến lược đóng gói của Intel khi gắn nó với bộ xử lý Xeon của riêng mình, khiến nó không bao giờ có thể vào được thị trường chính thống. Cuối cùng dự án bị chấm dứt, mảng kinh doanh flash của Intel cũng được bán cho SK Hynix. Công nghệ từng được kỳ vọng cao này trở thành một ghi chú đáng tiếc trong ngành lưu trữ.
Nếu Intel không từ bỏ 3D XPoint ngày đó, lợi nhuận bây giờ sẽ phong phú đến mức nào? Tiếc là lịch sử không có chữ "nếu".
Ngoài ra, một số công ty khởi nghiệp trong nước làm về các giải pháp tính toán lưu trữ tích hợp, pool hóa bộ nhớ, có lẽ cũng sẽ nhận được nhiều sự chú ý hơn. Suy cho cùng, trong bối cảnh giá DRAM cao, nguồn cung bị chiếm dụng, ai có thể đưa ra một giải pháp tối ưu hóa bộ nhớ thực sự đáng tin cậy, người đó có thể nhận được vòng tài trợ tiếp theo trên thị trường vốn.
Lời kết
Từ thất bại của 3D XPoint đến nhiều hướng đi song song ngày nay, việc khám phá hiệu quả bộ nhớ trong ngành lưu trữ chưa bao giờ dừng lại.
AMD sử dụng AI dự đoán để lập lịch dữ liệu nóng lạnh, Apple sử dụng kích hoạt thưa thớt và lưu trữ flash để nén mức sử dụng bộ nhớ đầu cuối, Marvell sử dụng nén phần cứng để phát huy tác dụng lớn hơn của bộ nhớ vật lý, Sandisk sử dụng xếp chồng 3D để đặt NAND dưới chân GPU – bốn công ty có các con đường kỹ thuật khác nhau, nhưng cùng chỉ về một hướng: Các tầng bộ nhớ suy luận AI đang được tái cấu trúc – dữ liệu nóng ở lại DRAM và HBM để đảm bảo hiệu năng, dữ liệu ấm lạnh dần dần chìm xuống tầng flash để tiếp nhận dung lượng, các phương tiện đa tầng phối hợp cân bằng hiệu suất và chi phí.
Sự đắt đỏ của DRAM đang "ép" toàn ngành lên "Lương Sơn". Nhưng chính áp lực này đã sinh ra một loạt các đổi mới công nghệ đáng kinh ngạc.
Không thể phủ nhận, khoảng cách vật lý về độ trễ giữa flash và DRAM luôn tồn tại, hiệu suất thực tế của các giải pháp khác nhau vẫn cần được xác minh thông qua triển khai quy mô lớn. Nhưng có thể chắc chắn rằng, thời đại chất đống DRAM để giải quyết vấn đề đang qua đi, một hệ thống bộ nhớ hiệu quả hơn, phân tầng hơn đã là hướng đi mới cho ngành.
Nguồn: Bán dẫn Industry Watch
Tuyên bố rủi ro và các điều khoản miễn trừ trách nhiệm