"Tôm hùm" cho "bộ nhớ" "kéo dài tuổi thọ" đáng kể?

Question

Các công cụ AI đại diện bởi OpenClaw (Agentic AI) đang thúc đẩy logic nhu cầu của thị trường bộ nhớ hướng tới một mô hình hoàn toàn mới. Theo tin từ Chasing Wind Trading Desk, báo cáo mới nhất của Morgan Stanley phát hành ngày 18 tháng 3 chỉ ra: AI từ “suy nghĩ” chuyển sang “thực thi”, sẽ khiến DRAM thay thế HBM trở thành nút cổ chai khó vượt qua nhất trong hạ tầng AI, chu kỳ bộ nhớ do đó sẽ kéo dài vượt xa dự kiến.

Khảo sát kênh phân phối cho thấy, giá DDR5 của DRAM server dự kiến sẽ tăng hơn 50% so với quý trước vào quý II năm 2026, một số nhà cung cấp đám mây quy mô siêu lớn của Trung Quốc còn đưa ra mức giá cao hơn; giá hợp đồng DDR4 dự kiến tăng 40%-50%, giá SSD doanh nghiệp NAND cũng dự kiến tăng không dưới 40%-50%. Morgan Stanley cho rằng, hiện tại đang ở giữa chu kỳ tăng trưởng của bộ nhớ, và mức thắt chặt nguồn cung còn vượt xa dự đoán trước đó — “Dự báo lợi nhuận của Phố Wall sẽ phải bắt kịp thực tế”.

Những dự đoán này đã được phản ánh trực tiếp trong điều chỉnh mục tiêu giá: EPS dự kiến của SK Hynix cho 2026-2027 lần lượt tăng 24% và 32%, mục tiêu giá từ 1,1 triệu won lên 1,3 triệu won, còn khoảng cách tăng giá tiềm năng 43% so với giá hiện tại; mục tiêu giá cổ phiếu thường của Samsung Electronics tăng lên 251.000 won, cả hai cổ phiếu đều duy trì xếp hạng “tăng trưởng”.

Cốt lõi nhận định của Morgan Stanley là: Thị trường quen với tư duy tuyến tính, trong khi khả năng mở rộng của tầng AI đang tiến nhanh theo cấp số nhân — khi AI chuyển từ “tạo ra câu trả lời” sang “hoàn thành nhiệm vụ”, quy mô nhu cầu bộ nhớ sẽ tăng vọt, và chính sự chuyển đổi này mới chỉ bắt đầu tăng tốc.

“Việc làm” tiêu tốn bộ nhớ nhiều hơn “nghĩ”

Điểm xuất phát trong logic của báo cáo Morgan Stanley là một nhận định tưởng chừng đơn giản nhưng chứa đựng ý nghĩa sâu xa: “Làm việc đòi hỏi nhiều DRAM hơn là suy nghĩ.”

Mô hình hoạt động của các mô hình ngôn ngữ lớn truyền thống (LLM) là quy trình tuyến tính do GPU kiểm soát: nhận câu hỏi, xử lý hàng loạt tất cả các Token đầu vào (giai đoạn tiền điền), sau đó từng Token sinh phản hồi (giai đoạn giải mã), CPU chịu trách nhiệm chuyển đổi kết quả thành văn bản đầu ra. Trong quy trình này, sức mạnh tính toán của GPU là nút cổ chai quyết định, còn DRAM chỉ cần phối hợp để đọc ghi cache.

Sự xuất hiện của AI đại diện đã hoàn toàn thay đổi logic này. Lấy OpenClaw làm ví dụ, trợ lý AI mã nguồn mở này có thể kết nối đồng thời với hơn 50 nền tảng nhắn tin như WhatsApp, Telegram, Slack, Signal, và có quyền hệ thống như tự động hóa trình duyệt, thao tác file, thực thi lệnh dòng, gọi API. Nó không chỉ “trả lời câu hỏi”, mà là “hoàn thành nhiệm vụ” — tìm kiếm trên mạng, đọc tài liệu, gọi công cụ bên ngoài, chạy mã, cuối cùng xuất ra một bộ kết quả hành động được tạo ra qua nhiều bước hợp tác.

Ý nghĩa công nghệ cốt lõi của mô hình chuyển đổi này là: Luồng công việc từ việc dựa vào một lần suy luận GPU mở rộng thành nhiều bước phối hợp, gọi công cụ và điều phối quy trình, thời gian tính toán của CPU thường đóng góp nhiều hơn cho tổng độ trễ. Đồng thời, các hệ thống đa AI cần liên tục chia sẻ ngữ cảnh, tải lên và tải xuống bộ đệm KV (Key-Value Cache), lưu trữ và truy xuất kết quả của từng bước trung gian — bộ nhớ từ vị trí hậu cần của chuỗi sức mạnh tính toán, đã vươn lên thành điểm nút cổ chai chính.

OpenClaw: Bộ lọc cực đoan của nhu cầu bộ nhớ

Morgan Stanley đã phân tích chi tiết về nhu cầu bộ nhớ của OpenClaw, kết luận rằng: Trong các công cụ AI đại diện này, DRAM là yếu tố quyết định, các hạn chế phần cứng khác đều xếp sau.

Công cụ này có hai chế độ vận hành hoàn toàn khác nhau:

Chế độ cổng nhẹ (gateway nhẹ) (gọi API từ xa như Claude hoặc GPT-4): Dù vậy, nút cổ chai không còn nằm ở GPU hay CPU, mà ở việc runtime Node.js chiếm dụng DRAM. Thực tế, mức tối thiểu cần 2GB DRAM, để vận hành ổn định ở quy mô sản xuất, đề xuất cấu hình 4GB.

Chế độ mô hình cục bộ (tải trực tiếp mô hình AI trên thiết bị): DRAM và HBM đồ họa trở thành hai giới hạn song song. Morgan Stanley đề xuất cấu hình 32GB RAM hệ thống; chạy các mô hình 7-8 tỷ tham số cần thêm 8GB RAM đồ họa; các mô hình 13-70 tỷ tham số cần 16-24GB; các mô hình siêu lớn như Llama 3 70B, Qwen 72B thì cần trên 80GB.

Báo cáo đặc biệt nhấn mạnh: hậu quả của thiếu bộ nhớ không phải là giảm hiệu năng, mà là sụp đổ trực tiếp — JavaScript sẽ báo lỗi “heap out of memory” (tràn bộ nhớ heap), dẫn đến thất bại cài đặt và gián đoạn vận hành. Chi tiết này cho thấy rõ tính chất hạn chế cứng của bộ nhớ trong các kịch bản AI đại diện: thiếu bộ nhớ không phải là chậm, mà là “chết”.

Chuyển dịch nút cổ chai tính toán: Từ HBM sang bộ nhớ hệ thống

Đặc điểm nhu cầu bộ nhớ của OpenClaw là hình mẫu của một sự chuyển đổi cấu trúc lớn hơn.

Morgan Stanley chỉ ra rằng, nút cổ chai tính toán AI đang diễn ra một sự dịch chuyển hệ thống: từ việc tập trung vào sức mạnh tính toán sang việc di chuyển dữ liệu, từ HBM sang bộ nhớ hệ thống (DRAM), toàn bộ kiến trúc tầng bộ nhớ đang tiến hóa từ mô hình dựa trên HBM thành cấu trúc đa tầng kết hợp HBM, DRAM và SSD NAND NVMe.

Một trong những động lực kỹ thuật của sự chuyển đổi này là sự bùng nổ nhanh chóng của nhu cầu về ngữ cảnh dài (long context). Bộ đệm KV tăng theo tuyến tính theo số lượng Token, và trong các kịch bản suy luận phân tán (pre-fill và decode disaggregation), cần truyền qua mạng, làm tăng đáng kể gánh nặng quản lý I/O của CPU. Các hoạt động cốt lõi của AI như RAG retrieval, quản lý ngữ cảnh đều liên quan mật thiết đến I/O bộ nhớ dày đặc.

Chứng cứ từ thị trường cũng rõ ràng. Theo Morgan Stanley, gần đây Intel và AMD đều xác nhận rằng các bộ xử lý server có nhiều lõi đã xuất hiện tình trạng cung không đủ cầu thực chất; doanh thu CPU EPYC của AMD lần đầu tiên vượt quá 40% tổng doanh thu CPU server; các instance đám mây trang bị EPYC tăng trưởng hơn 50% theo năm. Nvidia ra mắt CPU Vera bán riêng, ký kết thỏa thuận dài hạn với Meta, lần đầu tiên triển khai CPU độc lập trong các quy mô lớn để hỗ trợ vận hành AI cá nhân.

Giá cả tăng tốc: Chu kỳ giữa, còn nhiều không gian

Sự chuyển đổi cấu trúc này đã thể hiện rõ rệt trên thị trường giá cả.

Về DRAM, trong quý II năm 2026, giá DDR5 của server đã có giao dịch hạn chế với mức tăng hơn 50% so với quý trước, các nhà đám mây quy mô siêu lớn đã chấp nhận mức giá này, một số nhà cung cấp Trung Quốc còn đưa ra giá cao hơn. Đến cuối tháng 2, giá hợp đồng DDR4 64GB đã lên tới 910-920 USD, cao hơn khoảng 20% so với mức trung bình quý I là 800 USD. Giá DDR3L và các loại DRAM liên quan đến điện tử tiêu dùng dự kiến tăng ít nhất 40%-50% trong quý II; giá hợp đồng DDR4 cũng dự kiến tăng 40%-50%. Trước đó, dự đoán giảm giá 20%-25% cho HBM3E đã chuyển thành tăng giá nhẹ trong phạm vi số đơn vị phần trăm trong các hợp đồng gia hạn với khách hàng ASIC.

Về NAND, giá SSD doanh nghiệp dự kiến tăng 40%-50% so với quý trước, các sản phẩm tiêu dùng dự kiến tăng ít nhất 60%, trong một số kịch bản, giá eSSD có thể tăng gấp đôi trong quý II.

Morgan Stanley cho rằng, xu hướng tăng giá theo năm vẫn tiếp tục, hiện vẫn còn trong giai đoạn chu kỳ tăng trưởng. Khi thị trường điều chỉnh dự báo lợi nhuận để phản ánh đúng mức độ hạn chế công suất chưa từng có này, các mã liên quan có khả năng phục hồi rõ rệt; việc điều chỉnh tăng lợi nhuận vốn có thể thúc đẩy hiệu suất vượt trội hơn nữa.

"Tôm hùm" cho "bộ nhớ" "kéo dài tuổi thọ" đáng kể?

“Việc làm” tiêu tốn bộ nhớ nhiều hơn “nghĩ”

OpenClaw: Bộ lọc cực đoan của nhu cầu bộ nhớ

Chuyển dịch nút cổ chai tính toán: Từ HBM sang bộ nhớ hệ thống

Giá cả tăng tốc: Chu kỳ giữa, còn nhiều không gian

Chủ đề thịnh hành

Gate13thAnniversaryGlobalCelebration

TradFiIntroducesMultiLeverageFirst

IsraelStrikesIranBTCPlunges

FedHoldsRatesSteady

CreatorLeaderboard

Gate Fun hot

绿帽狗

绿帽狗

ass

trump

🐱

xiaomao

$

NVIDIA

ElizaOSv2

全新AI开源框架

Ghim