Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Hiểu rõ Cerebras: sức mạnh tính toán thúc đẩy suy nghĩ AI, trí nhớ trao quyền cho Agent hành động
Tác giả: Ben Thompson
Tổng sức mạnh tính toán giúp AI học cách suy nghĩ, trí nhớ giúp Agent học cách làm việc.
Tuần này Cerebras niêm yết, bài viết mới nhất của Ben Thompson đã phân tích rõ: AI từ “trò chuyện” tiến hóa thành “thực thi nhiệm vụ tự chủ”, toàn bộ kiến trúc chip đã thay đổi giới hạn.
Bạn chờ đợi tốc độ khi trò chuyện với豆包; khi Kimi Claw chạy giúp bạn nhiệm vụ 5 giờ, nó không quan tâm nhanh hơn 3 giây hay chậm hơn 30 giây—nó quan tâm liệu có thể nhớ ngữ cảnh, có thể duy trì công việc không. Mỗi bước thực thi, bộ nhớ làm việc (KV Cache) sẽ mở rộng thêm một lớp. GPU được thiết kế cho “người dùng chờ trước màn hình”: prefill thì bộ nhớ GPU trống rỗng, decode thì tính toán trống rỗng—một nửa thời gian để chờ đợi.
Thật ra, không phải tốc độ tính toán mới là giới hạn, mà là khả năng lưu trữ được bao nhiêu, đọc ra nhanh thế nào. Về bản chất, agent chạy lâu dài khiến KV Cache biến từ bộ nhớ tạm thời thành bộ nhớ làm việc lâu dài. Ai có thể giữ bộ nhớ này lâu hơn, tái sử dụng hiệu quả hơn, chi phí thấp hơn, người đó nắm giữ chìa khóa của nền kinh tế Agent.
Điều này còn quan trọng hơn cả điểm số chạy thử.
Về thời điểm niêm yết, làm một công ty chip vào tháng 5 năm 2026 gần như là lý tưởng nhất. Reuters cuối tuần đưa tin:
Chuyến tăng giá liên tục của cổ phiếu bán dẫn chủ yếu do AI—đặc biệt là khi thị trường dần nhận thức: Các agent thông minh sẽ tiêu thụ lượng lớn sức mạnh tính toán (Compute). Nhưng tuyên bố của Cerebras còn rộng hơn: Cho đến nay, câu chuyện về sức mạnh tính toán của AI gần như chỉ xoay quanh GPU, chỉ về Nvidia; còn tương lai, bức tranh sẽ ngày càng dị dạng (Heterogeneous).
Thời đại GPU
Câu chuyện về cách GPU trở thành trung tâm AI đã quá quen thuộc, tóm tắt:
Như việc vẽ pixel trên màn hình là một quá trình song song (Parallel process)—số lượng đơn vị xử lý càng nhiều, hình ảnh render càng nhanh—tương tự, tính toán AI cũng vậy: số lượng đơn vị xử lý quyết định tốc độ tính toán.
Nvidia đã nắm bắt xu thế này một cách thuận lợi: biến bộ xử lý đồ họa thành thiết bị có thể lập trình (Programmable), đồng thời với hệ sinh thái phần mềm đầy đủ CUDA, đưa khả năng lập trình này đến tất cả các nhà phát triển.
Sự khác biệt căn bản giữa đồ họa và AI nằm ở quy mô vấn đề—mô hình lớn hơn nhiều textures trong game. Từ đó dẫn đến hai chu trình tiến hóa liên tiếp: dung lượng bộ nhớ băng thông cao (HBM, High-bandwidth memory) trên mỗi GPU tăng vọt; liên kết giữa các chip (Chip-to-chip networking) cũng có bước đột phá, cho phép nhiều GPU hợp tác như một hệ thống có thể định địa chỉ (Addressable system). Nvidia dẫn đầu cả hai xu hướng này.
Ứng dụng chính của GPU luôn là huấn luyện (training), và huấn luyện đặc biệt khắt khe với điểm thứ ba. Mỗi bước huấn luyện nội bộ rất song song, nhưng các bước lại theo trình tự: trước khi chuyển sang bước tiếp, mỗi GPU phải đồng bộ kết quả với các GPU khác. Đó là lý do một mô hình trăm tỷ tham số (Trillion-parameter) phải được chứa trong hàng chục nghìn GPU, và các GPU này phải giao tiếp như một máy móc thống nhất. Nvidia đã thống trị hai vấn đề này: một là kiểm soát nguồn cung HBM trước toàn ngành, hai là đầu tư dài hạn vào công nghệ mạng lưới.
Tất nhiên, huấn luyện không phải là công việc duy nhất của AI, còn một phần quan trọng nữa là suy luận (Inference). Suy luận gồm ba phần chính:
1、Pre-fill (Tiền điền): mã hóa tất cả nội dung cần thiết của mô hình ngôn ngữ lớn (LLM) thành trạng thái hiểu được; quá trình này rất song song, đòi hỏi sức mạnh tính toán cao.
2、Decode phần 1: đọc KV Cache—chứa ngữ cảnh, bao gồm đầu ra của giai đoạn pre-fill—để tính attention. Đây là bước theo băng thông cực kỳ quan trọng, và yêu cầu bộ nhớ biến đổi liên tục, ngày càng lớn.
3、Decode phần 2: thực hiện tính toán phản hồi theo chiều tiến (Feed-forward) trên trọng số mô hình; cũng là bước serial đòi hỏi băng thông cao, và yêu cầu bộ nhớ phụ thuộc vào kích thước mô hình.
Hai bước decode này luân phiên nhau qua từng lớp của mô hình (chúng chạy xen kẽ chứ không thuần tuý theo trình tự), nghĩa là, decode là quá trình serial, bị giới hạn bởi băng thông bộ nhớ (Memory-bandwidth bound). Mỗi token sinh ra đều phải đọc đầy đủ hai vùng bộ nhớ khác nhau: KV cache lưu ngữ ngữ cảnh và tăng dần theo token, cùng với trọng số mô hình. Cả hai đều cần đọc đầy đủ để tạo ra một token đầu ra duy nhất.
GPU hoàn hảo đáp ứng ba yêu cầu này: cung cấp sức mạnh tính toán cao cho pre-fill, đủ HBM cho KV cache và trọng số, và khi bộ nhớ của một GPU không đủ, có thể hợp nhất bộ nhớ qua liên kết chip. Nói cách khác, kiến trúc phù hợp cho huấn luyện cũng phù hợp cho suy luận—như thương vụ SpaceX và Anthropic đã thể hiện. Trong blog chính thức, Anthropic nói:
SpaceX giữ lại Colossus 2—dự đoán dùng cho huấn luyện mô hình tương lai, cũng như suy luận mô hình hiện tại. Việc họ có thể làm cả hai cùng lúc trong cùng một trung tâm dữ liệu là nhờ mô hình xAI hiện tại chưa sử dụng nhiều; quan trọng hơn, họ làm được điều này vì cả huấn luyện lẫn suy luận đều có thể thực hiện trên GPU. Thực tế, các GPU mà Anthropic ký hợp đồng ban đầu dùng cho huấn luyện, nay dùng cho suy luận—tính linh hoạt của GPU là lợi thế lớn.
Phân tích Cerebras
Sản phẩm của Cerebras hoàn toàn khác biệt. Trong khi silicon wafer có đường kính 300mm, thì “giới hạn reticle”—tức là diện tích tối đa có thể chiếu sáng trên wafer bằng công cụ quang khắc—khoảng 26mm x 33mm. Đây là giới hạn kích thước hiệu quả của chip; vượt quá giới hạn này, cần liên kết các chip riêng lẻ qua lớp trung gian, như Nvidia đã làm trên B200. Cerebras phát minh ra phương pháp đi dây qua “dây cắt” (Scribe lines, tức các đường giới hạn giữa các vùng quang khắc), biến toàn bộ wafer thành một chip duy nhất, không cần liên kết chip chậm chạp.
Kết quả là: một chip có sức mạnh tính toán khủng khiếp, với lượng SRAM khổng lồ và tốc độ truy cập cực nhanh. So sánh dữ liệu: WSE-3 mới nhất của Cerebras có 44GB SRAM tích hợp, băng thông đạt 21 PB/s; trong khi H100 của Nvidia có 80GB HBM, băng thông 3.35 TB/s. Nói cách khác, dù SRAM của WSE-3 chỉ bằng một nửa H100 về dung lượng, băng thông bộ nhớ của nó gấp 6000 lần.
Lý do so sánh WSE-3 với H100 là vì H100 là chip phổ biến nhất trong suy luận hiện nay, và suy luận rõ ràng là thế mạnh của Cerebras. Bạn có thể dùng Cerebras để huấn luyện, nhưng liên kết chip của nó không hấp dẫn, nghĩa là phần lớn sức mạnh và bộ nhớ trên chip bị bỏ phí; điều quan trọng là nó có thể sinh token nhanh hơn GPU nhiều lần.
Tuy nhiên, giới hạn của huấn luyện cũng tồn tại trong suy luận: miễn là dữ liệu có thể nằm trong bộ nhớ của chip, tốc độ của Cerebras là tối đa; khi yêu cầu bộ nhớ vượt quá giới hạn (mô hình lớn hơn, hoặc KV cache dài hơn), Cerebras không còn hợp lý, đặc biệt về chi phí. Công nghệ “toàn bộ wafer thành chip” đòi hỏi tỷ lệ thành công cao, gây khó khăn lớn về sản lượng, đẩy chi phí lên cao.
Tuy nhiên, tôi thực sự nghĩ rằng các chip kiểu Cerebras sẽ có thị trường: hiện tại, công ty nhấn mạnh tốc độ phù hợp cho lập trình—suy luận đòi hỏi sinh ra lượng token lớn, tức là tăng tốc sinh token mỗi giây, tương đương với tốc độ suy nghĩ nhanh hơn. Nhưng tôi cho rằng đây chỉ là một trường hợp dùng tạm thời, lý do sẽ giải thích sau. Điều thực sự quan trọng là con người mất bao lâu để nhận được câu trả lời, và khi AI ngày càng phổ biến trong thiết bị đeo, tương tác nhanh (đặc biệt là qua giọng nói, phụ thuộc vào tốc độ sinh token) sẽ ảnh hưởng lớn đến trải nghiệm người dùng.
Thông minh Agent suy luận Agentic Inference
Trước đây tôi từng đề cập, trong thời đại LLM, chúng ta đã trải qua ba bước ngoặt:
1、ChatGPT chứng minh tính thực dụng của dự đoán token.
2、o1 giới thiệu khái niệm suy luận, tức là nhiều token hơn, câu trả lời tốt hơn.
3、Opus 4.5 và Claude Code giới thiệu các Agent đầu tiên, có thể dùng mô hình suy luận và bộ khung gồm công cụ, kiểm tra công việc để hoàn thành nhiệm vụ thực tế.
Dù đều thuộc phạm trù “suy luận”, tôi cho rằng, việc cung cấp câu trả lời—tôi gọi là “suy luận đáp ứng” (Answer inference)—khác biệt rõ ràng với việc thực thi nhiệm vụ—tôi gọi là “suy luận Agentic” (Agentic inference). Thị trường mục tiêu của Cerebras là “suy luận đáp ứng”; còn về lâu dài, tôi nghĩ, kiến trúc “suy luận Agentic” sẽ khác hẳn so với con đường của Cerebras hay GPU.
Tôi đã đề cập, tốc độ suy luận nhanh cho lập trình chỉ là tạm thời. Cụ thể, hiện tại, lập trình bằng LLM vẫn cần có con người tham gia: định nghĩa nhiệm vụ, kiểm tra mã, gửi PR… Nhưng không khó dự đoán, trong tương lai, tất cả sẽ do máy xử lý hoàn toàn. Điều này sẽ phổ biến trong công việc của các agent: sức mạnh thực sự của agent không nằm ở việc làm việc thay con người, mà là làm việc độc lập, không cần con người can thiệp.
Tương tự, cách giải quyết cho suy luận Agentic sẽ khác xa so với đáp ứng. Đáp ứng yêu cầu tốc độ token; còn suy luận Agentic lại đặt nặng về bộ nhớ (Memory). Agent cần ngữ cảnh, trạng thái, lịch sử. Một phần nằm trong KV cache hoạt động tích cực, phần khác nằm trong bộ nhớ chính hoặc SSD, phần lớn hơn nằm trong cơ sở dữ liệu, logs, embedding, object storage. Điểm mấu chốt: suy luận Agentic sẽ không còn là GPU trả lời một câu hỏi đơn thuần, mà là hệ thống bộ nhớ phức tạp dựa trên mô hình.
Điều cực kỳ quan trọng là, hệ thống bộ nhớ đặc thù cho agent này mang ý nghĩa của một sự đánh đổi tất yếu: đổi tốc độ lấy dung lượng. Và, nếu hệ thống không có con người tham gia trực tiếp, thì tốc độ thấp hơn không còn là vấn đề cốt lõi. Nếu một agent chạy đêm, nó không quan tâm độ trễ ảnh hưởng đến trải nghiệm người dùng; nó chỉ cần hoàn thành nhiệm vụ. Nếu phương pháp bộ nhớ mới cho phép thực hiện các nhiệm vụ phức tạp, thì một chút độ trễ cũng chấp nhận được.
Trong khi đó, nếu độ trễ không còn là hạn chế hàng đầu, thì việc theo đuổi hiệu năng tối đa và bộ nhớ băng thông cao (HBM) trở nên không còn phù hợp: nếu độ trễ không còn là giới hạn cứng, thì bộ nhớ chậm hơn, rẻ hơn (như DRAM truyền thống) sẽ hấp dẫn hơn. Nếu toàn bộ hệ thống chủ yếu chờ phản hồi từ bộ nhớ, thì chip cũng không cần tiến trình công nghệ mới nhất. Điều này sẽ dẫn đến cuộc cách mạng kiến trúc sâu sắc, nhưng không có nghĩa là kiến trúc hiện tại sẽ biến mất:
Huấn luyện (Training): vẫn sẽ tiếp tục quan trọng, kiến trúc của Nvidia (sức mạnh cao, bộ nhớ băng thông cao, mạng tốc độ cao) sẽ vẫn thống trị.
Suy luận đáp ứng (Answer inference): sẽ là thị trường nhỏ hơn, nhưng quan trọng, với tốc độ cực cao (như Cerebras hoặc Groq) sẽ rất hữu ích.
Suy luận Agentic: sẽ dần tách rời khỏi GPU. Nhược điểm của GPU trong pre-fill lãng phí bộ nhớ, trong decode lãng phí tính toán sẽ lộ rõ. Thay vào đó, hệ thống có dung lượng lớn, chi phí thấp, đủ sức mạnh sẽ lên ngôi, thậm chí tốc độ xử lý công cụ của CPU còn quan trọng hơn GPU.
Ngoài ra, các loại này về quy mô và tầm ảnh hưởng không ngang nhau. Cụ thể, suy luận Agentic sẽ là thị trường lớn nhất trong tương lai, vì nó không bị giới hạn bởi số lượng con người hay thời gian. Các agent ngày nay chỉ là dạng “đáp ứng phức tạp”, còn tương lai, agent thực sự sẽ là hệ thống máy tính tự hoàn thành công việc theo lệnh của các máy khác, quy mô thị trường không phụ thuộc dân số, mà phụ thuộc vào sức mạnh tính toán mở rộng.
Suy luận Agentic và những bài học về sức mạnh tính toán
Cho đến nay, khi nhắc đến “mở rộng theo sức mạnh tính toán” thường là ủng hộ Nvidia. Tuy nhiên, lợi thế của Nvidia phần lớn dựa trên độ trễ: chip Nvidia rất nhanh, nhưng để giữ cho sức mạnh không bị lãng phí, cần đầu tư lớn vào mở rộng HBM và mạng lưới. Nếu độ trễ không còn là giới hạn cứng, thì chiến lược của Nvidia có thể không còn đáng giá nữa.
Nvidia cũng đã nhận ra điều này: họ ra mắt Dynamo, một khung suy luận giúp phân tách các phần của quá trình suy luận, cùng với các sản phẩm bộ nhớ và CPU riêng biệt để mở rộng bộ nhớ KV và tăng tốc gọi công cụ, nhằm giữ cho GPU đắt tiền luôn bận rộn. Nhưng cuối cùng, các nhà cung cấp đám mây quy mô lớn có thể sẽ tìm giải pháp thay thế trong các nhiệm vụ suy luận agentic không bị giới hạn bởi GPU, để tối ưu chi phí và đơn giản.
Trong khi đó, Trung Quốc dù thiếu sức mạnh tính toán hàng đầu, nhưng lại có đủ mọi thứ cần thiết cho suy luận agentic: GPU đủ nhanh, CPU đủ nhanh, DRAM, ổ cứng… Thách thức chính là sức mạnh tính toán cho huấn luyện; còn đáp ứng, đặc biệt trong an ninh quốc gia (như quân sự), có thể còn quan trọng hơn.
Một góc nhìn thú vị khác là không gian (Space): chip chậm hơn lại làm cho các trung tâm dữ liệu ngoài không gian khả thi hơn. Thứ nhất, nếu bộ nhớ có thể gắn ngoài, chip có thể đơn giản hơn, mát hơn. Thứ hai, công nghệ cũ có kích thước lớn hơn, chống chịu bức xạ tốt hơn. Thứ ba, quy trình cũ tiêu thụ ít năng lượng hơn, tản nhiệt dễ hơn. Thứ tư, công nghệ cũ ít đòi hỏi độ chính xác cao hơn, độ tin cậy cao hơn—rất phù hợp cho vệ tinh không thể sửa chữa.
CEO Nvidia Huang Renxun thường nói “Định luật Moore đã chết”; ý ông là tốc độ tăng trưởng trong tương lai sẽ dựa vào đổi mới hệ thống. Tuy nhiên, khi agent có thể hoạt động độc lập khỏi con người, bài học sâu sắc nhất có thể là: Định luật Moore đã không còn quan trọng nữa. Chúng ta có thể có nhiều sức mạnh tính toán hơn bằng cách nhận ra rằng, thực ra, chúng ta đã có đủ rồi.