Tuần này Cerebras niêm yết, bài viết mới nhất của Ben Thompson đã phân tích rõ: AI từ “trò chuyện” tiến hóa thành “thực thi nhiệm vụ tự chủ”, toàn bộ kiến trúc chip đã thay đổi.

Bạn trò chuyện với豆包 là để tốc độ; khi Kimi Claw chạy giúp bạn nhiệm vụ 5 giờ, nó không quan tâm nhanh 3 giây hay chậm 30 giây—nó quan tâm liệu có thể ghi nhớ ngữ cảnh, duy trì công việc hay không. Mỗi bước thực thi, bộ nhớ làm việc (KV Cache) sẽ mở rộng thêm một lớp. GPU được thiết kế cho “người trước màn hình chờ đợi”: prefill thì bộ nhớ GPU trống rỗng, decode thì tính toán trống rỗng—một nửa thời gian đang chờ đợi.

Thật sự gây cản trở không phải là tốc độ tính toán, mà là khả năng lưu trữ được bao nhiêu, đọc ra nhanh thế nào. Về bản chất, agent chạy lâu dài khiến KV Cache biến từ bộ nhớ tạm thời thành bộ nhớ làm việc lâu dài. Ai có thể giữ bộ nhớ này lâu hơn, tái sử dụng hiệu quả hơn, chi phí thấp hơn, người đó nắm giữ chìa khóa của nền kinh tế Agent.

Điều này còn quan trọng hơn cả điểm số chạy thử.

Về thời điểm niêm yết, làm một công ty chip vào tháng 5 năm 2026 gần như là lý tưởng nhất. Reuters cuối tuần đưa tin:

Hai nguồn tin thân cận ngày Chủ nhật cho biết, do nhu cầu thị trường đối với cổ phiếu của công ty chip AI này liên tục tăng, Cerebras Systems sẽ sớm điều chỉnh quy mô phát hành và giá chào bán lần đầu ra công chúng (IPO) vào thứ Hai. Các nguồn tin cho biết, công ty đang xem xét nâng mức giá dự kiến từ 115–125 USD mỗi cổ lên 150–160 USD, số lượng cổ phần phát hành cũng từ 28 triệu lên 30 triệu; do chưa công bố chính thức, cả hai đều yêu cầu giấu tên.

Chuyến tăng giá liên tục của cổ phiếu bán dẫn chủ yếu do AI—đặc biệt là khi thị trường dần nhận thức: Các agent thông minh sẽ tiêu thụ lượng lớn sức mạnh tính toán (Compute). Nhưng tuyên ngôn của Cerebras còn rộng hơn: Cho đến nay, câu chuyện về sức mạnh tính toán của AI gần như chỉ xoay quanh GPU, chỉ về Nvidia; còn tương lai, bức tranh sẽ ngày càng dị dạng (Heterogeneous).

Thời đại GPU

Câu chuyện làm thế nào GPU trở thành trung tâm AI đã quá quen thuộc, tóm tắt:

Như việc vẽ pixel trên màn hình là một quá trình song song (Parallel process)—số lượng đơn vị xử lý càng nhiều, đồ họa render càng nhanh—tương tự, tính toán AI cũng vậy: số lượng đơn vị xử lý quyết định tốc độ tính toán.
Nvidia đã nắm bắt xu thế này một cách thuận lợi: biến bộ xử lý đồ họa thành có thể lập trình (Programmable), đồng thời với hệ sinh thái phần mềm đầy đủ CUDA, đưa khả năng lập trình này đến tất cả các nhà phát triển.
Sự khác biệt căn bản giữa đồ họa và AI nằm ở quy mô vấn đề—mô hình lớn hơn nhiều textures trong game. Từ đó dẫn đến hai chu trình tiến hóa liên tiếp: dung lượng bộ nhớ băng thông cao (HBM, High-bandwidth memory) trên mỗi GPU tăng vọt; liên kết giữa các chip (Chip-to-chip networking) cũng có bước đột phá, cho phép nhiều GPU hợp tác như một hệ thống có thể định địa chỉ (Addressable system). Nvidia dẫn đầu cả hai xu hướng này.
Ứng dụng chính của GPU luôn là huấn luyện (training), và huấn luyện đặc biệt đòi hỏi cao ở điểm thứ ba. Mỗi bước huấn luyện nội bộ rất song song, nhưng các bước lại theo chuỗi: trước khi chuyển sang bước tiếp theo, mỗi GPU phải đồng bộ kết quả của mình với các GPU khác. Đó là lý do một mô hình trăm tỷ tham số (Trillion-parameter) phải được chứa trong hàng chục nghìn GPU, và các GPU này phải giao tiếp như một máy móc thống nhất. Nvidia đã thống trị hai vấn đề này: một là kiểm soát nguồn cung HBM trước toàn ngành, hai là đầu tư dài hạn vào công nghệ mạng lưới.

Tất nhiên, huấn luyện không phải là công việc duy nhất của AI, còn một phần quan trọng nữa là suy luận (Inference). Suy luận gồm ba phần chính:

1. Pre-fill (Tiền điền): mã hóa tất cả nội dung cần thiết của mô hình ngôn ngữ lớn (LLM) thành trạng thái hiểu được; quá trình này rất song song, đòi hỏi sức mạnh tính toán cao.

2. Decode phần 1: đọc KV cache (bộ nhớ đệm KV)—chứa ngữ cảnh, bao gồm đầu ra của giai đoạn pre-fill—để tính toán attention. Đây là bước theo băng thông cực kỳ quan trọng, và yêu cầu bộ nhớ biến đổi theo từng thời điểm, ngày càng lớn.

3. Decode phần 2: thực hiện tính toán phản hồi theo chiều tiến (Feed-forward) trên trọng số mô hình; cũng là bước theo băng thông quan trọng, yêu cầu bộ nhớ phụ thuộc vào kích thước mô hình.

Hai bước decode này luân phiên xen kẽ qua từng lớp của mô hình (chúng chạy xen kẽ chứ không thuần tuý theo trình tự), nghĩa là, decode là quá trình serial, bị giới hạn bởi băng thông bộ nhớ (Memory-bandwidth bound). Mỗi token sinh ra đều phải đọc đầy đủ hai vùng bộ nhớ khác nhau: KV cache lưu ngữ ngữ cảnh và tăng dần theo token, cùng với trọng số mô hình. Cả hai đều cần đọc đầy đủ để tạo ra một token đầu ra duy nhất.

GPU hoàn hảo đáp ứng ba yêu cầu này: cung cấp sức mạnh tính toán cao cho pre-fill, đủ HBM cho KV cache và trọng số, đồng thời khi bộ nhớ của một GPU không đủ, có thể hợp nhất bộ nhớ qua liên kết chip. Nói cách khác, kiến trúc phù hợp cho huấn luyện cũng phù hợp cho suy luận—nhìn vào thỏa thuận giữa SpaceX và Anthropic là rõ. Trong blog chính thức, Anthropic nói:

“Chúng tôi đã ký hợp đồng sử dụng toàn bộ công suất tính toán của trung tâm dữ liệu SpaceX Colossus 1. Điều này giúp chúng tôi có hơn 300 MW công suất mới (hơn 220.000 GPU Nvidia). Điều này trực tiếp nâng cao khả năng phục vụ của Claude Pro và Claude Max.”

SpaceX giữ lại Colossus 2—dự đoán dùng cho huấn luyện mô hình tương lai hoặc suy luận mô hình hiện tại. Việc họ có thể làm cả hai cùng lúc trong cùng một trung tâm dữ liệu là nhờ mô hình xAI hiện tại chưa sử dụng nhiều; quan trọng hơn, là vì cả huấn luyện lẫn suy luận đều có thể thực hiện trên GPU. Thực tế, các GPU mà Anthropic ký hợp đồng ban đầu dùng cho huấn luyện, nay dùng cho suy luận—tính linh hoạt của GPU là lợi thế lớn.

Phân tích Cerebras

Sản phẩm của Cerebras hoàn toàn khác biệt. Trong khi silicon wafer có đường kính 300mm, thì “giới hạn reticle”—tức là diện tích tối đa có thể chiếu sáng bằng công cụ quang khắc trên wafer—khoảng 26mm x 33mm. Đây là giới hạn kích thước hiệu quả của chip; vượt quá giới hạn này, cần liên kết các chip riêng lẻ qua lớp trung gian, như Nvidia đã làm trên B200. Cerebras phát minh ra phương pháp đi dây qua các “dây cắt” (Scribe lines, tức là các đường biên giữa các vùng quang khắc), biến toàn bộ wafer thành một chip duy nhất, không cần liên kết chip chậm chạp.

Kết quả là: một chip có sức mạnh tính toán khủng khiếp, SRAM khổng lồ, tốc độ truy cập cực nhanh. So sánh dữ liệu: WSE-3 của Cerebras có 44GB SRAM tích hợp, băng thông đạt 21 PB/s; trong khi H100 của Nvidia có 80GB HBM, băng thông 3.35 TB/s. Nói cách khác, dù bộ nhớ của WSE-3 chỉ bằng hơn một nửa H100, băng thông bộ nhớ của nó gấp 6000 lần.

Lý do so sánh WSE-3 với H100 là vì H100 là chip phổ biến nhất trong suy luận hiện nay, và suy luận rõ ràng là thế mạnh của Cerebras. Bạn có thể dùng Cerebras để huấn luyện, nhưng liên kết chip của nó không hấp dẫn, nghĩa là phần lớn sức mạnh và bộ nhớ tích hợp bị bỏ phí; điều thực sự có ý nghĩa là nó có thể sinh token nhanh hơn GPU nhiều lần.

Tuy nhiên, hạn chế của huấn luyện cũng tồn tại trong suy luận: miễn là dữ liệu có thể nằm trong bộ nhớ của chip, tốc độ của Cerebras là tối ưu; khi yêu cầu bộ nhớ vượt quá giới hạn (mô hình lớn hơn, hoặc KV cache dài hơn), Cerebras sẽ không còn phù hợp, đặc biệt là về chi phí. Công nghệ “toàn bộ wafer thành chip” đòi hỏi tỷ lệ thành công cao, gây khó khăn lớn, đẩy chi phí lên cao.

Trong khi đó, tôi thực sự nghĩ rằng các chip theo phong cách Cerebras sẽ có thị trường: hiện tại, công ty nhấn mạnh tốc độ là yếu tố thực tiễn cho lập trình—suy luận đòi hỏi sinh ra nhiều token, tức là tăng tốc sinh token mỗi giây, tương đương với tốc độ suy nghĩ nhanh hơn. Nhưng tôi cho rằng đây chỉ là một trường hợp tạm thời, lý do sẽ giải thích sau. Điều thực sự quan trọng là con người mất bao lâu để nhận được câu trả lời, và khi các thiết bị AI đeo, các sản phẩm tương tác (đặc biệt là thoại) ngày càng phổ biến, tốc độ sinh token (tương tác) sẽ ảnh hưởng lớn đến trải nghiệm người dùng.

Thông minh Agent suy luận Agentic Inference

Trước đây tôi từng đề cập, trong thời đại LLM, chúng ta đã trải qua ba bước ngoặt:

1. ChatGPT chứng minh tính thực dụng của dự đoán token.

2. o1 giới thiệu khái niệm suy luận, tức là nhiều token hơn, câu trả lời tốt hơn.

3. Opus 4.5 và Claude Code giới thiệu các Agent đầu tiên, có thể dùng mô hình suy luận và bộ khung gồm công cụ, kiểm tra công việc để hoàn thành nhiệm vụ thực tế.

Dù đều thuộc phạm trù “suy luận”, tôi cho rằng, việc cung cấp câu trả lời—tôi gọi là “suy luận đáp ứng” (Answer inference)—và thực thi nhiệm vụ—tôi gọi là “suy luận Agentic”—ngày càng rõ ràng phân biệt. Thị trường mục tiêu của Cerebras là “suy luận đáp ứng”; còn về lâu dài, tôi nghĩ, kiến trúc “suy luận Agentic” sẽ khác hẳn với con đường của Cerebras hay GPU.

Trước đây tôi đã đề cập, tốc độ suy luận nhanh cho lập trình chỉ là tạm thời. Cụ thể, hiện tại, lập trình bằng LLM vẫn cần có con người tham gia: định nghĩa nhiệm vụ, kiểm tra mã, gửi pull request (PR)… Tuy nhiên, không khó để hình dung tương lai mọi thứ này sẽ do máy hoàn toàn xử lý. Điều này sẽ phổ biến trong các tác vụ của agent: sức mạnh thực sự của agent không nằm ở việc làm việc cho con người, mà là làm việc độc lập, không cần can thiệp của con người.

Tương tự, giải pháp tốt nhất cho suy luận agentic sẽ khác xa so với đáp ứng. Đáp ứng đòi hỏi tốc độ token cao; còn suy luận agentic lại đặt nặng về bộ nhớ (Memory). Agent cần ngữ cảnh, trạng thái, lịch sử. Một phần nằm trong KV cache hoạt động tích cực, phần khác nằm trong bộ nhớ chính hoặc SSD, phần lớn hơn nữa nằm trong cơ sở dữ liệu, nhật ký, embedding, lưu trữ đối tượng. Điểm mấu chốt: suy luận agentic sẽ không chỉ là GPU trả lời một câu hỏi, mà còn là hệ thống bộ nhớ phức tạp xây quanh mô hình.

Điều cực kỳ quan trọng là, bộ nhớ đặc thù của agentic gợi ý một sự đánh đổi tất yếu: tăng tốc độ đổi lấy dung lượng. Và, nếu hệ thống không có con người tham gia trực tiếp, thì tốc độ chậm hơn không còn là vấn đề cốt lõi. Nếu một agent chạy qua đêm, nó không quan tâm đến độ trễ ảnh hưởng trải nghiệm người dùng; nó chỉ cần hoàn thành nhiệm vụ. Nếu phương pháp bộ nhớ mới cho phép thực hiện các nhiệm vụ phức tạp, thì một chút độ trễ cũng chấp nhận được.

Trong khi đó, nếu độ trễ không còn là yếu tố hàng đầu, thì việc theo đuổi hiệu năng tối đa và bộ nhớ băng thông cao (HBM) trở nên không hợp lý: nếu độ trễ không còn là giới hạn cứng, thì bộ nhớ chậm hơn, rẻ hơn (như DRAM truyền thống) sẽ hấp dẫn hơn. Nếu toàn bộ hệ thống chủ yếu chờ phản hồi từ bộ nhớ, thì chip cũng không cần tiến trình công nghệ mới nhất. Điều này sẽ dẫn đến sự thay đổi sâu sắc về kiến trúc, nhưng không có nghĩa là kiến trúc hiện tại sẽ biến mất:

Huấn luyện (Training): vẫn sẽ tiếp tục quan trọng, kiến trúc của Nvidia (sức mạnh cao, bộ nhớ băng thông lớn, mạng lưới tốc độ cao) sẽ vẫn thống trị.

Suy luận đáp ứng (Answer inference): sẽ là thị trường nhỏ hơn, nhưng quan trọng, với tốc độ cực cao (như Cerebras hoặc Groq) sẽ rất hữu ích.

Suy luận agentic (Agentic inference): sẽ dần tách rời khỏi GPU. GPU trong pre-fill lãng phí bộ nhớ, trong decode lãng phí tính toán—những điểm yếu này sẽ nổi bật. Thay vào đó, hệ thống có dung lượng bộ nhớ lớn, chi phí thấp, đủ sức mạnh để “đủ tốt”. Thực tế, tốc độ xử lý công cụ của CPU còn có thể nhanh hơn GPU.

Ngoài ra, các loại này về quy mô và tầm ảnh hưởng không ngang nhau. Cụ thể, suy luận agentic sẽ là thị trường lớn nhất trong tương lai, vì nó không bị giới hạn bởi số lượng con người hay thời gian. Hiện tại, các agent chỉ là dạng “đáp ứng phô trương”; còn trong tương lai, các agent thực sự sẽ là các máy tính tự hoàn thành công việc theo lệnh của các máy tính khác, quy mô thị trường không phụ thuộc dân số, mà phụ thuộc vào sức mạnh tính toán mở rộng.

Ảnh hưởng của suy luận agentic đến sức mạnh tính toán

Cho đến nay, nói “tăng sức mạnh tính toán theo quy mô” thường đi kèm kỳ vọng Nvidia. Tuy nhiên, lợi thế tương đối của Nvidia phần lớn dựa trên độ trễ: chip Nvidia có tốc độ tính toán cực nhanh, nhưng để giữ cho sức mạnh không bị lãng phí, cần đầu tư lớn vào mở rộng HBM và mạng lưới. Nếu độ trễ không còn là giới hạn cứng, thì chiến lược của Nvidia có thể không còn đáng giá nữa.

Nvidia cũng đã nhận ra điều này: họ ra mắt Dynamo, khung suy luận giúp phân tách các phần của quá trình suy luận, cùng các sản phẩm bộ nhớ và CPU riêng biệt để mở rộng bộ nhớ KV và tăng tốc gọi công cụ, giữ cho GPU đắt tiền luôn bận rộn. Nhưng cuối cùng, các nhà cung cấp đám mây quy mô lớn có thể sẽ tìm giải pháp thay thế trong các tác vụ suy luận agentic không bị giới hạn bởi GPU, để tối ưu chi phí và đơn giản.

Trong khi đó, Trung Quốc dù thiếu sức mạnh tính toán hàng đầu, nhưng lại có đủ mọi thứ cần thiết cho suy luận agentic: GPU đủ nhanh, CPU đủ nhanh, DRAM, ổ cứng… Thách thức chính là sức mạnh cho huấn luyện; còn đáp ứng phán đoán (answer inference) có thể còn quan trọng hơn trong an ninh quốc gia (đặc biệt là quân sự).

Một góc nhìn thú vị khác là không gian (Space): chip chậm hơn lại làm cho các trung tâm dữ liệu ngoài không gian trở nên khả thi hơn. Thứ nhất, nếu bộ nhớ có thể gắn ngoài, thì chip có thể đơn giản hơn, mát hơn. Thứ hai, quy trình cũ có kích thước lớn hơn có thể chống chịu tốt hơn với bức xạ vũ trụ. Thứ ba, quy trình cũ tiêu thụ ít năng lượng hơn, giảm áp lực làm mát. Thứ tư, quy trình cũ không đòi hỏi công nghệ tiên tiến nhất, độ tin cậy cao hơn, rất phù hợp cho vệ tinh không thể sửa chữa.

CEO Nvidia Huang Renxun thường nói “Định luật Moore đã chết”; ý ông là tốc độ tăng trưởng trong tương lai sẽ dựa vào đổi mới hệ thống. Tuy nhiên, khi agent có thể hoạt động độc lập khỏi con người, thì có thể rút ra bài học sâu sắc nhất: Định luật Moore đã không còn quan trọng nữa. Chúng ta có thể có nhiều sức mạnh tính toán hơn bằng cách nhận ra rằng, thực ra, sức mạnh tính toán hiện tại đã “đủ tốt”.

NVDA-4,36%

XAI-5,39%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.89M Phổ biến
#
CLARITYActPassesSenateCommittee
1.75M Phổ biến
#
IsraelStrikesIranBTCPlunges
46.72K Phổ biến
#
#DailyPolymarketHotspot
965.4K Phổ biến
#
BitcoinVShapedReversalBack
227.12M Phổ biến

Đã ghim

sơ đồ trang web

Hiểu về Cerebras: sức mạnh tính toán thúc đẩy suy nghĩ AI, trí nhớ trao quyền cho Agent hành động

Thời đại GPU

Phân tích Cerebras

Thông minh Agent suy luận Agentic Inference

Ảnh hưởng của suy luận agentic đến sức mạnh tính toán

Chủ đề thịnh hành

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Đã ghim