Hiểu rõ Cerebras: sức mạnh tính toán thúc đẩy suy nghĩ AI, trí nhớ trao quyền cho Agent hành động

Tác giả: Ben Thompson

Tổng sức mạnh tính toán giúp AI học cách suy nghĩ, trí nhớ giúp Agent học cách làm việc.

Tuần này Cerebras niêm yết, bài viết mới nhất của Ben Thompson đã phân tích rõ: AI từ “trò chuyện” tiến hóa thành “thực thi nhiệm vụ tự chủ”, toàn bộ kiến trúc chip đã thay đổi giới hạn.

Bạn chờ đợi tốc độ khi trò chuyện với豆包; khi Kimi Claw chạy giúp bạn nhiệm vụ 5 giờ, nó không quan tâm nhanh hơn 3 giây hay chậm hơn 30 giây—nó quan tâm liệu có thể nhớ ngữ cảnh, có thể duy trì công việc không. Mỗi bước thực thi, bộ nhớ làm việc (KV Cache) sẽ mở rộng thêm một lớp. GPU được thiết kế cho “người dùng chờ trước màn hình”: prefill thì bộ nhớ GPU trống rỗng, decode thì tính toán trống rỗng—một nửa thời gian để chờ đợi.

Thật ra, không phải tốc độ tính toán mới là giới hạn, mà là khả năng lưu trữ được bao nhiêu, đọc ra nhanh thế nào. Về bản chất, agent chạy lâu dài khiến KV Cache biến từ bộ nhớ tạm thời thành bộ nhớ làm việc lâu dài. Ai có thể giữ bộ nhớ này lâu hơn, tái sử dụng hiệu quả hơn, chi phí thấp hơn, người đó nắm giữ chìa khóa của nền kinh tế Agent.

Điều này còn quan trọng hơn cả điểm số chạy thử.

Về thời điểm niêm yết, làm một công ty chip vào tháng 5 năm 2026 gần như là lý tưởng nhất. Reuters cuối tuần đưa tin:

Hai nguồn tin thân cận cho biết vào Chủ nhật, do nhu cầu thị trường đối với cổ phiếu của công ty chip AI này tiếp tục tăng, Cerebras Systems sẽ sớm điều chỉnh quy mô phát hành và định giá IPO vào thứ Hai. Các nguồn tin cho biết, công ty đang xem xét nâng mức giá phát hành từ 115–125 USD mỗi cổ phiếu lên 150–160 USD, số lượng cổ phiếu phát hành cũng tăng từ 28 triệu lên 30 triệu; do chưa công bố chính thức, cả hai đều yêu cầu giấu tên.

Chuyến tăng giá liên tục của cổ phiếu bán dẫn chủ yếu do AI—đặc biệt là khi thị trường dần nhận thức: Các agent thông minh sẽ tiêu thụ lượng lớn sức mạnh tính toán (Compute). Nhưng tuyên bố của Cerebras còn rộng hơn: Cho đến nay, câu chuyện về sức mạnh tính toán của AI gần như chỉ xoay quanh GPU, chỉ về Nvidia; còn tương lai, bức tranh sẽ ngày càng dị dạng (Heterogeneous).

Thời đại GPU

Câu chuyện về cách GPU trở thành trung tâm AI đã quá quen thuộc, tóm tắt:

  • Như việc vẽ pixel trên màn hình là một quá trình song song (Parallel process)—số lượng đơn vị xử lý càng nhiều, hình ảnh render càng nhanh—tương tự, tính toán AI cũng vậy: số lượng đơn vị xử lý quyết định tốc độ tính toán.

  • Nvidia đã nắm bắt xu thế này một cách thuận lợi: biến bộ xử lý đồ họa thành thiết bị có thể lập trình (Programmable), đồng thời với hệ sinh thái phần mềm đầy đủ CUDA, đưa khả năng lập trình này đến tất cả các nhà phát triển.

  • Sự khác biệt căn bản giữa đồ họa và AI nằm ở quy mô vấn đề—mô hình lớn hơn nhiều textures trong game. Từ đó dẫn đến hai chu trình tiến hóa liên tiếp: dung lượng bộ nhớ băng thông cao (HBM, High-bandwidth memory) trên mỗi GPU tăng vọt; liên kết giữa các chip (Chip-to-chip networking) cũng có bước đột phá, cho phép nhiều GPU hợp tác như một hệ thống có thể định địa chỉ (Addressable system). Nvidia dẫn đầu cả hai xu hướng này.

  • Ứng dụng chính của GPU luôn là huấn luyện (training), và huấn luyện đặc biệt khắt khe với điểm thứ ba. Mỗi bước huấn luyện nội bộ rất song song, nhưng các bước lại theo trình tự: trước khi chuyển sang bước tiếp, mỗi GPU phải đồng bộ kết quả với các GPU khác. Đó là lý do một mô hình trăm tỷ tham số (Trillion-parameter) phải được chứa trong hàng chục nghìn GPU, và các GPU này phải giao tiếp như một máy móc thống nhất. Nvidia đã thống trị hai vấn đề này: một là kiểm soát nguồn cung HBM trước toàn ngành, hai là đầu tư dài hạn vào công nghệ mạng lưới.

Tất nhiên, huấn luyện không phải là công việc duy nhất của AI, còn một phần quan trọng nữa là suy luận (Inference). Suy luận gồm ba phần chính:

1、Pre-fill (Tiền điền): mã hóa tất cả nội dung cần thiết của mô hình ngôn ngữ lớn (LLM) thành trạng thái hiểu được; quá trình này rất song song, đòi hỏi sức mạnh tính toán cao.

2、Decode phần 1: đọc KV Cache—chứa ngữ cảnh, bao gồm đầu ra của giai đoạn pre-fill—để tính attention. Đây là bước theo băng thông cực kỳ quan trọng, và yêu cầu bộ nhớ biến đổi liên tục, ngày càng lớn.

3、Decode phần 2: thực hiện tính toán phản hồi theo chiều tiến (Feed-forward) trên trọng số mô hình; cũng là bước serial đòi hỏi băng thông cao, và yêu cầu bộ nhớ phụ thuộc vào kích thước mô hình.

Hai bước decode này luân phiên nhau qua từng lớp của mô hình (chúng chạy xen kẽ chứ không thuần tuý theo trình tự), nghĩa là, decode là quá trình serial, bị giới hạn bởi băng thông bộ nhớ (Memory-bandwidth bound). Mỗi token sinh ra đều phải đọc đầy đủ hai vùng bộ nhớ khác nhau: KV cache lưu ngữ ngữ cảnh và tăng dần theo token, cùng với trọng số mô hình. Cả hai đều cần đọc đầy đủ để tạo ra một token đầu ra duy nhất.

GPU hoàn hảo đáp ứng ba yêu cầu này: cung cấp sức mạnh tính toán cao cho pre-fill, đủ HBM cho KV cache và trọng số, và khi bộ nhớ của một GPU không đủ, có thể hợp nhất bộ nhớ qua liên kết chip. Nói cách khác, kiến trúc phù hợp cho huấn luyện cũng phù hợp cho suy luận—như thương vụ SpaceX và Anthropic đã thể hiện. Trong blog chính thức, Anthropic nói:

“Chúng tôi đã ký hợp đồng sử dụng toàn bộ công suất tính toán của trung tâm dữ liệu SpaceX Colossus 1. Điều này giúp chúng tôi có hơn 300 MW công suất mới (hơn 220.000 GPU Nvidia). Điều này trực tiếp nâng cao khả năng phục vụ của Claude Pro và Claude Max.”

SpaceX giữ lại Colossus 2—dự đoán dùng cho huấn luyện mô hình tương lai, cũng như suy luận mô hình hiện tại. Việc họ có thể làm cả hai cùng lúc trong cùng một trung tâm dữ liệu là nhờ mô hình xAI hiện tại chưa sử dụng nhiều; quan trọng hơn, họ làm được điều này vì cả huấn luyện lẫn suy luận đều có thể thực hiện trên GPU. Thực tế, các GPU mà Anthropic ký hợp đồng ban đầu dùng cho huấn luyện, nay dùng cho suy luận—tính linh hoạt của GPU là lợi thế lớn.

Phân tích Cerebras

Sản phẩm của Cerebras hoàn toàn khác biệt. Trong khi silicon wafer có đường kính 300mm, thì “giới hạn reticle”—tức là diện tích tối đa có thể chiếu sáng trên wafer bằng công cụ quang khắc—khoảng 26mm x 33mm. Đây là giới hạn kích thước hiệu quả của chip; vượt quá giới hạn này, cần liên kết các chip riêng lẻ qua lớp trung gian, như Nvidia đã làm trên B200. Cerebras phát minh ra phương pháp đi dây qua “dây cắt” (Scribe lines, tức các đường giới hạn giữa các vùng quang khắc), biến toàn bộ wafer thành một chip duy nhất, không cần liên kết chip chậm chạp.

Kết quả là: một chip có sức mạnh tính toán khủng khiếp, với lượng SRAM khổng lồ và tốc độ truy cập cực nhanh. So sánh dữ liệu: WSE-3 mới nhất của Cerebras có 44GB SRAM tích hợp, băng thông đạt 21 PB/s; trong khi H100 của Nvidia có 80GB HBM, băng thông 3.35 TB/s. Nói cách khác, dù SRAM của WSE-3 chỉ bằng một nửa H100 về dung lượng, băng thông bộ nhớ của nó gấp 6000 lần.

Lý do so sánh WSE-3 với H100 là vì H100 là chip phổ biến nhất trong suy luận hiện nay, và suy luận rõ ràng là thế mạnh của Cerebras. Bạn có thể dùng Cerebras để huấn luyện, nhưng liên kết chip của nó không hấp dẫn, nghĩa là phần lớn sức mạnh và bộ nhớ trên chip bị bỏ phí; điều quan trọng là nó có thể sinh token nhanh hơn GPU nhiều lần.

Tuy nhiên, giới hạn của huấn luyện cũng tồn tại trong suy luận: miễn là dữ liệu có thể nằm trong bộ nhớ của chip, tốc độ của Cerebras là tối đa; khi yêu cầu bộ nhớ vượt quá giới hạn (mô hình lớn hơn, hoặc KV cache dài hơn), Cerebras không còn hợp lý, đặc biệt về chi phí. Công nghệ “toàn bộ wafer thành chip” đòi hỏi tỷ lệ thành công cao, gây khó khăn lớn về sản lượng, đẩy chi phí lên cao.

Tuy nhiên, tôi thực sự nghĩ rằng các chip kiểu Cerebras sẽ có thị trường: hiện tại, công ty nhấn mạnh tốc độ phù hợp cho lập trình—suy luận đòi hỏi sinh ra lượng token lớn, tức là tăng tốc sinh token mỗi giây, tương đương với tốc độ suy nghĩ nhanh hơn. Nhưng tôi cho rằng đây chỉ là một trường hợp dùng tạm thời, lý do sẽ giải thích sau. Điều thực sự quan trọng là con người mất bao lâu để nhận được câu trả lời, và khi AI ngày càng phổ biến trong thiết bị đeo, tương tác nhanh (đặc biệt là qua giọng nói, phụ thuộc vào tốc độ sinh token) sẽ ảnh hưởng lớn đến trải nghiệm người dùng.

Thông minh Agent suy luận Agentic Inference

Trước đây tôi từng đề cập, trong thời đại LLM, chúng ta đã trải qua ba bước ngoặt:

1、ChatGPT chứng minh tính thực dụng của dự đoán token.

2、o1 giới thiệu khái niệm suy luận, tức là nhiều token hơn, câu trả lời tốt hơn.

3、Opus 4.5 và Claude Code giới thiệu các Agent đầu tiên, có thể dùng mô hình suy luận và bộ khung gồm công cụ, kiểm tra công việc để hoàn thành nhiệm vụ thực tế.

Dù đều thuộc phạm trù “suy luận”, tôi cho rằng, việc cung cấp câu trả lời—tôi gọi là “suy luận đáp ứng” (Answer inference)—khác biệt rõ ràng với việc thực thi nhiệm vụ—tôi gọi là “suy luận Agentic” (Agentic inference). Thị trường mục tiêu của Cerebras là “suy luận đáp ứng”; còn về lâu dài, tôi nghĩ, kiến trúc “suy luận Agentic” sẽ khác hẳn so với con đường của Cerebras hay GPU.

Tôi đã đề cập, tốc độ suy luận nhanh cho lập trình chỉ là tạm thời. Cụ thể, hiện tại, lập trình bằng LLM vẫn cần có con người tham gia: định nghĩa nhiệm vụ, kiểm tra mã, gửi PR… Nhưng không khó dự đoán, trong tương lai, tất cả sẽ do máy xử lý hoàn toàn. Điều này sẽ phổ biến trong công việc của các agent: sức mạnh thực sự của agent không nằm ở việc làm việc thay con người, mà là làm việc độc lập, không cần con người can thiệp.

Tương tự, cách giải quyết cho suy luận Agentic sẽ khác xa so với đáp ứng. Đáp ứng yêu cầu tốc độ token; còn suy luận Agentic lại đặt nặng về bộ nhớ (Memory). Agent cần ngữ cảnh, trạng thái, lịch sử. Một phần nằm trong KV cache hoạt động tích cực, phần khác nằm trong bộ nhớ chính hoặc SSD, phần lớn hơn nằm trong cơ sở dữ liệu, logs, embedding, object storage. Điểm mấu chốt: suy luận Agentic sẽ không còn là GPU trả lời một câu hỏi đơn thuần, mà là hệ thống bộ nhớ phức tạp dựa trên mô hình.

Điều cực kỳ quan trọng là, hệ thống bộ nhớ đặc thù cho agent này mang ý nghĩa của một sự đánh đổi tất yếu: đổi tốc độ lấy dung lượng. Và, nếu hệ thống không có con người tham gia trực tiếp, thì tốc độ thấp hơn không còn là vấn đề cốt lõi. Nếu một agent chạy đêm, nó không quan tâm độ trễ ảnh hưởng đến trải nghiệm người dùng; nó chỉ cần hoàn thành nhiệm vụ. Nếu phương pháp bộ nhớ mới cho phép thực hiện các nhiệm vụ phức tạp, thì một chút độ trễ cũng chấp nhận được.

Trong khi đó, nếu độ trễ không còn là hạn chế hàng đầu, thì việc theo đuổi hiệu năng tối đa và bộ nhớ băng thông cao (HBM) trở nên không còn phù hợp: nếu độ trễ không còn là giới hạn cứng, thì bộ nhớ chậm hơn, rẻ hơn (như DRAM truyền thống) sẽ hấp dẫn hơn. Nếu toàn bộ hệ thống chủ yếu chờ phản hồi từ bộ nhớ, thì chip cũng không cần tiến trình công nghệ mới nhất. Điều này sẽ dẫn đến cuộc cách mạng kiến trúc sâu sắc, nhưng không có nghĩa là kiến trúc hiện tại sẽ biến mất:

Huấn luyện (Training): vẫn sẽ tiếp tục quan trọng, kiến trúc của Nvidia (sức mạnh cao, bộ nhớ băng thông cao, mạng tốc độ cao) sẽ vẫn thống trị.

Suy luận đáp ứng (Answer inference): sẽ là thị trường nhỏ hơn, nhưng quan trọng, với tốc độ cực cao (như Cerebras hoặc Groq) sẽ rất hữu ích.

Suy luận Agentic: sẽ dần tách rời khỏi GPU. Nhược điểm của GPU trong pre-fill lãng phí bộ nhớ, trong decode lãng phí tính toán sẽ lộ rõ. Thay vào đó, hệ thống có dung lượng lớn, chi phí thấp, đủ sức mạnh sẽ lên ngôi, thậm chí tốc độ xử lý công cụ của CPU còn quan trọng hơn GPU.

Ngoài ra, các loại này về quy mô và tầm ảnh hưởng không ngang nhau. Cụ thể, suy luận Agentic sẽ là thị trường lớn nhất trong tương lai, vì nó không bị giới hạn bởi số lượng con người hay thời gian. Các agent ngày nay chỉ là dạng “đáp ứng phức tạp”, còn tương lai, agent thực sự sẽ là hệ thống máy tính tự hoàn thành công việc theo lệnh của các máy khác, quy mô thị trường không phụ thuộc dân số, mà phụ thuộc vào sức mạnh tính toán mở rộng.

Suy luận Agentic và những bài học về sức mạnh tính toán

Cho đến nay, khi nhắc đến “mở rộng theo sức mạnh tính toán” thường là ủng hộ Nvidia. Tuy nhiên, lợi thế của Nvidia phần lớn dựa trên độ trễ: chip Nvidia rất nhanh, nhưng để giữ cho sức mạnh không bị lãng phí, cần đầu tư lớn vào mở rộng HBM và mạng lưới. Nếu độ trễ không còn là giới hạn cứng, thì chiến lược của Nvidia có thể không còn đáng giá nữa.

Nvidia cũng đã nhận ra điều này: họ ra mắt Dynamo, một khung suy luận giúp phân tách các phần của quá trình suy luận, cùng với các sản phẩm bộ nhớ và CPU riêng biệt để mở rộng bộ nhớ KV và tăng tốc gọi công cụ, nhằm giữ cho GPU đắt tiền luôn bận rộn. Nhưng cuối cùng, các nhà cung cấp đám mây quy mô lớn có thể sẽ tìm giải pháp thay thế trong các nhiệm vụ suy luận agentic không bị giới hạn bởi GPU, để tối ưu chi phí và đơn giản.

Trong khi đó, Trung Quốc dù thiếu sức mạnh tính toán hàng đầu, nhưng lại có đủ mọi thứ cần thiết cho suy luận agentic: GPU đủ nhanh, CPU đủ nhanh, DRAM, ổ cứng… Thách thức chính là sức mạnh tính toán cho huấn luyện; còn đáp ứng, đặc biệt trong an ninh quốc gia (như quân sự), có thể còn quan trọng hơn.

Một góc nhìn thú vị khác là không gian (Space): chip chậm hơn lại làm cho các trung tâm dữ liệu ngoài không gian khả thi hơn. Thứ nhất, nếu bộ nhớ có thể gắn ngoài, chip có thể đơn giản hơn, mát hơn. Thứ hai, công nghệ cũ có kích thước lớn hơn, chống chịu bức xạ tốt hơn. Thứ ba, quy trình cũ tiêu thụ ít năng lượng hơn, tản nhiệt dễ hơn. Thứ tư, công nghệ cũ ít đòi hỏi độ chính xác cao hơn, độ tin cậy cao hơn—rất phù hợp cho vệ tinh không thể sửa chữa.

CEO Nvidia Huang Renxun thường nói “Định luật Moore đã chết”; ý ông là tốc độ tăng trưởng trong tương lai sẽ dựa vào đổi mới hệ thống. Tuy nhiên, khi agent có thể hoạt động độc lập khỏi con người, bài học sâu sắc nhất có thể là: Định luật Moore đã không còn quan trọng nữa. Chúng ta có thể có nhiều sức mạnh tính toán hơn bằng cách nhận ra rằng, thực ra, chúng ta đã có đủ rồi.

NVDAX-6,73%
XAI-5,85%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim