Vừa mới phát hiện ra một thứ đang âm thầm định hình lại toàn bộ trò chơi hạ tầng AI, và thành thật mà nói, thật điên rồ khi có quá ít người nói về điều đó.



Trong nhiều năm, tất cả chúng ta đều mê mẩn với sự khan hiếm GPU—đó là nơi diễn ra tính toán, đúng không? Nhưng vấn đề là: chúng ta đã nhìn nhận vấn đề sai rồi. Ràng buộc thực sự không còn là suy luận nữa. Đó là CPU. Và tôi nói nghiêm túc—khi bạn cần điều phối các quy trình tác nhân phức tạp, xử lý các cuộc gọi API, quản lý cơ sở dữ liệu, và đối mặt với các khung ngữ cảnh lớn không vừa trong bộ nhớ GPU, đột nhiên bộ xử lý của bạn trở thành điểm nghẽn trong khi GPU đắt tiền của bạn chỉ đứng đó chờ đợi.

Hãy để tôi phân tích những gì thực sự đang diễn ra trên thị trường. CEO của AMD, Lisa Su, gần như xác nhận sự chuyển đổi này là có thật. Doanh thu trung tâm dữ liệu của họ đạt 5,4 tỷ đô la trong quý vừa rồi, tăng 39% so với cùng kỳ năm ngoái. Các bộ xử lý EPYC thế hệ thứ năm riêng đã chiếm hơn một nửa doanh thu CPU máy chủ của họ, và chúng ta đang thấy hơn 50% tăng trưởng trong các phiên bản đám mây chạy trên EPYC. Lần đầu tiên, AMD chiếm hơn 40% thị phần CPU máy chủ. Đó không phải là ngẫu nhiên—đó là vì mọi người đột nhiên nhận ra họ cần sức mạnh CPU thực sự để vận hành các AI agent quy mô lớn.

Trong khi đó, Intel đang cố gắng xoay sở nhưng chơi bài khôn ngoan. Họ vừa ký hợp đồng nhiều năm với Google để triển khai các bộ xử lý Xeon trong các trung tâm dữ liệu AI. Thuyết trình? CPU và các bộ tăng tốc chuyên dụng giờ đây là những động lực hiệu suất thực sự, không chỉ là các thành phần hỗ trợ. Elon Musk thậm chí còn đặt hàng các chip tùy chỉnh từ Intel cho dự án Terafab của mình—đó là một tín hiệu lớn về hướng đi của hạ tầng.

Đây là lý do tại sao điều này quan trọng: các tác vụ của agent về cơ bản khác biệt so với chatbot. Với agent, bạn không chỉ tạo ra token—bạn còn thực hiện suy luận nhiều bước, điều phối API, quản lý trạng thái, đọc và ghi vào cơ sở dữ liệu. Một bài báo của Georgia Tech từ năm ngoái cho thấy phần xử lý phía CPU có thể chiếm từ 50% đến 90% tổng độ trễ. GPU đã sẵn sàng, nhưng CPU vẫn đang chờ phản hồi từ các công cụ. Thêm vào đó, các khung ngữ cảnh giờ đây đã vượt quá một triệu token, và đột nhiên bạn cần bộ nhớ CPU lớn và băng thông để lưu trữ các bộ đệm KV không vừa trong GPU.

Phản ứng của NVIDIA thật thú vị. CPU Grace của họ chỉ có 72 lõi so với 128 của AMD hoặc dòng sản phẩm điển hình của Intel. Nhưng đó là chủ đích—họ tối ưu hóa cho hiệu quả giữa CPU và GPU hơn là số lõi thuần túy. Họ thúc đẩy ý tưởng rằng CPU thực sự là trung tâm điều phối, chứ không phải là bộ xử lý đa năng. Với liên kết NVLink đạt tới 1,8 TB/s, CPU có thể truy cập trực tiếp bộ nhớ GPU, điều này hoàn toàn thay đổi cách bạn quản lý các bộ đệm KV khổng lồ này.

Tín hiệu thị trường rõ ràng và mạnh mẽ. Bank of America dự đoán thị trường CPU có thể tăng gấp đôi từ $27 tỷ đô la lên $60 tỷ đô la vào năm 2030, gần như hoàn toàn do AI thúc đẩy. Và nghe này—trong hợp tác của Amazon trị giá $38 tỷ đô la với OpenAI, họ rõ ràng đang lên kế hoạch triển khai hàng chục triệu CPU. Đó là thước đo mới. Chúng ta không còn chỉ nói về trăm nghìn GPU nữa; chúng ta đang xây dựng toàn bộ lớp hạ tầng điều phối CPU.

Điều thực sự đang xảy ra là chúng ta đang chuyển từ thời kỳ hạn chế GPU sang thời kỳ hiệu quả hệ thống. Những công ty biết cách cân bằng hợp tác CPU-GPU, quản lý các hệ thống bộ nhớ khổng lồ, và xử lý các quy trình agent phức tạp một cách hiệu quả—họ là những người chiến thắng. Không còn là về từng thành phần riêng lẻ nữa. Đó là về toàn bộ hệ thống hoạt động cùng nhau. Và nếu bạn không nghĩ về chiến lược CPU của mình vào năm 2026, thì bạn đã tụt lại phía sau rồi.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim