Thời đại suy luận AI thực sự đã đến chưa? Cấu trúc lại sức mạnh tính toán ba cực của GPU, CPU và ASIC

Vào ngày 22 tháng 6 năm 2026, ngành cổ phiếu chip Mỹ đồng loạt tăng mạnh — Chỉ số bán dẫn Philadelphia tăng 6,42% trong ngày, Intel tăng hơn 10% nhờ tin hợp tác sản xuất chip với Apple, ADR của TSMC tăng 6,94 đóng cửa ở mức 462,12 USD, Nvidia tăng gần 3%. Phía sau tâm lý thị trường là một nhận định ngành công nghiệp đang được thể hiện nhanh chóng: Cấu trúc nhu cầu về sức mạnh tính toán AI đã chuyển từ thúc đẩy huấn luyện sang thúc đẩy suy luận.

Theo phân tích ngành, tỷ lệ nhu cầu tổng sức mạnh tính toán AI dành cho suy luận đã tăng từ khoảng một phần ba vào năm 2023 lên hai phần ba vào năm 2026, dự kiến đạt 70% đến 85% trong giai đoạn từ 2028 đến 2030. Sự chuyển đổi cấu trúc này đang định lại chiến trường cạnh tranh chip — từ “ai GPU huấn luyện nhanh nhất” sang “chip có tổng chi phí suy luận thấp nhất, thông lượng cao nhất”.

Thị trường chip suy luận AI toàn cầu năm 2024 có giá trị 85,4 tỷ USD, dự kiến sẽ tăng từ 105,47 tỷ USD năm 2025 lên 570,77 tỷ USD vào năm 2033, với tỷ lệ tăng trưởng kép hàng năm là 23,5%. Trong đó, thị trường chip suy luận AI đám mây năm 2025 ước tính đạt 102,19 tỷ USD, dự kiến tăng lên 118,9 tỷ USD năm 2026, và có thể đạt 320,98 tỷ USD vào năm 2032. Đồng thời, quy mô thị trường các bộ xử lý AI edge (kết hợp suy luận và huấn luyện) toàn cầu dự kiến tăng từ 34,4 tỷ USD năm 2026 lên 96 tỷ USD vào năm 2031.

Trong chu kỳ mở rộng này, sức mạnh giữa các loại chip đang có những thay đổi tinh tế và sâu sắc. GPU vẫn là nhà chiếm lĩnh thị trường lớn nhất, dưới sự hỗ trợ của cả nhu cầu huấn luyện và suy luận, dự kiến đến năm 2031 sẽ duy trì tốc độ tăng trưởng kép hàng năm khoảng 20%. Tuy nhiên, các ASIC AI được nhiều tổ chức xem là phân khúc tăng trưởng nhanh nhất. Các nhà phân tích của JPMorgan ước tính, thị trường ASIC AI số sẽ đạt khoảng 60-70 tỷ USD vào năm 2026, duy trì tốc độ tăng trưởng kép trên 40-50% trong vài năm tới.

Điều đáng chú ý hơn là sự trở lại của CPU. Trong ba năm qua, CPU đã ở vị trí trung tâm trong câu chuyện AI dài hạn, nhưng sự bùng nổ nhu cầu suy luận đang thay đổi cục diện này.

Tại sao CPU trở lại trung tâm sân khấu

AI suy luận và huấn luyện khác nhau về mặt logic tính toán cơ bản. Huấn luyện là quá trình thực hiện các phép tính ma trận song song quy mô lớn — hàng nghìn tỷ phép tính số thực có thể thực hiện đồng thời trên hàng vạn lõi GPU, đây chính là lĩnh vực mạnh nhất của GPU. Nhưng suy luận, đặc biệt là suy luận AI đại lý (Agentic AI), liên quan đến sắp xếp nhiệm vụ, gọi công cụ, đánh giá logic nhiều bước và quyết định theo trình tự. Các tác vụ này không phải hoàn toàn song song, mà dựa nhiều vào khả năng kiểm soát logic phức tạp và xử lý tuần tự của CPU.

Một nghiên cứu của Georgia Tech và Intel chỉ ra rằng, trong các kịch bản AI đại lý, 50% đến 90% độ trễ đến từ CPU chứ không phải chip tính toán — vì các mô hình lớn cần gọi plugin, tìm kiếm trực tuyến, xử lý logic nhiều bước, tất cả đều do CPU điều phối. Chính Nvidia cũng thừa nhận thực tế này vào tháng 3 năm 2026: Giám đốc điều hành Dion Harris công khai nói rằng “CPU đang trở thành nút thắt trong quy trình làm việc AI” — điều này xuất phát từ một công ty tin rằng “GPU là chip duy nhất cần thiết cho AI”.

Từ sự thay đổi tỷ lệ cấu hình này, ta có thể hình dung rõ hơn xu hướng. Trong giai đoạn huấn luyện AI, tỷ lệ CPU so với GPU thường là 1:8, GPU đảm nhận phần lớn công suất tính toán. Nhưng khi bước vào thời kỳ suy luận, theo báo cáo của TrendForce, tỷ lệ này đang nhanh chóng thu hẹp về khoảng 1:1 đến 1:2. CEO của Intel, Chen Lihua, trong cuộc họp báo tài chính quý I năm 2026 cũng chỉ ra rằng, tải huấn luyện thường cần 7-8 GPU phối hợp với 1 CPU, còn tải suy luận đã thu hẹp còn 3-4 GPU phối hợp 1 CPU, trong tương lai có thể tiến tới cân bằng 1:1.

Dựa trên ước tính của CEO Nvidia, Jensen Huang: mỗi GW trung tâm dữ liệu cần khoảng 300.000 GPU Rubin, còn dựa trên mỗi CPU ARM 136 nhân, mỗi GW trung tâm dữ liệu cần khoảng 221.000 CPU, tỷ lệ CPU-GPU mới khoảng 1:1,4. So với tỷ lệ thời kỳ GPU chiếm ưu thế trước đây, vị trí của CPU đã được nâng cao rõ rệt.

Rào cản của GPU và thách thức trong suy luận

Dù CPU đang lấy lại vị thế, GPU vẫn giữ vị trí không thể thay thế trong giai đoạn suy luận AI, chủ yếu dựa vào băng thông bộ nhớ và khả năng thông lượng song song.

Trong quá trình suy luận LLM, mỗi token sinh ra cần đọc hàng trăm triệu đến hàng tỷ tham số — đây là nhiệm vụ tiêu tốn bộ nhớ điển hình. Giải pháp CPU dựa vào bộ nhớ hệ thống DDR, băng thông thường trong khoảng 50-100GB/s; còn GPU dùng bộ nhớ GDDR6X hoặc HBM, băng thông có thể đạt trên 800GB/s, cao cấp hơn là HBM2e có thể đạt 1,5TB/s, gấp 20 lần CPU. Trong suy luận của mô hình Llama 3.1 8B, giải pháp CPU chỉ đạt tốc độ 819 token/giây, trong khi cluster 8 card GPU có thể đạt 46.841 token/giây. Khi số yêu cầu đồng thời tăng lên, hiệu năng CPU giảm mạnh từ 819 xuống còn 257 token/giây, còn cluster GPU 8 card gần như không giảm hiệu suất.

Về mật độ tính toán, GPU sử dụng hàng nghìn lõi CUDA để thực hiện song song, hỗ trợ các định dạng thấp như FP4/FP8, đạt hàng trăm TFLOPS, còn CPU thường chỉ đạt 1-10 TFLOPS với FP32.

Các dữ liệu này cho thấy, trong các kịch bản suy luận cần throughput cao và đồng thời lớn — như dịch vụ AI đám mây quy mô lớn — GPU vẫn là lựa chọn tối ưu. Nvidia vẫn giữ vị trí dẫn đầu trong lĩnh vực này. Theo SemiAnalysis, quý I năm 2026, Nvidia chiếm 92% thị phần chip huấn luyện AI và 78% thị phần chip suy luận. IDC ước tính Nvidia kiểm soát khoảng 81% thị trường chip AI. Thị trường tăng tốc AI dự kiến đạt khoảng 160 tỷ USD năm 2025, và tiến tới hơn 200 tỷ USD năm 2026, trong đó chi tiêu cho suy luận chiếm khoảng hai phần ba.

Tuy nhiên, phần thị phần của GPU trong lĩnh vực suy luận đang đối mặt với nhiều áp lực — từ sự trở lại của CPU, cạnh tranh từ ASIC chuyên dụng, đến thực tế về cấu trúc chi phí.

Cuộc phản công của các nhà sản xuất CPU trong suy luận

Việc định giá lại giá trị của CPU trong giai đoạn suy luận đã trở thành động lực thị trường rõ ràng.

Thị trường xử lý trung tâm dữ liệu đang tăng trưởng nhanh nhờ nhu cầu tăng đột biến của các tác vụ AI tạo sinh, dự kiến mở rộng từ 215 tỷ USD năm 2025 lên 656 tỷ USD năm 2031. Theo Quỹ chứng khoán Guohai, các trung tâm dữ liệu quy mô siêu lớn đã bước vào “chu kỳ nâng cấp”, dự kiến xuất xưởng CPU máy chủ năm 2026 tăng 25%.

AMD là một trong những đơn vị hưởng lợi rõ rệt từ xu hướng này. Nhu cầu cho các máy chủ AI thúc đẩy xuất xưởng CPU EPYC, thế hệ thứ năm Turin đã chiếm thị phần lớn hơn trong thị trường CPU máy chủ, dự kiến đến 2026, doanh số CPU máy chủ của AMD tăng ít nhất 50%. Các nhà phân tích của Bernstein dự đoán doanh số CPU EPYC cao cấp của AMD năm 2026 có thể tăng 30%. Trong thị trường CPU trung tâm dữ liệu, tính đến đầu năm 2026, Intel chiếm khoảng 60% thị phần, AMD khoảng 24%, Nvidia khoảng 6%. Đồng thời, AMD cũng cạnh tranh trong thị trường GPU AI với dòng Accelerators Instinct, tạo vị thế kép trong thời kỳ suy luận.

Intel cũng đang tích cực điều chỉnh chiến lược. Tại Computex tháng 6 năm 2026, CEO Chen Lihua của Intel tuyên bố rằng, với quy trình 18A và kiến trúc tách rời rack, CPU suy luận sẽ trở lại vị trí trung tâm, hạ tầng AI sẽ chuyển từ “mua trọn gói” sang “ghép Lego”. Các bộ xử lý Xeon của Intel tích hợp công nghệ mở rộng ma trận cao cấp (AMX), có thể cung cấp tăng tốc suy luận cho các mô hình ngôn ngữ lớn quy mô trung bình, mà không cần cấu hình GPU hoặc các bộ tăng tốc AI khác.

Biểu tượng rõ nét nhất của sự thay đổi này chính là Nvidia. Công ty định nghĩa thời đại AI bằng GPU, đã lần lượt ra mắt dòng CPU Grace và Vera vào năm 2026, trong đó Vera dành riêng cho các tác vụ suy luận và AI đại lý. Nvidia dự kiến doanh thu CPU năm 2026 đạt 20 tỷ USD. Nvidia cùng Arm cũng ra mắt các dòng CPU độc lập vào năm 2026, chính thức bước chân vào lĩnh vực CPU.

ASIC và chip chuyên dụng: Sự trỗi dậy của con đường thứ ba

Ngoài câu chuyện song song giữa GPU và CPU, ASIC (mạch tích hợp tùy chỉnh) đang trở thành biến số tăng trưởng nhanh nhất trong thị trường suy luận.

TD Cowen dự đoán, thị phần các bộ tăng tốc thương mại sẽ giảm từ khoảng 91% năm 2025 xuống còn khoảng 75% năm 2030, trong khi ASIC tùy chỉnh sẽ tăng từ khoảng 9% lên khoảng 25%. Dự kiến, xuất xưởng server ASIC năm 2026 tăng 44,6%, trong khi GPU chỉ tăng 16,1%, chỉ bằng một phần ba ASIC.

Các nhà cung cấp đám mây quy mô lớn đang đẩy nhanh tự phát triển chip suy luận. TPU của Google, Inferentia của AWS, MTIA của Meta, cùng LPU (đơn vị xử lý ngôn ngữ) của Groq, đều là các ASIC tối ưu cho suy luận đang xuất hiện ngày càng nhiều. Broadcom trong quý II năm 2026 đạt doanh thu AI 10,8 tỷ USD, tăng 143% so với cùng kỳ, dự kiến cả năm đạt 56 tỷ USD, tăng 180%. Broadcom dự kiến chiếm khoảng 60% thị trường chip AI tùy chỉnh.

Xu hướng này cho thấy thị trường chip suy luận đang chuyển từ “định hướng GPU phổ dụng” sang “đa dạng gồm GPU + CPU + ASIC”. GPU đảm nhận huấn luyện mạnh mẽ và suy luận quy mô lớn, CPU đảm nhiệm sắp xếp nhiệm vụ và kiểm soát hệ thống, ASIC tối ưu cho các tải suy luận đặc thù, đạt hiệu quả năng lượng tối đa.

Cấu trúc chi phí và tái định hình kinh tế suy luận

Lựa chọn chip trong giai đoạn suy luận cuối cùng đều xoay quanh một câu hỏi cốt lõi: chi phí suy luận mỗi triệu token là bao nhiêu.

Trong huấn luyện, độ chính xác của mô hình và thời gian huấn luyện là tiêu chí hàng đầu, chi phí chấp nhận cao. Nhưng suy luận là hoạt động liên tục, tần suất cao — mỗi lần gọi API, mỗi yêu cầu của người dùng đều phát sinh chi phí trực tiếp. Điều này khiến cuộc cạnh tranh về chip suy luận chuyển từ “hiệu năng tuyệt đối” sang “hiệu suất trên mỗi đơn vị chi phí”.

Giải pháp GPU có chi phí phần cứng cao hơn. Ví dụ, AMD MI300X giá khoảng 10.000-15.000 USD, còn Nvidia H100 giá từ 25.000-40.000 USD. Nhưng chi phí đơn vị tính toán của GPU thấp hơn — ví dụ, theo một nhà cung cấp đám mây, chi phí tạo token mỗi giây của instance GPU thấp hơn 40-60% so với instance CPU. Giải pháp CPU có lợi thế không cần đầu tư phần cứng bổ sung, phù hợp cho các tác vụ đơn nhiệm, ít đồng thời, yêu cầu độ trễ thấp.

Tuy nhiên, khi quy mô suy luận mở rộng, chi phí biên của CPU tăng nhanh hơn — khi số yêu cầu đồng thời tăng, CPU phải dùng thời gian chia sẻ để xử lý, chi phí chuyển đổi ngữ cảnh tăng theo cấp số nhân với số lượng yêu cầu. Điều này có nghĩa là trong các triển khai suy luận quy mô lớn, đầu tư ban đầu cao của GPU hoặc ASIC thường sẽ mang lại lợi nhuận lâu dài tốt hơn nhờ throughput cao hơn và chi phí trên mỗi token thấp hơn.

Kết luận

Tỷ lệ nhu cầu sức mạnh tính toán cho suy luận từ một phần ba đã tăng lên hai phần ba, và đằng sau con số này là một sự chuyển đổi sâu sắc trong logic cạnh tranh của ngành chip.

Với Nvidia, lợi thế tuyệt đối trong thị trường huấn luyện (khoảng 90% thị phần) trong ngắn hạn khó bị phá vỡ, nhưng cạnh tranh trong thị trường suy luận sẽ ngày càng quyết liệt hơn. Theo dự báo của New Street Research, đến 2028, Nvidia có thể giảm thị phần suy luận xuống còn 20-30%. Ngay cả dự báo thận trọng hơn của Bloomberg Intelligence — Nvidia vẫn giữ 70-75% thị phần đến năm 2030 — thực tế về tốc độ tăng xuất xưởng ASIC vượt xa GPU đã được xác lập.

Với AMD và Intel, sự phục hồi nhu cầu CPU trong thời kỳ suy luận là một cơ hội mang tính cấu trúc. AMD với chiến lược kết hợp CPU EPYC và GPU Instinct, Intel với quy trình 18A và dòng Xeon liên tục cập nhật, đều đang cố gắng nắm bắt cơ hội này.

Với các nhà cung cấp đám mây và nhà phát triển ứng dụng AI, việc đa dạng hóa lựa chọn chip mang lại khả năng tối ưu hóa chi phí tinh vi hơn. Từ GPU phổ dụng đến ASIC tùy chỉnh, từ suy luận CPU đến tăng tốc GPU, việc lựa chọn phần cứng ngày càng phụ thuộc đặc thù công việc — quy mô mô hình, yêu cầu độ trễ, khả năng đồng thời, ngân sách chi phí.

Nhu cầu sức mạnh tính toán cho suy luận AI đang tăng trưởng nhanh hơn cả huấn luyện. Sự dịch chuyển trọng tâm từ huấn luyện sang suy luận này đang định hình lại toàn bộ chuỗi ngành từ thiết kế chip đến kiến trúc trung tâm dữ liệu. GPU sẽ không mất vị trí của mình, nhưng nó cũng không còn là câu trả lời duy nhất.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim