Bên behind của "Vi xử lý bí ẩn" của NVIDIA -- Thời đại suy luận mở ra "Bốn xu hướng mới về sức mạnh tính toán"

robot
Đang tạo bản tóm tắt

Nvidia tích hợp công nghệ LPU (đơn vị xử lý ngôn ngữ) và chip suy luận cá cược đa dòng của OpenAI, đồng thời đang chuyển đổi chiến trường chính của cuộc cạnh tranh sức mạnh tính toán AI từ đào tạo sang suy luận. Nghiên cứu của Shenwan Hongyuan tin rằngTừ khóa cốt lõi của ngành công nghiệp điện toán vào năm 2026 sẽ là lý luận, và tổng mức tiêu thụ token và mô hình kỹ thuật sẽ được xây dựng lại sâu sắc xung quanh chủ đề này.

Vào ngày 28 tháng 2, theo Wall Street Journal, Nvidia có kế hoạch phát hành một chip suy luận mới tích hợp công nghệ "đơn vị xử lý ngôn ngữ" (LPU) của Groq tại hội nghị nhà phát triển GTC vào tháng tới.Giám đốc điều hành Nvidia Jensen Huang gọi đây là một hệ thống hoàn toàn mới "mà thế giới chưa từng thấy trước đây".。 OpenAI đã đồng ý trở thành một trong những khách hàng lớn nhất của bộ xử lý và sẽ mua "dung lượng suy luận chuyên dụng" quy mô lớn từ Nvidia.

Trong khi đó, OpenAI đã đạt được quan hệ đối tác điện toán trị giá hàng tỷ đô la với công ty khởi nghiệp Cerebras vào tháng trước, cho biết chip suy luận của họ đã vượt qua GPU (đơn vị xử lý đồ họa) của Nvidia. Chuỗi xu hướng này cho thấyNhững gã khổng lồ AI đang chuyển từ một cuộc chạy đua vũ trang sang bố cục nhiều dòng của sức mạnh tính toán suy luận.

Báo cáo của Shenwan Hongyuan chỉ ra,Trong kỷ nguyên của nền kinh tế token, sức mạnh tính toán suy luận đang mở ra bốn xu hướng chínhThứ nhất, số lượng kịch bản triển khai CPU thuần túy (bộ xử lý trung tâm) đã tăng lên và nhu cầu suy luận chi phí thấp đã đẩy nhanh sự sụt giảm sức mạnh tính toán; thứ hai, sự gia tăng của các kiến trúc chuyên dụng như LPU, thách thức sự thống trị của GPU trong quá trình suy luận; Thứ ba, chip sức mạnh tính toán trong nước đã tăng tốc đột phá, xu hướng đa dạng hóa chuỗi cung ứng là rõ ràng; Thứ tư, cấu trúc nhu cầu của sức mạnh tính toán suy luận đã thay đổi từ "đào tạo đơn lẻ" sang "tiêu thụ token lớn" và hiệu suất chi phí đã trở thành yếu tố cạnh tranh cốt lõi.

Báo cáo cho biết,Các nhà sản xuất có thể cung cấp chip suy luận đầy đủ và hiệu quả về chi phí sẽ được hưởng lợi nhiều nhất, và sự đột phá chung của CPU, LPU và chip nội địa đang tạo thành manh mối cốt lõi của vòng định hình lại mô hình sức mạnh tính toán này.

Nhu cầu suy luận đã bùng nổ và mức tiêu thụ token đã đạt mức cao kỷ lục

Nghiên cứu của Shenwan Hongyuan tin rằngĐằng sau sự mở rộng liên tục của nhu cầu là hai động lực cấu trúc: thứ nhất, việc kiếm tiền từ các mô hình lớn đã tăng tốc và các mô hình như Claude đã bắt đầu cắt vào khía cạnh ứng dụng và phát hành nhiều plug-in trong ngànhThứ hai, việc triển khai Agent đã được đẩy nhanh và các sản phẩm như openclaw và Qianwen Agent đánh dấu rằng Agent đang tham gia vào các kịch bản sản xuất và công việc thực tế, và mọi cuộc gọi mô hình và thực hiện nhiệm vụ Agent đều yêu cầu một lượng lớn hỗ trợ sức mạnh tính toán suy luận.

Theo dữ liệu được trích dẫn bởi Shenwan Hongyuan Research, khối lượng suy luận của các mô hình lớn hàng đầu trong nước đã tăng đáng kể trong Lễ hội mùa xuân: thông lượng suy luận của Doubao vào đêm giao thừa đạt 63,3 tỷ mã thông báo, người dùng hoạt động hàng tháng của Yuanbao đạt 114 triệu và số lượng người tham gia hoạt động "Đặt hàng miễn phí lễ hội mùa xuân" của Qianwen vượt quá 120 triệu.

Dữ liệu từ OpenRouter, một nền tảng tổng hợp API mô hình AI toàn cầu, tiết lộ thêm tầm quan trọng của xu hướng này. Trong tuần từ ngày 9 đến ngày 15 tháng 2, mô hình Trung Quốc lần đầu tiên vượt qua mô hình Mỹ với 2,94 nghìn tỷ token với 4,12 nghìn tỷ token; trong tuần từ 16 đến 22 tháng 2, số lượng mô hình gọi của Trung Quốc tiếp tục tăng lên 5,16 nghìn tỷ token, tăng 127% trong ba tuần và Trung Quốc chiếm bốn trong số năm mô hình hàng đầu thế giới.

LPU đã trở thành một công ty mới nổi, và các chip đào tạo và suy luận được phân biệt

Nvidia đã chi 20 tỷ USD để cấp phép công nghệ cốt lõi của Groq và đưa vào một đội ngũ điều hành, bao gồm cả người sáng lập Jonathan Ross, trong một thỏa thuận "thuê cốt lõi". Nghiên cứu của Shenwan Hongyuan tin rằngThỏa thuận này đánh dấu sự công nhận chính thức về tầm quan trọng của các chip lý luận thuần túy của những người chơi hàng đầu.

**Sự khác biệt về kiến trúc giữa LPU và GPU truyền thống là lý do cơ bản tại sao chúng có lợi thế về hiệu quả trong các kịch bản suy luận.**Suy luận AI được chia thành hai giai đoạn: điền trước và giải mã, và quá trình giải mã các mô hình lớn đặc biệt chậm, trong khi LPU đã được tối ưu hóa đặc biệt cho hai nút thắt suy luận chính là độ trễ và băng thông bộ nhớ. Theo các báo cáo trước đây từ Wall Street News, các sản phẩm mới sắp tới của Nvidia có thể liên quan đến kiến trúc Feynman thế hệ tiếp theo, hoặc áp dụng sơ đồ tích hợp SRAM rộng hơn, hoặc thậm chí tích hợp sâu LPU thông qua công nghệ xếp chồng 3D.

Shenwan Hongyuan Research đánh giá rằng chip AI sẽ hình thành một mô hình phân chia kỹ thuật rõ ràng trong tương lai:Phía đào tạo tiếp tục sử dụng kết hợp GPU-HBM, trong khi phía suy luận phát triển thành sơ đồ kết hợp ASIC + LPU-SRAM + SSD. Khi nhu cầu sức mạnh tính toán chuyển từ đào tạo sang suy luận, các nhà sản xuất tập trung vào chip suy luận sẽ mở ra cơ hội phát triển.

Hệ thống suy luận đã được đổi mới toàn diện và các yêu cầu về CPU và mạng đã tăng lên đồng thời

Từ một con chip đơn lẻ đến cấp độ hệ thống, sự đổi mới là một khía cạnh quan trọng khác của vòng nâng cấp sức mạnh tính toán suy luận này. Shenwan Hongyuan Research chỉ ra rằng khi kịch bản ứng dụng chuyển từ chatbot sang Agent,Các yêu cầu về độ trễ, thông lượng và chiều sâu tư duy trong các hệ thống máy tính đã tăng lên cùng một lúc, thúc đẩy sự phát triển của kiến trúc hệ thống lên mạng Lớp 3.

Lớp đầu tiên là lớp phản ứng nhanh, được cung cấp bởi một chip suy luận thuần túy được trang bị SRAM để cung cấp phản hồi có độ trễ cực thấp;Lớp thứ hai là lớp suy nghĩ chậm, sử dụng các cụm sức mạnh tính toán thông lượng cực lớn để xử lý khấu trừ logic phức tạp, nhu cầu về CPU đa lõi và đa luồng ở lớp này sẽ tăng lên đáng kể;Lớp thứ ba là lớp bộ nhớ, tương ứng với Hệ thống bộ nhớ ngữ cảnh do NVIDIA phát hành, bộ nhớ dài hạn và bộ nhớ đệm KV của các tác nhân lưu trữ SSD được quản lý bởi Bluefield4 DPU.

Nvidia cũng đang điều chỉnh chiến lược của mình ở cấp độ phần cứng. Thực tiễn tiêu chuẩn trước đây là kết hợp CPU Vera với GPU Rubin đã được chứng minh là rất tốn kém đối với khối lượng công việc tác nhân AI cụ thể. Nvidia đã thông báo trong tháng này rằng họ đã mở rộng quan hệ đối tác với Meta Platforms để hoàn thành việc triển khai CPU thuần túy quy mô lớn đầu tiên nhằm hỗ trợ các tác nhân AI nhắm mục tiêu quảng cáo của Meta, đánh dấu rằng công ty đang vượt ra ngoài một mô hình bán GPU duy nhất.

Sức mạnh tính toán trong nước tăng tốc đột phá

Nghiên cứu của Shenwan Hongyuan tin rằngViệc nâng cấp công nghệ chip suy luận trong nước rất đáng chú ývà có một kỳ vọng thị trường kém.

Ở cấp độ kỹ thuật,Thế hệ chip suy luận nội địa mới đã đạt được một số cải tiến cơ bản: Đã thêm hỗ trợ cho các định dạng dữ liệu có độ chính xác thấp như FP8 / MXFP8 / MXFP4, với sức mạnh tính toán lần lượt đạt 1P và 2P. Cải thiện đáng kể sức mạnh tính toán vectơ và áp dụng thiết kế đẳng cấu mới hỗ trợ các mô hình lập trình kép SIMD / SIMT. Băng thông kết nối cao gấp 2,5 lần so với thế hệ trước, đạt 2 TB/s.

Điều đặc biệt đáng chú ý là việc tách PD đạt được ở cấp độ chip: thông qua HBM tự phát triển với hai thông số kỹ thuật khác nhau, nó tạo thành phiên bản PR cho các kịch bản Prefill và đề xuất, và phiên bản DT cho các kịch bản giải mã và đào tạo. Trong số đó, phiên bản PR sử dụng HBM chi phí thấp, có thể giảm đáng kể chi phí đầu tư của giai đoạn điền trước suy luận và dự kiến sẽ ra mắt vào quý 1 năm 2026.

Ở cấp độ chuỗi cung ứng, sự tiến bộ của các nhà sản xuất bao bì và thử nghiệm trong nước cung cấp bằng chứng. Theo vòng điều tra và thư trả lời đầu tiên của một công ty đóng gói và thử nghiệm hàng đầu, doanh thu kinh doanh bao bì 2.5D của công ty chủ yếu đến từ dịch vụ đóng gói chip điện toán hiệu suất cao, đã tăng nhanh từ 50 triệu nhân dân tệ vào năm 2022 lên 1,82 tỷ nhân dân tệ vào năm 2024.Nó khẳng định rằng khả năng cung cấp chip sức mạnh tính toán trong nước tiếp tục được cải thiện và quá trình nội địa hóa chuỗi cung ứng đang tăng tốc.

Cảnh báo rủi ro và tuyên bố từ chối trách nhiệm

        Thị trường có nhiều rủi ro và đầu tư cần thận trọng. Bài viết này không cấu thành lời khuyên đầu tư cá nhân và không tính đến các mục tiêu đầu tư cụ thể, tình hình tài chính hoặc nhu cầu của người dùng cá nhân. Người dùng nên xem xét liệu có bất kỳ ý kiến, ý kiến hoặc kết luận nào trong bài viết này phù hợp với hoàn cảnh cụ thể của họ hay không. Đầu tư phù hợp với rủi ro của riêng bạn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim