Tác giả: Tô Dương, Hậu Bách Dương; Nguồn: Công nghệ Tencent
Là "người bán cà-vạt" trong thời đại AI, Huang Renxun và NVIDIA của anh luôn tin rằng sức mạnh tính toán không bao giờ ngủ.
Hoàng Nhân Tuấn tại bài diễn thuyết GTC cho biết lý do thị cần tăng gấp 100 lần
Tại hội nghị GTC hôm nay, Huang Renxun đã giới thiệu GPU Blackwell Ultra hoàn toàn mới, cùng với các phiên bản máy chủ dành cho suy luận và Agent dựa trên nền tảng này, bao gồm toàn bộ bộ sưu tập RTX dựa trên kiến trúc Blackwell, tất cả đều liên quan đến sức mạnh tính toán, nhưng điều quan trọng hơn tiếp theo là cách tiêu thụ hiệu quả và hợp lý sức mạnh tính toán liên tục.
Trong mắt của Huang Renxun, để đi đến AGI cần sức mạnh tính toán, robot thông minh cần sức mạnh tính toán, xây dựng Omniverse và mô hình thế giới cần sức mạnh tính toán liên tục, còn việc xây dựng một 'vũ trụ song song' ảo cho con người cuối cùng, cần bao nhiêu sức mạnh tính toán, NVIDIA đã đưa ra một câu trả lời - gấp 100 lần so với quá khứ.
Để ủng hộ quan điểm của mình, Huang Renxun đã đưa ra một loạt dữ liệu tại sự kiện GTC - vào năm 2024, tổng cộng 4 nhà máy đám mây hàng đầu của Mỹ đã mua 1,3 triệu vi mạch kiến trúc Hopper; đến năm 2025, con số này đã tăng vọt lên 3,6 triệu GPU Blackwell.
Dưới đây là một số điểm chính của Hội nghị GTC 2025 của NVIDIA do Tencent Technology tổng hợp:
Blackwell全家桶上线
1)Siêu phẩm Blackwell Ultra nổ ra trong năm của Gate.io.
NVIDIA đã ra mắt kiến trúc Blackwell và chip GB200 tại GTC năm ngoái, tên chính thức của nó trong năm nay đã được điều chỉnh một chút, không gọi là GB300 như tin đồn trước đó, mà trực tiếp được gọi là Blakwell Ultra.
Nhưng về cứng, nó chỉ là việc thay thế bộ nhớ HBM mới trong năm ngoái. Một cách hiểu đơn giản là, Blackwell Ultra = phiên bản bộ nhớ lớn Blackwell.
Blackwell Ultra được đóng gói từ vi mạch Blackwell kiến trúc chip + Grace CPU, sử dụng hai viên chip TSMC N4P (5nm) và bộ nhớ HBM3e 12 lớp tiên tiến hơn, dung lượng bộ nhớ đồ họa tăng lên 288GB, hỗ trợ NVLink thế hệ thứ năm như thế hệ trước, có khả năng tương tác giữa các chip với băng thông liên kết 1.8TB/s.
Thông số hiệu suất lịch sử của NVLink
Dựa trên nâng cấp lưu trữ, sức mạnh tính toán độ chính xác FP4 của Blackwell GPU có thể đạt đến 15PetaFLOPS, với tốc độ suy luận dựa trên cơ chế Tăng tốc Attention, tăng gấp 2,5 lần so với vi mạch kiến trúc Hopper.
2)Blackwell Ultra NVL72:Tủ máy AI dành riêng cho suy luận
Hình chính thức của Blackwell Ultra NVL72
Tương tự như GB200 NVL72, NVIDIA cũng đã ra mắt sản phẩm tương tự là Blackwell Ultra NVL72, bao gồm tổng cộng 18 khay tính toán, mỗi khay tính toán bao gồm 4 GPU Blackwell Ultra + 2 CPU Grace, tổng cộng là 72 GPU Blackwell Ultra + 36 CPU Grace, bộ nhớ đồng thời là 20TB, tổng băng thông 576TB/s, kèm theo 9 khay switch NVLink (18 vi mạch switch NVLink), băng thông NVLink giữa các nút là 130TB/s.
Trong tủ chứa có 72 thẻ mạng CX-8, cung cấp băng thông 14.4TB/s, trong khi thẻ mạng Quantum-X800 InfiniBand và Spectrum-X 800G Ethernet có thể giảm độ trễ và rung, hỗ trợ cụm trí tuệ nhân tạo quy mô lớn. Ngoài ra, khung còn tích hợp 18 thẻ BlueField-3 DPU để tăng cường mạng nhiều người dùng, bảo mật và tăng tốc dữ liệu.
NVIDIA nói rằng sản phẩm này được tùy chỉnh đặc biệt cho "thời đại suy luận AI", các trường hợp sử dụng bao gồm AI suy luận, Agent và AI vật lý được sử dụng cho việc mô phỏng dữ liệu huấn luyện robot và tự lái thông minh(, so với sản phẩm thế hệ trước GB200 NVL72, hiệu suất AI tăng 1.5 lần, và so với sản phẩm tủ máy DGX cùng vị trí của kiến trúc Hopper, có thể cung cấp cơ hội tăng thu nhập 50 lần cho trung tâm dữ liệu.
Dựa trên thông tin mà nhà sản xuất cung cấp, việc suy luận 671 tỷ tham số của DeepSeek-R1 dựa trên sản phẩm H100 có thể đạt 100 tokens mỗi giây, trong khi sử dụng giải pháp Blackwell Ultra NVL72 có thể đạt 1000 tokens mỗi giây.
Chuyển đổi thành thời gian, với cùng một nhiệm vụ suy luận, H100 cần chạy 1.5 phút trong khi Blackwell Ultra NVL72 chỉ cần 15 giây để hoàn thành.
Thông số kỹ thuật phần cứng của Blackwell Ultra NVL72 và GB200 NVL72
Dựa trên thông tin do NVIDIA cung cấp, sản phẩm liên quan Blackwell NVL72 dự kiến sẽ ra mắt vào nửa cuối năm 2025, với các khách hàng bao gồm các nhà sản xuất máy chủ, đám mây, và các nhà cung cấp dịch vụ cho thuê sức mạnh tính toán.
Nhà sản xuất máy chủ
Cisco/Dell/HPE/Lenovo/超微等15家制造商
Nhà máy đám mây
Các nền tảng chính như AWS/Google Cloud/Azure/Oracle và các nền tảng hàng đầu khác
Nhà cung cấp dịch vụ cho thuê sức mạnh tính toán
CoreWeave/Lambda/Yotta等
) 3)Thông báo trước về chip GPU Rubin "bom hạt nhân" thực sự
The main venue of GTC2025 is Blackwell Ultra according to NVIDIA's roadmap.
Tuy nhiên, Huang Renxun cũng đã thông báo với cơ hội này về GPU thế hệ tiếp theo dựa trên kiến trúc Rubin và Vera Rubin NVL144 tủ máy mạnh mẽ hơn sẽ được niêm yết vào năm 2026 - 72 CPU Vera + 144 GPU Rubin, sử dụng vi mạch HBM4 288GB, băng thông bộ nhớ 13TB/s, kết hợp với thẻ NVLink thế hệ thứ sáu và thẻ mạng CX9.
Sức mạnh của sản phẩm này như thế nào? Sức mạnh tính toán suy luận của FP4 đạt 3.6 ExaFLOPS, sức mạnh đào tạo độ chính xác của FP8 cũng đạt 1.2 ExaFLOPS, hiệu suất là 3.3 lần so với Blackwell Ultra NVL72.
Nếu bạn cảm thấy chưa đủ, không sao, vào năm 2027 sẽ có thêm máy chủ Rubin Ultra NVL576 mạnh mẽ hơn, với khả năng tính toán lý thuyết FP4 và sức mạnh đào tạo FP8 lần lượt là 15ExaFLOPS và 5ExaFLOPS, gấp 14 lần so với Blackwell Ultra NVL72.
Các thông số kỹ thuật Rubin Ultra NVL144 và Rubin Ultra NVL576 do NVIDIA chính thức cung cấp
) 4)Blackwell Ultra版DGX Super POD“超算工厂“
Đối với những khách hàng hiện tại mà Blackwell Ultra NVL72 không thể đáp ứng nhu cầu, nhưng không cần xây dựng cụm AI với quy mô lớn, giải pháp của NVIDIA dựa trên Blackwell Ultra, nhà máy siêu máy tính AI DGX Super POD plug-and-play.
Với việc là một nhà máy siêu tính toán AI có thể cắm và sử dụng ngay lập tức, DGX Super POD chủ yếu dành cho các tình huống AI như AI sáng tạo, AI Agent và mô phỏng vật lý, bao gồm nhu cầu mở rộng sức mạnh tính toán toàn bộ quy trình từ huấn luyện trước, huấn luyện sau đến môi trường sản xuất, Equinix là nhà cung cấp đầu tiên cung cấp hạ tầng làm mát bằng chất lỏng hoặc làm mát bằng không khí.
Dựa trên hai phiên bản của DGX Super POD được tùy chỉnh dựa trên Blackwell Ultra:
DGX SuperPOD tích hợp DGX GB300 (Grace CPU ×1 + Blackwell Ultra GPU ×2), tổng cộng 288 CPU Grace + 576 GPU Blackwell Ultra, cung cấp 300TB bộ nhớ nhanh, hiệu suất tính toán dưới độ chính xác FP4 là 11.5ExaFLOPS
DGX SuperPOD tích hợp DGX B300, phiên bản này không bao gồm chip CPU Grace, có không gian mở rộng tiếp theo và sử dụng hệ thống làm mát bằng gió, với các trường hợp ứng dụng chính là trung tâm dữ liệu doanh nghiệp thông thường
) 5)DGX Spark và DGX Station
Trong tháng 1 năm nay, NVIDIA đã trình làng một sản phẩm máy tính AI khái niệm có giá 3000 đô la tại CES - Dự án DIGITS, hiện tại nó đã có tên chính thức là DGX Spark.
Về thông số kỹ thuật sản phẩm, được trang bị chip GB10, hiệu suất tính toán dưới độ chính xác FP4 có thể đạt 1PetaFlops, bộ nhớ trong 128GB LPDDR5X, card mạng CX-7, bộ lưu trữ NVMe 4TB, chạy trên hệ điều hành DGX OS dựa trên Linux tùy chỉnh, hỗ trợ các framework như Pytorch, và được cài sẵn một số công cụ phát triển phần mềm AI cơ bản do NVIDIA cung cấp, có thể chạy mô hình với 200 tỷ tham số. Kích thước của máy gần bằng với Mac mini, hai máy DGX Spark kết nối với nhau, cũng có thể chạy mô hình với hơn 400 tỷ tham số.
Mặc dù chúng tôi nói rằng đó là một máy tính AI, nhưng bản chất vẫn thuộc về lĩnh vực siêu máy tính, vì vậy nó được đặt trong dòng sản phẩm DGX chứ không phải là dòng sản phẩm tiêu dùng như RTX.
Tuy nhiên, cũng có người phàn nàn về sản phẩm này, hiệu suất quảng cáo của FP4 thấp, chỉ có thể so sánh với RTX 5070 ở độ chính xác FP16, thậm chí chỉ so sánh với Arc B580 có giá 250 USD, vì vậy tỷ lệ hiệu năng giá cả rất thấp.
Ngoài DGX Spark có tên chính thức, NVIDIA cũng ra mắt một máy trạm AI dựa trên Blackwell Ultra, máy trạm này tích hợp CPU Grace và GPU Blackwell Ultra, kèm theo bộ nhớ thống nhất 784GB, thẻ mạng CX-8, cung cấp công suất tính toán AI 20PetaFlops (không được đánh dấu chính thức, lý thuyết cũng là độ chính xác FP4).
) 6)RTX quét sạch AI PC, còn phải chen vào trung tâm dữ liệu
Những sản phẩm SKU được giới thiệu ở trước đây đều dựa trên Grace CPU và Blackwell Ultra GPU, và đều là sản phẩm cấp doanh nghiệp, với sự cân nhắc đến cách mà nhiều người sử dụng sản phẩm như RTX 4090 trong việc suy luận trí tuệ nhân tạo, NVIDIA đã tiếp tục củng cố sự kết hợp giữa dòng sản phẩm Blackwell và RTX trong sự kiện GTC lần này, đưa ra một loạt GPU liên quan đến PC AI tích hợp bộ nhớ GDDR7, bao gồm cả các kịch bản máy tính xách tay, máy tính để bàn và thậm chí cả trung tâm dữ liệu.
GPU máy tính để bàn: bao gồm bản Workstation RTX PRO 6000 Blackwell, bản Workstation RTX PRO 6000 Blackwell Max-Q, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell và RTX PRO 4000 Blackwell
GPU của laptop: RTX PRO 5000 Blackwell, RTX PRO 4000 Blackwell, RTX PRO 3000 Blackwell, RTX PRO 2000 Blackwell, RTX PRO 1000 Blackwell và RTX PRO 500 Blackwell
Trung tâm dữ liệu GPU: NVIDIA RTX PRO 6000 phiên bản máy chủ Blackwell
NVIDIA tạo ra bộ công cụ AI toàn diện dành cho tính toán doanh nghiệp
Trên đây chỉ là một số SKU được tùy chỉnh dựa trên chip Blackwell Ultra cho các tình huống khác nhau, từ máy trạm nhỏ đến cụm trung tâm dữ liệu, NVIDIA gọi chúng là “Gia đình Blackwell” (Blackwell Family), dịch sang tiếng Trung là “Blackwell全家桶” không thể thích hợp hơn.
Hệ thống CPO của NVIDIA Photonics: Đứng trên vai đồng đội
Khái niệm về Module Đóng Chung Quang Điện (CPO) đơn giản là kết hợp vi xử lý chuyển mạch và mô-đun quang học trong cùng một bộ vỏ, có thể chuyển đổi tín hiệu quang thành tín hiệu điện, tận dụng tối đa hiệu suất truyền tải của tín hiệu quang.
Trước đây, ngành công nghiệp luôn tranh luận về sản phẩm switch mạng CPO của NVIDIA, nhưng mãi mãi không ra mắt. Ở sự kiện này, Huang Renxun cũng đã giải thích rằng - do việc sử dụng kết nối quang học rất nhiều trong trung tâm dữ liệu, năng lượng tiêu thụ của mạng quang học tương đương với 10% tài nguyên tính toán, chi phí kết nối quang trực tiếp ảnh hưởng đến mạng Scale-Out và hiệu suất AI của các nút tính toán.
Thông số của hai chip đóng gói kết hợp silicon và ánh sáng Quantum-X, Spectrum-X được hiển thị trên GTC
Trong năm nay, GTC của NVIDIA đã ra mắt Quantum-X chip kín bằng silic và Spectrum-X chip kín bằng silic cùng ba sản phẩm switch phát triển từ đó: Quantum 3450-LD, Spectrum SN6810 và Spectrum SN6800.
Quantum 3450-LD:144 cổng 800GB/s, băng thông backplane 115TB/s, làm mát bằng chất lỏng
Spectrum SN6810: 128 cổng 800GB/s, băng thông backplane 102.4TB/s, lạnh bằng chất lỏng
Spectrum SN6800: 512 cổng 800GB/s, băng thông backplane 409.6TB/s, làm mát bằng chất lỏng
Các sản phẩm trên được phân loại là 'NVIDIA Photonics', NVIDIA cho biết đây là một nền tảng phát triển cộng tác sinh thái dựa trên hợp tác CPO, ví dụ như việc sử dụng bộ điều chế vòng siêu nhỏ (MRM) được tối ưu hóa từ động cơ ánh sáng của TSMC, hỗ trợ việc điều chế laser có công suất cao và hiệu suất cao, và sử dụng kết nối sợi quang có thể tháo rời.
Điều thú vị là, theo thông tin trước đây của ngành, modulator vòng micro (MRM) của TSMC được xây dựng dựa trên quy trình công nghệ 3nm và công nghệ đóng gói tiên tiến như CoWoS với Broadcom.
Theo dữ liệu do NVIDIA cung cấp, so với công tắc truyền thống, công tắc Photonics tích hợp kiến thức bộ phận kỹ thuật số đã tăng hiệu suất lên đến 3,5 lần, hiệu quả triển khai cũng có thể tăng lên 1,3 lần và tính mở rộng vượt trội hơn 10 lần.
Hiệu suất mô hình PK DeepSeek: Hệ sinh thái phần mềm đẩy mạnh AI Agent
Trong buổi GTC lần này kéo dài tới 2 giờ, Hoàng Nhân Tuấn chỉ nói khoảng nửa giờ về phần mềm và thông minh cụ thể. Vì vậy, nhiều chi tiết được bổ sung thông qua tài liệu chính thức, không phải từ hiện trường.
) 1)Nvidia Dynamo,Nvidia đã xây dựng CUDA mới trong lĩnh vực suy luận
Nvidia Dynamo chắc chắn là quả bom phát hành phần mềm trong sự kiện này.
Đó là một phần mềm mã nguồn mở được xây dựng đặc biệt để tăng tốc việc suy luận, huấn luyện và triển khai trên toàn bộ trung tâm dữ liệu. Dữ liệu hiệu suất của Dynamo rất ấn tượng: trên kiến trúc Hopper hiện tại, Dynamo có thể làm tăng gấp đôi hiệu suất của mô hình tiêu chuẩn Llama. Đối với các mô hình suy luận chuyên biệt như DeepSeek, tối ưu hóa suy luận thông minh của NVIDIA Dynamo còn có thể tăng số lượng token tạo ra trên mỗi GPU lên hơn 30 lần.
Các cải tiến của Dynamo chủ yếu đến từ việc phân phối. Nó phân chia các giai đoạn tính toán khác nhau của LLM (hiểu truy vấn người dùng và tạo ra phản hồi tốt nhất) vào các GPU khác nhau, cho phép mỗi giai đoạn được tối ưu hóa độc lập, tăng cường hiệu suất và tăng tốc độ phản hồi.
Ví dụ: trong giai đoạn xử lý đầu vào, là giai đoạn điền trước, Dynamo có thể phân bổ hiệu quả tài nguyên GPU để xử lý đầu vào của người dùng. Hệ thống sẽ sử dụng song song nhiều bộ GPU để xử lý song song các truy vấn của người dùng, hy vọng việc xử lý GPU sẽ phân tán hơn và nhanh hơn. Dynamo sử dụng chế độ FP4 để gọi song song nhiều GPU để "đọc" và "hiểu" vấn đề của người dùng cùng một lúc, với một nhóm xử lý kiến thức nền tảng về Chiến tranh thế giới thứ hai, một nhóm khác xử lý các tài liệu lịch sử liên quan đến "nguyên nhân" và nhóm thứ ba xử lý dòng thời gian và sự kiện "đã trôi qua".
Trong quá trình tạo ra các mã thông báo đầu ra, tức là giai đoạn giải mã, cần phải tập trung GPU hơn và mạch lạc hơn. So với số lượng GPU, giai đoạn này đòi hỏi băng thông lớn hơn để hấp thụ thông tin suy nghĩ từ giai đoạn trước, do đó cũng cần nhiều hơn trong việc đọc bộ nhớ cache. Dynamo tối ưu hóa việc giao tiếp và phân bổ tài nguyên giữa các GPU, đảm bảo sự phát sinh phản hồi mạch lạc và hiệu quả. Một mặt, nó tận dụng đầy đủ khả năng giao tiếp NVLink có băng thông cao của kiến trúc NVL72, tối đa hóa hiệu suất tạo mã thông báo. Mặt khác, thông qua “Smart Router”, yêu cầu được chuyển hướng đến các GPU đã cache các khóa giá trị KV) liên quan, điều này có thể tránh được việc tính toán lặp đi lặp lại, từ đó cải thiện đáng kể tốc độ xử lý. Do việc tránh tính toán lặp lại, một số tài nguyên GPU được giải phóng và Dynamo có thể cấp phát động các tài nguyên trống này cho các yêu cầu đầu vào mới.
Cấu trúc này và cấu trúc Mooncake của Kimi rất giống nhau, nhưng Nvidia đã hỗ trợ nhiều hơn ở cơ sở hạ tầng. Mooncake có thể tăng khoảng 5 lần, nhưng Dynamo có thể tăng đáng kể về khía cạnh suy luận.
Ví dụ, trong vài đổi mới quan trọng của Dynamo, “GPU Planner” có thể điều chỉnh phân bổ GPU theo tải động, “Thư viện truyền thông trễ thấp” tối ưu hóa việc truyền dữ liệu giữa các GPU, trong khi “Bộ quản lý bộ nhớ” có thể thông minh di chuyển dữ liệu suy luận giữa các thiết bị lưu trữ ở các mức chi phí khác nhau, giảm thiểu chi phí vận hành. Với bộ định tuyến thông minh, hệ thống định tuyến nhận thức LLM định hướng yêu cầu đến GPU phù hợp nhất, giảm thiểu tính toán trùng lặp. Tất cả những khả năng này đều làm cho tải GPU đạt đến tối ưu hóa tốt nhất.
Sử dụng hệ thống suy luận phần mềm này có thể mở rộng hiệu quả lên các cụm GPU lớn, có thể mở rộng một truy vấn AI đơn lẻ lên tới 1000 GPU để tận dụng tối đa tài nguyên trung tâm dữ liệu.
Đối với nhà điều hành GPU, cải tiến này giúp giảm chi phí mỗi triệu mã thông báo đáng kể và tăng năng suất đáng kể. Đồng thời, người dùng nhận được nhiều mã thông báo hơn mỗi giây, phản ứng nhanh hơn và cải thiện trải nghiệm người dùng.
Sử dụng Dynamo, đạt được đường cong lợi nhuận và tốc độ phản hồi của máy chủ.
Khác với CUDA là cơ sở dưới cùng của lập trình GPU, Dynamo là một hệ thống ở mức độ cao hơn, tập trung vào việc phân phối và quản lý thông minh các tải trọng suy luận quy mô lớn. Nó đảm nhận vai trò lịch trình phân tán tối ưu hóa suy luận, nằm giữa ứng dụng và cơ sở hạ tầng tính toán ở tầng thấp. Tuy nhiên, giống như CUDA đã thay đổi toàn diện cảnh cạnh tính toán GPU hơn mười năm trước, Dynamo cũng có thể thành công tạo ra một phong cách mới về hiệu quả phần cứng và phần mềm suy luận.
Dynamo hoàn toàn mã nguồn mở, hỗ trợ tất cả các framework phổ biến từ PyTorch đến Tensor RT. Mở mã nguồn nhưng vẫn là bức tường bảo vệ. Giống như CUDA, nó chỉ hoạt động hiệu quả trên GPU của NVIDIA, là một phần của ngăn xếp phần mềm học máy AI của NVIDIA.
Với việc nâng cấp phần mềm này, NVIDIA đã xây dựng phòng thủ của riêng mình để chống lại các chip AISC thông minh như Groq. Phải kết hợp phần cứng và phần mềm mới có thể dẫn đầu cơ sở hạ tầng suy luận.
( 2)Mô hình mới của Llama Nemotron hiệu quả, nhưng vẫn không thể đánh bại DeepSeek
Mặc dù Dynamo thực sự ấn tượng trong việc tận dụng máy chủ, nhưng về mô hình huấn luyện, NVIDIA vẫn còn chênh lệch một chút so với chuyên gia thực sự.
NVIDIA đã sử dụng mô hình mới Llama Nemotron tại Hội nghị GTC này, với sự tập trung vào hiệu suất và độ chính xác. Nó phát sinh từ dòng mô hình Llama và đã được NVIDIA điều chỉnh đặc biệt, so với Llama gốc, mô hình này đã được tinh chỉnh thuật toán để trở nên nhẹ hơn, chỉ có 48B. Nó cũng có khả năng suy luận tương tự như o1. Giống như Claude 3.7 và Grok 3, mô hình Llama Nemotron tích hợp công tắc khả năng suy luận, người dùng có thể chọn liệu có bật hay không. Dòng này được chia thành ba cấp độ: Nano cơ bản, Super trung cấp và Ultra cấp cao, mỗi mô hình đều phù hợp với nhu cầu doanh nghiệp ở quy mô khác nhau.
Khi nói đến hiệu suất, tập dữ liệu điều chỉnh cho mô hình này hoàn toàn bao gồm dữ liệu tổng hợp do NVIDIA tạo ra, tổng cộng khoảng 60B token. So với việc huấn luyện đầy đủ của DeepSeek V3 với 1,3 triệu giờ H100, mô hình này chỉ có 1/15 lượng tham số của DeepSeek V3 và chỉ cần 360.000 giờ H100 để điều chỉnh. Hiệu suất huấn luyện thấp hơn một cấp so với DeepSeek.
Về hiệu suất suy luận, mô hình Llama Nemotron Super 49B thực sự hiệu quả hơn rất nhiều so với thế hệ trước, với khả năng xử lý token lên đến 5 lần so với Llama 3 70B, và có thể đạt được hơn 3000 token mỗi giây trên một GPU trung tâm dữ liệu duy nhất. Tuy nhiên, theo dữ liệu được công bố vào ngày cuối cùng của sự kiện mã nguồn mở DeepSeek, mỗi nút H800 có khả năng xử lý trung bình khoảng 73.7k token/s vào giai đoạn điền trước (bao gồm cả cache hit) hoặc khoảng 14.8k token/s vào giai đoạn giải mã. Sự khác biệt giữa hai con số vẫn rõ ràng.
Dưới góc độ hiệu suất, Llama Nemotron Super 49B vượt qua mô hình Llama 70B được cô đặc từ DeepSeek R1 ở mọi chỉ số. Tuy nhiên, khi xem xét việc mô hình nhỏ với hiệu suất cao như Qwen QwQ 32B thường xuyên ra mắt, dường như Llama Nemotron Super sẽ khó có cơ hội tỏa sáng giữa những mô hình có thể so sánh trực tiếp với R1.
Điều tồi tệ nhất là mô hình này, thậm chí còn chứng minh rằng DeepSeek có thể hiểu rõ hơn cả NVIDIA về cách điều chỉnh GPU trong quá trình huấn luyện.
( 3)Mô hình mới chỉ là món khai vị của hệ sinh thái AI Agent của NVIDIA, AIQ của NVIDA mới là món chính
Tại sao NVIDIA lại phát triển một mô hình suy luận? Điều này chủ yếu để chuẩn bị cho điểm nổ tiếp theo của trí tuệ nhân tạo mà Lão Hoàng chú ý - AI Agent. Kể từ khi các tập đoàn lớn như OpenAI, Claude và các công ty khác dần dần thiết lập cơ sở cho Agent thông qua DeepReasearch, MCP, NVIDIA rõ ràng cũng cho rằng thời đại của Agent đã đến.
Dự án NVIDA AIQ là sự thử nghiệm của NVIDIA. Nó cung cấp trực tiếp một luồng làm việc sẵn có của AI Agent Planner dựa trên mô hình suy luận Llama Nemotron. Dự án này thuộc cấp độ Blueprint của NVIDIA, đó là một tập hợp các luồng làm việc tham chiếu được cấu hình trước, là các mẫu mẫu, giúp các nhà phát triển dễ dàng tích hợp công nghệ và thư viện của NVIDIA. Và AIQ chính là mẫu Agent mà NVIDIA cung cấp.
Như Manus, nó tích hợp công cụ tìm kiếm mạng và các công cụ AI chuyên nghiệp khác, điều này cho phép chính Agent này không chỉ có khả năng tìm kiếm mà còn sử dụng nhiều công cụ khác nhau. Thông qua quy hoạch mô hình suy luận Llama Nemotron, nó tự suy nghĩ và tối ưu hóa các giải pháp để hoàn thành nhiệm vụ của người dùng. Ngoài ra, nó còn hỗ trợ xây dựng cấu trúc luồng làm việc cho nhiều Agent.
Hệ thống servicenow được xây dựng dựa trên mẫu này
Điều khác biệt của nó so với Manus là hệ thống RAG phức tạp dành cho tệp doanh nghiệp. Hệ thống này bao gồm một loạt các bước bao gồm trích xuất, nhúng, lưu trữ vector, sắp xếp lại để đảm bảo dữ liệu doanh nghiệp sẵn sàng cho Agent cuối cùng xử lý.
Ngoài ra, NVIDIA cũng đã ra mắt nền tảng dữ liệu AI, kết nối mô hình suy luận AI vào hệ thống dữ liệu doanh nghiệp, tạo ra một DeepResearch dành cho dữ liệu doanh nghiệp. Điều này đánh dấu sự tiến triển lớn trong công nghệ lưu trữ, biến hệ thống lưu trữ không chỉ là kho dữ liệu mà còn là một nền tảng thông minh có khả năng suy luận và phân tích tích cực.
Cấu trúc của Nền tảng Dữ liệu AI
Ngoài ra, AIQ rất chú trọng đến cơ chế quan sát và tính minh bạch. Điều này rất quan trọng đối với an ninh và việc cải tiến sau này. Đội ngũ phát triển có thể theo dõi hoạt động của Agent trong thời gian thực và liên tục tối ưu hóa hệ thống dựa trên dữ liệu về hiệu suất.
NVIDA AIQ tổng thể là một mẫu luồng công việc Agent tiêu chuẩn, cung cấp nhiều khả năng của Agent. Đây là một phần mềm xây dựng Agent loại Dify ngu ngố hơn, tiến hóa đến thời kỳ suy luận.
Mô hình cơ bản của robot hình người được phát hành, NVIDIA muốn tạo ra một hệ sinh thái cụ thể hoàn toàn đóng
( 1)Cosmos,để trí tuệ vật lý hiểu thế giới
Nếu nói về sự tập trung vào Agent hoặc đầu tư vào hiện tại, thì NVIDIA hoàn toàn có thể coi là việc tích hợp tương lai trong lĩnh vực trí tuệ nhân tạo.
NVIDIA đã sắp xếp đầy đủ ba yếu tố mô hình, dữ liệu và sức mạnh tính toán.
Bắt đầu từ mô hình, phiên bản nâng cấp của mô hình cơ bản Cosmos đã được công bố vào tháng 1 năm nay tại GTC lần này.
Cosmos là một mô hình có thể dự đoán hình ảnh tương lai dựa trên hình ảnh hiện tại. Nó có thể chuyển đổi dữ liệu đầu vào từ văn bản/hình ảnh thành video chi tiết và dự đoán sự phát triển của cảnh quay bằng cách kết hợp trạng thái hiện tại của nó (hình ảnh/video) với hành động (gợi ý/tín hiệu điều khiển). Vì điều này đòi hỏi sự hiểu biết về nguyên lý vật lý của thế giới, Nvidia gọi Cosmos là mô hình cơ bản của thế giới (WFM).
Đối với trí tuệ cơ thể, khả năng dự đoán hành vi của máy sẽ ảnh hưởng đến thế giới bên ngoài là khả năng cốt lõi nhất. Chỉ có như vậy, mô hình mới có thể dựa vào dự đoán để lập kế hoạch hành vi, vì vậy mô hình thế giới trở thành mô hình cơ bản của trí tuệ cơ thể. Với mô hình dự đoán thế giới thay đổi hành vi/thời gian cơ bản này, thông qua việc điều chỉnh dữ liệu cụ thể như tập dữ liệu tự động lái xe, nhiệm vụ robot, mô hình này có thể đáp ứng nhu cầu thực tế của mọi trí tuệ cơ thể có hình dạng vật lý.
Phần đầu tiên của mô hình, Cosmos Transfer, chuyển đổi đầu vào văn bản video có cấu trúc thành đầu ra video quang học có thể điều khiển và tạo ra dữ liệu tổng hợp quy mô lớn từ không khí mỏng. Điều này giải quyết nút thắt cổ chai lớn nhất của trí thông minh hiện nay - vấn đề không đủ dữ liệu. Hơn nữa, thế hệ này là một thế hệ "có thể kiểm soát", có nghĩa là người dùng có thể chỉ định các thông số cụ thể (như điều kiện thời tiết, thuộc tính đối tượng, v.v.) và mô hình sẽ điều chỉnh kết quả tạo cho phù hợp, làm cho quá trình tạo dữ liệu dễ kiểm soát và nhắm mục tiêu hơn. Toàn bộ quá trình cũng có thể được kết hợp bởi Ominiverse và Cosmos.
Cosmos được xây dựng trên mô phỏng thực tại của Ominiverse
Phần hai của Cosmos Predict có thể tạo ra trạng thái thế giới ảo từ đầu vào đa dạng, hỗ trợ việc tạo ra nhiều khung hình và dự đoán quỹ đạo hành động. Điều này có nghĩa là, với trạng thái bắt đầu và kết thúc đã cho, mô hình có thể tạo ra quá trình trung gian hợp lý. Điều này là khả năng cốt lõi của nhận thức và xây dựng thế giới vật lý.
Phần ba là Cosmos Reason, một mô hình mở và hoàn toàn có thể tùy chỉnh, có khả năng nhận biết thời gian và không gian, thông qua chuỗi tư duy để hiểu dữ liệu video và dự đoán kết quả tương tác. Đây là khả năng nâng cao việc lập kế hoạch hành vi và dự đoán kết quả hành vi.
Với sự kết hợp từ ba phần này, Cosmos có thể thực hiện chuỗi hành động hoàn chỉnh từ việc nhập token hình ảnh thực tế + token lệnh văn bản đến việc xuất token hành động của máy móc.
Mô hình cơ bản này có vẻ không tệ. Chỉ sau hai tháng ra mắt, 1X, Agility Robotics, Figure AI ba công ty hàng đầu này đã bắt đầu sử dụng. Mô hình ngôn ngữ lớn không dẫn đầu, nhưng NVIDIA với trí tuệ nhân tạo thực sự ở trong top đầu.
( 2)Isaac GR00T N1, mô hình cơ bản robot hình người đầu tiên trên thế giới
Với Cosmos, NVIDIA tự nhiên đã sử dụng cấu trúc này để điều chỉnh mô hình cơ bản Isaac GR00T N1 dành riêng cho robot hình người.
Nó sử dụng kiến trúc hệ thống kép, với "hệ thống 1" phản ứng nhanh và "hệ thống 2" suy luận sâu. Việc điều chỉnh toàn diện của nó cho phép xử lý các nhiệm vụ thông thường như nắm bắt, di chuyển, vận hành hai cánh tay, v.v. Và có thể tùy chỉnh hoàn toàn theo từng robot cụ thể, các nhà phát triển robot có thể sử dụng dữ liệu thực tế hoặc tổng hợp để huấn luyện sau. Điều này thực sự cho phép mô hình này có thể triển khai trên nhiều loại robot có hình dạng và tính chất khác nhau.
Ví dụ, việc hợp tác giữa NVIDIA với Google DeepMind và Disney để phát triển Newton Physics Engine đã sử dụng Isaac GR00T N1 làm nền tảng để điều khiển một robot BDX Disney nhỏ rất hiếm gặp. Điều này cho thấy tính đa dụng của nó. Newton với vai trò là một Physics Engine rất tinh tế, do đó đủ để xây dựng một hệ thống thưởng vật lý để huấn luyện trí tuệ cơ thể trong môi trường ảo.
Hwang In-hyun và robot BDX tương tác 'đam mê' trên sân khấu
( 4)Sinh dữ liệu, hai bên
NVIDIA đã kết hợp NVIDIA Omniverse và mô hình cơ bản thế giới NVIDIA Cosmos Transfer để tạo ra Isaac GR00T Blueprint. Nó có thể tạo ra một lượng lớn dữ liệu hành động tổng hợp từ một số lượng nhỏ các biểu diễn con người, được sử dụng cho việc huấn luyện vận hành robot. NVIDIA đã sử dụng các thành phần đầu tiên của Blueprint để tạo ra 780.000 đường đi tổng hợp chỉ trong 11 giờ, tương đương với 6.500 giờ (khoảng 9 tháng) dữ liệu biểu diễn con người. Một phần lớn dữ liệu của Isaac GR00T N1 đến từ đây, dữ liệu này đã khiến hiệu suất của GR00T N1 tăng lên 40% so với việc chỉ sử dụng dữ liệu thực.
Đối với mỗi mô hình, thông qua hệ thống ảo Omniverse này và hệ thống tạo hình ảnh thế giới thực Cosmos Transfer, NVIDIA có thể cung cấp một lượng lớn dữ liệu chất lượng cao. Mặt thứ hai của mô hình này, NVIDIA cũng đã bao phủ.
( 3)Hệ thống sức mạnh tính toán ba trong một, xây dựng Đế chế tính toán cho robot từ việc huấn luyện đến điểm cuối
Từ năm ngoái, ông Huang đã nhấn mạnh về một khái niệm 'ba máy tính' trên GTC: Một máy là DGX, đó là máy chủ GPU lớn, được sử dụng để huấn luyện trí tuệ nhân tạo, bao gồm cả điều khiển cơ thể. Máy khác là AGX, là nền tảng tính toán nhúng được thiết kế bởi NVIDIA cho tính toán biên và hệ thống tự động, được sử dụng cụ thể để triển khai trí tuệ nhân tạo tại điểm cuối, chẳng hạn như làm việc như chip trung tâm cho tự động lái xe hoặc robot. Máy thứ ba là máy tạo dữ liệu Omniverse+Cosmos.
Hệ thống này đã được ông Huang nhắc đến mạnh mẽ trong GTC lần này và đặc biệt nhấn mạnh rằng dựa vào hệ thống sức mạnh tính toán này, có thể tạo ra hàng tỷ robot. Từ việc huấn luyện đến triển khai, sức mạnh tính toán đều được cung cấp bởi NVIDIA. Phần này cũng đã được đóng vòng.
Kết luận
Nếu chỉ so sánh với thế hệ trước của chip Blackwell, Blackwell Ultra thực sự không đạt được sự tương xứng về phần cứng với những từ miêu tả như "bom hạt nhân", "bí mật", thậm chí còn có một chút vị như đang vắt răng.
Nhưng nếu nhìn từ góc độ của kế hoạch đường đi, tất cả điều này đều nằm trong sự sắp xếp của Huang Renxun, từ kiến trúc Rubin của năm sau, năm sau, từ công nghệ chip, transistor, đến tích hợp khung máy chủ, GPU kết nối và các thông số kỹ thuật khác đều sẽ được nâng cao đáng kể, như người Trung Quốc hay nói là "phần hay nhất vẫn chưa đến".
So sánh với việc dùng phần cứng để giảm béo, trong những năm qua, NVIDIA đã có sự tiến bộ mạnh mẽ ở phần mềm.
Nhìn chung, toàn bộ hệ sinh thái phần mềm của NVIDIA, với ba cấp dịch vụ Meno, Nim, Blueprint, đã bao gồm cả giải pháp full-stack từ việc tinh chỉnh mô hình, đóng gói mô hình đến xây dựng ứng dụng. Hệ sinh thái của công ty dịch vụ điện toán đám mây NVIDIA AI hoàn toàn trùng khớp. Với sự bổ sung của Agent mới, NVIDIA muốn chấm dứt mảnh bánh AI infra này, ngoại trừ phần mô hình cơ bản, NVIDIA muốn tất cả các phần khác đều được ăn.
Phần mềm này, khẩu vị của Lão Hoàng, cũng lớn như giá cổ phiếu của Nvidia.
Trên thị trường robot, Nvidia thì càng tham vọng hơn. Họ nắm giữ ba yếu tố chính là mô hình, dữ liệu và sức mạnh tính toán trong tay. Mặc dù không kịp thời chiếm lĩnh vị trí hàng đầu về mô hình ngôn ngữ cơ bản, nhưng họ đã bù đắp bằng trí tuệ nhân tạo có cơ sở. Rõ ràng, một con quỷ độc quyền về trí tuệ nhân tạo đã bắt đầu xuất hiện trên bề mặt.
Trong đó, từng bước, từng sản phẩm đều tương ứng với một thị trường tiềm năng hàng nghìn tỷ. Ông trùm cờ bạc may mắn Huang Renxun, người từng đặt cược tất cả vào sự thống trị của GPU để kiếm tiền, bắt đầu một trận đấu lớn hơn.
Nếu trong trò chơi này, thị trường phần mềm hoặc robot nào đó chiếm lĩnh hoàn toàn, thì NVIDIA sẽ là Google của thời đại AI, là người chiếm đỉnh của chuỗi thức ăn.
Tuy nhiên, khi nhìn vào tỷ suất lợi nhuận của GPU của NVIDIA, chúng ta vẫn hy vọng vào một tương lai như vậy.
May mắn thay, đối với ông Hoàng suốt đời, đây cũng là một trận cờ lớn mà ông chưa từng tham gia, không ai biết ai sẽ thắng ai.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Đọc một bài viết để hiểu rõ về cuộc họp lớn GTC của NVIDIA với bài diễn thuyết của Jensen Huang: Tin tưởng rằng Khả năng tính toán không bao giờ ngủ
Tác giả: Tô Dương, Hậu Bách Dương; Nguồn: Công nghệ Tencent
Là "người bán cà-vạt" trong thời đại AI, Huang Renxun và NVIDIA của anh luôn tin rằng sức mạnh tính toán không bao giờ ngủ.
Hoàng Nhân Tuấn tại bài diễn thuyết GTC cho biết lý do thị cần tăng gấp 100 lần
Tại hội nghị GTC hôm nay, Huang Renxun đã giới thiệu GPU Blackwell Ultra hoàn toàn mới, cùng với các phiên bản máy chủ dành cho suy luận và Agent dựa trên nền tảng này, bao gồm toàn bộ bộ sưu tập RTX dựa trên kiến trúc Blackwell, tất cả đều liên quan đến sức mạnh tính toán, nhưng điều quan trọng hơn tiếp theo là cách tiêu thụ hiệu quả và hợp lý sức mạnh tính toán liên tục.
Trong mắt của Huang Renxun, để đi đến AGI cần sức mạnh tính toán, robot thông minh cần sức mạnh tính toán, xây dựng Omniverse và mô hình thế giới cần sức mạnh tính toán liên tục, còn việc xây dựng một 'vũ trụ song song' ảo cho con người cuối cùng, cần bao nhiêu sức mạnh tính toán, NVIDIA đã đưa ra một câu trả lời - gấp 100 lần so với quá khứ.
Để ủng hộ quan điểm của mình, Huang Renxun đã đưa ra một loạt dữ liệu tại sự kiện GTC - vào năm 2024, tổng cộng 4 nhà máy đám mây hàng đầu của Mỹ đã mua 1,3 triệu vi mạch kiến trúc Hopper; đến năm 2025, con số này đã tăng vọt lên 3,6 triệu GPU Blackwell.
Dưới đây là một số điểm chính của Hội nghị GTC 2025 của NVIDIA do Tencent Technology tổng hợp:
Blackwell全家桶上线
1)Siêu phẩm Blackwell Ultra nổ ra trong năm của Gate.io.
NVIDIA đã ra mắt kiến trúc Blackwell và chip GB200 tại GTC năm ngoái, tên chính thức của nó trong năm nay đã được điều chỉnh một chút, không gọi là GB300 như tin đồn trước đó, mà trực tiếp được gọi là Blakwell Ultra.
Nhưng về cứng, nó chỉ là việc thay thế bộ nhớ HBM mới trong năm ngoái. Một cách hiểu đơn giản là, Blackwell Ultra = phiên bản bộ nhớ lớn Blackwell.
Blackwell Ultra được đóng gói từ vi mạch Blackwell kiến trúc chip + Grace CPU, sử dụng hai viên chip TSMC N4P (5nm) và bộ nhớ HBM3e 12 lớp tiên tiến hơn, dung lượng bộ nhớ đồ họa tăng lên 288GB, hỗ trợ NVLink thế hệ thứ năm như thế hệ trước, có khả năng tương tác giữa các chip với băng thông liên kết 1.8TB/s.
Thông số hiệu suất lịch sử của NVLink
Dựa trên nâng cấp lưu trữ, sức mạnh tính toán độ chính xác FP4 của Blackwell GPU có thể đạt đến 15PetaFLOPS, với tốc độ suy luận dựa trên cơ chế Tăng tốc Attention, tăng gấp 2,5 lần so với vi mạch kiến trúc Hopper.
2)Blackwell Ultra NVL72:Tủ máy AI dành riêng cho suy luận
Hình chính thức của Blackwell Ultra NVL72
Tương tự như GB200 NVL72, NVIDIA cũng đã ra mắt sản phẩm tương tự là Blackwell Ultra NVL72, bao gồm tổng cộng 18 khay tính toán, mỗi khay tính toán bao gồm 4 GPU Blackwell Ultra + 2 CPU Grace, tổng cộng là 72 GPU Blackwell Ultra + 36 CPU Grace, bộ nhớ đồng thời là 20TB, tổng băng thông 576TB/s, kèm theo 9 khay switch NVLink (18 vi mạch switch NVLink), băng thông NVLink giữa các nút là 130TB/s.
Trong tủ chứa có 72 thẻ mạng CX-8, cung cấp băng thông 14.4TB/s, trong khi thẻ mạng Quantum-X800 InfiniBand và Spectrum-X 800G Ethernet có thể giảm độ trễ và rung, hỗ trợ cụm trí tuệ nhân tạo quy mô lớn. Ngoài ra, khung còn tích hợp 18 thẻ BlueField-3 DPU để tăng cường mạng nhiều người dùng, bảo mật và tăng tốc dữ liệu.
NVIDIA nói rằng sản phẩm này được tùy chỉnh đặc biệt cho "thời đại suy luận AI", các trường hợp sử dụng bao gồm AI suy luận, Agent và AI vật lý được sử dụng cho việc mô phỏng dữ liệu huấn luyện robot và tự lái thông minh(, so với sản phẩm thế hệ trước GB200 NVL72, hiệu suất AI tăng 1.5 lần, và so với sản phẩm tủ máy DGX cùng vị trí của kiến trúc Hopper, có thể cung cấp cơ hội tăng thu nhập 50 lần cho trung tâm dữ liệu.
Dựa trên thông tin mà nhà sản xuất cung cấp, việc suy luận 671 tỷ tham số của DeepSeek-R1 dựa trên sản phẩm H100 có thể đạt 100 tokens mỗi giây, trong khi sử dụng giải pháp Blackwell Ultra NVL72 có thể đạt 1000 tokens mỗi giây.
Chuyển đổi thành thời gian, với cùng một nhiệm vụ suy luận, H100 cần chạy 1.5 phút trong khi Blackwell Ultra NVL72 chỉ cần 15 giây để hoàn thành.
![图片])https://img.gateio.im/social/moments-ae009b85584d17a96ee0582e943e48ff(
Thông số kỹ thuật phần cứng của Blackwell Ultra NVL72 và GB200 NVL72
Dựa trên thông tin do NVIDIA cung cấp, sản phẩm liên quan Blackwell NVL72 dự kiến sẽ ra mắt vào nửa cuối năm 2025, với các khách hàng bao gồm các nhà sản xuất máy chủ, đám mây, và các nhà cung cấp dịch vụ cho thuê sức mạnh tính toán.
Cisco/Dell/HPE/Lenovo/超微等15家制造商
Các nền tảng chính như AWS/Google Cloud/Azure/Oracle và các nền tảng hàng đầu khác
CoreWeave/Lambda/Yotta等
) 3)Thông báo trước về chip GPU Rubin "bom hạt nhân" thực sự
The main venue of GTC2025 is Blackwell Ultra according to NVIDIA's roadmap.
Tuy nhiên, Huang Renxun cũng đã thông báo với cơ hội này về GPU thế hệ tiếp theo dựa trên kiến trúc Rubin và Vera Rubin NVL144 tủ máy mạnh mẽ hơn sẽ được niêm yết vào năm 2026 - 72 CPU Vera + 144 GPU Rubin, sử dụng vi mạch HBM4 288GB, băng thông bộ nhớ 13TB/s, kết hợp với thẻ NVLink thế hệ thứ sáu và thẻ mạng CX9.
Sức mạnh của sản phẩm này như thế nào? Sức mạnh tính toán suy luận của FP4 đạt 3.6 ExaFLOPS, sức mạnh đào tạo độ chính xác của FP8 cũng đạt 1.2 ExaFLOPS, hiệu suất là 3.3 lần so với Blackwell Ultra NVL72.
Nếu bạn cảm thấy chưa đủ, không sao, vào năm 2027 sẽ có thêm máy chủ Rubin Ultra NVL576 mạnh mẽ hơn, với khả năng tính toán lý thuyết FP4 và sức mạnh đào tạo FP8 lần lượt là 15ExaFLOPS và 5ExaFLOPS, gấp 14 lần so với Blackwell Ultra NVL72.
![图片]###https://img.gateio.im/social/moments-116d07948d787697d1e19a423dc7ace4(
Các thông số kỹ thuật Rubin Ultra NVL144 và Rubin Ultra NVL576 do NVIDIA chính thức cung cấp
) 4)Blackwell Ultra版DGX Super POD“超算工厂“
Đối với những khách hàng hiện tại mà Blackwell Ultra NVL72 không thể đáp ứng nhu cầu, nhưng không cần xây dựng cụm AI với quy mô lớn, giải pháp của NVIDIA dựa trên Blackwell Ultra, nhà máy siêu máy tính AI DGX Super POD plug-and-play.
Với việc là một nhà máy siêu tính toán AI có thể cắm và sử dụng ngay lập tức, DGX Super POD chủ yếu dành cho các tình huống AI như AI sáng tạo, AI Agent và mô phỏng vật lý, bao gồm nhu cầu mở rộng sức mạnh tính toán toàn bộ quy trình từ huấn luyện trước, huấn luyện sau đến môi trường sản xuất, Equinix là nhà cung cấp đầu tiên cung cấp hạ tầng làm mát bằng chất lỏng hoặc làm mát bằng không khí.
![图片]###https://img.gateio.im/social/moments-d459d098063a0ff6728108328daffd3f(
DGX SuperPod được xây dựng bởi Blackwell Ultra
Dựa trên hai phiên bản của DGX Super POD được tùy chỉnh dựa trên Blackwell Ultra:
DGX SuperPOD tích hợp DGX GB300 (Grace CPU ×1 + Blackwell Ultra GPU ×2), tổng cộng 288 CPU Grace + 576 GPU Blackwell Ultra, cung cấp 300TB bộ nhớ nhanh, hiệu suất tính toán dưới độ chính xác FP4 là 11.5ExaFLOPS
) 5)DGX Spark và DGX Station
Trong tháng 1 năm nay, NVIDIA đã trình làng một sản phẩm máy tính AI khái niệm có giá 3000 đô la tại CES - Dự án DIGITS, hiện tại nó đã có tên chính thức là DGX Spark.
Về thông số kỹ thuật sản phẩm, được trang bị chip GB10, hiệu suất tính toán dưới độ chính xác FP4 có thể đạt 1PetaFlops, bộ nhớ trong 128GB LPDDR5X, card mạng CX-7, bộ lưu trữ NVMe 4TB, chạy trên hệ điều hành DGX OS dựa trên Linux tùy chỉnh, hỗ trợ các framework như Pytorch, và được cài sẵn một số công cụ phát triển phần mềm AI cơ bản do NVIDIA cung cấp, có thể chạy mô hình với 200 tỷ tham số. Kích thước của máy gần bằng với Mac mini, hai máy DGX Spark kết nối với nhau, cũng có thể chạy mô hình với hơn 400 tỷ tham số.
Mặc dù chúng tôi nói rằng đó là một máy tính AI, nhưng bản chất vẫn thuộc về lĩnh vực siêu máy tính, vì vậy nó được đặt trong dòng sản phẩm DGX chứ không phải là dòng sản phẩm tiêu dùng như RTX.
Tuy nhiên, cũng có người phàn nàn về sản phẩm này, hiệu suất quảng cáo của FP4 thấp, chỉ có thể so sánh với RTX 5070 ở độ chính xác FP16, thậm chí chỉ so sánh với Arc B580 có giá 250 USD, vì vậy tỷ lệ hiệu năng giá cả rất thấp.
![图片]###https://img.gateio.im/social/moments-0ad2286c98bbdacda9a450abd3606e80(
Máy tính DGX Spark và máy trạm DGX Station
Ngoài DGX Spark có tên chính thức, NVIDIA cũng ra mắt một máy trạm AI dựa trên Blackwell Ultra, máy trạm này tích hợp CPU Grace và GPU Blackwell Ultra, kèm theo bộ nhớ thống nhất 784GB, thẻ mạng CX-8, cung cấp công suất tính toán AI 20PetaFlops (không được đánh dấu chính thức, lý thuyết cũng là độ chính xác FP4).
) 6)RTX quét sạch AI PC, còn phải chen vào trung tâm dữ liệu
Những sản phẩm SKU được giới thiệu ở trước đây đều dựa trên Grace CPU và Blackwell Ultra GPU, và đều là sản phẩm cấp doanh nghiệp, với sự cân nhắc đến cách mà nhiều người sử dụng sản phẩm như RTX 4090 trong việc suy luận trí tuệ nhân tạo, NVIDIA đã tiếp tục củng cố sự kết hợp giữa dòng sản phẩm Blackwell và RTX trong sự kiện GTC lần này, đưa ra một loạt GPU liên quan đến PC AI tích hợp bộ nhớ GDDR7, bao gồm cả các kịch bản máy tính xách tay, máy tính để bàn và thậm chí cả trung tâm dữ liệu.
![图片]###https://img.gateio.im/social/moments-b6c591bdc6c60a8e477fc88631a3b9a0(
NVIDIA tạo ra bộ công cụ AI toàn diện dành cho tính toán doanh nghiệp
Trên đây chỉ là một số SKU được tùy chỉnh dựa trên chip Blackwell Ultra cho các tình huống khác nhau, từ máy trạm nhỏ đến cụm trung tâm dữ liệu, NVIDIA gọi chúng là “Gia đình Blackwell” (Blackwell Family), dịch sang tiếng Trung là “Blackwell全家桶” không thể thích hợp hơn.
Hệ thống CPO của NVIDIA Photonics: Đứng trên vai đồng đội
Khái niệm về Module Đóng Chung Quang Điện (CPO) đơn giản là kết hợp vi xử lý chuyển mạch và mô-đun quang học trong cùng một bộ vỏ, có thể chuyển đổi tín hiệu quang thành tín hiệu điện, tận dụng tối đa hiệu suất truyền tải của tín hiệu quang.
Trước đây, ngành công nghiệp luôn tranh luận về sản phẩm switch mạng CPO của NVIDIA, nhưng mãi mãi không ra mắt. Ở sự kiện này, Huang Renxun cũng đã giải thích rằng - do việc sử dụng kết nối quang học rất nhiều trong trung tâm dữ liệu, năng lượng tiêu thụ của mạng quang học tương đương với 10% tài nguyên tính toán, chi phí kết nối quang trực tiếp ảnh hưởng đến mạng Scale-Out và hiệu suất AI của các nút tính toán.
![图片])https://img.gateio.im/social/moments-1d701aeb143b1f0cd089570733b1df70(
Thông số của hai chip đóng gói kết hợp silicon và ánh sáng Quantum-X, Spectrum-X được hiển thị trên GTC
Trong năm nay, GTC của NVIDIA đã ra mắt Quantum-X chip kín bằng silic và Spectrum-X chip kín bằng silic cùng ba sản phẩm switch phát triển từ đó: Quantum 3450-LD, Spectrum SN6810 và Spectrum SN6800.
Các sản phẩm trên được phân loại là 'NVIDIA Photonics', NVIDIA cho biết đây là một nền tảng phát triển cộng tác sinh thái dựa trên hợp tác CPO, ví dụ như việc sử dụng bộ điều chế vòng siêu nhỏ (MRM) được tối ưu hóa từ động cơ ánh sáng của TSMC, hỗ trợ việc điều chế laser có công suất cao và hiệu suất cao, và sử dụng kết nối sợi quang có thể tháo rời.
Điều thú vị là, theo thông tin trước đây của ngành, modulator vòng micro (MRM) của TSMC được xây dựng dựa trên quy trình công nghệ 3nm và công nghệ đóng gói tiên tiến như CoWoS với Broadcom.
Theo dữ liệu do NVIDIA cung cấp, so với công tắc truyền thống, công tắc Photonics tích hợp kiến thức bộ phận kỹ thuật số đã tăng hiệu suất lên đến 3,5 lần, hiệu quả triển khai cũng có thể tăng lên 1,3 lần và tính mở rộng vượt trội hơn 10 lần.
Hiệu suất mô hình PK DeepSeek: Hệ sinh thái phần mềm đẩy mạnh AI Agent
![图片])https://img.gateio.im/social/moments-91bee3beda93d8e9e62f4e3f3f9aa47c(
黄仁勋在现场描绘AI infra的“大饼”
Trong buổi GTC lần này kéo dài tới 2 giờ, Hoàng Nhân Tuấn chỉ nói khoảng nửa giờ về phần mềm và thông minh cụ thể. Vì vậy, nhiều chi tiết được bổ sung thông qua tài liệu chính thức, không phải từ hiện trường.
) 1)Nvidia Dynamo,Nvidia đã xây dựng CUDA mới trong lĩnh vực suy luận
Nvidia Dynamo chắc chắn là quả bom phát hành phần mềm trong sự kiện này.
Đó là một phần mềm mã nguồn mở được xây dựng đặc biệt để tăng tốc việc suy luận, huấn luyện và triển khai trên toàn bộ trung tâm dữ liệu. Dữ liệu hiệu suất của Dynamo rất ấn tượng: trên kiến trúc Hopper hiện tại, Dynamo có thể làm tăng gấp đôi hiệu suất của mô hình tiêu chuẩn Llama. Đối với các mô hình suy luận chuyên biệt như DeepSeek, tối ưu hóa suy luận thông minh của NVIDIA Dynamo còn có thể tăng số lượng token tạo ra trên mỗi GPU lên hơn 30 lần.
![图片]###https://img.gateio.im/social/moments-e2048dbf1ea9e5d046fd9fd8bca2a244(
黄仁勋演示加了Dynamo的Blackwell能超过25倍的Hopper
Các cải tiến của Dynamo chủ yếu đến từ việc phân phối. Nó phân chia các giai đoạn tính toán khác nhau của LLM (hiểu truy vấn người dùng và tạo ra phản hồi tốt nhất) vào các GPU khác nhau, cho phép mỗi giai đoạn được tối ưu hóa độc lập, tăng cường hiệu suất và tăng tốc độ phản hồi.
![图片])https://img.gateio.im/social/moments-380b9fe8c64618f264b3e2a82e3da790(
Kiến trúc hệ thống của Dynamo
Ví dụ: trong giai đoạn xử lý đầu vào, là giai đoạn điền trước, Dynamo có thể phân bổ hiệu quả tài nguyên GPU để xử lý đầu vào của người dùng. Hệ thống sẽ sử dụng song song nhiều bộ GPU để xử lý song song các truy vấn của người dùng, hy vọng việc xử lý GPU sẽ phân tán hơn và nhanh hơn. Dynamo sử dụng chế độ FP4 để gọi song song nhiều GPU để "đọc" và "hiểu" vấn đề của người dùng cùng một lúc, với một nhóm xử lý kiến thức nền tảng về Chiến tranh thế giới thứ hai, một nhóm khác xử lý các tài liệu lịch sử liên quan đến "nguyên nhân" và nhóm thứ ba xử lý dòng thời gian và sự kiện "đã trôi qua".
Trong quá trình tạo ra các mã thông báo đầu ra, tức là giai đoạn giải mã, cần phải tập trung GPU hơn và mạch lạc hơn. So với số lượng GPU, giai đoạn này đòi hỏi băng thông lớn hơn để hấp thụ thông tin suy nghĩ từ giai đoạn trước, do đó cũng cần nhiều hơn trong việc đọc bộ nhớ cache. Dynamo tối ưu hóa việc giao tiếp và phân bổ tài nguyên giữa các GPU, đảm bảo sự phát sinh phản hồi mạch lạc và hiệu quả. Một mặt, nó tận dụng đầy đủ khả năng giao tiếp NVLink có băng thông cao của kiến trúc NVL72, tối đa hóa hiệu suất tạo mã thông báo. Mặt khác, thông qua “Smart Router”, yêu cầu được chuyển hướng đến các GPU đã cache các khóa giá trị KV) liên quan, điều này có thể tránh được việc tính toán lặp đi lặp lại, từ đó cải thiện đáng kể tốc độ xử lý. Do việc tránh tính toán lặp lại, một số tài nguyên GPU được giải phóng và Dynamo có thể cấp phát động các tài nguyên trống này cho các yêu cầu đầu vào mới.
Cấu trúc này và cấu trúc Mooncake của Kimi rất giống nhau, nhưng Nvidia đã hỗ trợ nhiều hơn ở cơ sở hạ tầng. Mooncake có thể tăng khoảng 5 lần, nhưng Dynamo có thể tăng đáng kể về khía cạnh suy luận.
Ví dụ, trong vài đổi mới quan trọng của Dynamo, “GPU Planner” có thể điều chỉnh phân bổ GPU theo tải động, “Thư viện truyền thông trễ thấp” tối ưu hóa việc truyền dữ liệu giữa các GPU, trong khi “Bộ quản lý bộ nhớ” có thể thông minh di chuyển dữ liệu suy luận giữa các thiết bị lưu trữ ở các mức chi phí khác nhau, giảm thiểu chi phí vận hành. Với bộ định tuyến thông minh, hệ thống định tuyến nhận thức LLM định hướng yêu cầu đến GPU phù hợp nhất, giảm thiểu tính toán trùng lặp. Tất cả những khả năng này đều làm cho tải GPU đạt đến tối ưu hóa tốt nhất.
Sử dụng hệ thống suy luận phần mềm này có thể mở rộng hiệu quả lên các cụm GPU lớn, có thể mở rộng một truy vấn AI đơn lẻ lên tới 1000 GPU để tận dụng tối đa tài nguyên trung tâm dữ liệu.
Đối với nhà điều hành GPU, cải tiến này giúp giảm chi phí mỗi triệu mã thông báo đáng kể và tăng năng suất đáng kể. Đồng thời, người dùng nhận được nhiều mã thông báo hơn mỗi giây, phản ứng nhanh hơn và cải thiện trải nghiệm người dùng.
Sử dụng Dynamo, đạt được đường cong lợi nhuận và tốc độ phản hồi của máy chủ.
Khác với CUDA là cơ sở dưới cùng của lập trình GPU, Dynamo là một hệ thống ở mức độ cao hơn, tập trung vào việc phân phối và quản lý thông minh các tải trọng suy luận quy mô lớn. Nó đảm nhận vai trò lịch trình phân tán tối ưu hóa suy luận, nằm giữa ứng dụng và cơ sở hạ tầng tính toán ở tầng thấp. Tuy nhiên, giống như CUDA đã thay đổi toàn diện cảnh cạnh tính toán GPU hơn mười năm trước, Dynamo cũng có thể thành công tạo ra một phong cách mới về hiệu quả phần cứng và phần mềm suy luận.
Dynamo hoàn toàn mã nguồn mở, hỗ trợ tất cả các framework phổ biến từ PyTorch đến Tensor RT. Mở mã nguồn nhưng vẫn là bức tường bảo vệ. Giống như CUDA, nó chỉ hoạt động hiệu quả trên GPU của NVIDIA, là một phần của ngăn xếp phần mềm học máy AI của NVIDIA.
Với việc nâng cấp phần mềm này, NVIDIA đã xây dựng phòng thủ của riêng mình để chống lại các chip AISC thông minh như Groq. Phải kết hợp phần cứng và phần mềm mới có thể dẫn đầu cơ sở hạ tầng suy luận.
( 2)Mô hình mới của Llama Nemotron hiệu quả, nhưng vẫn không thể đánh bại DeepSeek
Mặc dù Dynamo thực sự ấn tượng trong việc tận dụng máy chủ, nhưng về mô hình huấn luyện, NVIDIA vẫn còn chênh lệch một chút so với chuyên gia thực sự.
NVIDIA đã sử dụng mô hình mới Llama Nemotron tại Hội nghị GTC này, với sự tập trung vào hiệu suất và độ chính xác. Nó phát sinh từ dòng mô hình Llama và đã được NVIDIA điều chỉnh đặc biệt, so với Llama gốc, mô hình này đã được tinh chỉnh thuật toán để trở nên nhẹ hơn, chỉ có 48B. Nó cũng có khả năng suy luận tương tự như o1. Giống như Claude 3.7 và Grok 3, mô hình Llama Nemotron tích hợp công tắc khả năng suy luận, người dùng có thể chọn liệu có bật hay không. Dòng này được chia thành ba cấp độ: Nano cơ bản, Super trung cấp và Ultra cấp cao, mỗi mô hình đều phù hợp với nhu cầu doanh nghiệp ở quy mô khác nhau.
![图片])https://img.gateio.im/social/moments-f96380931cf2a144170345b7ec105846###
Dữ liệu cụ thể của Llama Nemotron
Khi nói đến hiệu suất, tập dữ liệu điều chỉnh cho mô hình này hoàn toàn bao gồm dữ liệu tổng hợp do NVIDIA tạo ra, tổng cộng khoảng 60B token. So với việc huấn luyện đầy đủ của DeepSeek V3 với 1,3 triệu giờ H100, mô hình này chỉ có 1/15 lượng tham số của DeepSeek V3 và chỉ cần 360.000 giờ H100 để điều chỉnh. Hiệu suất huấn luyện thấp hơn một cấp so với DeepSeek.
Về hiệu suất suy luận, mô hình Llama Nemotron Super 49B thực sự hiệu quả hơn rất nhiều so với thế hệ trước, với khả năng xử lý token lên đến 5 lần so với Llama 3 70B, và có thể đạt được hơn 3000 token mỗi giây trên một GPU trung tâm dữ liệu duy nhất. Tuy nhiên, theo dữ liệu được công bố vào ngày cuối cùng của sự kiện mã nguồn mở DeepSeek, mỗi nút H800 có khả năng xử lý trung bình khoảng 73.7k token/s vào giai đoạn điền trước (bao gồm cả cache hit) hoặc khoảng 14.8k token/s vào giai đoạn giải mã. Sự khác biệt giữa hai con số vẫn rõ ràng.
Dưới góc độ hiệu suất, Llama Nemotron Super 49B vượt qua mô hình Llama 70B được cô đặc từ DeepSeek R1 ở mọi chỉ số. Tuy nhiên, khi xem xét việc mô hình nhỏ với hiệu suất cao như Qwen QwQ 32B thường xuyên ra mắt, dường như Llama Nemotron Super sẽ khó có cơ hội tỏa sáng giữa những mô hình có thể so sánh trực tiếp với R1.
Điều tồi tệ nhất là mô hình này, thậm chí còn chứng minh rằng DeepSeek có thể hiểu rõ hơn cả NVIDIA về cách điều chỉnh GPU trong quá trình huấn luyện.
( 3)Mô hình mới chỉ là món khai vị của hệ sinh thái AI Agent của NVIDIA, AIQ của NVIDA mới là món chính
Tại sao NVIDIA lại phát triển một mô hình suy luận? Điều này chủ yếu để chuẩn bị cho điểm nổ tiếp theo của trí tuệ nhân tạo mà Lão Hoàng chú ý - AI Agent. Kể từ khi các tập đoàn lớn như OpenAI, Claude và các công ty khác dần dần thiết lập cơ sở cho Agent thông qua DeepReasearch, MCP, NVIDIA rõ ràng cũng cho rằng thời đại của Agent đã đến.
Dự án NVIDA AIQ là sự thử nghiệm của NVIDIA. Nó cung cấp trực tiếp một luồng làm việc sẵn có của AI Agent Planner dựa trên mô hình suy luận Llama Nemotron. Dự án này thuộc cấp độ Blueprint của NVIDIA, đó là một tập hợp các luồng làm việc tham chiếu được cấu hình trước, là các mẫu mẫu, giúp các nhà phát triển dễ dàng tích hợp công nghệ và thư viện của NVIDIA. Và AIQ chính là mẫu Agent mà NVIDIA cung cấp.
![图片])https://img.gateio.im/social/moments-97ea77b03ad4a4fe4b1b1fede25596a4###
Kiến trúc của NVIDA AIQ
Như Manus, nó tích hợp công cụ tìm kiếm mạng và các công cụ AI chuyên nghiệp khác, điều này cho phép chính Agent này không chỉ có khả năng tìm kiếm mà còn sử dụng nhiều công cụ khác nhau. Thông qua quy hoạch mô hình suy luận Llama Nemotron, nó tự suy nghĩ và tối ưu hóa các giải pháp để hoàn thành nhiệm vụ của người dùng. Ngoài ra, nó còn hỗ trợ xây dựng cấu trúc luồng làm việc cho nhiều Agent.
Hệ thống servicenow được xây dựng dựa trên mẫu này
Điều khác biệt của nó so với Manus là hệ thống RAG phức tạp dành cho tệp doanh nghiệp. Hệ thống này bao gồm một loạt các bước bao gồm trích xuất, nhúng, lưu trữ vector, sắp xếp lại để đảm bảo dữ liệu doanh nghiệp sẵn sàng cho Agent cuối cùng xử lý.
Ngoài ra, NVIDIA cũng đã ra mắt nền tảng dữ liệu AI, kết nối mô hình suy luận AI vào hệ thống dữ liệu doanh nghiệp, tạo ra một DeepResearch dành cho dữ liệu doanh nghiệp. Điều này đánh dấu sự tiến triển lớn trong công nghệ lưu trữ, biến hệ thống lưu trữ không chỉ là kho dữ liệu mà còn là một nền tảng thông minh có khả năng suy luận và phân tích tích cực.
Cấu trúc của Nền tảng Dữ liệu AI
Ngoài ra, AIQ rất chú trọng đến cơ chế quan sát và tính minh bạch. Điều này rất quan trọng đối với an ninh và việc cải tiến sau này. Đội ngũ phát triển có thể theo dõi hoạt động của Agent trong thời gian thực và liên tục tối ưu hóa hệ thống dựa trên dữ liệu về hiệu suất.
NVIDA AIQ tổng thể là một mẫu luồng công việc Agent tiêu chuẩn, cung cấp nhiều khả năng của Agent. Đây là một phần mềm xây dựng Agent loại Dify ngu ngố hơn, tiến hóa đến thời kỳ suy luận.
Mô hình cơ bản của robot hình người được phát hành, NVIDIA muốn tạo ra một hệ sinh thái cụ thể hoàn toàn đóng
( 1)Cosmos,để trí tuệ vật lý hiểu thế giới
Nếu nói về sự tập trung vào Agent hoặc đầu tư vào hiện tại, thì NVIDIA hoàn toàn có thể coi là việc tích hợp tương lai trong lĩnh vực trí tuệ nhân tạo.
NVIDIA đã sắp xếp đầy đủ ba yếu tố mô hình, dữ liệu và sức mạnh tính toán.
Bắt đầu từ mô hình, phiên bản nâng cấp của mô hình cơ bản Cosmos đã được công bố vào tháng 1 năm nay tại GTC lần này.
Cosmos là một mô hình có thể dự đoán hình ảnh tương lai dựa trên hình ảnh hiện tại. Nó có thể chuyển đổi dữ liệu đầu vào từ văn bản/hình ảnh thành video chi tiết và dự đoán sự phát triển của cảnh quay bằng cách kết hợp trạng thái hiện tại của nó (hình ảnh/video) với hành động (gợi ý/tín hiệu điều khiển). Vì điều này đòi hỏi sự hiểu biết về nguyên lý vật lý của thế giới, Nvidia gọi Cosmos là mô hình cơ bản của thế giới (WFM).
![图片])https://img.gateio.im/social/moments-96eed5a18a4c78811de012d7353fe71d###
Cấu trúc cơ bản của Cosmos
Đối với trí tuệ cơ thể, khả năng dự đoán hành vi của máy sẽ ảnh hưởng đến thế giới bên ngoài là khả năng cốt lõi nhất. Chỉ có như vậy, mô hình mới có thể dựa vào dự đoán để lập kế hoạch hành vi, vì vậy mô hình thế giới trở thành mô hình cơ bản của trí tuệ cơ thể. Với mô hình dự đoán thế giới thay đổi hành vi/thời gian cơ bản này, thông qua việc điều chỉnh dữ liệu cụ thể như tập dữ liệu tự động lái xe, nhiệm vụ robot, mô hình này có thể đáp ứng nhu cầu thực tế của mọi trí tuệ cơ thể có hình dạng vật lý.
Phần đầu tiên của mô hình, Cosmos Transfer, chuyển đổi đầu vào văn bản video có cấu trúc thành đầu ra video quang học có thể điều khiển và tạo ra dữ liệu tổng hợp quy mô lớn từ không khí mỏng. Điều này giải quyết nút thắt cổ chai lớn nhất của trí thông minh hiện nay - vấn đề không đủ dữ liệu. Hơn nữa, thế hệ này là một thế hệ "có thể kiểm soát", có nghĩa là người dùng có thể chỉ định các thông số cụ thể (như điều kiện thời tiết, thuộc tính đối tượng, v.v.) và mô hình sẽ điều chỉnh kết quả tạo cho phù hợp, làm cho quá trình tạo dữ liệu dễ kiểm soát và nhắm mục tiêu hơn. Toàn bộ quá trình cũng có thể được kết hợp bởi Ominiverse và Cosmos.
Cosmos được xây dựng trên mô phỏng thực tại của Ominiverse
Phần hai của Cosmos Predict có thể tạo ra trạng thái thế giới ảo từ đầu vào đa dạng, hỗ trợ việc tạo ra nhiều khung hình và dự đoán quỹ đạo hành động. Điều này có nghĩa là, với trạng thái bắt đầu và kết thúc đã cho, mô hình có thể tạo ra quá trình trung gian hợp lý. Điều này là khả năng cốt lõi của nhận thức và xây dựng thế giới vật lý.
Phần ba là Cosmos Reason, một mô hình mở và hoàn toàn có thể tùy chỉnh, có khả năng nhận biết thời gian và không gian, thông qua chuỗi tư duy để hiểu dữ liệu video và dự đoán kết quả tương tác. Đây là khả năng nâng cao việc lập kế hoạch hành vi và dự đoán kết quả hành vi.
Với sự kết hợp từ ba phần này, Cosmos có thể thực hiện chuỗi hành động hoàn chỉnh từ việc nhập token hình ảnh thực tế + token lệnh văn bản đến việc xuất token hành động của máy móc.
Mô hình cơ bản này có vẻ không tệ. Chỉ sau hai tháng ra mắt, 1X, Agility Robotics, Figure AI ba công ty hàng đầu này đã bắt đầu sử dụng. Mô hình ngôn ngữ lớn không dẫn đầu, nhưng NVIDIA với trí tuệ nhân tạo thực sự ở trong top đầu.
( 2)Isaac GR00T N1, mô hình cơ bản robot hình người đầu tiên trên thế giới
Với Cosmos, NVIDIA tự nhiên đã sử dụng cấu trúc này để điều chỉnh mô hình cơ bản Isaac GR00T N1 dành riêng cho robot hình người.
![图片])https://img.gateio.im/social/moments-03f9b90d7d4337d4b49542337c32cccf###
Cấu trúc hệ thống kép của Isaac GR00T N1
Nó sử dụng kiến trúc hệ thống kép, với "hệ thống 1" phản ứng nhanh và "hệ thống 2" suy luận sâu. Việc điều chỉnh toàn diện của nó cho phép xử lý các nhiệm vụ thông thường như nắm bắt, di chuyển, vận hành hai cánh tay, v.v. Và có thể tùy chỉnh hoàn toàn theo từng robot cụ thể, các nhà phát triển robot có thể sử dụng dữ liệu thực tế hoặc tổng hợp để huấn luyện sau. Điều này thực sự cho phép mô hình này có thể triển khai trên nhiều loại robot có hình dạng và tính chất khác nhau.
Ví dụ, việc hợp tác giữa NVIDIA với Google DeepMind và Disney để phát triển Newton Physics Engine đã sử dụng Isaac GR00T N1 làm nền tảng để điều khiển một robot BDX Disney nhỏ rất hiếm gặp. Điều này cho thấy tính đa dụng của nó. Newton với vai trò là một Physics Engine rất tinh tế, do đó đủ để xây dựng một hệ thống thưởng vật lý để huấn luyện trí tuệ cơ thể trong môi trường ảo.
Hwang In-hyun và robot BDX tương tác 'đam mê' trên sân khấu
( 4)Sinh dữ liệu, hai bên
NVIDIA đã kết hợp NVIDIA Omniverse và mô hình cơ bản thế giới NVIDIA Cosmos Transfer để tạo ra Isaac GR00T Blueprint. Nó có thể tạo ra một lượng lớn dữ liệu hành động tổng hợp từ một số lượng nhỏ các biểu diễn con người, được sử dụng cho việc huấn luyện vận hành robot. NVIDIA đã sử dụng các thành phần đầu tiên của Blueprint để tạo ra 780.000 đường đi tổng hợp chỉ trong 11 giờ, tương đương với 6.500 giờ (khoảng 9 tháng) dữ liệu biểu diễn con người. Một phần lớn dữ liệu của Isaac GR00T N1 đến từ đây, dữ liệu này đã khiến hiệu suất của GR00T N1 tăng lên 40% so với việc chỉ sử dụng dữ liệu thực.
![图片])https://img.gateio.im/social/moments-4a7651bbdc8a83e0c1d4c39e114d730a###
Hệ thống mô phỏng song sinh
Đối với mỗi mô hình, thông qua hệ thống ảo Omniverse này và hệ thống tạo hình ảnh thế giới thực Cosmos Transfer, NVIDIA có thể cung cấp một lượng lớn dữ liệu chất lượng cao. Mặt thứ hai của mô hình này, NVIDIA cũng đã bao phủ.
( 3)Hệ thống sức mạnh tính toán ba trong một, xây dựng Đế chế tính toán cho robot từ việc huấn luyện đến điểm cuối
Từ năm ngoái, ông Huang đã nhấn mạnh về một khái niệm 'ba máy tính' trên GTC: Một máy là DGX, đó là máy chủ GPU lớn, được sử dụng để huấn luyện trí tuệ nhân tạo, bao gồm cả điều khiển cơ thể. Máy khác là AGX, là nền tảng tính toán nhúng được thiết kế bởi NVIDIA cho tính toán biên và hệ thống tự động, được sử dụng cụ thể để triển khai trí tuệ nhân tạo tại điểm cuối, chẳng hạn như làm việc như chip trung tâm cho tự động lái xe hoặc robot. Máy thứ ba là máy tạo dữ liệu Omniverse+Cosmos.
![图片])https://img.gateio.im/social/moments-7dba53ee823059c29b6b23fb6e0a86f5###
Ba hệ thống tính toán có trí tuệ cơ bản
Hệ thống này đã được ông Huang nhắc đến mạnh mẽ trong GTC lần này và đặc biệt nhấn mạnh rằng dựa vào hệ thống sức mạnh tính toán này, có thể tạo ra hàng tỷ robot. Từ việc huấn luyện đến triển khai, sức mạnh tính toán đều được cung cấp bởi NVIDIA. Phần này cũng đã được đóng vòng.
Kết luận
Nếu chỉ so sánh với thế hệ trước của chip Blackwell, Blackwell Ultra thực sự không đạt được sự tương xứng về phần cứng với những từ miêu tả như "bom hạt nhân", "bí mật", thậm chí còn có một chút vị như đang vắt răng.
Nhưng nếu nhìn từ góc độ của kế hoạch đường đi, tất cả điều này đều nằm trong sự sắp xếp của Huang Renxun, từ kiến trúc Rubin của năm sau, năm sau, từ công nghệ chip, transistor, đến tích hợp khung máy chủ, GPU kết nối và các thông số kỹ thuật khác đều sẽ được nâng cao đáng kể, như người Trung Quốc hay nói là "phần hay nhất vẫn chưa đến".
So sánh với việc dùng phần cứng để giảm béo, trong những năm qua, NVIDIA đã có sự tiến bộ mạnh mẽ ở phần mềm.
Nhìn chung, toàn bộ hệ sinh thái phần mềm của NVIDIA, với ba cấp dịch vụ Meno, Nim, Blueprint, đã bao gồm cả giải pháp full-stack từ việc tinh chỉnh mô hình, đóng gói mô hình đến xây dựng ứng dụng. Hệ sinh thái của công ty dịch vụ điện toán đám mây NVIDIA AI hoàn toàn trùng khớp. Với sự bổ sung của Agent mới, NVIDIA muốn chấm dứt mảnh bánh AI infra này, ngoại trừ phần mô hình cơ bản, NVIDIA muốn tất cả các phần khác đều được ăn.
Phần mềm này, khẩu vị của Lão Hoàng, cũng lớn như giá cổ phiếu của Nvidia.
Trên thị trường robot, Nvidia thì càng tham vọng hơn. Họ nắm giữ ba yếu tố chính là mô hình, dữ liệu và sức mạnh tính toán trong tay. Mặc dù không kịp thời chiếm lĩnh vị trí hàng đầu về mô hình ngôn ngữ cơ bản, nhưng họ đã bù đắp bằng trí tuệ nhân tạo có cơ sở. Rõ ràng, một con quỷ độc quyền về trí tuệ nhân tạo đã bắt đầu xuất hiện trên bề mặt.
Trong đó, từng bước, từng sản phẩm đều tương ứng với một thị trường tiềm năng hàng nghìn tỷ. Ông trùm cờ bạc may mắn Huang Renxun, người từng đặt cược tất cả vào sự thống trị của GPU để kiếm tiền, bắt đầu một trận đấu lớn hơn.
Nếu trong trò chơi này, thị trường phần mềm hoặc robot nào đó chiếm lĩnh hoàn toàn, thì NVIDIA sẽ là Google của thời đại AI, là người chiếm đỉnh của chuỗi thức ăn.
Tuy nhiên, khi nhìn vào tỷ suất lợi nhuận của GPU của NVIDIA, chúng ta vẫn hy vọng vào một tương lai như vậy.
May mắn thay, đối với ông Hoàng suốt đời, đây cũng là một trận cờ lớn mà ông chưa từng tham gia, không ai biết ai sẽ thắng ai.