Nvidia ra mắt mô hình mã nguồn mở mạnh nhất Nemotron 3 Ultra! Tập trung vào nhiệm vụ AI đại lý, hiệu năng tăng vọt gấp 5 lần, giảm chi phí 30%

Vi xử lý khổng lồ NVIDIA (NVIDIA) ngày hôm nay (4) đã công bố ra mắt mô hình mở nguồn cao cấp mới "Nemotron 3 Ultra". Mô hình này được thiết kế đặc biệt cho các đại lý AI chạy lâu dài (AI Agents) và các luồng công việc đa代理 phức tạp, có tổng số tham số lên tới 550 tỷ. Thông qua việc tích hợp kiến trúc lai và nhiều đổi mới công nghệ, Nemotron 3 Ultra không chỉ thể hiện xuất sắc trong nhiều bài kiểm tra tiêu chuẩn mà còn mang lại mức tăng throughput cao nhất gấp 5 lần, đồng thời giảm 30% chi phí nhiệm vụ代理.
(Thông tin trước: Nvidia chi 400 triệu USD mua lại Kumo AI! Hoàn thiện "mô hình dự đoán doanh nghiệp" để thúc đẩy chuyển đổi thành tập đoàn AI toàn diện)
(Thông tin bổ sung: Nvidia liên minh với startup Trung Quốc Yushu Technology Unitree! Huang Renxun thúc đẩy "Nền tảng AI robot hình người", tấn công thị trường AI vật lý trị giá hàng chục nghìn tỷ USD)

Mục lục bài viết

Chuyển đổi

  • 550 tỷ tham số hoạt động, biến thành "não bộ" của luồng công việc AI
  • Năm đổi mới công nghệ: Tăng gấp 5 lần throughput, giảm chi phí 30%
  • Mở nguồn hoàn toàn, thúc đẩy ứng dụng AI doanh nghiệp nhanh chóng

Trong xu hướng trí tuệ nhân tạo (AI) tiến tới tự động hóa cao và luồng công việc phức tạp, "hệ thống đa代理 (Multi-agent systems)" về chi phí tính toán và hiệu quả, trở thành điểm đau lớn nhất khi các doanh nghiệp triển khai AI. Để giải quyết vấn đề này, NVIDIA chính thức ra mắt dòng sản phẩm cao cấp của gia đình Nemotron 3 — Nemotron 3 Ultra vào ngày 4 tháng 6 năm 2026.

Đây là một mô hình nguồn mở mạnh mẽ, được thiết kế dành riêng cho "đại lý AI chạy lâu dài". Trong các luồng công việc đa代理 truyền thống, do cần liên tục lập kế hoạch, gọi công cụ, ủy thác子代理 và duy trì ngữ cảnh dài dòng, thường dẫn đến tiêu thụ token (Token) tăng vọt, gây ra chi phí cao và rủi ro lệch mục tiêu, thì Nemotron 3 Ultra chính là để vượt qua những thách thức này.

550 tỷ tham số hoạt động, biến thành "não bộ" của luồng công việc AI

Nemotron 3 Ultra sử dụng kiến trúc chuyên gia lai (Mixture-of-Experts, MoE), tổng số tham số lên tới 5500 tỷ, nhưng mỗi lần tính toán chỉ kích hoạt 550 tỷ tham số hoạt động, đảm bảo hiệu suất tối đa. Trong các luồng công việc đa代理, mô hình này được định vị chính xác là "người điều phối (Orchestrator)" hoặc động cơ suy luận tiên phong, chuyên xử lý các nhiệm vụ tải cao như lập kế hoạch sâu, phân tích tổng hợp phức tạp và xác minh logic, đồng thời giao các nhiệm vụ thường xuyên và gọi công cụ cho các mô hình nhẹ hơn.

Về hiệu năng, Nemotron 3 Ultra đã tỏa sáng trong nhiều bài kiểm tra tiêu chuẩn dành cho AI代理. Ví dụ, đạt 91% điểm cao trong PinchBench về năng suất代理, trong khi trong các bài kiểm tra lập kế hoạch dài hạn (EnterpriseOps-Gym) và viết mã (Terminal-Bench 2.0) cũng đạt thành tích xuất sắc lần lượt 40% và 67%. Mặc dù số tham số hoạt động kích hoạt ít hơn, khả năng suy luận tổng thể của nó đã vượt hoặc sánh ngang với các mô hình nguồn mở lớn phổ biến như GLM 5.1, Kimi K2.6 và Qwen3.5.

Năm đổi mới công nghệ: Tăng gấp 5 lần throughput, giảm chi phí 30%

Để đạt được hiệu năng và tốc độ mạnh mẽ như vậy, NVIDIA đã tích hợp năm đổi mới công nghệ cốt lõi trong Nemotron 3 Ultra. Đầu tiên là "tầng Transformer Mamba lai", kết hợp khéo léo hiệu quả xử lý chuỗi dài của Mamba với khả năng truy hồi chính xác của Transformer. Thứ hai là hỗ trợ "định lượng NVFP4", cho phép trọng số mô hình được triển khai liền mạch trên GPU kiến trúc Hopper, Blackwell và Ampere, so với định dạng BF16 truyền thống, trên Blackwell có thể tăng throughput lên tới 5 lần (tốc độ xuất ra).

Ngoài ra, mô hình còn tích hợp LatentMoE (được thiết kế cho tải công việc phức tạp với bộ điều hướng chuyên gia hiệu quả), dự đoán nhiều token (MTP, dự đoán nhiều token tương lai trong một lần truyền tiến) và kỹ thuật chưng cất trực tuyến đa thầy (MOPD). Những đổi mới này giúp giảm đáng kể tổng lượng token tiêu thụ khi xử lý nhiệm vụ, từ đó giảm chi phí nhiệm vụ代理 của doanh nghiệp tối đa 30%.

Mở nguồn hoàn toàn, thúc đẩy ứng dụng AI doanh nghiệp nhanh chóng

Về dữ liệu huấn luyện, Nemotron 3 Ultra dựa trên hơn 10 nghìn tỷ token trong tập dữ liệu huấn luyện sơ bộ khổng lồ, đồng thời bổ sung hơn 212 tỷ token đặc thù lĩnh vực (bao gồm tài liệu pháp lý, văn bản kiểu Wikipedia và mã nguồn GitHub mới nhất). NVIDIA nhấn mạnh rằng, mô hình này hoàn toàn mở nguồn, sử dụng giấy phép OpenMDW-1.1 linh hoạt, và mở toàn bộ trọng số mô hình, công thức huấn luyện cùng pipeline dữ liệu cho cộng đồng.

Hiện tại, các nhà phát triển có thể lấy và triển khai Nemotron 3 Ultra trên các nền tảng chính như Hugging Face, NVIDIA Build và NIM. Với khả năng xử lý văn bản dài xuất sắc (đạt 95% trong thử nghiệm Ruler @1M) và hiệu quả chi phí cao, dự kiến mô hình này sẽ trở thành công cụ đắc lực thúc đẩy tự động hóa dịch vụ khách hàng, quản lý chuỗi cung ứng, an ninh CNTT và xác minh thiết kế chip phức tạp.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim