NVIDIA ra mắt mô hình Nemotron3 Nano Omni: có thể xử lý thống nhất video, âm thanh, hình ảnh và văn bản, nâng cao hiệu quả suy luận đa mô thức

robot
Đang tạo bản tóm tắt

BlockBeats tin tức, ngày 29 tháng 4, Nvidia chính thức ra mắt Nemotron 3 Nano Omni, đây là thành viên mới của dòng Nemotron 3, sẽ tích hợp suy luận đa mô hình thống nhất vào một mô hình mã nguồn mở hiệu quả duy nhất. Nvidia cho biết, hệ thống agentic thường cần thực hiện vòng lặp cảm nhận đến hành động đơn lẻ giữa màn hình, tài liệu, âm thanh, video và văn bản, nhưng vẫn dựa vào chuỗi mô hình phân mảnh — các công nghệ riêng biệt cho thị giác, âm thanh và văn bản. Điều này làm tăng số bước suy luận và độ phức tạp trong phối hợp, đẩy cao chi phí suy luận, đồng thời làm giảm tính nhất quán của ngữ cảnh xuyên mô hình.

Nemotron 3 Nano Omni nhằm thay thế chuỗi công nghệ thị giác - ngôn ngữ - âm thanh phân mảnh này, đóng vai trò như một phụ trợ cảm nhận đa mô hình và ngữ cảnh trong hệ thống agentic.

Về mặt độ chính xác, Nemotron 3 Nano Omni đạt thành tích dẫn đầu trong bảng xếp hạng trí tuệ tài liệu, đồng thời cũng dẫn đầu trong bảng xếp hạng hiểu video và âm thanh. Trong đánh giá chuẩn ngành mở MediaPerf cho mô hình hiểu video, Nemotron 3 Nano Omni đạt hiệu suất xử lý cao nhất trong từng nhiệm vụ, và đạt chi phí suy luận thấp nhất trong nhiệm vụ gán nhãn cấp video.

Về mặt hiệu năng, ở ngưỡng tương tác người dùng cố định, đối với suy luận video, Nemotron 3 Nano Omni duy trì tổng khả năng xử lý hệ thống cao hơn, có thể đạt hiệu quả hệ thống cao gấp khoảng 9,2 lần so với các mô hình omni mã nguồn mở khác; đối với suy luận đa tài liệu, có thể đạt hiệu quả hệ thống cao gấp khoảng 7,4 lần. Nvidia cho biết, mô hình này nhằm thay thế kiến trúc ghép nhiều mô hình truyền thống, giảm độ phức tạp và chi phí suy luận, thúc đẩy ứng dụng AI đa mô hình trong các lĩnh vực tài chính, y tế, nghiên cứu khoa học và truyền thông.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim