NVIDIA NVIDIA Ra mắt Nemotron 3 Nano Omni để thúc đẩy AI đa phương thức thống nhất cho các ứng dụng doanh nghiệp

Tóm tắt ngắn gọn

NVIDIA ra mắt Nemotron 3 Nano Omni, một mô hình AI đa phương thức mở kết hợp thị giác, giọng nói và ngôn ngữ để nâng cao hiệu suất AI doanh nghiệp, hiệu quả và khả năng triển khai mở rộng.

NVIDIA LNVIDIA Launches Nemotron 3 Nano Omni To Advance Unified Multimodal AI For Enterprise ApplicationsCông ty công nghệ NVIDIA công bố ra mắt Nemotron 3 Nano Omni, một mô hình trí tuệ nhân tạo đa phương thức mở designed để hợp nhất khả năng thị giác, giọng nói và ngôn ngữ trong một hệ thống duy nhất. Mô hình này nhằm cho phép các tác nhân AI xử lý và suy luận qua nhiều loại dữ liệu, bao gồm video, âm thanh, hình ảnh, tài liệu và văn bản, đồng thời cung cấp phản hồi nhanh hơn và hiệu quả hơn.

Theo thông báo, mô hình được định vị như một giải pháp sẵn sàng cho doanh nghiệp nhằm cải thiện phát triển và triển khai các tác nhân AI đa phương thức. Nó được mô tả là cung cấp độ chính xác cao cùng với giảm chi phí vận hành, đồng thời cung cấp tính linh hoạt và kiểm soát trong triển khai cho các nhà phát triển và tổ chức. Hệ thống đã đạt thành tích dẫn đầu trên nhiều tiêu chuẩn đánh giá liên quan đến trí tuệ tài liệu cũng như hiểu biết âm thanh và video.

Việc áp dụng trong ngành đã bắt đầu diễn ra trong số các công ty tập trung vào AI, với những người dùng sớm bao gồm Aible, Applied Scientific Intelligence (ASI), Ekacare, H Company và Pyler. Các tổ chức khác như Amdocs, Dell, DocuSign, Infosys, IQVIA, Oracle, Palantir Technologies, Quantiphi, Tata Consultancy Services và Zefr được cho là đang đánh giá mô hình để tích hợp vào quy trình doanh nghiệp.

Xử lý AI đa phương thức để nâng cao hiệu quả, nhận thức ngữ cảnh và tính linh hoạt trong triển khai doanh nghiệp

Trong các ứng dụng kỹ thuật, Nemotron 3 Nano Omni được thiết kế để giảm thiểu sự phân mảnh thường xảy ra khi sử dụng các mô hình riêng biệt cho các phương thức khác nhau. Các hệ thống truyền thống thường dựa vào các thành phần riêng biệt cho xử lý thị giác, giọng nói và ngôn ngữ, điều này có thể làm tăng độ trễ, chi phí và sự không nhất quán trong suy luận đa phương thức. Bằng cách tích hợp mã hóa hình ảnh và âm thanh trong một kiến trúc dựa trên thiết kế hỗn hợp các chuyên gia, mô hình nhằm tối ưu hóa quá trình suy luận và cải thiện năng suất.

Hệ thống cũng dự kiến hoạt động như một lớp nhận thức trong các khung công tác tác nhân rộng hơn, làm việc cùng các mô hình khác trong dòng Nemotron. Trong các ứng dụng thực tế, nó có thể hỗ trợ các tác nhân sử dụng máy tính để giải thích giao diện người dùng đồ họa, các hệ thống trí tuệ tài liệu phân tích dữ liệu doanh nghiệp đa định dạng, và các công cụ suy luận âm thanh-video duy trì hiểu biết ngữ cảnh qua nhiều luồng đầu vào.

Kiến trúc của mô hình được xây dựng để xử lý đầu vào độ phân giải cao và xử lý ngữ cảnh dài, cho phép diễn giải chi tiết hơn về các môi trường phức tạp như ghi hình màn hình hoặc phân tích nhiều tài liệu cùng lúc. Khả năng này nhằm nâng cao hiệu suất trong các nhiệm vụ yêu cầu nhận thức liên tục về tình huống theo thời gian.

NVIDIA đã phát hành Nemotron 3 Nano Omni như một mô hình mở, cung cấp quyền truy cập vào trọng số, bộ dữ liệu và phương pháp huấn luyện. Công ty cho biết cách tiếp cận này cho phép các tổ chức tùy chỉnh và triển khai hệ thống trên các môi trường khác nhau, bao gồm đám mây, tại chỗ và hạ tầng biên, tùy thuộc vào yêu cầu về quy định hoặc quản lý dữ liệu. Mô hình có sẵn qua nhiều kênh phân phối, bao gồm nền tảng dành cho nhà phát triển và hệ sinh thái đối tác, hỗ trợ tích hợp vào các quy trình AI hiện có.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim