Mô hình suy luận AI vật lý của Nvidia Cosmos-Reason2 mở mã nguồn với trọng số hàng đầu 32B

Theo giám sát Beating, NVIDIA đã mở khóa trọng số của mô hình Cosmos-Reason2-32B.
Cosmos Reason 2 là mô hình trí tuệ nhân tạo lý luận vật lý thị giác (VLM) do NVIDIA phát hành vào cuối năm ngoái, xử lý đồng thời hình ảnh, video và văn bản, đặc biệt để dạy robot và hệ thống tự lái hiểu các quy luật không gian, thời gian và vật lý cơ bản.
Lúc đó chỉ mở các phiên bản nhỏ với 2 tỷ và 8 tỷ tham số, phiên bản cao cấp 320 tỷ tham số mới lần đầu tiên công khai đến nay.
Nền tảng là Qwen3-VL-32B-Instruct của 通义千问, giấy phép mô hình mở của NVIDIA có thể thương mại hóa.

Cho nó một đoạn video lái xe, nó có thể xem và suy luận để đánh giá xem việc rẽ phải có an toàn không;
Cho nó một bức ảnh kho hàng, nó có thể đánh dấu tọa độ 2D/3D và khung giới hạn của từng hàng hóa.
Ba hướng chính của ứng dụng: phân tích luồng video trong các cảnh đô thị và công nghiệp, gán nhãn dữ liệu cảm biến hàng loạt, cung cấp cho robot hình người và xe tự lái như một bộ não lập kế hoạch.
So với thế hệ trước, bổ sung khả năng phát hiện mục tiêu và định vị chính xác theo dấu thời gian, cửa sổ ngữ cảnh mở rộng đến 256K token.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim