据 动察 Beating 監測、英偉達が Cosmos-Reason2-32B モデルの重みを公開。Cosmos Reason 2 は英偉達が昨年末にリリースした物理 AI 推論ビジョン言語モデル(VLM、画像、動画、文字を同時に処理するモデル)であり、ロボットや自動運転システムに空間、時間、基礎物理法則の理解を教えるためのものです。当時は 20 億と 80 億パラメータの小型バージョンの重みのみ公開されており、320 億パラメータのフラッグシップ版は今回初めて公開されました。ベースは通义千問 Qwen3-VL-32B-Instruct で、NVIDIA Open Model License により商用利用可能です。車載映像を与えると、リアルタイムで推論し右折の安全性を判断できる;倉庫の写真を与えると、各貨物の 2D/3D 座標と境界ボックスを示すことができる。主な用途は三つの方向:都市や工業現場の映像ストリームの分析、センサー データのバッチラベリング、人型ロボットや自動運転車の計画脳としての利用。前世代と比べて、目標検出と時間スタンプの正確な位置特定を追加し、コンテキストウィンドウを 256K トークンに拡大。
NVIDIA 物理AI推理模型 Cosmos-Reason2 オープンソース 32B フラッグシップ重み
据 动察 Beating 監測、英偉達が Cosmos-Reason2-32B モデルの重みを公開。Cosmos Reason 2 は英偉達が昨年末にリリースした物理 AI 推論ビジョン言語モデル(VLM、画像、動画、文字を同時に処理するモデル)であり、ロボットや自動運転システムに空間、時間、基礎物理法則の理解を教えるためのものです。当時は 20 億と 80 億パラメータの小型バージョンの重みのみ公開されており、320 億パラメータのフラッグシップ版は今回初めて公開されました。ベースは通义千問 Qwen3-VL-32B-Instruct で、NVIDIA Open Model License により商用利用可能です。
車載映像を与えると、リアルタイムで推論し右折の安全性を判断できる;倉庫の写真を与えると、各貨物の 2D/3D 座標と境界ボックスを示すことができる。主な用途は三つの方向:都市や工業現場の映像ストリームの分析、センサー データのバッチラベリング、人型ロボットや自動運転車の計画脳としての利用。前世代と比べて、目標検出と時間スタンプの正確な位置特定を追加し、コンテキストウィンドウを 256K トークンに拡大。