Modelo de inferencia de IA física de Nvidia Cosmos-Reason2 con peso insignia de 32B de código abierto

Según la monitorización de Beating, NVIDIA ha abierto los pesos del modelo Cosmos-Reason2-32B.
Cosmos Reason 2 es un modelo de razonamiento visual de IA física lanzado por NVIDIA a finales del año pasado (VLM, un modelo que procesa imágenes, videos y texto), diseñado específicamente para enseñar a robots y sistemas de conducción autónoma a entender las leyes espaciales, temporales y físicas básicas.
En ese momento, solo se abrieron las versiones con 2 mil millones y 8 mil millones de parámetros, y la versión insignia de 32 mil millones de parámetros no fue divulgada hasta ahora por primera vez.
La base es Qwen3-VL-32B-Instruct de Tongyi Qianwen, con licencia de modelo abierto de NVIDIA, apta para uso comercial.

Le proporciona un video de conducción, y puede razonar y juzgar en tiempo real si el giro a la derecha es seguro;
Le proporciona una foto de un almacén, y puede marcar las coordenadas 2D/3D y las cajas delimitadoras de cada mercancía.
Sus principales aplicaciones son tres: analizar flujos de video en escenarios urbanos e industriales, etiquetar en lote datos de sensores, y actuar como cerebro de planificación para robots humanoides y vehículos autónomos.
En comparación con la generación anterior, se han añadido detecciones de objetivos y localización precisa con marcas de tiempo, y la ventana de contexto se ha ampliado a 256K tokens.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado