NVIDIA Modelo de raciocínio físico AI Cosmos-Reason2 de código aberto com peso de 32B de topo de gama

De acordo com o monitoramento Beating, a Nvidia abriu os pesos do modelo Cosmos-Reason2-32B.
Cosmos Reason 2 é um modelo de IA física de raciocínio visual (VLM, processando simultaneamente imagens, vídeos e textos) lançado pela Nvidia no final do ano passado, especialmente treinado para ensinar robôs e sistemas de condução automática a entender regras espaciais, temporais e físicas fundamentais.
Na época, apenas duas versões menores com 2 bilhões e 8 bilhões de parâmetros foram disponibilizadas, enquanto a versão flagship de 320 bilhões de parâmetros só foi divulgada agora pela primeira vez.
A base é o Qwen3-VL-32B-Instruct do Tongyi Qianwen, com licença de modelo aberto da NVIDIA, permitindo uso comercial.

Fornecendo uma gravação de vídeo de condução, ele consegue fazer raciocínios em tempo real para determinar se a manobra de virar à direita é segura;
Ao receber uma foto de um armazém, consegue marcar as coordenadas 2D/3D e as caixas delimitadoras de cada item.
Três principais aplicações: análise de fluxos de vídeo de cenários urbanos e industriais, marcação em lote de dados de sensores, e servir como cérebro de planejamento para robôs humanoides e veículos autônomos.
Em comparação com a geração anterior, há adição de detecção de objetos e localização de marca temporal precisa, além de ampliar a janela de contexto para 256K tokens.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar