Relatório de tecnologia multimodal DeepSeek: ensinar o modelo a "pensar apontando com o dedo", navegação em labirinto supera o GPT-5.4 em quase 17 pontos percentuais

robot
Geração do resumo em andamento
Notícias do Coinjie.com, a DeepSeek lançou um relatório técnico de raciocínio multimodal intitulado «pensando com primitivas visuais», propondo uma nova paradigma de raciocínio: o modelo, ao pensar, como uma pessoa apontando com o dedo, insere coordenadas diretamente na cadeia de pensamento, identificando cada objeto visual envolvido. O projeto é de código aberto no GitHub, sob licença MIT. Um dos principais obstáculos atuais dos modelos multimodais é a «lacuna de referência», onde o modelo consegue ver claramente a imagem, mas ao raciocinar só consegue descrever objetos visuais em linguagem natural, dificultando a localização em cenários complexos. A DeepSeek resolve esse problema transformando caixas delimitadoras e coordenadas de pontos em unidades mínimas de raciocínio. O modelo é baseado na arquitetura v4-flash, com compressão extrema de tokens visuais, e os resultados de testes mostram desempenho excelente em várias avaliações de benchmark, especialmente em raciocínio topológico e tarefas de navegação em labirintos, superando significativamente outros modelos.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado