Relatório de tecnologia multimodal DeepSeek: ensinar o modelo a "pensar apontando com o dedo", navegação em labirinto supera o GPT-5.4 em quase 17 pontos percentuais

robot
Geração de resumo em curso
Notícias do CoinWorld, a DeepSeek lançou um relatório técnico de raciocínio multimodal intitulado «pensando com primitivas visuais», propondo uma nova paradigma de raciocínio: o modelo, ao pensar, como uma pessoa apontando com o dedo, insere coordenadas diretamente na cadeia de raciocínio, identificando cada objeto visual envolvido.
O projeto está open source no GitHub, sob licença MIT.
Um dos principais obstáculos atuais dos modelos multimodais é a «lacuna de referência», onde o modelo consegue ver a imagem claramente, mas ao raciocinar só consegue descrever os objetos visuais em linguagem natural, dificultando a localização em cenários complexos.
A DeepSeek resolve esse problema ao transformar caixas delimitadoras e coordenadas de pontos nos menores elementos de raciocínio.
O modelo é baseado na arquitetura v4-flash, com compressão extrema de tokens visuais, e os resultados de testes mostram desempenho excelente em várias avaliações de benchmark, especialmente em raciocínio topológico e tarefas de navegação em labirintos, superando significativamente outros modelos.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado