DeepSeek lança modo de reconhecimento de imagens, baseado na estrutura de primitivas de retirada de suporte, suportando raciocínio visual CoT

robot
Geração do resumo em andamento
De acordo com o monitoramento Beating, a interface web e o aplicativo do DeepSeek lançaram oficialmente o modo de reconhecimento de imagens (Modo Visão), disponível ao lado da caixa de entrada de diálogo, juntamente com o modo rápido e o modo especialista.
A nova capacidade de compreensão visual não se limita ao reconhecimento de texto simples (OCR), mas foca em análise profunda de cenários, raciocínio lógico espacial e na conversão direta de capturas de tela da interface do usuário em código HTML estruturado.
Para tarefas de dedução geométrica complexa ou análise de gráficos complicados, o sistema ativará automaticamente um modelo de raciocínio profundo, fornecendo uma cadeia de raciocínio completa.

O modo de reconhecimento de imagens é fundamentado na estrutura de pesquisa "Pensando com Primitivas Visuais" divulgada pela equipe DeepSeek.
O pesquisador multimodal Xiaokang Chen, em colaboração com a Universidade de Pequim e a Universidade de Tsinghua, publicou um artigo apontando que os modelos de linguagem visual existentes apresentam uma "lacuna de referência" (Reference Gap), ou seja, dificuldade em descrever coordenadas visuais complexas usando linguagem natural ambígua.
Para resolver isso, a equipe de pesquisa elevou pontos de coordenadas e caixas delimitadoras (Bounding Boxes) a unidades mínimas de raciocínio, inserindo primitivas espaciais diretamente na cadeia de raciocínio do modelo (CoT), permitindo que a orientação espacial seja sincronizada durante o processo de pensamento.

Como base para a capacidade visual, um artigo acadêmico e um projeto de código aberto foram brevemente divulgados em 30 de abril, mas logo foram retirados pelo DeepSeek oficialmente em 1º de maio, sem aviso prévio, gerando especulações na indústria sobre vazamento excessivo de detalhes técnicos e futuras otimizações do modelo.
O modo de reconhecimento de imagens lançado oficialmente suporta apenas entrada de imagens, sem suporte a formatos multimodais como vídeo ou áudio, e atualmente o modelo não possui capacidade de geração de imagens.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado