DeepSeek lança modo de reconhecimento de imagens, baseado na estrutura de primitivas de retirada de suporte para suportar raciocínio visual CoT

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, o modo de reconhecimento de imagens (Vision Mode) do site e do aplicativo DeepSeek foi oficialmente lançado, sendo disponibilizado ao lado do modo rápido e do modo especialista na parte superior da caixa de entrada de diálogo. A nova capacidade de compreensão visual não se limita ao reconhecimento de texto simples (OCR), mas foca na análise profunda de cenários, raciocínio lógico espacial e na conversão direta de capturas de tela de interfaces de usuário em código HTML estruturado. Para tarefas de dedução geométrica complexa ou análise de gráficos elaborados, o sistema ativará automaticamente um modelo de raciocínio profundo, fornecendo uma cadeia completa de inferências.

O modo de reconhecimento de imagens baseia-se na estrutura de pesquisa "Pensar com Primitivas Visuais" divulgada pela equipe DeepSeek. O pesquisador multimodal Xiaokang Chen, em colaboração com a Universidade de Pequim e a Universidade de Tsinghua, publicou um artigo indicando que os modelos de linguagem visual existentes apresentam uma "lacuna de referência" (Reference Gap) na localização precisa e no raciocínio espacial, ou seja, eles têm dificuldade em descrever coordenadas visuais complexas usando linguagem natural ambígua. Para resolver isso, a equipe de pesquisa elevou os pontos de coordenadas e as caixas delimitadoras (Bounding Boxes) a unidades mínimas de raciocínio, inserindo primitivas espaciais diretamente na cadeia de raciocínio do modelo (CoT), permitindo que a orientação espacial seja sincronizada durante o processo de pensamento.

Como base para a capacidade visual, um artigo acadêmico e um projeto de código aberto foram brevemente divulgados em 30 de abril, mas logo foram retirados sem aviso prévio pela equipe oficial do DeepSeek em 1 de maio, gerando várias especulações na indústria sobre vazamentos excessivos de detalhes técnicos e futuras otimizações do modelo. O modo de reconhecimento de imagens lançado oficialmente suporta apenas entrada de imagens, não suportando atualmente formatos multimodais como vídeo ou áudio, e o modelo não possui capacidade de geração de imagens neste momento.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado