De acordo com o monitoramento Beating, o modo de reconhecimento de imagens (Vision Mode) do site e do aplicativo DeepSeek foi oficialmente lançado, sendo disponibilizado ao lado do modo rápido e do modo especialista na parte superior da caixa de entrada de diálogo. A nova capacidade de compreensão visual não se limita ao reconhecimento de texto simples (OCR), mas foca na análise profunda de cenários, raciocínio lógico espacial e na conversão direta de capturas de tela de interfaces de usuário em código HTML estruturado. Para tarefas de dedução geométrica complexa ou análise de gráficos elaborados, o sistema ativará automaticamente um modelo de raciocínio profundo, fornecendo uma cadeia completa de inferências.

O modo de reconhecimento de imagens baseia-se na estrutura de pesquisa "Pensar com Primitivas Visuais" divulgada pela equipe DeepSeek. O pesquisador multimodal Xiaokang Chen, em colaboração com a Universidade de Pequim e a Universidade de Tsinghua, publicou um artigo indicando que os modelos de linguagem visual existentes apresentam uma "lacuna de referência" (Reference Gap) na localização precisa e no raciocínio espacial, ou seja, eles têm dificuldade em descrever coordenadas visuais complexas usando linguagem natural ambígua. Para resolver isso, a equipe de pesquisa elevou os pontos de coordenadas e as caixas delimitadoras (Bounding Boxes) a unidades mínimas de raciocínio, inserindo primitivas espaciais diretamente na cadeia de raciocínio do modelo (CoT), permitindo que a orientação espacial seja sincronizada durante o processo de pensamento.

Como base para a capacidade visual, um artigo acadêmico e um projeto de código aberto foram brevemente divulgados em 30 de abril, mas logo foram retirados sem aviso prévio pela equipe oficial do DeepSeek em 1 de maio, gerando várias especulações na indústria sobre vazamentos excessivos de detalhes técnicos e futuras otimizações do modelo. O modo de reconhecimento de imagens lançado oficialmente suporta apenas entrada de imagens, não suportando atualmente formatos multimodais como vídeo ou áudio, e o modelo não possui capacidade de geração de imagens neste momento.

DEEPSEEK0,95%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
MyGateTradeStory
779,17K Popularidade
#
WarshDebutsAsFedHoldsRatesSteady
1,41M Popularidade
#
IsraelStrikesIranBTCPlunges
58,78K Popularidade
#
PredictWorldCup🇺🇸vs🇵🇾
868,47K Popularidade
#
TradFiCFDGoldMaster
995,7K Popularidade

Fixado

DeepSeek lança modo de reconhecimento de imagens, baseado na estrutura de primitivas de retirada de suporte para suportar raciocínio visual CoT

Tópicos em destaque

MyGateTradeStory

WarshDebutsAsFedHoldsRatesSteady

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Fixado