Ontem à noite, o investigador de multimodalidade da DeepSeek, Chen Xiaokang, publicou um tweet na X e divulgou um novo artigo da DeepSeek sobre tecnologia multimodal, intitulado «Pensando com Primitivos Visuais», dizendo que estava «Animado para lançar».Hoje de manhã, o tweet foi apagado, e o artigo no GitHub também foi removido.Mas a APPSO leu o texto completo antes de ele desaparecer. Depois de ler, achou que o motivo da retirada do artigo talvez não fosse por problemas de conteúdo.Pelo contrário, pode ter revelado demasiado.Na véspera, acabámos de testar o modo de reconhecimento de imagens da DeepSeek, fazendo-a contar os dedos, ela pensou um pouco, reclamou «Estou mesmo a ficar tonta com a contagem», e depois errou. Na altura, pensámos que era um problema menor na fase de testes iniciais.Este artigo nos mostra que, a questão de ficar tonto ao contar dedos, por trás

金色财经_

2026-05-01 05:08:28

Na noite passada, o pesquisador de multimodalidade DeepSeek, Chen Xiaokang, publicou um tweet no X e divulgou um novo artigo da DeepSeek sobre tecnologia multimodal, intitulado «Thinking with Visual Primitives», indicando «Empolgado para lançar».

Hoje de manhã, o tweet foi apagado, e o artigo no GitHub também foi removido.

Mas a APPSO leu o texto completo antes de desaparecer. Após a leitura, achou que o artigo provavelmente não foi retirado por ter conteúdo problemático.

Pelo contrário, pode ter revelado demais.

Na véspera, testamos a modo de reconhecimento de imagens do DeepSeek, fazendo-o contar dedos, ele refletiu um pouco, reclamou «Realmente fiquei tonto de tanto contar», e respondeu errado. Na época, achamos que era um problema menor na fase de testes iniciais.

Este artigo nos mostra que o cansaço ao contar dedos, por trás, esconde um gargalo técnico que GPT, Claude, Gemini ainda não resolveram.

E a solução apresentada pelo DeepSeek é quase uma resposta simples e até um pouco cômica: colocar um dedo na IA.

Chen Xiaokang escreveu no tweet:

«Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the “point-to-reason” synergy humans use.»

«O CoT tradicional fica no espaço linguístico, mas o raciocínio visual precisa de mais. Usando pontos e caixas como âncoras cognitivas, nosso modelo preenche a ‘Lacuna de Referência’—imitando a sinergia ‘apontar e pensar’ que os humanos usam.»

Ver claramente e apontar com precisão são duas coisas diferentes

Atualmente, todos os grandes modelos multimodais para raciocínio de imagens, na essência, convertem a cena visual em texto e fazem raciocínio em espaço textual. GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash, todos seguem esse caminho.

Nos últimos dois anos, as melhorias da OpenAI, Google, Anthropic concentraram-se em uma questão: como fazer o modelo enxergar melhor. Cortes de alta resolução, blocos dinâmicos, ampliar a imagem antes de inserir. A DeepSeek chama isso de Perception Gap, Lacuna de Percepção.

Porém, este artigo aponta para outro gargalo: Reference Gap, Lacuna de Referência. O modelo consegue ver claramente, mas durante o raciocínio não consegue apontar com precisão um elemento na imagem.

Você pode entender assim: numa imagem, 25 pessoas estão aglomeradas. Descrever em palavras «a pessoa ao lado da terceira fila à esquerda, vestindo uma camiseta azul», já é vago. Ao contar, o modelo perde o contexto, esquece quem acabou de contar.

Como os humanos resolvem isso? De forma bem primitiva: apontando com o dedo, um por um.

Um modelo de 284 bilhões de parâmetros, colocou um dedo.

A solução do DeepSeek: fazer o modelo, durante o raciocínio, gerar diretamente as coordenadas na imagem.

Imagine: o modelo vê uma imagem com muitas pessoas, seu raciocínio não é mais «vejo uma pessoa vestindo azul à esquerda», mas «vejo essa pessoa» e anexa uma coordenada de caixa ao redor dela. Cada pessoa é cercada por uma caixa, e ao contar, basta contar as caixas.

Duas formas de coordenadas: uma é a caixa delimitadora (bounding box), que envolve o objeto com um retângulo, adequada para marcar posições; a outra é o ponto (point), que marca uma posição específica na imagem, útil para rastreamento de trajetórias ou labirintos. O DeepSeek chama essas duas coisas de «primitivas visuais», as menores unidades de raciocínio.

A mudança principal aqui: antes, o modelo gerava coordenadas como resposta final («o alvo está aqui»), agora as coordenadas estão embutidas no processo de raciocínio. As coordenadas são como marcações no rascunho, não como a resposta do exame.

Comprimir uma imagem 7056 vezes e ainda conseguir contar claramente quantas pessoas há dentro

A base do modelo é o DeepSeek-V4-Flash, um modelo MoE com 284 bilhões de parâmetros. MoE significa: o cérebro do modelo é grande, mas a cada resposta, só uma pequena parte dos neurônios é ativada, ativando apenas 13 bilhões de parâmetros durante o raciocínio. É como uma equipe de cem pessoas, onde só cinco trabalham por tarefa.

Na codificação visual, há uma compressão em três níveis. Por exemplo: você tem uma foto para enviar a um amigo, a conexão está lenta. Primeiro, divide a foto em pequenos quadrados; segundo, combina 9 desses quadrados em um (compressão 3×3); terceiro, reduz ainda mais informações redundantes na transmissão (KV Cache com compressão 4 vezes).

Números reais: uma imagem de 756×756 pixels, com 570 mil pixels, ao passar por esse processo, vira 81 unidades de informação. Compressão de 7.056 vezes.

Minha primeira reação ao ver esse número foi: ainda dá para enxergar as coisas? Mas os resultados do artigo mostram que sim. Não só dá para ver claramente, como também contar exatamente 25 pessoas na imagem.

Comparando: uma imagem de 800×800, Gemini-3-Flash usa cerca de 1100 tokens para representá-la, Claude-Sonnet-4.6 cerca de 870, GPT-5.4 cerca de 740. O DeepSeek, na fase final de cálculo, usa apenas 90 unidades de informação. Enquanto outros usam mais de mil quadrados para memorizar uma imagem, o DeepSeek precisa de só 90, e o restante do poder de cálculo é dedicado a «apontar».

Como o DeepSeek consegue montar 40 milhões de exemplos de treinamento

O DeepSeek coletou todos os conjuntos de dados com etiquetas de «detecção de objetos» nas plataformas Huggingface e similares, resultando em 97.984 fontes de dados inicialmente filtradas.

Depois, passou por duas rodadas de filtragem.

Primeira rodada: verificar a qualidade das etiquetas. Usou IA para revisar três problemas: etiquetas com números sem significado (como categorias chamadas «0», «1»), etiquetas de entidades pessoais («MyRoommate»), abreviações ambíguas (como «OK», «NG» na inspeção industrial, onde uma maçã «OK» e uma placa de circuito «OK» são bem diferentes; IA não consegue aprender isso). Essa rodada eliminou 56%, sobrando 43.141.

Segunda rodada: verificar a qualidade das caixas delimitadoras. Três critérios: muitas caixas incompletas (metade do objeto não marcada), caixas tortas que cortam metade do objeto, caixas que cobrem toda a imagem (indica que os dados originais eram de classificação de imagens, não de detecção). Eliminou mais 27%, sobrando 31.701.

Por fim, amostrando por categoria, removendo duplicatas, gerou mais de 40 milhões de amostras de alta qualidade.

O DeepSeek prioriza ampliar os dados de caixas, e depois acrescenta pontos. A razão é simples: marcar uma caixa é quase uma resposta única (cercar exatamente o objeto); marcar um ponto é mais ambíguo, pois qualquer ponto na superfície do objeto é válido, sem resposta única, tornando o treinamento mais vago. Além disso, a caixa já contém dois pontos (canto superior esquerdo e inferior direito), aprender a desenhar a caixa é uma forma de reduzir a dimensionalidade ao marcar pontos.

Como ensinar o modelo a usar o «dedo»

A estratégia pós-treinamento é «treinar separadamente, depois juntar».

Primeiro, treina um modelo especializado em desenhar caixas com os dados de caixas. Depois, treina outro especializado em marcar pontos com os dados de pontos. O treinamento separado é por causa do volume de dados ainda não ser grande o suficiente, e misturar as duas habilidades pode causar interferências.

Depois, realiza reforço de aprendizagem em cada especialista. Como avaliar se o modelo «desenhou a caixa certa» ou «seguiu o caminho correto»? O DeepSeek criou um sistema de avaliação multidimensional: formato (a coordenada está na sintaxe certa?), lógica (o raciocínio faz sentido, sem contradições?), precisão (o resultado final está próximo do padrão?).

A seleção de dados para reforço também é cuidadosa: faz o modelo tentar várias vezes a mesma questão, só as questões com respostas parcialmente corretas são usadas para treinar, evitando questões muito fáceis ou muito difíceis.

Por fim, combina as habilidades dos dois especialistas em um único modelo. A técnica é fazer o modelo geral aprender a partir das saídas dos dois especialistas, como um estudante que estuda duas disciplinas diferentes com dois professores.

Depois de dar o «dedo» ao modelo, como ele conta

Contando 25 pessoas

Dá uma foto de uma equipe de futebol e pergunta: «Quantas pessoas há na imagem?»

Processo de raciocínio: primeiro, determinar «é uma foto de grupo, preciso contar todas as pessoas, incluindo jogadores e treinadores». Depois, gerar de uma vez só 25 coordenadas de caixas, cercando cada pessoa. Então, fazer a contagem: 4 na frente, 9 no meio, 8 atrás, 2 treinadores à esquerda, 2 treinadores à direita = 25.

«Quantas ursos estão no chão?»

Na imagem, há três ursos. O modelo marca cada um com uma caixa e avalia a posição: o primeiro, escalando o tronco de uma árvore, descarta; o segundo, caminhando na borda de uma rocha, conta; o terceiro, entre galhos e terra, conta. Resposta: 2 ursos.

Não é contar inicialmente três e depois subtrair um, mas verificar individualmente se cada um está no chão, cada verificação vinculada a uma coordenada específica. Ele realmente verifica um por um, não adivinha.

Raciocínio espacial em múltiplos passos

Num cenário 3D, há várias formas geométricas coloridas. Pergunta: «Existe um objeto de borracha roxo do mesmo tamanho de um objeto de metal cinza?»

O modelo primeiro delimita o objeto de metal cinza, confirmando que é pequeno. Depois, delimita cada outro objeto pequeno na cena: cilindro de metal marrom, cubo de metal azul, cubo de borracha azul, cilindro de borracha amarelo… verificando atributos de cor, material e tamanho um a um. Conclusão: não há borracha roxa de borracha.

Seis localizações, seis verificações. Cada passo com uma coordenada, sem perder o ponto de referência.

Mais exemplos do artigo:

Navegação em labirinto: outros jogam moeda, o DeepSeek realmente busca

O artigo testou quatro tarefas, o labirinto foi a mais desafiadora.

A tarefa é direta: dado um mapa de labirinto, perguntar se há caminho do ponto inicial ao final, e se houver, desenhá-lo. Existem três formas de labirinto: quadrados, anéis, colmeias.

O método do modelo para resolver o labirinto é como você fazia na infância com lápis: escolher um caminho, chegar ao fim, se não der, voltar e tentar outro. A diferença é que ele marca um ponto de coordenada a cada passo, deixando um registro.

O artigo mostra um processo completo de um labirinto circular: o modelo primeiro marca o início e o fim, depois começa a explorar. Depois de 18 passos, entrando duas vezes em becos sem saída, consegue encontrar uma rota, conectando todos os pontos de coordenada.

O DeepSeek também criou labirintos com armadilhas: parecem ter caminho, mas uma parte está escondida e bloqueada. Esses testes exigem paciência, o modelo não pode apenas olhar para perto do início e tirar conclusões rápidas, precisa tentar todas as possibilidades para confirmar que não há saída.

Taxa de acerto:

DeepSeek: 66,9%
GPT-5.4: 50,6%
Claude-Sonnet-4.6: 48,9%
Gemini-3-Flash: 49,4%
Qwen3-VL: 49,6%

O labirinto tem duas respostas possíveis: há caminho ou não há. Adivinhar aleatoriamente dá 50%. GPT, Claude, Gemini, Qwen ficam perto disso, como jogar moeda. O DeepSeek, com 66,9%, realmente está caminhando passo a passo, não adivinhando.

Rastreamento de caminho: a versão definitiva de quem gosta de encontrar falhas

Essa tarefa é mais direta: várias linhas conectadas, cada uma de um ponto a outro. Como o seu fone de ouvido na bolsa, a linha é o que você vê na imagem. A questão é: para onde vai a linha C?

O método do modelo é seguir a linha, gerando coordenadas ao longo dela, como um dedo passando por um papel. Nos trechos curvos, os pontos são mais densos; nas retas, mais espaçados. Assim como nossos olhos, que desaceleram nas curvas e passam rápido nas retas.

O artigo também adicionou uma versão mais difícil: todas as linhas têm a mesma cor e espessura. Não dá para distinguir por cor, só pelo padrão de curvas, para decidir qual seguir na interseção.

DeepSeek: 56,7%
GPT-5.4: 46,5%
Claude-Sonnet-4.6: 30,6%
Gemini-3-Flash: 41,4%

O resultado de 30,6% do Claude é surpreendente. Normalmente, há quatro ou cinco opções de destino, adivinhando aleatoriamente, dá pouco mais de 20%. Então, 30,6% é só um pouco melhor que o chute ao acaso. Talvez, para tarefas puramente espaciais, a inferência por linguagem atrapalhe mais do que ajude.

Como ensinar a IA a navegar no labirinto sem trapacear

O treinamento de labirintos tem um problema real: se a pontuação for só por acerto ou erro final, o modelo aprende rápido a fazer apenas o suficiente. Em vez de procurar, pode simplesmente chutar uma resposta, pois tanto errar ao procurar quanto não procurar, dá zero pontos.

A solução do DeepSeek é incluir o processo na pontuação. Cada passo válido dá pontos, atravessar paredes tira pontos, quanto mais explorar, melhor. Mesmo que não chegue ao final, se explorar bem a maior parte, consegue uma boa nota. Assim, o modelo não tem incentivo a trapacear.

Para labirintos impossíveis, a exigência é maior: não basta dizer «não há saída», tem que provar que explorou todas as áreas acessíveis. A cobertura da busca também conta pontos.

Um detalhe extra, com três limitações

Os dados de pós-treinamento não incluem chinês, mas o modelo consegue usar o chinês como primitiva visual.

Por exemplo, ao mostrar uma foto de uma máquina de café e perguntar «como fazer um latte», ele marca em chinês a posição do vaporizador, da jarra de leite, do grão de café, do botão do latte, e fornece passos de operação. A capacidade multilíngue vem do modelo base, o treinamento de primitivas visuais não a prejudicou.

Ele também consegue combinar visão com conhecimento geral: ao mostrar uma foto da ponte Golden Gate e perguntar «há times da NBA por perto?», ele primeiro delimita a ponte, deduz que é São Francisco, e responde que o Golden State Warriors joga lá.

Entende humor: uma mancha natural na fatia de fruta forma uma cara de gato triste, o modelo consegue apontar onde está a semelhança e explicar por que é engraçado.

Pode orientar em salas de fuga: delimitar a chave no alto, a cadeira no chão, a porta trancada, sugerindo «mova a cadeira sob a chave, suba nela para pegar a chave, use para abrir a porta».

O artigo admite honestamente o que ainda não consegue fazer.

A resolução de entrada é limitada. O ViT fica entre 81 e 384 unidades de informação visual, e em cenas muito detalhadas (como contar dedos), a precisão das coordenadas ainda não é suficiente. Essa foi a causa direta do erro na medição de dedos na fase de testes.

Atualmente, é preciso uma palavra-chave específica para ativar o modo de primitivas visuais. O modelo ainda não consegue decidir sozinho «devo apontar um dedo nesta questão», precisa de alguém para lembrá-lo.

A generalização do raciocínio topológico é limitada. Funciona bem em tipos de labirintos treinados, mas pode falhar ao enfrentar uma nova estrutura espacial. Chen Xiaokang também comentou na tweet deletada:

«We’re still in the early stages; generalization in complex topological reasoning tasks isn’t perfect yet, but we’re committed to solving it.»

«Ainda estamos na fase inicial; a generalização em tarefas complexas de raciocínio topológico ainda não é perfeita, mas estamos dedicados a resolver isso.»

Na fase de testes, as habilidades de reconhecimento de imagens do DeepSeek (investigar a identidade do divulgador, inferir o significado do logotipo da baleia, autocorrigir, fazer uma «mini defesa») estão alinhadas com a abordagem de raciocínio descrita neste artigo. Ele constrói âncoras visuais na mente, raciocina ao redor delas, e volta atrás ao encontrar contradições.

E o cansaço ao contar dedos é uma demonstração viva da Lacuna de Referência. Em uma cena com dedos sobrepostos, confiar apenas na descrição verbal para distinguir «o terceiro da esquerda» de «o segundo da direita» é tão confuso quanto contar uma multidão sem usar os dedos, uma receita para confusão.

A direção apontada por este artigo é que a próxima evolução do raciocínio multimodal está na mecânica de ancoragem. DeepSeek, com apenas 90 unidades de informação, iguala o desempenho de outros que usam milhares de tokens, economizando poder de cálculo para «pensar e apontar ao mesmo tempo».

A corrida por resolução de alta definição pode desacelerar; ensinar o modelo a apontar com o dedo é mais eficaz do que equipá-lo com óculos mais caros.

Depois que essa baleia abriu os olhos, ela também começou a usar dedos. Com 66,9% de acurácia em labirintos, ainda longe da perfeição, mas pelo menos ela está realmente caminhando, diferente de alguns que só jogam moeda.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
440.13K Popularidade
#
USSeeksStrategicBitcoinReserve
58.68M Popularidade
#
IsraelStrikesIranBTCPlunges
37.22K Popularidade
#
BitcoinETFOptionLimitQuadruples
979.69K Popularidade
#
#FedHoldsRateButDividesDeepen
30.42K Popularidade

Fixar

O que realmente dizia o novo artigo do DeepSeek, que foi apagado durante a noite

Tópicos em destaque

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Fixar