Que dit réellement le nouveau papier de DeepSeek, supprimé en urgence ?

Hier soir, le chercheur en multimodal DeepSeek, Chen Xiaokang, a publié un tweet sur X et a annoncé un nouveau papier de DeepSeek concernant la technologie multimodale, intitulé « Thinking with Visual Primitives », en disant « Excited to release ».

Ce matin, le tweet a été supprimé, et le papier sur GitHub aussi retiré.

Mais APPSO l’a lu en entier avant sa disparition. Après lecture, il pense que le retrait de cet article n’est peut-être pas dû à un problème de contenu.

Au contraire, il pourrait même révéler trop de choses.

Il y a deux jours, nous avons testé en conditions réelles le mode reconnaissance d’images de DeepSeek, lui demandant de compter les doigts, il a réfléchi un moment, puis a râlé « Je suis vraiment confus avec le comptage », et a donné une réponse incorrecte. À l’époque, on pensait que c’était un petit problème en phase de test.

Ce papier nous dit que le fait de confondre le comptage des doigts cache en réalité un obstacle technologique que GPT, Claude, Gemini n’ont pas encore résolu.

Et la solution proposée par DeepSeek, presque naïve dans sa simplicité : donner à l’IA un doigt.

Dans ce tweet, Chen Xiaokang écrit :

« Traditional CoT reste dans l’espace linguistique, mais le raisonnement visuel en a besoin de plus. En utilisant des points et des boîtes comme ancrages cognitifs, notre modèle comble le « Reference Gap » — imitant la synergie « point-à-réason » que les humains utilisent. »

« La chaîne de pensée traditionnelle reste dans l’espace linguistique, mais le raisonnement visuel nécessite davantage. En utilisant des points et des boîtes comme ancrages cognitifs, notre modèle comble le « Reference Gap » — en imitant la synergie « point-à-réfléchir » que les humains emploient. »

Voir clairement et pointer précisément, ce sont deux choses différentes.

Actuellement, tous les grands modèles multimodaux pour le raisonnement d’image transforment essentiellement la scène en texte, puis utilisent la chaîne de pensée dans l’espace textuel. GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash, suivent tous cette voie.

Au cours des deux dernières années, les améliorations d’OpenAI, Google, Anthropic se sont concentrées sur une question : comment faire que le modèle voie plus clairement. Découpage haute résolution, segmentation dynamique, agrandissement de l’image puis insertion. DeepSeek parle de cela comme du « Perception Gap », le fossé de perception.

Mais cet article indique une autre limite : le « Reference Gap », le fossé de référence. Le modèle voit clair, mais lors du raisonnement, il ne peut pas pointer précisément un élément dans l’image.

On peut comprendre cela ainsi : dans une image, 25 personnes sont serrées les unes contre les autres. Si vous décrivez en langage « à gauche, la troisième rangée, à côté du maillot bleu », la description elle-même est floue. Le modèle, en comptant, perd le contexte, oublie qui il venait de compter.

Comment les humains résolvent ce problème ? De façon rudimentaire : ils lèvent un doigt, et pointent un par un.

Un modèle de 284 milliards de paramètres, équipé d’un doigt.

La solution de DeepSeek : faire que le modèle, lors de sa réflexion, sorte directement les coordonnées de l’image.

Imaginez : le modèle voit une scène avec beaucoup de personnes, sa chaîne de pensée ne sera plus « je vois une personne en bleu à gauche », mais « je vois cette personne » puis lui associe un cadre avec des coordonnées, pour entourer la personne. Chaque fois qu’il compte une personne, il encercle un cadre. Une fois tous encadrés, il compte simplement combien de cadres il y a.

Deux formats de coordonnées : une est la boîte englobante (bounding box), un rectangle qui entoure l’objet, adaptée pour localiser précisément ; l’autre est le point (point), une position marquée sur l’image, utile pour suivre un chemin ou résoudre un labyrinthe. DeepSeek appelle ces deux choses des « primitives visuelles », la plus petite unité de pensée.

Ce changement clé : auparavant, le modèle sortait des coordonnées comme réponse finale (« la cible est ici »), maintenant, les coordonnées sont intégrées au processus de réflexion lui-même. Les coordonnées deviennent des annotations sur un brouillon, pas la réponse finale.

Compresser une image de 7056 fois, tout en pouvant encore compter précisément combien de personnes s’y trouvent.

Le modèle de base est DeepSeek-V4-Flash, un MoE (Mixture of Experts) de 284 milliards de paramètres. MoE signifie : le cerveau du modèle est très grand, mais à chaque réponse, seule une petite partie des neurones est activée, avec une inference utilisant seulement 13 milliards de paramètres. Comme une équipe de cent personnes, où seulement 5 sont mobilisées pour une tâche.

Concernant l’encodeur visuel, il y a une compression en trois étapes. Par exemple : vous avez une photo à envoyer à un ami avec une connexion lente. Première étape : découper la photo en petits carrés. Deuxième étape : fusionner chaque groupe de 9 petits carrés en un seul (compression 3×3). Troisième étape : réduire encore la redondance lors du transfert (compression KV Cache par 4).

En chiffres : une image de 756×756 pixels, 570 000 pixels, compressée en 81 unités d’information. Rapport de compression : 7 056 fois.

Ma première réaction face à ce chiffre a été : on peut encore voir quelque chose ? Mais les résultats dans le papier montrent que oui. Non seulement on peut voir, mais aussi compter précisément 25 personnes dans l’image.

Comparons : pour une image de 800×800, Gemini-3-Flash utilise environ 1100 tokens pour la représenter, Claude-Sonnet-4.6 environ 870, GPT-5.4 environ 740. DeepSeek, lors du calcul final, n’utilise que 90 unités d’information. Les autres utilisent plus de mille blocs pour mémoriser une image, DeepSeek n’en a besoin que de 90, et tout le reste de la puissance de calcul est consacré à « pointer ».

Comment obtenir 400 millions de données d’entraînement

DeepSeek a récupéré sur des plateformes comme Huggingface tous les datasets avec l’étiquette « détection d’objets », pour un total initial de 97 984 sources.

Puis, deux cycles de filtrage ont été effectués.

Premier cycle : vérifier la qualité des étiquettes. Utiliser l’IA pour auditer trois types de problèmes : étiquettes sans sens (numérotation arbitraire comme « 0 », « 1 »), étiquettes de personnes privées (« MyRoommate »), étiquettes abrégées floues (« OK », « NG » en détection industrielle, où un « OK » d’une pomme et un « OK » d’un circuit imprimé sont très différents, et l’IA ne peut pas apprendre). Résultat : 56 % éliminés, il reste 43 141 sources.

Deuxième cycle : vérifier la qualité des boîtes. Trois critères : omission excessive (moins de la moitié des objets étiquetés), boîtes mal dessinées (découpage à moitié d’un objet), boîtes trop grandes (couvrant toute l’image, indiquant une conversion d’image en détection sans localisation). Encore 27 % éliminés, il reste 31 701 sources.

Enfin, en échantillonnant par catégorie et en supprimant les doublons, on obtient plus de 400 millions d’échantillons de haute qualité.

DeepSeek privilégie d’abord la détection par boîte, puis ajoute les points par la suite. La raison est simple : faire étiqueter un cadre est presque unique (il entoure parfaitement l’objet), alors qu’un point n’a pas de position unique — n’importe où sur l’objet est correct, ce qui rend l’entraînement flou. De plus, un cadre contient deux points (coin supérieur gauche et coin inférieur droit), apprendre à dessiner un cadre revient à une opération de réduction de dimension.

Comment enseigner cette capacité de « pointer » au modèle

La stratégie post-entraînement consiste à « d’abord entraîner séparément, puis fusionner ».

DeepSeek entraîne d’abord un modèle spécialisé pour dessiner des cadres, puis un autre pour marquer des points. La séparation est due à la taille encore limitée des données, car combiner ces deux capacités dans un seul modèle pourrait provoquer des interférences.

Ensuite, on applique un apprentissage par renforcement à chacun des deux experts. Comment juger si le modèle « dessine le bon cadre » ou « suit la bonne voie » ? DeepSeek a conçu un système de scoring multidimensionnel : la syntaxe des coordonnées est correcte, la logique est cohérente (le processus de réflexion ne se contredit pas), la réponse est précise (la différence avec la réponse standard).

Le filtrage par RL est aussi réfléchi : faire faire N fois la même question au modèle, en ne conservant que celles où il a réussi partiellement, car une question entièrement réussie est trop simple, et une question entièrement ratée ne permet pas d’apprendre. Seules celles avec un mélange de succès et d’échec sont retenues pour l’entraînement.

Enfin, on fusionne les deux experts dans un seul modèle. La méthode consiste à faire apprendre à un modèle unique en suivant les sorties des deux experts, comme un élève suivant deux professeurs différents pour deux matières.

Après lui avoir donné un doigt, comment le modèle compte-t-il ?

Il compte 25 personnes.

Donnez-lui une photo d’une équipe de football, et demandez : « Combien y a-t-il de personnes dans cette image ? »

Processus de réflexion : d’abord, déterminer « il s’agit d’une photo d’équipe, il faut compter tous les individus, joueurs et entraîneurs ». Ensuite, il sort 25 cadres en une seule fois, entourant chaque personne. Puis, il fait le comptage : 4 dans la première rangée + 9 dans la deuxième + 8 dans la troisième + 2 entraîneurs à gauche + 2 entraîneurs à droite = 25.

« Combien y a-t-il d’ours sur le sol ? »

Il y a trois ours dans l’image. Le modèle encercle chaque ours et juge leur position : le premier, perché verticalement sur le tronc d’arbre, est exclu ; le deuxième, marchant au bord d’un rocher, est compté ; le troisième, entre des branches de bois cassé et de la terre, est compté. La réponse : 2.

Il ne s’agit pas de compter d’abord trois puis en soustraire un, mais de faire une vérification pour chaque ours : « est-il au sol ? » avec un coordinateur précis pour chaque. Il vérifie un par un, sans deviner.

Raisonnement spatial en plusieurs étapes

Dans une scène 3D, il y a plusieurs formes géométriques colorées. La question : « Existe-t-il un objet en caoutchouc violet aussi grand qu’un objet en métal gris ? »

Le modèle encercle d’abord le cylindre métallique gris, confirmant qu’il s’agit d’un petit objet. Ensuite, il encercle chaque autre petit objet dans la scène : cylindre métallique marron, cube métallique bleu, cube en caoutchouc bleu, cylindre en caoutchouc jaune… Il vérifie attribut par attribut : couleur, matériau, taille. Conclusion : il n’y a pas d’objet violet en caoutchouc.

Six localisations, six vérifications. Chaque étape est ancrée par une coordonnée, évitant toute confusion sur « où en était la dernière fois ».

Plus d’exemples dans l’article :

Navigation dans un labyrinthe : d’autres lancent une pièce, DeepSeek cherche vraiment.

L’article teste quatre tâches, le labyrinthe étant celle où la différence est la plus grande.

La tâche est simple : donner une image de labyrinthe, demander s’il y a un chemin du début à la fin, et si oui, le tracer. Les labyrinthes ont trois formes : en grille, en anneau, en nid d’abeille.

Le modèle explore comme un enfant dessinant au crayon sur du papier : choisir une voie, aller jusqu’au bout, revenir en arrière si bloqué, essayer une autre. La différence : à chaque pas, il marque un point sur l’image, laissant une trace.

Un exemple complet d’un labyrinthe circulaire : le modèle marque d’abord le début et la fin, puis explore. Après 18 pas, il entre deux impasses, revient, puis trouve un chemin, et relie tous les points pour sortir.

DeepSeek a aussi conçu des labyrinthes piège : on dirait qu’il y a un chemin, mais une section est secrètement bloquée. Ce genre de labyrinthe teste la patience, le modèle ne doit pas se contenter de regarder le début, mais tester toutes les voies possibles pour confirmer qu’il n’y a pas de chemin.

Taux de réussite :

  • DeepSeek : 66,9 %

  • GPT-5.4 : 50,6 %

  • Claude-Sonnet-4.6 : 48,9 %

  • Gemini-3-Flash : 49,4 %

  • Qwen3-VL : 49,6 %

Il n’y a que deux réponses possibles pour un labyrinthe : il y a un chemin ou pas. La réponse au hasard est 50 %. GPT, Claude, Gemini, Qwen tournent autour de 50 %, comme lancer une pièce. DeepSeek, avec 66,9 %, ne fait pas que deviner, il marche vraiment pas à pas.

Suivi de chemin : la version ultime pour débusquer les erreurs

Ce test est plus intuitif : une multitude de lignes entremêlées, chaque ligne allant d’un point marqué à un autre. La façon dont votre casque sort de la poche ressemble à cela. La question : cette ligne C mène-t-elle à telle extrémité ?

Le modèle trace la ligne en sortant une série de coordonnées, comme un doigt qui glisse sur le papier. Les courbes serrées ont des points denses, les segments droits, moins. Lorsqu’on suit une ligne avec les yeux, c’est pareil : ralentir dans les courbes, accélérer dans les segments droits.

Un test plus difficile a été ajouté : toutes les lignes ont la même couleur et épaisseur. Impossible de distinguer une ligne d’une autre par la couleur, il faut se fier à la continuité de la courbe pour suivre le croisement.

  • DeepSeek : 56,7 %

  • GPT-5.4 : 46,5 %

  • Claude-Sonnet-4.6 : 30,6 %

  • Gemini-3-Flash : 41,4 %

Le score de 30,6 % pour Claude est surprenant. Il y a généralement 4 ou 5 options pour la fin, une réponse aléatoire donnerait un peu plus de 20 %, 30,6 % est donc à peine meilleure que le hasard. Peut-être que, pour ce genre de tâche purement spatiale, la logique linguistique en inertie a en fait un effet contre-productif.

Comment apprendre à l’IA à explorer un labyrinthe sans tricher

L’entraînement dans un labyrinthe pose un problème pratique : si on ne regarde que la réponse finale, le modèle apprend vite à tricher, car il peut simplement deviner ou faire du hasard. Mieux vaut lui faire explorer sérieusement, même s’il se trompe, car un vrai explorateur ne triche pas.

DeepSeek résout cela en valorisant le processus. Chaque étape d’exploration légitime est récompensée, traverser un mur est pénalisé, et plus il explore loin, mieux c’est. Même s’il ne trouve pas la sortie, il peut obtenir une bonne note s’il a bien exploré la majorité du labyrinthe. Ainsi, le modèle n’a pas intérêt à tricher.

Les labyrinthes impossibles exigent encore plus : il faut prouver qu’on a bien exploré toutes les zones accessibles, pas seulement dire « c’est bloqué ». La couverture de recherche doit aussi compter pour la note.

Une anecdote, trois limites

Les données d’entraînement ne contiennent pas de chinois, mais le modèle peut faire du raisonnement visuel avec des primitives en chinois.

Par exemple, on lui donne une photo d’une machine à café, et on lui demande « comment faire un latte » en chinois. Il marque en coordonnées la tige à vapeur, la cruche à lait, les grains de café, le bouton latte, puis donne les étapes. La capacité multilingue vient du modèle de base, pas de l’entraînement visuel.

Il peut aussi combiner la vision avec des connaissances générales : une photo du pont de Golden Gate, et la question « y a-t-il une équipe NBA à proximité ? » Il encercle le pont, en déduit qu’il s’agit de San Francisco, puis répond que les Golden State Warriors jouent là.

Il comprend aussi l’humour : une tranche de fruit avec des taches naturelles formant un visage de chat mélancolique, le modèle peut indiquer où se trouve la ressemblance et expliquer pourquoi c’est drôle.

Il peut donner des conseils pour sortir d’une pièce secrète : encadrer la clé en hauteur, la chaise au sol, la porte verrouillée, et suggérer « déplacer la chaise sous la clé, monter dessus pour la prendre, puis ouvrir la porte ».

L’article admet honnêtement ce qui n’est pas encore possible.

La résolution d’entrée est limitée. La sortie du ViT est comprise entre 81 et 384 unités d’information visuelle. Pour des scènes très détaillées (comme compter les doigts), la précision des coordonnées n’est pas suffisante. C’est probablement la raison pour laquelle le comptage a échoué lors de la dernière expérimentation.

Actuellement, il faut un mot-clé spécifique pour activer le mode primitives visuelles. Le modèle ne peut pas encore décider tout seul « je vais pointer un doigt pour cette question », il faut le rappeler.

La généralisation du raisonnement topologique est limitée. Il fonctionne bien sur les types de labyrinthes entraînés, mais échoue avec de nouvelles structures spatiales. Chen Xiaokang a aussi dit dans le tweet supprimé :

« Nous sommes encore au début ; la généralisation dans les tâches complexes de raisonnement topologique n’est pas encore parfaite, mais nous y travaillons. »

Les capacités de reconnaissance d’image de DeepSeek lors de la dernière expérimentation (interroger l’identité de l’émetteur, faire des associations avec le logo de la baleine, s’auto-corriger, organiser une « petite défense ») sont en ligne avec la façon de penser décrite dans cet article. Il construit des ancrages visuels dans son cerveau, raisonne autour, et revient sur ses contradictions.

Et le confus comptage des doigts est une démonstration vivante du « Reference Gap ». Dans une scène où les doigts se chevauchent, distinguer « le troisième à partir de la gauche » de « le deuxième à partir de la droite » par une simple description linguistique revient à compter une foule de personnes serrées, sans lever le doigt, ce qui est forcément chaotique.

Ce papier indique que la prochaine étape de l’évolution du raisonnement multimodal est dans le mécanisme d’ancrage. DeepSeek, avec seulement 90 unités d’information, égalise la performance de modèles utilisant des milliers de tokens, économisant ainsi de la puissance de calcul pour faire « penser et pointer » en même temps.

Les courses à la résolution peuvent attendre. Enseigner au modèle à lever le doigt est plus efficace que de lui fournir des lunettes coûteuses.

Après avoir ouvert les yeux, cette baleine a aussi développé un doigt. Son taux de précision dans le labyrinthe est encore loin de la perfection, mais au moins, elle marche sérieusement, contrairement à certains autres qui lancent des pièces.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler