DeepSeek lance le mode de reconnaissance d'images, basé sur le cadre de primitives retractées, prenant en charge le raisonnement CoT visuel

robot
Création du résumé en cours

Selon le suivi Beating, la version web et l'application de DeepSeek ont officiellement lancé le mode reconnaissance d'images (Mode Vision), proposé en parallèle du mode rapide et du mode expert, au-dessus de la zone de saisie de dialogue. La nouvelle capacité de compréhension visuelle ne se limite pas à une simple reconnaissance de texte (OCR), mais se concentre sur une analyse approfondie des scénarios, un raisonnement logique spatial, ainsi que la conversion directe de captures d'écran d'interface utilisateur en code HTML structuré. Pour les déductions géométriques complexes ou l'analyse de graphiques sophistiqués, le système active automatiquement un modèle de réflexion approfondie, fournissant une chaîne de raisonnement complète.

Le mode reconnaissance d'images repose sur le cadre de recherche « Penser avec des primitives visuelles (Thinking with Visual Primitives) » publié par l'équipe DeepSeek. Une étude conjointe menée par le chercheur multimodal Xiaokang Chen avec l'Université de Pékin et l'Université Tsinghua indique que les modèles de langage visuel existants présentent un « déficit de référence » (Reference Gap) dans la localisation précise et le raisonnement spatial, c'est-à-dire qu'ils ont du mal à décrire avec précision des coordonnées visuelles complexes en langage naturel flou. Pour cela, l'équipe de recherche a élevé les points de coordonnées et les boîtes englobantes (Bounding Boxes) au rang d'unités de pensée minimales, insérant directement des primitives spatiales dans la chaîne de raisonnement (CoT) du modèle, permettant ainsi une orientation spatiale synchronisée lors de la réflexion.

Les articles académiques et projets open source fondamentaux pour la capacité visuelle ont été brièvement publiés le 30 avril, mais ont été rapidement retirés sans avertissement par DeepSeek le 1er mai, ce qui a suscité de nombreuses spéculations dans l'industrie concernant la fuite excessive de détails techniques et l'optimisation ultérieure du modèle. La version officielle du mode reconnaissance d'images ne supporte actuellement que l'entrée d'images, sans prise en charge des formats multimodaux tels que vidéo ou audio, et le modèle ne possède pas encore de capacité de génération d'images.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé