DeepSeek lanza el modo de reconocimiento de imágenes, basado en el marco de primitivas retiradas que soporta razonamiento visual CoT

robot
Generación de resúmenes en curso

Según el monitoreo de Beating, DeepSeek en la web y la aplicación han lanzado oficialmente el modo de reconocimiento de imágenes (Modo Visión), que se presenta junto a los modos rápido y experto en la parte superior del cuadro de entrada de diálogo. La nueva capacidad de comprensión visual no es simplemente reconocimiento de texto (OCR), sino que se centra en análisis profundo de escenarios, razonamiento lógico espacial y la conversión directa de capturas de pantalla de interfaces de usuario en código estructurado HTML. Para cálculos geométricos complejos o análisis de gráficos complicados, el sistema activará automáticamente un modelo de pensamiento profundo que proporciona una cadena completa de razonamiento.

El modo de reconocimiento de imágenes se basa en el marco de investigación «Pensar con primitivas visuales» publicado por el equipo de DeepSeek. Un artículo conjunto de Xiaokang Chen, investigador en multimodalidad, con la Universidad de Pekín y la Universidad de Tsinghua, señala que los modelos de lenguaje visual existentes tienen una «brecha de referencia» (Reference Gap) en la localización precisa y el razonamiento espacial, es decir, que tienen dificultades para describir coordenadas visuales complejas con un lenguaje natural vago. Por ello, el equipo de investigación eleva los puntos de coordenadas y las cajas delimitadoras (Bounding Boxes) a la mínima unidad de pensamiento, insertando primitivas espaciales directamente en la cadena de razonamiento (CoT) del modelo, logrando así que la referencia espacial se realice de manera sincronizada durante el proceso de pensamiento.

Los artículos académicos y proyectos de código abierto que fundamentan la capacidad visual se lanzaron brevemente el 30 de abril, pero fueron retirados sin aviso por DeepSeek el 1 de mayo, lo que generó especulaciones en la industria sobre la divulgación excesiva de detalles técnicos y futuras optimizaciones del modelo. El modo de reconocimiento de imágenes lanzado oficialmente solo soporta entrada de imágenes, sin soporte para formatos multimodales como video o audio, y actualmente el modelo no tiene capacidad de generación de imágenes.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado