Informe de tecnología multimodal de DeepSeek: enseñar al modelo a "pensar tocando con el dedo", navegación en laberintos supera a GPT-5.4 en casi 17 puntos porcentuales

robot
Generación de resúmenes en curso
Noticia de CoinWorld, DeepSeek ha publicado un informe técnico sobre razonamiento multimodal titulado «thinking with visual primitives», que propone un nuevo paradigma de razonamiento: el modelo, al pensar, como si usara su dedo para señalar cosas, inserta directamente coordenadas en la cadena de pensamiento, bloqueando cada objeto visual involucrado. El proyecto es de código abierto en GitHub, bajo licencia MIT. Uno de los principales obstáculos de los modelos multimodales actuales es la «brecha de referencia», los modelos pueden ver claramente las imágenes, pero al razonar solo pueden describir los objetos visuales en lenguaje natural, dificultando la localización en escenas complejas. DeepSeek resuelve este problema convirtiendo los cuadros delimitadores y las coordenadas de puntos en la unidad mínima de razonamiento. El modelo se basa en la arquitectura v4-flash, con una compresión extrema de tokens visuales, y los resultados de las pruebas muestran un rendimiento sobresaliente en múltiples benchmarks, especialmente en razonamiento topológico y tareas de navegación en laberintos, superando ampliamente a otros modelos.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado