¿De qué trata realmente el nuevo artículo eliminado por DeepSeek durante la noche?

Question

Anoche, el investigador de multimodalidad de DeepSeek, Chen Xiaokang, publicó un tuit en X y anunció un nuevo artículo de DeepSeek sobre tecnología multimodal titulado «Thinking with Visual Primitives», diciendo que estaba «Emocionado por lanzar».

Temprano en la mañana, el tuit fue eliminado y el artículo en GitHub también fue retirado.

Pero APPSO leyó todo antes de que desapareciera. Después de leerlo, pensó que la retirada del artículo probablemente no fue por problemas en el contenido.

Al contrario, quizás revelaba demasiado.

El día anterior, probamos en la práctica el modo de reconocimiento de imágenes de DeepSeek, que le hizo contar dedos, reflexionó un momento y se quejó «Realmente me mareé contando», y luego respondió mal. En ese momento, pensamos que era un problema menor en la fase de prueba.

Este artículo nos dice que el mareo al contar dedos oculta un cuello de botella técnico que GPT, Claude, Gemini y otros no han resuelto aún.

Y la solución que propone DeepSeek, casi ridículamente simple: ponerle un dedo a la IA.

Chen Xiaokang escribió en ese tuit:

«El CoT tradicional se queda en el espacio lingüístico, pero el razonamiento visual necesita más. Usando puntos y cuadros como anclas cognitivas, nuestro modelo cierra la Brecha de Referencia—imitando la sinergia ‘apuntar para razonar’ que usan los humanos.»

«El pensamiento en cadena tradicional se queda en el espacio del lenguaje, pero el razonamiento visual requiere más. Al usar puntos y cuadros como anclas cognitivas, nuestro modelo cierra la ‘Brecha de Referencia’, imitando la colaboración ‘apuntar y pensar’ que los humanos emplean.»

Ver claramente y apuntar con precisión son cosas distintas

Actualmente, todos los grandes modelos multimodales para inferencia de imágenes, en esencia, convierten la escena visual en texto y luego hacen razonamiento en ese espacio textual. GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash, todos siguen esta línea.

En los últimos dos años, las mejoras de OpenAI, Google, Anthropic se centraron en un problema: cómo hacer que el modelo vea más claramente. Recortes de alta resolución, bloques dinámicos, ampliar la imagen y volver a insertarla. DeepSeek llama a esto la Brecha de Percepción, el ‘Gap de percepción’.

Pero este artículo señala otro cuello de botella: la Brecha de Referencia. El modelo puede ver claramente, pero durante el razonamiento no puede apuntar con precisión a un elemento en la imagen.

Puedes entenderlo así: en una imagen hay 25 personas apretadas juntas, y tú las describes en palabras como «la tercera fila a la izquierda, junto a la camiseta azul». La descripción en sí misma es ambigua. El modelo, contando, pierde el contexto y olvida a quién acababa de contar.

¿Cómo resuelve esto la humanidad? Muy primitivo: extender un dedo, señalar uno por uno.

Un modelo de 284B parámetros, con un dedo puesto

La propuesta de DeepSeek: que el modelo en su proceso de pensamiento directamente produzca las coordenadas en la imagen.

Imagina que el modelo ve una escena con muchas personas, y su cadena de pensamiento ya no es «veo a alguien con ropa azul a la izquierda», sino «veo a esta persona» y le añade un cuadro con las coordenadas, marcando a la persona. Cada vez que cuenta a una persona, dibuja un cuadro; al terminar, cuenta cuántos cuadros hay.

Dos formatos de coordenadas: uno es el cuadro (bounding box), que dibuja un rectángulo alrededor del objeto, ideal para localizar objetos; el otro es el punto (point), que marca una posición en la imagen, útil para seguir caminos o resolver laberintos. DeepSeek llama a estos «primitivos visuales», las unidades mínimas de pensamiento.

El cambio clave aquí: antes, el modelo producía coordenadas como respuesta final («el objetivo está aquí»), ahora las coordenadas están integradas en el proceso de pensamiento mismo. Las coordenadas son marcas en un borrador, no respuestas en la hoja de respuestas.

¿Puede comprimir una imagen 7056 veces y aún así contar claramente cuántas personas hay?

El modelo base es DeepSeek-V4-Flash, un modelo MoE de 284B parámetros. MoE significa: el modelo tiene una gran capacidad, pero en cada respuesta solo activa una pequeña parte de sus neuronas, usando solo 13B parámetros en inferencia. Es como un equipo de cien personas, donde solo cinco trabajan en cada tarea.

En el codificador visual, se realiza una compresión en tres niveles. Por ejemplo: tienes una foto que quieres enviar a un amigo con una conexión lenta. Primero, la divides en pequeños cuadros; segundo, combinas cada 3×3 cuadros en uno solo (compresión 3×3); tercero, en la transmisión, se eliminan redundancias (KV Cache comprimido 4 veces).

En números reales: una imagen de 756×756 píxeles, con 570,000 píxeles, se reduce a 81 unidades de información tras la compresión. ¡Una compresión de 7,056 veces!

Mi primera reacción ante ese número fue: ¿aún se puede ver algo? Pero los resultados en el artículo muestran que sí. No solo se puede ver claramente, sino que también se puede contar con precisión que hay 25 personas en la imagen.

Comparación: en una imagen de 800×800, Gemini-3-Flash usa aproximadamente 1100 tokens para representarla, Claude-Sonnet-4.6 unos 870, GPT-5.4 unos 740. DeepSeek, en el cálculo final, solo usa 90 unidades de información. Otros usan más de mil celdas para recordar una imagen, DeepSeek con 90 celdas basta, y el resto del poder de cálculo se dedica a «apuntar».

¿Cómo se obtiene la gran cantidad de datos de entrenamiento, 40 millones de ejemplos?

DeepSeek recopiló en plataformas como Huggingface todos los conjuntos de datos etiquetados con «detección de objetos», obteniendo inicialmente 97,984 fuentes de datos.

Luego, realizó dos rondas de filtrado.

Primera ronda: calidad de las etiquetas. Usó IA para revisar automáticamente tres problemas: etiquetas con números sin significado (como categorías llamadas «0», «1»), etiquetas de entidades privadas («MyRoommate»), y abreviaturas ambiguas (como «OK» o «NG» en inspección industrial, donde una manzana «OK» y una placa de circuito «OK» no son iguales). Se eliminaron el 56%, quedando 43,141.

Segunda ronda: calidad de los cuadros. Tres criterios: muchas etiquetas faltantes (marcar solo la mitad), cuadros mal dibujados que cortan objetos a la mitad, cuadros que abarcan toda la imagen (indicando que los datos originales eran de clasificación, no detección). Se eliminó otro 27%, quedando 31,701.

Finalmente, por categoría, se muestrearon y eliminaron duplicados, produciendo más de 40 millones de muestras de alta calidad.

DeepSeek priorizó ampliar los cuadros, y luego agregar puntos. La razón es simple: marcar un cuadro tiene una respuesta casi única (rodear exactamente el objeto); marcar un punto, en cambio, puede estar en cualquier parte del objeto, sin respuesta única, por lo que el señalamiento es más difuso. Además, un cuadro ya contiene dos puntos (las esquinas superior izquierda e inferior derecha), aprender a dibujar cuadros es como reducir la dimensión de la tarea de marcar puntos.

¿Cómo enseñar a la IA a usar «el dedo»?

La estrategia de post-entrenamiento es «primero entrenar por separado, luego fusionar».

Primero, entrenan un modelo especializado en dibujar cuadros con los datos de cuadros, y otro en marcar puntos con los datos de puntos. La separación se debe a que la cantidad de datos aún no es suficiente, y mezclar ambas habilidades puede interferir.

Luego, ambos expertos se mejoran mediante aprendizaje por refuerzo. ¿Cómo saber si el modelo «dibujó bien el cuadro» o «siguió el camino correcto»? DeepSeek diseñó un sistema de puntuación multidimensional: ¿el formato es correcto (¿la sintaxis de las coordenadas?), ¿la lógica tiene sentido (¿el proceso de pensamiento no se contradice?), ¿la respuesta es precisa (¿la diferencia con la respuesta estándar?)?

El filtrado en el aprendizaje por refuerzo también es cuidadoso: se hace que el modelo repita N veces la misma pregunta, y solo se entrena con las que tiene respuestas correctas e incorrectas, evitando que aprenda solo de respuestas fáciles o difíciles.

El paso final es fusionar las capacidades de los dos expertos en un solo modelo. La técnica consiste en que un modelo unificado aprenda siguiendo las salidas de ambos expertos, como un estudiante que estudia diferentes materias con dos profesores.

¿Y qué pasa cuando le das un dedo para contar?

Contar 25 personas

Dale a la IA una foto de un equipo de fútbol y pregúntale: «¿Cuántas personas hay en la imagen?»

Proceso de pensamiento: primero, determinar «esto es una foto de grupo, hay que contar a todos, jugadores y entrenadores». Luego, produce 25 cuadros en una sola pasada, marcando a cada persona. Después, cuenta: 4 en la fila del frente + 9 en la del medio + 8 en la de atrás + 2 entrenadores a la izquierda + 2 entrenadores a la derecha = 25.

«¿Cuántos osos hay en el suelo?»

Hay tres osos en la imagen. La IA dibuja cuadros en cada uno y juzga su posición: el primero, trepando verticalmente en el tronco; el segundo, caminando en el borde de una roca; el tercero, entre madera rota y tierra. Respuesta: 2.

No cuenta los tres y luego resta uno, sino que evalúa individualmente si cada uno está en el suelo, con coordenadas específicas para cada uno. Está revisando uno por uno, no adivinando.

Razonamiento espacial en múltiples saltos

En una escena 3D, hay varias figuras geométricas de colores. Pregunta: «¿Existe un objeto de caucho morado del mismo tamaño que un objeto de metal gris?»

El modelo primero delimita la esfera de metal gris, confirmando que es un objeto pequeño. Luego, delimita cada uno de los otros objetos pequeños en la escena: cilindro de metal marrón, cubo de metal azul, cubo de caucho azul, cilindro de caucho amarillo… revisando atributos de color, material y tamaño uno por uno. Concluye que no existe caucho morado.

Seis localizaciones, seis decisiones. Cada paso tiene coordenadas, sin perderse en «¿dónde estaba?».

Más ejemplos del artículo:

Navegación en laberintos: otros lanzan monedas, DeepSeek realmente busca

El artículo probó cuatro tareas, y el laberinto fue la más desafiante.

La tarea es sencilla: con una imagen de un laberinto, preguntar si hay camino de inicio a fin, y si hay, dibujar la ruta. Los laberintos tienen tres formas: cuadrícula, anillo y panal.

El método del modelo para recorrer el laberinto es como cuando dibujas con lápiz en papel en tu infancia: eliges un camino, llegas a un callejón sin salida, retrocedes y pruebas otra opción. La diferencia es que cada paso marca un punto en la imagen, dejando un rastro.

El artículo muestra un proceso completo en un laberinto circular: el modelo marca primero la entrada y la salida, luego explora. Tras 18 pasos, en dos ocasiones entra en callejones sin salida y retrocede, hasta que encuentra un camino, y produce una secuencia de coordenadas que representan toda la ruta.

DeepSeek también diseñó laberintos con trampas: parecen tener salida, pero en medio hay un bloqueo oculto. Este tipo de laberintos requiere paciencia: el modelo no puede decidir solo por la tendencia cercana a la entrada, sino que debe probar todos los caminos posibles para confirmar que no hay salida.

Precisión comparativa:

DeepSeek: 66.9%
GPT-5.4: 50.6%
Claude-Sonnet-4.6: 48.9%
Gemini-3-Flash: 49.4%
Qwen3-VL: 49.6%

Solo hay dos respuestas posibles en un laberinto: hay camino o no. La respuesta aleatoria sería 50%. GPT, Claude, Gemini, Qwen están cerca de ese valor, como lanzar una moneda. DeepSeek con 66.9% no es muy alto, pero realmente avanza paso a paso, no adivina.

Seguimiento de caminos: la versión definitiva para detectar errores

Esta tarea es más intuitiva: varias líneas entrelazadas, cada línea conecta un marcador con otro. La forma en que sacas el cable del bolsillo es como dibujar la línea en el papel. La pregunta es: ¿a qué destino lleva la línea C?

El método del modelo es seguir la línea, produciendo coordenadas como si fuera con el dedo en el papel. En las curvas cerradas, los puntos están densamente distribuidos; en las rectas, más espaciados. Cuando una persona sigue una línea con la vista, también hace esto: desacelera en las curvas, pasa rápido en las rectas.

El artículo añadió una versión más difícil: todas las líneas tienen el mismo grosor y color. No se puede distinguir por color, solo por la continuidad de la curva para decidir qué línea seguir en las intersecciones.

DeepSeek: 56.7%
GPT-5.4: 46.5%
Claude-Sonnet-4.6: 30.6%
Gemini-3-Flash: 41.4%

El 30.6% de Claude es sorprendente. Normalmente, en una intersección hay cuatro o cinco opciones, y adivinar al azar sería un poco más del 20%. Solo un 30.6% indica que en tareas puramente espaciales, la inferencia en lenguaje puede ser una desventaja.

¿Cómo enseñar a la IA a recorrer laberintos sin hacer trampa?

El entrenamiento en laberintos tiene un problema real: si solo se evalúa si acierta o no, el modelo aprende rápidamente a adivinar, y en lugar de buscar, solo puede responder al azar. Es mejor que simplemente adivine, porque si busca, puede fallar, y si no busca, también falla, pero en ambos casos obtiene la misma puntuación cero.

La solución de DeepSeek es incluir el proceso en la puntuación. Cada paso válido suma puntos, pasar a través de paredes resta, y cuanto más lejos llegue, mejor. Incluso si no llega a la meta, si explora la mayor parte del laberinto, obtiene una buena puntuación. Así, el modelo no tiene incentivo para hacer trampa.

Para laberintos imposibles, la exigencia es mayor: no solo decir «no hay salida», sino demostrar que ha explorado todos los caminos posibles. La cobertura de búsqueda también cuenta para la puntuación.

Un dato curioso, con tres limitaciones

Los datos de entrenamiento posteriores no contienen chino. Pero el modelo puede usar chino para razonamiento con primitivas visuales.

Le das una foto de una cafetera y preguntas en chino: «¿Cómo hacer un latte?», y marca en chino las coordenadas de la varilla de vapor, la jarra de leche, los granos de café y el botón de latte, además de dar los pasos. La capacidad multilingüe proviene del modelo base, y el entrenamiento en primitivas visuales no la destruye.

También puede combinar visión con conocimientos del mundo: con una foto del puente Golden Gate, pregunta «¿Hay equipos de la NBA cerca?», y primero delimita el puente, deduce que es San Francisco, y responde que los Golden State Warriors.

Puede entender humor: una mancha en una fruta cortada que forma una cara de gato triste, y el modelo señala en qué se parece y explica por qué es gracioso.

Puede guiar en escape de habitaciones: delimitar la llave en lo alto, la silla en el suelo, la puerta con cerradura, y sugerir «mueve la silla debajo de la llave → sube para alcanzarla → abre la puerta».

El artículo admite honestamente lo que aún no puede hacer.

La resolución de entrada tiene límites. La salida de ViT se limita a entre 81 y 384 unidades visuales. En escenas muy detalladas (como contar dedos), la precisión de las coordenadas no es suficiente. Esa fue la causa del fallo en la prueba del día anterior.

Por ahora, se requiere una palabra clave específica para activar el modo de primitivas visuales. El modelo no puede decidir por sí mismo «¿debería usar el dedo aquí?», necesita que alguien le recuerde.

La generalización en razonamiento topológico aún es limitada. Funciona bien en tipos de laberintos entrenados, pero puede fallar en nuevas estructuras espaciales. Chen Xiaokang también dijo en ese tuit eliminado:

«Estamos en las primeras etapas; la generalización en tareas complejas de razonamiento topológico aún no es perfecta, pero estamos comprometidos a resolverlo.»

En la prueba del día anterior, las capacidades del modo de reconocimiento visual de DeepSeek (preguntar por la identidad del publicador, inferir el significado del logo de ballena, autocorregirse, organizar una «mini defensa») están en línea con la forma de pensar descrita en este artículo. Construye anclas visuales en su mente, razona alrededor de ellas, y si encuentra contradicciones, retrocede y corrige.

Y contar dedos mareó, precisamente por la referencia a la Brecha de Referencia. En escenas con dedos cruzados y superpuestos, distinguir «el tercer dedo desde la izquierda» o «el segundo desde la derecha» solo con descripción verbal es como contar a mano a un grupo de personas apretadas: inevitablemente confuso.

La dirección que apunta este artículo es: la próxima evolución del razonamiento multimodal está en el mecanismo de anclaje. DeepSeek con solo 90 unidades de información iguala el rendimiento de otros que usan miles de tokens, ahorrando poder de cálculo para que el modelo «piense y señale al mismo tiempo».

La carrera armamentística en resolución puede ralentizarse; enseñar al modelo a extender el dedo es más efectivo que equiparlo con gafas más caras.

Después de que esa ballena abrió los ojos, también le crecieron dedos. La precisión del 66.9% en laberintos aún está lejos de la perfección, pero al menos, está caminando con seriedad, no como los otros que solo lanzan monedas.

Ver original

¿De qué trata realmente el nuevo artículo eliminado por DeepSeek durante la noche?

Temas de actualidad

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Anclado