DeepSeek vuelve a ser un "carnicero de precios" pero esta vez no solo está sacrificando precios

El autor: Xiaojing

Token está redefiniendo las coordenadas de valor en la era de la IA, la vista previa de DeepSeek V4 se lanza, y una vez más se convierte en el “carnicero de precios”, pero trae una nueva proposición para la fijación de precios de tokens. La misma cantidad de tokens, en diferentes sistemas, puede tener un costo real que varía en un orden de magnitud, y los grandes modelos están avanzando hacia una fijación de precios a nivel de sistema.

Finalmente se lanza la vista previa de DeepSeek V4, y una vez más reduce los precios de los grandes modelos, lo cual encaja con las “características” de DeepSeek.

El precio de V4-Flash, ingresando 1 yuan y saliendo 2 yuan por millón de tokens, tras un cache hit, el ingreso es solo 0.2 yuan; el precio de V4-Pro, ingresando 12 yuan y saliendo 24 yuan por millón de tokens, con cache hit, ingreso de 1 yuan, y en el lanzamiento se ofrece un 25% de descuento por tiempo limitado, hasta el 5 de mayo. Ambos modelos soportan nativamente contextos de millones de tokens.

Este fin de semana, DeepSeek V4-Pro continúa con una oferta limitada, reduciendo el precio a una cuarta parte, y el precio de ingreso en cache hit se reduce a una décima parte. Un ingeniero de IA bromeó diciendo: “Después del fin de semana, DeepSeek V4-Pro está a solo 0.025 yuan de ser gratuito”.

Actualmente, han pasado exactamente dos años desde la guerra de precios que comenzó en 2024, con DeepSeek V2 como punto de partida. En estos dos años, los costos de inferencia de los grandes modelos han caído de forma exponencial, y considerando factores como cache hit, el costo efectivo ha llegado a reducirse incluso en cien veces.

Pero hoy, reducir los precios tiene un significado aún más importante que antes. La IA ha cambiado a un paradigma de agentes centrado en tareas complejas a largo plazo, donde una sola tarea implica decenas o incluso cientos de llamadas al modelo.

En este contexto, el lanzamiento de la vista previa de DeepSeek V4 también trae dos informaciones clave. Primero, que los contextos de millones de tokens se convierten en estándar nativo en ambos modelos; segundo, que se enfatiza el precio del cache, con descuentos adicionales. La combinación de estos factores ha llevado el precio de entrada y salida a niveles similares, con el objetivo de reducir la factura total de una tarea de agente a la más competitiva.


El token ya tiene un nuevo sistema de precios

Reflexionando sobre la reducción de precios en 2024, en esencia, se trata de llevar los grandes modelos de “costosos experimentos” a “herramientas utilizables”. En ese momento, gracias a innovaciones en la arquitectura que mejoraron la eficiencia de inferencia, el costo de llamadas a modelos pasó rápidamente del rango de 10 a 30 dólares por millón de tokens en la era GPT-4, a aproximadamente 1 dólar.

Gráfico: descenso exponencial en los precios de tokens en los últimos dos años

Este es un ejemplo típico de “descenso absoluto de precios”: los desarrolladores pueden llamar a grandes modelos a bajo costo, y las aplicaciones comienzan a abrirse realmente. Pero en esa etapa, los precios aún estaban ligados al “costo por llamada”, y los tokens se consideraban una unidad de facturación unificada, con llamadas y costos linealmente relacionados.

Dos años después, la estructura de precios de DeepSeek V4 también ha cambiado. Con la introducción del mecanismo de cache en el sistema de facturación, los tokens ahora se dividen en “nuevo cálculo” y “cálculo repetido”, cada uno con su propio costo. En escenarios con alta tasa de cache hit, los precios pueden reducirse a una décima o incluso menos del original. El precio ha pasado de ser un valor estático a una variable estrechamente relacionada con el diseño del sistema.

Gráfico: tokens divididos en “nuevo cálculo” y “cálculo repetido”

Si solo se mira el precio base, V4 continúa con la estrategia de bajo costo de DeepSeek. En el mercado doméstico, modelos como Alibaba Tongyi, Zhipu GLM, y Kimi de Moonlight, tienen precios en el rango de 1 a 4 yuan en entrada y 4 a 12 yuan en salida, mientras que V4-Flash, con entrada de 1 yuan y salida de 2 yuan, está en un tercio a una cuarta parte del precio promedio del sector.

El precio de la versión Pro, 12/24 yuan, se acerca al de modelos insignia, pero el contexto de millones de tokens es una capacidad predeterminada, no un cargo adicional. A nivel global, la diferencia de precios es aún más evidente, siendo aproximadamente una décima o una cincuentaava parte de algunos competidores. Por ejemplo, GPT-5.5 en su sitio web cuesta: entrada 5 dólares / millón de tokens, cache input 0.5 dólares / millón, salida 30 dólares / millón; Claude Opus 4.7 mantiene la misma estructura de precios que Opus 4.6, con aproximadamente 5 dólares en entrada y 25 dólares en salida por millón de tokens.

Aunque los modelos insignia en el extranjero no son completamente comparables en capacidad, madurez del ecosistema o eficiencia en el uso de tokens, el precio sigue siendo un factor clave, ya que en tareas de agentes, la diferencia en costos de llamada afecta directamente la viabilidad comercial. Los proveedores extranjeros también enfrentan presión en precios: Sam Altman admitió públicamente que la suscripción ChatGPT Pro está en pérdidas, y Dario Amodei advirtió sobre “precios demasiado agresivos” en la industria. En cierto modo, los precios reflejan la oferta de capacidad computacional, amortización de I+D y estrategias de mercado.

Por eso, esta vez, la ventaja en precios tiene un significado aún mayor. En 2024, la industria se centraba en “si se puede usar”; en el paradigma actual de IA agente, la cuestión más importante es “si se puede escalar para operar”.

Una tarea de agente suele implicar decenas o cientos de llamadas al modelo, con muchas entradas provenientes de prompts del sistema, esquemas de herramientas y memoria histórica, contenidos altamente reutilizables, y precisamente esa parte es la más propensa a “inflarse” en costos.

El enfoque principal de DeepSeek V4 ha sido reducir precisamente ese costo de “cálculo repetido”.


Gráfico: DeepSeek V4 convierte el “costo” en una variable susceptible de optimización técnica. A la izquierda, alineación de capacidades; a la derecha, caída abrupta de costos. Con contextos de millones de tokens, la potencia de inferencia y el uso de cache disminuyen significativamente, haciendo que tareas a largo plazo ya no tengan un crecimiento exponencial en costos. Este es el verdadero motor detrás de esta guerra de precios.

Desde la evolución de sus propios productos, también se puede ver esta tendencia. La generación anterior, V3.2, tenía un precio de entrada de 2 yuan (sin cache hit), 0.2 yuan (con cache hit), y salida de 3 yuan; mientras que V4-Flash reduce la entrada a 1 yuan y la salida a 2 yuan, siendo la reducción más notable la mitad del costo en llamadas sin cache hit. En escenarios de llamadas múltiples en agentes, los costos acumulados de entrada suelen ser la mayor parte, y esta modificación tiene un efecto mucho mayor que la simple reducción de precios.

La versión Pro, con precios de 12/24 yuan, parece mucho más cara que Flash, pero en el informe técnico se indica que “la versión Pro está limitada por la capacidad de hardware de alta gama, y se espera que, tras la llegada en la segunda mitad del año de los nodos de Ascend 950, los precios de Pro se reduzcan significativamente”. Se puede entender que el precio actual refleja una restricción en la oferta, no el costo real.

La posición de ambos modelos también está clara: Flash está orientado a tareas de alta concurrencia y baja latencia en lotes, mientras que Pro soporta procesos complejos de agentes, generación de código en cadenas largas y razonamiento profundo. Según el informe técnico, DeepSeek ya está evaluando la capacidad del agente de código V4 en tareas reales de desarrollo, y en evaluaciones internas, lo compara directamente con la serie Claude.


El “carnicero de precios”: ¿cómo logró DeepSeek reducir los precios?

¿Cómo ha logrado DeepSeek reducir los precios?

La atención tradicional en mecanismos de atención para textos largos, donde la cantidad de cálculo crece con el cuadrado de la longitud de la secuencia, hace que procesar 1 millón de tokens sea 64 veces más costoso que 128K. Por eso, en el pasado, los “contextos de millones de tokens” eran difíciles de comercializar, ya que la memoria de cache KV consumía memoria en línea con la longitud de la secuencia, y procesar 1M requería reducir la concurrencia o multiplicar la cantidad de máquinas, lo cual no era rentable.

Por eso, los proveedores extranjeros suelen adoptar una estrategia de “ventanas cortas por defecto, ventanas largas con recargo”, Anthropic incluso segmenta en tarifas separadas para más de 200K tokens, duplicando el precio.

Gráfico: CSA (atención dispersa comprimida) de DeepSeek V4, que comprime primero la memoria KV, y luego selecciona los contextos clave con Top-k, calculando solo la información más importante, reduciendo significativamente el consumo de cálculo y memoria en textos largos.

La solución de V4, en términos simples, combina “compresión” y “esparcimiento”. Primero, comprime la memoria KV de cada m tokens en un solo elemento (con tasa de compresión CSA 4, y HCA 128), y luego hace que cada consulta solo preste atención a los top-k elementos clave. La primera parte reduce la memoria, la segunda reduce el cálculo, abordando ambos cuellos de botella.


Gráfico: HCA (atención comprimida pesada) de DeepSeek V4, que comprime al máximo la memoria KV de secuencias más largas en pocas representaciones, manteniendo la información local y reduciendo aún más el cálculo y almacenamiento, siendo clave para la reducción de costos en contextos de millones de tokens.

El informe técnico muestra que, en contextos de 1M tokens, la inferencia por token en V4-Pro requiere solo el 27% de FLOPs de V3.2, y la memoria KV solo el 10%; V4-Flash es aún más agresivo, con solo el 10% de FLOPs y 7% de memoria KV. Además, con cuantización FP4, entrenamiento con percepción de cantidad, optimizadores Muon, y kernels mega desarrollados internamente, V4 ha optimizado y comprimido toda la cadena desde entrenamiento hasta inferencia.

El bajo precio es una consecuencia natural de la arquitectura. Un miembro clave de una empresa de grandes modelos en China comentó a Tencent Tech: “El precio de la API de grandes modelos domésticos (incluidos los propios) todavía depende principalmente de la capacidad de costo. Nadie todavía ‘compite sin considerar costos’. Por eso, la ventaja en costos en la base tecnológica es extremadamente importante.”

El CTO de Alibaba Cloud Intelligence, Zhou Jingren, también enfatizó: “Cada reducción de precio es un proceso muy serio, que requiere ponderar el desarrollo de toda la industria, la retroalimentación de desarrolladores y usuarios empresariales, no solo una guerra de precios.”


¿Por qué esta “reducción de precios” es más importante ahora?

Desde la perspectiva de la demanda, en el momento actual, reducir los costos de manera sistémica es aún más urgente. El último informe de Token Economics de Deloitte cita el ejemplo de AT&T: tras introducir un sistema de agentes, el consumo diario de tokens pasó de 8 mil millones a 27 mil millones. Un análisis de Stevens Institute of Technology señala que en sistemas de agentes con múltiples rondas de diálogo, existe la “trampa del crecimiento cuadrático de tokens”: en la décima ronda, el token por llamada puede ser 7 veces mayor que en la primera.

El precio del modelo determina si un agente puede funcionar comercialmente.

La revista CIO, hace tres semanas, citó a Ayesha Khanna, CEO de Addo AI, diciendo: “Si ejecutas un agente continuo conectando con APIs de modelos de vanguardia, con alto consumo de tokens, contextos largos, razonamiento en múltiples pasos y salidas repetidas, la economía se deteriora rápidamente. En algunos casos, el costo de una sola tarea puede ser incluso más caro que hacer que una persona la haga.” Este es el cuello de botella más realista para la comercialización de agentes: la tecnología puede funcionar, pero los costos no.

Al revisar las acciones de V4, casi todas apuntan a ese cuello de botella: hacer que los contextos de millones de tokens sean la capacidad predeterminada, eliminando la prima por contextos largos; reducir el precio de cache hit al mínimo de la industria, aprovechando la repetición en prompts del sistema en escenarios de agentes. El informe técnico también menciona que V4 mantiene toda la reasoning content en llamadas de herramientas (V3.2 lo descartaba en cada nuevo mensaje de usuario), para adaptarse a las múltiples rondas de llamadas en agentes.

¿V4 puede reducir toda la línea de costos del IA agente?

Finalmente, surge una pregunta importante: ¿V4 puede reducir toda la línea de costos en la industria de IA agente? La respuesta es más compleja esta vez.

Primero, si otros fabricantes también reducen precios en sincronía, la curva de costos de toda la industria se desplazará hacia abajo. Pero, como se analizó antes, los precios de los modelos están más determinados por su estructura de costos, y las márgenes de ganancia de los fabricantes no tienen mucho espacio para comprimirse a corto plazo, limitando la posibilidad de seguir bajando precios.

En segundo lugar, la oferta de capacidad computacional de alta gama. Como dice DeepSeek en su informe técnico, la capacidad de servicio de V4-Pro actualmente es limitada. La estabilidad en precios bajos dependerá del despliegue masivo de nodos Ascend 950 en la segunda mitad del año, y del progreso en ingeniería en diferentes plataformas de hardware.

El informe técnico en la sección 3.1 indica que DeepSeek ha validado su esquema de paralelismo experto en plataformas de Nvidia GPU y Huawei Ascend NPU, siendo la primera vez que incluye a Ascend en la lista de hardware verificado, intentando desacoplar la inferencia de dependencia de hardware único. Si esto se valida, tendrá un valor aún mayor para la industria de grandes modelos en China a largo plazo.

Por último, ¿puede la estructura de tokens en escenarios de agentes ser aún más optimizada? Actualmente, los agentes consumen muchos tokens, y una parte significativa de ese gasto proviene de la propia arquitectura del agente. Además del precio, cómo se usan los tokens en los agentes es otra historia. Incluso si V4 reduce el precio al mínimo, un diseño pobre del agente puede hacer que la factura se dispare. Por eso, los sistemas de harness, que están en auge, tienen un significado importante.

DeepSeek V4, en efecto, ha reducido los precios en su sistema de tarifas, haciendo que contextos de millones de tokens sean estándar, y que los costos de salida puedan estar por debajo de un dólar por millón de tokens, todo esto con una base arquitectónica sólida y sin depender de subsidios.

Pero, esta vez, reducir los costos en toda la industria no será tan sencillo, enfrentando un problema sistémico mucho más complejo.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado