Es un modelo de gama media, el "más productivo" de la serie Sonnet. En la prueba de agencia SWE-bench Pro obtuvo 63.2 puntos, solo 6 puntos menos que los 69.2 del buque insignia Opus 4.8. En otra dimensión, en la prueba de razonamiento de nivel de posgrado GPQA-AAA v2, Sonnet 5 superó a Opus 4.8.

El precio es más clave. Durante el período promocional, el costo por millón de tokens de entrada es de 2 dólares, y de salida, 10 dólares. El precio correspondiente de Opus 4.8 es de 5 y 25 dólares: Sonnet 5, con un precio de entre el 40% y el 60%, ofrece más del 90% de la capacidad del buque insignia.

Esta noticia se puede leer de dos maneras.

Primera: la IA se vuelve más barata. La reducción de costos beneficia a todos, la guerra de chatbots continúa y los fabricantes de modelos compiten ferozmente.

Segunda —y también lo que el mercado está valorando— cuanto más baratos son los modelos, más caros son la potencia de cálculo y el almacenamiento.

El día del lanzamiento de Claude Sonnet 5, el índice semiconductor estadounidense subió casi un 4%. En la narrativa de la IA de los últimos tres años hay una línea clara: la eficiencia de inferencia eliminará la demanda de chips. Pero este juicio ha fallado en cada punto de datos.

Reducción de precios: mil veces en tres años

Primero, la línea de reducción de precios.

En 2022, el costo de llamada a la API de nivel GPT-4 era de aproximadamente 0.03 dólares por cada mil tokens. Para 2025, el precio de modelos con rendimiento equivalente —según el estándar del Stanford AI Index Report— se ha reducido aproximadamente 280 veces. Sumando el efecto combinado del código abierto y las mejoras de eficiencia, la reducción reconocida en la industria es de 1000 veces.

No solo un modelo ha bajado de precio, sino que todos lo han hecho.

Esta vez, Sonnet 5 de Anthropic se compara con la densidad de capacidad de Opus 4.8, con un precio de solo el 40% al 60%. La generación de video de Google Gemini Omni Flash cuesta 0.10 dólares por segundo, y el modelo de imagen Nano Banana 2 Lite genera una imagen en 4 segundos, con un costo de solo 0.034 dólares por cada mil imágenes, la mitad que la generación anterior. DeepSeek-V4-Pro ha reducido el costo de un millón de tokens de entrada a 0.035 dólares.

La reducción de precios no solo ocurre en la tabla de tarifas.

El 24 de junio, The Information informó que OpenAI encontró internamente una técnica de optimización puramente de software: los requisitos de GPU para un determinado paso de cálculo se redujeron en más de la mitad, y el grupo de GPUs dedicado pasó de miles a solo cientos. Ese mismo mes, Meta propuso el esquema Vistara: reconectar la memoria DDR4 extraída de servidores retirados a través de su propio chip CXL, combinándola con DDR5 en una proporción de 3:1, reduciendo el costo del servidor de inferencia en un 25%.

Para el 30 de junio, Stepfun lanzó en código abierto la tecnología de decodificación especulativa JetSpec, que puede aumentar la velocidad de inferencia de modelos grandes en casi 10 veces. En términos de conversión, para la misma cantidad de tokens de salida, la cantidad de GPU necesaria puede reducirse drásticamente en un orden de magnitud.

Si la IA fuera una función tradicional de costo-demanda, estas señales apuntarían a una cosa: en el futuro, se necesitarán menos chips.

Wall Street lo temía.

El fin de semana en que DeepSeek lanzó R1 en enero, las acciones de infraestructura de IA sufrieron la mayor venta masiva en los últimos años. La empresa de nube de IA Nebius vio caer su precio de acciones en un 40%. La historia era simple: un modelo chino de código abierto vendía tokens a 0.1 dólares, mientras que las empresas estadounidenses los vendían a 2 dólares, lo que inevitablemente colapsaría la demanda de potencia de cálculo.

Explosión: el gasto total aumentó un 320%

Pero lo que realmente sucedió fue todo lo contrario.

Roman Chernin, cofundador de Nebius, recordó más tarde: la semana en que DeepSeek causó pánico "probablemente fue nuestra mejor semana de ventas". Los departamentos de compras de las empresas, al ver la caída repentina de costos, no reaccionaron recortando presupuestos, sino que finalmente pudieron ejecutar inferencias a gran escala.

En 2024, el gasto total mundial de las empresas en IA generativa fue de aproximadamente 11,5 mil millones de dólares. En 2025, esta cifra se disparó a 37 mil millones de dólares, un aumento del 320% en un año. Según la encuesta empresarial de Menlo Ventures, la empresa mediana en 2025 operaba "decenas" de aplicaciones de IA, mientras que en 2023 esta cifra era de 1 a 2.

Los datos en todas las dimensiones siguen la misma curva:

Uber ya había agotado su presupuesto de IA para todo el año en abril de 2026. AT&T procesa actualmente 27 mil millones de tokens al día, frente a 800 millones hace 18 meses. Una gran compañía de seguros médicos estadounidense pasó de un consumo mensual de 3 millones de tokens a más de 150 millones.

Desglosando, el crecimiento proviene de la superposición de tres direcciones.

Primero, la difusión de aplicaciones. El departamento de marketing de cada empresa utiliza 3 herramientas de IA, el de ventas 4, el de servicio al cliente 2, más los departamentos legal, de recursos humanos, financiero, etc. Pasar de 2 a docenas es un salto de orden de magnitud.

Segundo, la profundidad de una sola aplicación. Tomemos como ejemplo la IA de atención al cliente: en 2023, había aproximadamente 500 interacciones diarias, cada una de unos 800 tokens, y la conversación terminaba después. Para 2025, hay 15,000 interacciones diarias, cada una de unos 4,500 tokens, y cada interacción desencadena de 3 a 5 inferencias posteriores (análisis de sentimiento, predicción de escalamiento, calificación de calidad), todo superpuesto en la misma entrada.

Tercero, la complejidad del modelo en sí. Pasar de un modelo de una sola ronda con 7B parámetros a un agente de razonamiento de múltiples pasos con más de 70B, donde cada ronda de inferencia interna consume decenas o cientos de veces más tokens que una interacción lineal.

En otras palabras, el costo por token se redujo a una milésima parte, y el número de tokens utilizados por el mercado se multiplicó por decenas de miles de veces. El efecto neto de la multiplicación solo tiene una dirección: el gasto explota.

El consumo de tokens se duplica cada dos meses: múltiples líneas independientes convergen en el mismo número. Si dibujamos esta curva exponencial hasta 2027, que el gasto anual de las empresas en IA supere el billón de dólares es un problema aritmético, no una predicción.

Transmisión: el almacenamiento se multiplicó por seis, la infraestructura de chips apunta a 7.6 billones

La demanda estimulada por la reducción de precios no se quedó en la capa de software.

El aumento en el precio de la memoria es la señal más directa de que la demanda de IA se está transmitiendo desde la capa de modelos a la capa de hardware.

Desde el tercer trimestre de 2025, los precios al contado de DRAM y NAND Flash han acumulado aumentos superiores al 300%. Los chips DDR5 alcanzaron un aumento de más del 90% en un solo mes. Al entrar en 2026, los aumentos no solo no se detuvieron, sino que se aceleraron.

En el primer trimestre, el aumento esperado en los precios de los contratos de DRAM se revisó del 55%-60% al 90%-95%; el de NAND, del 33%-38% al 55%-60%. En el segundo trimestre, TrendForce predice que DRAM subirá otro 58%-63% y NAND otro 70%-75%.

Tomando como referencia un producto de consumo: el kit de 32G DDR5 6000 de Acer Predator, a finales de octubre de 2025 costaba alrededor de 1,300 yuanes, y para enero de 2026 ya se había disparado a 2,700 yuanes. Duplicarse en tres meses es extremadamente raro en el mercado de consumo.

El negocio de memoria de Samsung registró una ganancia operativa trimestral récord en el cuarto trimestre de 2025, superando los 20 billones de wones (aproximadamente 96.2 mil millones de yuanes). La fuerza impulsora más fundamental de este aumento de más de un año no provino de la actualización de consumo de teléfonos móviles o PC, sino de las enormes compras de HBM, SSD empresariales y DRAM de alta densidad por parte de los centros de datos de IA.

Un informe de Goldman Sachs en mayo llevó esta cuenta al extremo.

El informe predice que entre 2026 y 2031, el gasto de capital acumulado en infraestructura global de IA será de aproximadamente 7.6 billones de dólares. En 2026 solo, será de 765 mil millones de dólares, y para 2031 aumentará a 1.6 billones. Entre ellos, una sola GPU de referencia (basada en NVIDIA VR200 Rubin) se calcula en 80,500 dólares, y NVIDIA representa el 75% del gasto total en potencia de cálculo en cada período.

Goldman Sachs también planteó una pregunta clave en el informe: si los ASIC (chips especializados) reemplazan ampliamente a las GPU, ¿podría reducirse la demanda total?

La respuesta depende del caso. Si la demanda es inelástica (la demanda de potencia de cálculo de IA de las empresas es fija), la sustitución por ASIC puede reducir directamente el requisito de capital total. Pero si la demanda es elástica (cuanto más barata la potencia de cálculo, más se compra), el cambio en la combinación de chips remodela principalmente la distribución de ganancias entre diferentes proveedores, no el tamaño total del gasto.

El escenario base de Goldman Sachs es el segundo.

Los precios de las acciones estadounidenses también se mueven en la misma dirección. SanDisk ha subido un 857% desde principios de año, y Bernstein elevó su precio objetivo a 3,000 dólares en un informe del 30 de junio. AMD subió un 7% en un día hasta un máximo histórico. Los fabricantes de GPU, de memoria, de empaquetado y de equipos para centros de datos, todos cerca de nuevos máximos.

La cifra más impactante citada en un artículo de revisión de Edgen.tech del 11 de junio es esta: el precio de los chips de memoria se ha multiplicado por seis en el último año.

No se puede etiquetar como "recuperación cíclica". Algo que se ha multiplicado por seis indica que la demanda de todo el sistema económico está revalorizando la infraestructura física de la IA.

Raíz: Jevons ya lo respondió en 1865

William Stanley Jevons escribió un libro en 1865 llamado "La cuestión del carbón".

Su observación central fue: después de que Watt mejorara la máquina de vapor, el consumo de carbón por unidad se redujo drásticamente, pero el consumo total de carbón en el Reino Unido no disminuyó, sino que aumentó. Porque la mejora de la eficiencia hizo que la energía de vapor fuera asequible en más industrias: textil, ferrocarril, minería, navegación... cada nuevo escenario creó una demanda de carbón que antes no existía.

160 años después, la misma fórmula se repite en la potencia de cálculo de IA.

Las empresas hicieron cuentas. Con los precios de los tokens de 2022, las conversaciones de atención al cliente en tiempo real mediante inferencia no eran económicamente viables. Los escenarios no urgentes no merecían ejecutar IA. La generación de contenido personalizado solo podía hacerse a nivel de segmento, no a nivel de usuario. Para 2025, con los precios reducidos 1000 veces, todas estas "demandas que antes no existían" se han convertido en necesidades básicas.

Chernin de Nebius dio el resumen más directo: "Cada vez que hacemos que la misma unidad de inteligencia sea más barata, no estamos reduciendo el consumo, sino aumentándolo, porque con el mismo presupuesto se pueden resolver tareas más complejas."

El mercado ignoró otra fuerza estructural: la retroalimentación positiva del margen bruto.

La curva del margen bruto de la inferencia de IA no tiene equivalente histórico. Una empresa que proporciona API puede tener un margen bruto inicial de solo el 10% (el entrenamiento del modelo es caro, la inferencia es cara). Pero las optimizaciones de software (fusión de operadores, cuantización, decodificación especulativa) reducen el costo de inferencia cada mes, mientras que el ajuste de precios siempre va rezagado. Por lo tanto, el margen bruto sube del 10% al 90% mucho más rápido que en cualquier industria tradicional.

El margen bruto impulsa las ganancias, las ganancias impulsan las compras, las compras distribuyen los costos: un ciclo de retroalimentación positiva sin techo.

"Si tienes DRAM, puedes vender tokens; si no tienes DRAM, no puedes vender tokens." Esta frase se está convirtiendo en la ecuación básica de la demanda de chips de IA.

Dos supuestos de sensibilidad en el informe de Goldman Sachs también refuerzan el mismo juicio. Si la vida económica de los chips se reduce de 5 a 3 años, el ciclo de reemplazo se acelera y la demanda de capital acumulada aumenta directamente. Si la relación de memoria por chip es un 25% superior a lo esperado, principalmente cambia la distribución del gasto dentro de la pila de chips, pero el impacto neto en el total de 7.6 billones es limitado, aunque la dirección es la misma: el dinero no se gastará menos.

Final: ¿Quién tiene la potencia de cálculo?

La eliminación del control de exportación de Fable 5 (prohibido el 12 de junio, levantado el 30 de junio, tres semanas en total) fue un comentario inesperado de esta paradoja.

La razón del control era "riesgo para la seguridad nacional". Levantar el control no tiene nada que ver con que el riesgo haya desaparecido: apareció un sustituto. Equipos asiáticos como Tulongfeng lanzaron modelos cercanos al nivel Mythos durante el período de control, y el poder de disuasión del bloqueo se desvaneció rápidamente. La eliminación fue una realidad, no tiene nada que ver con la buena voluntad.

Este episodio encaja perfectamente en la línea principal de la paradoja de la reducción de costos de la IA: los modelos son sustituibles. Desde GPT hasta Claude, DeepSeek y modelos de código abierto, nadie puede monopolizar la capacidad de la IA en sí misma: si alguien pone barreras, otros encuentran caminos alternativos.

El hardware no funciona con esta lógica.

Las GPU no. Las DRAM no. El ciclo de construcción de una fábrica de obleas se mide en años. La capacidad de producción de las máquinas de litografía es fija. La elasticidad de la oferta de silicio de alta pureza es casi nula. Todas estas son leyes físicas, no estrategias comerciales. La optimización del software puede reducir el costo de los modelos mil veces, pero no puede acortar ni un día el ciclo de construcción de una fábrica de obleas.

El final de la reducción de precios de los modelos de IA, si esta paradoja continúa, no apunta a la eliminación de la potencia de cálculo, sino a la re concentración del poder de fijación de precios de la potencia de cálculo. No importa qué modelo uses, los tokens deben ejecutarse en algún chip. Cada centavo que los fabricantes de modelos reducen en precios termina convirtiéndose en ingresos en los libros de centros de datos, fábricas de obleas y líneas de producción de almacenamiento. Cuanto más agresiva es la reducción de costos, más irreversible es esta transferencia.

Aviso de riesgo y cláusula de exención de responsabilidad

        El mercado tiene riesgos, invertir requiere precaución. Este artículo no constituye un consejo de inversión personal, ni considera los objetivos de inversión, situación financiera o necesidades especiales de usuarios individuales. Los usuarios deben considerar si las opiniones, puntos de vista o conclusiones de este artículo se ajustan a su situación particular. Cualquier inversión basada en esto es bajo su propio riesgo.

DRAM2,31%

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateCompletesDividendDistribution
132,91K Popularidad
#
StrategyBuybackSurges12%
1,11M Popularidad
#
IsraelStrikesIranBTCPlunges
67,27K Popularidad
#
PredictWorldCupShare20000U
562,61K Popularidad
#
TrumpDisclosesOver100MBTCETH
3,83M Popularidad

Fijado

Cuanto más barata sea la IA, más caros serán los chips.

Reducción de precios: mil veces en tres años

Explosión: el gasto total aumentó un 320%

Transmisión: el almacenamiento se multiplicó por seis, la infraestructura de chips apunta a 7.6 billones

Raíz: Jevons ya lo respondió en 1865

Final: ¿Quién tiene la potencia de cálculo?

Temas de actualidad

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Fijado