Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
CFD
Derivados de CFD de acciones estadounidenses
Acciones EE. UU.
Accede a acciones y ETF estadounidenses reales
Acciones HK
Opera con acciones de calidad cotizadas en Hong Kong
Acciones surcoreanas
SK Hynix
Opera con acciones surcoreanas reales e invierte en activos populares
Futuros de acciones
Alto apalancamiento, trading 24/7
Acciones tokenizadas
Respaldado por acciones reales
IPO Access
Accede al acceso completo a las OPV de acciones globales
GUSD
Acuña GUSD para obtener rendimientos de RWA del Tesoro
Actividades de acciones
Opera con acciones populares y desbloquea grandes airdrops
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
IPO Access
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gate Wealth
Toma el control del futuro financiero
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
USD1 8% TAE
Sin bloqueo, opera y retira.
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
Cuanto más barata sea la IA, más caros serán los chips.
6月30日,Anthropic lanzó Claude Sonnet 5.
Es un modelo de gama media, el "más productivo" de la serie Sonnet. En la prueba de agencia SWE-bench Pro obtuvo 63.2 puntos, solo 6 puntos menos que los 69.2 del buque insignia Opus 4.8. En otra dimensión, en la prueba de razonamiento de nivel de posgrado GPQA-AAA v2, Sonnet 5 superó a Opus 4.8.
El precio es más clave. Durante el período promocional, el costo por millón de tokens de entrada es de 2 dólares, y de salida, 10 dólares. El precio correspondiente de Opus 4.8 es de 5 y 25 dólares: Sonnet 5, con un precio de entre el 40% y el 60%, ofrece más del 90% de la capacidad del buque insignia.
Esta noticia se puede leer de dos maneras.
Primera: la IA se vuelve más barata. La reducción de costos beneficia a todos, la guerra de chatbots continúa y los fabricantes de modelos compiten ferozmente.
Segunda —y también lo que el mercado está valorando— cuanto más baratos son los modelos, más caros son la potencia de cálculo y el almacenamiento.
El día del lanzamiento de Claude Sonnet 5, el índice semiconductor estadounidense subió casi un 4%. En la narrativa de la IA de los últimos tres años hay una línea clara: la eficiencia de inferencia eliminará la demanda de chips. Pero este juicio ha fallado en cada punto de datos.
Reducción de precios: mil veces en tres años
Primero, la línea de reducción de precios.
En 2022, el costo de llamada a la API de nivel GPT-4 era de aproximadamente 0.03 dólares por cada mil tokens. Para 2025, el precio de modelos con rendimiento equivalente —según el estándar del Stanford AI Index Report— se ha reducido aproximadamente 280 veces. Sumando el efecto combinado del código abierto y las mejoras de eficiencia, la reducción reconocida en la industria es de 1000 veces.
No solo un modelo ha bajado de precio, sino que todos lo han hecho.
Esta vez, Sonnet 5 de Anthropic se compara con la densidad de capacidad de Opus 4.8, con un precio de solo el 40% al 60%. La generación de video de Google Gemini Omni Flash cuesta 0.10 dólares por segundo, y el modelo de imagen Nano Banana 2 Lite genera una imagen en 4 segundos, con un costo de solo 0.034 dólares por cada mil imágenes, la mitad que la generación anterior. DeepSeek-V4-Pro ha reducido el costo de un millón de tokens de entrada a 0.035 dólares.
La reducción de precios no solo ocurre en la tabla de tarifas.
El 24 de junio, The Information informó que OpenAI encontró internamente una técnica de optimización puramente de software: los requisitos de GPU para un determinado paso de cálculo se redujeron en más de la mitad, y el grupo de GPUs dedicado pasó de miles a solo cientos. Ese mismo mes, Meta propuso el esquema Vistara: reconectar la memoria DDR4 extraída de servidores retirados a través de su propio chip CXL, combinándola con DDR5 en una proporción de 3:1, reduciendo el costo del servidor de inferencia en un 25%.
Para el 30 de junio, Stepfun lanzó en código abierto la tecnología de decodificación especulativa JetSpec, que puede aumentar la velocidad de inferencia de modelos grandes en casi 10 veces. En términos de conversión, para la misma cantidad de tokens de salida, la cantidad de GPU necesaria puede reducirse drásticamente en un orden de magnitud.
Si la IA fuera una función tradicional de costo-demanda, estas señales apuntarían a una cosa: en el futuro, se necesitarán menos chips.
Wall Street lo temía.
El fin de semana en que DeepSeek lanzó R1 en enero, las acciones de infraestructura de IA sufrieron la mayor venta masiva en los últimos años. La empresa de nube de IA Nebius vio caer su precio de acciones en un 40%. La historia era simple: un modelo chino de código abierto vendía tokens a 0.1 dólares, mientras que las empresas estadounidenses los vendían a 2 dólares, lo que inevitablemente colapsaría la demanda de potencia de cálculo.
Explosión: el gasto total aumentó un 320%
Pero lo que realmente sucedió fue todo lo contrario.
Roman Chernin, cofundador de Nebius, recordó más tarde: la semana en que DeepSeek causó pánico "probablemente fue nuestra mejor semana de ventas". Los departamentos de compras de las empresas, al ver la caída repentina de costos, no reaccionaron recortando presupuestos, sino que finalmente pudieron ejecutar inferencias a gran escala.
En 2024, el gasto total mundial de las empresas en IA generativa fue de aproximadamente 11,5 mil millones de dólares. En 2025, esta cifra se disparó a 37 mil millones de dólares, un aumento del 320% en un año. Según la encuesta empresarial de Menlo Ventures, la empresa mediana en 2025 operaba "decenas" de aplicaciones de IA, mientras que en 2023 esta cifra era de 1 a 2.
Los datos en todas las dimensiones siguen la misma curva:
Uber ya había agotado su presupuesto de IA para todo el año en abril de 2026. AT&T procesa actualmente 27 mil millones de tokens al día, frente a 800 millones hace 18 meses. Una gran compañía de seguros médicos estadounidense pasó de un consumo mensual de 3 millones de tokens a más de 150 millones.
Desglosando, el crecimiento proviene de la superposición de tres direcciones.
En otras palabras, el costo por token se redujo a una milésima parte, y el número de tokens utilizados por el mercado se multiplicó por decenas de miles de veces. El efecto neto de la multiplicación solo tiene una dirección: el gasto explota.
El consumo de tokens se duplica cada dos meses: múltiples líneas independientes convergen en el mismo número. Si dibujamos esta curva exponencial hasta 2027, que el gasto anual de las empresas en IA supere el billón de dólares es un problema aritmético, no una predicción.
Transmisión: el almacenamiento se multiplicó por seis, la infraestructura de chips apunta a 7.6 billones
La demanda estimulada por la reducción de precios no se quedó en la capa de software.
El aumento en el precio de la memoria es la señal más directa de que la demanda de IA se está transmitiendo desde la capa de modelos a la capa de hardware.
Desde el tercer trimestre de 2025, los precios al contado de DRAM y NAND Flash han acumulado aumentos superiores al 300%. Los chips DDR5 alcanzaron un aumento de más del 90% en un solo mes. Al entrar en 2026, los aumentos no solo no se detuvieron, sino que se aceleraron.
En el primer trimestre, el aumento esperado en los precios de los contratos de DRAM se revisó del 55%-60% al 90%-95%; el de NAND, del 33%-38% al 55%-60%. En el segundo trimestre, TrendForce predice que DRAM subirá otro 58%-63% y NAND otro 70%-75%.
Tomando como referencia un producto de consumo: el kit de 32G DDR5 6000 de Acer Predator, a finales de octubre de 2025 costaba alrededor de 1,300 yuanes, y para enero de 2026 ya se había disparado a 2,700 yuanes. Duplicarse en tres meses es extremadamente raro en el mercado de consumo.
El negocio de memoria de Samsung registró una ganancia operativa trimestral récord en el cuarto trimestre de 2025, superando los 20 billones de wones (aproximadamente 96.2 mil millones de yuanes). La fuerza impulsora más fundamental de este aumento de más de un año no provino de la actualización de consumo de teléfonos móviles o PC, sino de las enormes compras de HBM, SSD empresariales y DRAM de alta densidad por parte de los centros de datos de IA.
Un informe de Goldman Sachs en mayo llevó esta cuenta al extremo.
El informe predice que entre 2026 y 2031, el gasto de capital acumulado en infraestructura global de IA será de aproximadamente 7.6 billones de dólares. En 2026 solo, será de 765 mil millones de dólares, y para 2031 aumentará a 1.6 billones. Entre ellos, una sola GPU de referencia (basada en NVIDIA VR200 Rubin) se calcula en 80,500 dólares, y NVIDIA representa el 75% del gasto total en potencia de cálculo en cada período.
Goldman Sachs también planteó una pregunta clave en el informe: si los ASIC (chips especializados) reemplazan ampliamente a las GPU, ¿podría reducirse la demanda total?
La respuesta depende del caso. Si la demanda es inelástica (la demanda de potencia de cálculo de IA de las empresas es fija), la sustitución por ASIC puede reducir directamente el requisito de capital total. Pero si la demanda es elástica (cuanto más barata la potencia de cálculo, más se compra), el cambio en la combinación de chips remodela principalmente la distribución de ganancias entre diferentes proveedores, no el tamaño total del gasto.
El escenario base de Goldman Sachs es el segundo.
Los precios de las acciones estadounidenses también se mueven en la misma dirección. SanDisk ha subido un 857% desde principios de año, y Bernstein elevó su precio objetivo a 3,000 dólares en un informe del 30 de junio. AMD subió un 7% en un día hasta un máximo histórico. Los fabricantes de GPU, de memoria, de empaquetado y de equipos para centros de datos, todos cerca de nuevos máximos.
La cifra más impactante citada en un artículo de revisión de Edgen.tech del 11 de junio es esta: el precio de los chips de memoria se ha multiplicado por seis en el último año.
No se puede etiquetar como "recuperación cíclica". Algo que se ha multiplicado por seis indica que la demanda de todo el sistema económico está revalorizando la infraestructura física de la IA.
Raíz: Jevons ya lo respondió en 1865
William Stanley Jevons escribió un libro en 1865 llamado "La cuestión del carbón".
Su observación central fue: después de que Watt mejorara la máquina de vapor, el consumo de carbón por unidad se redujo drásticamente, pero el consumo total de carbón en el Reino Unido no disminuyó, sino que aumentó. Porque la mejora de la eficiencia hizo que la energía de vapor fuera asequible en más industrias: textil, ferrocarril, minería, navegación... cada nuevo escenario creó una demanda de carbón que antes no existía.
160 años después, la misma fórmula se repite en la potencia de cálculo de IA.
Las empresas hicieron cuentas. Con los precios de los tokens de 2022, las conversaciones de atención al cliente en tiempo real mediante inferencia no eran económicamente viables. Los escenarios no urgentes no merecían ejecutar IA. La generación de contenido personalizado solo podía hacerse a nivel de segmento, no a nivel de usuario. Para 2025, con los precios reducidos 1000 veces, todas estas "demandas que antes no existían" se han convertido en necesidades básicas.
Chernin de Nebius dio el resumen más directo: "Cada vez que hacemos que la misma unidad de inteligencia sea más barata, no estamos reduciendo el consumo, sino aumentándolo, porque con el mismo presupuesto se pueden resolver tareas más complejas."
El mercado ignoró otra fuerza estructural: la retroalimentación positiva del margen bruto.
La curva del margen bruto de la inferencia de IA no tiene equivalente histórico. Una empresa que proporciona API puede tener un margen bruto inicial de solo el 10% (el entrenamiento del modelo es caro, la inferencia es cara). Pero las optimizaciones de software (fusión de operadores, cuantización, decodificación especulativa) reducen el costo de inferencia cada mes, mientras que el ajuste de precios siempre va rezagado. Por lo tanto, el margen bruto sube del 10% al 90% mucho más rápido que en cualquier industria tradicional.
El margen bruto impulsa las ganancias, las ganancias impulsan las compras, las compras distribuyen los costos: un ciclo de retroalimentación positiva sin techo.
"Si tienes DRAM, puedes vender tokens; si no tienes DRAM, no puedes vender tokens." Esta frase se está convirtiendo en la ecuación básica de la demanda de chips de IA.
Dos supuestos de sensibilidad en el informe de Goldman Sachs también refuerzan el mismo juicio. Si la vida económica de los chips se reduce de 5 a 3 años, el ciclo de reemplazo se acelera y la demanda de capital acumulada aumenta directamente. Si la relación de memoria por chip es un 25% superior a lo esperado, principalmente cambia la distribución del gasto dentro de la pila de chips, pero el impacto neto en el total de 7.6 billones es limitado, aunque la dirección es la misma: el dinero no se gastará menos.
Final: ¿Quién tiene la potencia de cálculo?
La eliminación del control de exportación de Fable 5 (prohibido el 12 de junio, levantado el 30 de junio, tres semanas en total) fue un comentario inesperado de esta paradoja.
La razón del control era "riesgo para la seguridad nacional". Levantar el control no tiene nada que ver con que el riesgo haya desaparecido: apareció un sustituto. Equipos asiáticos como Tulongfeng lanzaron modelos cercanos al nivel Mythos durante el período de control, y el poder de disuasión del bloqueo se desvaneció rápidamente. La eliminación fue una realidad, no tiene nada que ver con la buena voluntad.
Este episodio encaja perfectamente en la línea principal de la paradoja de la reducción de costos de la IA: los modelos son sustituibles. Desde GPT hasta Claude, DeepSeek y modelos de código abierto, nadie puede monopolizar la capacidad de la IA en sí misma: si alguien pone barreras, otros encuentran caminos alternativos.
El hardware no funciona con esta lógica.
Las GPU no. Las DRAM no. El ciclo de construcción de una fábrica de obleas se mide en años. La capacidad de producción de las máquinas de litografía es fija. La elasticidad de la oferta de silicio de alta pureza es casi nula. Todas estas son leyes físicas, no estrategias comerciales. La optimización del software puede reducir el costo de los modelos mil veces, pero no puede acortar ni un día el ciclo de construcción de una fábrica de obleas.
El final de la reducción de precios de los modelos de IA, si esta paradoja continúa, no apunta a la eliminación de la potencia de cálculo, sino a la re concentración del poder de fijación de precios de la potencia de cálculo. No importa qué modelo uses, los tokens deben ejecutarse en algún chip. Cada centavo que los fabricantes de modelos reducen en precios termina convirtiéndose en ingresos en los libros de centros de datos, fábricas de obleas y líneas de producción de almacenamiento. Cuanto más agresiva es la reducción de costos, más irreversible es esta transferencia.
Aviso de riesgo y cláusula de exención de responsabilidad