¿Ha llegado realmente la era del razonamiento con IA? La reconstrucción del poder de cálculo con GPU, CPU y ASIC en una tríada

Question

22 de junio de 2026, las acciones del sector de chips en Wall Street subieron en todas sus categorías: el índice Philadelphia Semiconductor subió un 6.42% en un solo día, Intel aumentó más del 10% tras la noticia de su colaboración con Apple para producir chips, ADR de TSMC subió un 6.94% cerrando en 462.12 dólares, y Nvidia subió cerca de un 3%. Detrás del ánimo del mercado, hay una evaluación industrial que se está acelerando en su realización: la demanda de potencia de cálculo en IA ha cambiado de estar impulsada por entrenamiento a estar impulsada por inferencia.

Según análisis del sector, la inferencia representa aproximadamente un tercio de la demanda total de potencia de cálculo en IA en 2023 y se espera que en 2026 represente dos tercios, alcanzando entre el 70% y el 85% en 2028 a 2030. Este cambio estructural está redefiniendo el principal campo de competencia en chips — de “quién entrena más rápido su GPU” a “quién tiene el menor costo total de inferencia y mayor rendimiento”.

El mercado global de chips de inferencia en IA en 2024 valdrá 85.4 mil millones de dólares, y se espera que crezca de 105.47 mil millones en 2025 a 570.77 mil millones en 2033, con una tasa de crecimiento anual compuesta del 23.5% durante el período de pronóstico. Entre tanto, el mercado de chips de inferencia en IA en la nube en 2025 se valoraba en 102.19 mil millones de dólares, y se estima que en 2026 crecerá a 118.9 mil millones, alcanzando los 320.98 mil millones en 2032. Paralelamente, se proyecta que el mercado global de conjuntos de chips de IA en el edge (tanto inferencia como entrenamiento) pase de 34.4 mil millones en 2026 a 96 mil millones en 2031.

En este ciclo de expansión, la dinámica de poder entre diferentes tipos de chips está experimentando cambios sutiles pero profundos. Los GPU siguen siendo los mayores en participación de mercado, y bajo la doble demanda de entrenamiento e inferencia, se prevé que mantendrán una tasa de crecimiento anual compuesta del 20% hasta 2031. Sin embargo, los ASIC de IA son considerados por varias instituciones como el segmento de mayor crecimiento. Analistas de JP Morgan estiman que el mercado de ASICs de IA digital alcanzará entre 60 y 70 mil millones de dólares para 2026, manteniendo una tasa de crecimiento compuesta superior al 40-50% en los próximos años.

Más aún, la vuelta de los CPU merece atención. En los últimos tres años, los CPU han estado en un papel marginal en la narrativa de IA, pero la explosión en demanda de inferencia está cambiando esa situación.

¿Por qué los CPU vuelven a la escena principal?

La inferencia y el entrenamiento en IA tienen diferencias fundamentales en lógica computacional. El entrenamiento es un proceso de operaciones matriciales en paralelo a gran escala — decenas de billones de cálculos en punto flotante pueden realizarse simultáneamente en decenas de miles de núcleos GPU, siendo esta la ventaja absoluta de las GPU. Pero la inferencia, especialmente en IA agentica, involucra orquestación de tareas, llamadas a herramientas, lógica de múltiples pasos y decisiones secuenciales. Estas cargas de trabajo no son simplemente cálculos paralelos, sino que dependen en gran medida de la lógica compleja y la capacidad de procesamiento en serie en la que los CPU son expertos.

Un estudio de Georgia Tech y Intel señala que en escenarios de IA agentica, entre el 50% y el 90% de la latencia proviene del CPU, no del chip de potencia — porque los modelos grandes necesitan llamar plugins, realizar búsquedas en línea y gestionar lógica de múltiples pasos, todo ello coordinado por el CPU. Nvidia también admitió en marzo de 2026 esta realidad: su ejecutivo Dion Harris declaró públicamente que “el CPU se está convirtiendo en el cuello de botella en los flujos de trabajo de IA”, una declaración sorprendente de una compañía que tradicionalmente ha sostenido que “la GPU es el único chip necesario para IA”.

La tendencia puede visualizarse mejor en la proporción de configuración. En la fase de entrenamiento, la relación entre CPU y GPU suele ser de 1:8, con la GPU soportando la mayor parte de la carga computacional. Pero en la era de inferencia, según un informe de TrendForce, esa proporción se acerca rápidamente a entre 1:1 y 1:2. El CEO de Intel, Pat Gelsinger, en la conferencia de resultados del primer trimestre de 2026, también señaló que la carga de entrenamiento generalmente requiere de 7 a 8 GPU por CPU, mientras que la inferencia se ha ajustado a 3 o 4 GPU por CPU, con una tendencia a acercarse a una relación 1:1 en el futuro.

Tomando como referencia la estimación del CEO de Nvidia, Jensen Huang: cada GW en centros de datos requiere aproximadamente 300,000 GPUs Rubin, y considerando que cada CPU ARM tiene 136 núcleos, se necesitan aproximadamente 221,000 CPUs por GW, con una relación CPU-GPU de aproximadamente 1:1.4. Comparado con la época en que las GPU dominaban, la posición del CPU ha aumentado significativamente.

La brecha protectora de las GPU y los desafíos en escenarios de inferencia

Aunque los CPU están recuperando terreno, las GPU siguen siendo insustituibles en la inferencia en IA, principalmente por su ancho de banda de memoria y su capacidad de procesamiento paralelo.

En la inferencia de modelos de lenguaje grande (LLM), generar cada token requiere leer cientos de millones a miles de millones de parámetros, una tarea típicamente intensiva en memoria. La solución basada en CPU depende de la memoria DDR del sistema, con un ancho de banda de unos 50 a 100 GB/s; en cambio, las GPU usan memoria GDDR6X o HBM, con anchos de banda que superan los 800 GB/s, y las GPU de gama alta con HBM2e alcanzan hasta 1.5 TB/s, 20 veces más que las CPU. En la inferencia del modelo Llama 3.1 8B, la velocidad en CPU es de solo 819 tokens por segundo, mientras que en un clúster de 8 GPU alcanza los 46,841 tokens por segundo. Cuando aumenta la concurrencia, el rendimiento de CPU cae abruptamente a 257 tokens por segundo, mientras que el clúster de 8 GPU apenas muestra pérdida.

En términos de densidad de potencia, las GPU logran paralelizar con miles de núcleos CUDA, soportando formatos de baja precisión como FP4/FP8, con potencia de cálculo de cientos de TFLOPS, mientras que los CPU suelen tener entre 1 y 10 TFLOPS en FP32.

Estos datos muestran que en escenarios de inferencia que requieren alta capacidad de procesamiento y alta concurrencia — como servicios en la nube para grandes volúmenes de usuarios — las GPU siguen siendo la mejor opción. Nvidia mantiene su liderazgo en este campo, con una participación del 92% en el mercado de chips de entrenamiento y del 78% en inferencia en el primer trimestre de 2026, controlando aproximadamente el 81% del mercado de chips de IA según IDC. El mercado de aceleradores de IA en 2025 valía unos 160 mil millones de dólares y en 2026 se acerca a los 200 mil millones, con las inferencias representando aproximadamente dos tercios de ese gasto.

Pero hay que tener en cuenta que la cuota de mercado de GPU en inferencia enfrenta múltiples presiones: la vuelta de los CPU, la competencia de ASICs especializados y consideraciones de estructura de costos.

La contraofensiva de los fabricantes de CPU en inferencia

La reevaluación del valor de los CPU en inferencia ya se traduce en un impulso de mercado cuantificable.

El mercado de procesadores para centros de datos crece rápidamente impulsado por la demanda de cargas de trabajo generativas de IA, y se estima que su tamaño pase de 215 mil millones en 2025 a 656 mil millones en 2031. Según Guohai Securities, los centros de datos a gran escala están en un “ciclo de actualización”, y se espera que en 2026 las entregas de CPU para servidores crezcan un 25%.

AMD se beneficia claramente de esta tendencia. La demanda de servidores con IA ha impulsado las entregas de CPU EPYC, y la quinta generación de Turin ya ocupa una porción significativa del mercado de CPU para servidores, con un crecimiento estimado del 50% en 2026. Analistas de Bernstein predicen que las ventas de los procesadores EPYC de AMD podrían subir un 30% en 2026. En el mercado de CPU para centros de datos, a principios de 2026, Intel mantiene aproximadamente el 60% de participación, AMD alrededor del 24%, y Nvidia cerca del 6%. AMD también compite en el mercado de aceleradores de IA con su línea Instinct, posicionándose de manera única en la estrategia dual de inferencia y entrenamiento.

Intel también ajusta su estrategia activamente. En Computex de junio de 2026, su nuevo CEO, Pat Gelsinger, anunció con la tecnología 18A y una arquitectura desacoplada a nivel de rack que la era de la inferencia vuelve a poner a los CPU en el centro, pasando de “comprar todo en un paquete” a “armar con bloques”. La tecnología avanzada de matriz (AMX) integrada en los Xeon puede acelerar la inferencia de modelos de gran tamaño sin necesidad de GPU u otros aceleradores de IA.

El cambio más simbólico, sin embargo, proviene de Nvidia misma. La compañía que definió la era de la IA con GPU, en 2026 lanzó las líneas de CPU Grace y Vera, siendo esta última diseñada específicamente para cargas de trabajo de inferencia y IA agentica. Nvidia prevé que sus ingresos por CPU en 2026 alcancen los 20 mil millones de dólares. Además, en 2026, Nvidia y Arm lanzaron productos CPU independientes, marcando su entrada formal en la competencia de CPU.

El auge de ASICs y chips especializados: una tercera vía

Más allá de la narrativa binaria GPU-CPU, los ASIC (Circuitos Integrados de Uso Específico) están emergiendo como la variable de mayor crecimiento en el mercado de inferencia.

TD Cowen estima que la participación de aceleradores comerciales pasará del 91% en 2025 al 75% en 2030, mientras que los ASICs personalizados subirán del 9% al 25%. La entrega de servidores con ASICs se espera que crezca un 44.6% en 2026, en comparación con un 16.1% en GPU, solo un tercio del crecimiento de los ASIC.

Los grandes proveedores de nube están acelerando su desarrollo propio de chips de inferencia. Chips ASIC especializados como TPU de Google, Inferentia de AWS, MTIA de Meta y LPU de Groq están surgiendo rápidamente. Broadcom reportó en el segundo trimestre de 2026 unos ingresos de 10.8 mil millones de dólares en IA, un 143% más que el año anterior, y proyecta unos ingresos anuales de 56 mil millones, con una participación del 60% en el mercado de chips de IA a medida.

Este escenario implica que el mercado de chips de inferencia evoluciona de “dominancia de GPU generalistas” a un esquema multilateral de “GPU + CPU + ASIC”. Las GPU se encargan del entrenamiento intensivo y la inferencia a gran escala, los CPU gestionan la orquestación y control del sistema, y los ASIC logran eficiencia energética extrema en cargas específicas de inferencia.

La reconfiguración de costos y la economía de la inferencia

La elección de chips en la inferencia finalmente vuelve a una cuestión central: ¿cuánto cuesta cada millón de tokens inferidos?

En entrenamiento, la precisión del modelo y el tiempo de entrenamiento son las métricas principales, y el costo tolerado es alto. Pero en inferencia, que es una actividad continua y de alta frecuencia — cada llamada API, cada solicitud de usuario genera un costo directo — la competencia en chips se centra en la “eficiencia en costo por unidad de rendimiento”.

Los chips GPU son más caros en adquisición. Por ejemplo, un AMD MI300X cuesta entre 10,000 y 15,000 dólares, mientras que un Nvidia H100 puede costar entre 25,000 y 40,000 dólares. Pero el costo por unidad de potencia de cálculo es menor en GPU: en un ejemplo de nube, el costo por token generado por GPU en tiempo real es un 40-60% menor que en CPU. La ventaja del CPU radica en que no requiere inversión adicional en hardware, siendo más adecuado para tareas de baja concurrencia y baja latencia.

Sin embargo, a medida que la escala de inferencia crece, los costos marginales del CPU aumentan más rápidamente: con más solicitudes concurrentes, el CPU debe gestionar tareas mediante planificación por turnos, y los cambios de contexto aumentan exponencialmente con la concurrencia. Esto significa que en despliegues a gran escala, la inversión inicial en GPU o ASIC puede ser recuperada a largo plazo mediante mayor rendimiento y menor costo unitario.

Conclusión

El aumento del peso de la inferencia en la demanda de potencia de cálculo, del 33% al 66%, refleja un cambio profundo en la lógica competitiva de la industria de chips.

Para Nvidia, su ventaja absoluta en entrenamiento (cerca del 90%) será difícil de igualar a corto plazo, pero la competencia en inferencia será más intensa. New Street Research predice que la cuota de mercado de Nvidia en inferencia podría caer a entre el 20% y el 30% para 2028. Incluso con predicciones conservadoras como la de Bloomberg Intelligence, que mantiene a Nvidia con un 70-75% en 2030, la realidad de que las entregas de ASIC superan ampliamente a las de GPU en crecimiento ya está establecida.

Para AMD e Intel, la recuperación de la demanda de CPU en inferencia representa una oportunidad estructural. AMD, con su estrategia dual de CPU EPYC y GPU Instinct, y Intel, con su proceso 18A y la evolución continua de sus Xeon, intentan aprovechar esta ventana.

Para los proveedores de nube y desarrolladores de aplicaciones de IA, la diversificación en opciones de chips significa más espacio para optimizar costos. Desde GPU generalistas hasta ASICs personalizados, pasando por inferencia en CPU y aceleración en GPU, la elección de hardware dependerá cada vez más de las características específicas de la carga de trabajo — tamaño del modelo, requisitos de latencia, volumen de concurrencia y presupuesto.

La demanda de potencia para inferencia crece a un ritmo superior al entrenamiento. Este desplazamiento del centro de gravedad en la capacidad de cálculo, de entrenamiento a inferencia, está transformando toda la cadena de valor, desde el diseño de chips hasta la arquitectura de centros de datos. Las GPU no perderán su posición, pero ya no serán la única respuesta.

Ver original

¿Ha llegado realmente la era del razonamiento con IA? La reconstrucción del poder de cálculo con GPU, CPU y ASIC en una tríada

¿Por qué los CPU vuelven a la escena principal?

La brecha protectora de las GPU y los desafíos en escenarios de inferencia

La contraofensiva de los fabricantes de CPU en inferencia

El auge de ASICs y chips especializados: una tercera vía

La reconfiguración de costos y la economía de la inferencia

Conclusión

Temas de actualidad

MyGateTradeStory

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

GateProofOfReservesReport

Fijado