Acabo de captar algo que ha estado remodelando silenciosamente todo el juego de infraestructura de IA, y honestamente es increíble cuántas pocas personas están hablando de ello.



Durante años todos hemos estado obsesionados con la escasez de GPU—ahí es donde ocurre el cómputo, ¿verdad? Pero aquí está la cosa: hemos estado viendo el problema de manera equivocada. La verdadera restricción ya no es la inferencia. Es la CPU. Y hablo en serio—cuando necesitas orquestar flujos de trabajo complejos de agentes, manejar llamadas API, administrar bases de datos y lidiar con ventanas de contexto enormes que no caben en la memoria de la GPU, de repente tu procesador se convierte en el cuello de botella mientras tu costosa GPU simplemente espera allí.

Déjame desglosar lo que realmente está sucediendo en el mercado. La CEO de AMD, Lisa Su, básicamente confirmó que este cambio es real. Sus ingresos en centros de datos alcanzaron los 5.400 millones de dólares el último trimestre con un aumento del 39% interanual. Los procesadores EPYC de quinta generación por sí solos representan más de la mitad de sus ingresos por CPU de servidores, y estamos viendo más del 50% de crecimiento en instancias en la nube que usan EPYC. Por primera vez, AMD está alcanzando más del 40% de participación en el mercado de CPU de servidores. Eso no es casualidad—eso es porque de repente todos se dieron cuenta de que necesitan una potencia de CPU seria para ejecutar agentes de IA a escala.

Mientras tanto, Intel ha estado luchando, pero jugando inteligentemente. Acaban de firmar un acuerdo plurianual con Google específicamente para desplegar procesadores Xeon en centros de datos de IA. ¿La propuesta? Los CPUs y aceleradores especializados ahora son los verdaderos impulsores del rendimiento, no solo actores de apoyo. Elon Musk incluso encargó chips personalizados a Intel para su proyecto Terafab—eso es una señal enorme sobre hacia dónde se dirige la infraestructura.

Aquí está por qué esto importa: las cargas de trabajo de agentes son fundamentalmente diferentes de los chatbots. Con agentes, no solo generas tokens—estás haciendo razonamiento en múltiples pasos, orquestando APIs, gestionando estado, leyendo y escribiendo en bases de datos. Un artículo de Georgia Tech del año pasado mostró que la gestión de herramientas en CPU puede representar del 50% al 90% de la latencia total. La GPU está lista para funcionar, pero la CPU todavía está esperando las respuestas de las herramientas. Añádele ventanas de contexto que ahora superan el millón de tokens, y de repente necesitas una memoria y ancho de banda de CPU enormes solo para almacenar cachés KV que no caben en las GPUs.

La respuesta de NVIDIA es interesante. Su CPU Grace solo tiene 72 núcleos en comparación con los 128 de AMD o la línea típica de Intel. Pero eso es intencional—están optimizando por eficiencia entre CPU y GPU en lugar de contar núcleos en sí. Están promoviendo la idea de que la CPU es realmente un centro de coordinación, no un procesador de propósito general. Con su interconexión NVLink alcanzando 1.8 TB/s, la CPU puede acceder directamente a la memoria de la GPU, lo que cambia completamente la forma en que gestionas estos enormes cachés KV.

La señal del mercado es clara y fuerte. Bank of America predice que el mercado de CPU podría duplicarse de $27 mil millones a $60 mil millones para 2030, impulsado casi en su totalidad por IA. Y escuchen esto—en la asociación de $38 mil millones de Amazon con OpenAI, planean desplegar decenas de millones de CPUs. Esa es la nueva métrica. Ya no estamos hablando solo de cientos de miles de GPUs; ahora se trata de construir capas enteras de infraestructura de orquestación de CPU.

Lo que realmente está sucediendo es que estamos transitando de una era limitada por GPU a una era de eficiencia a nivel de sistema. Las empresas que descubran cómo equilibrar la colaboración CPU-GPU, gestionar jerarquías de memoria masivas y manejar flujos de trabajo complejos de agentes de manera eficiente—esas son las que ganan. Ya no se trata de componentes individuales. Se trata de que todo el sistema funcione en conjunto. Y si no estás pensando en tu estrategia de CPU en 2026, ya estás atrasado.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado