Esta semana que Cerebras salió a bolsa, el último artículo de Ben Thompson explica claramente: la IA evoluciona del “chat” a la “ejecución autónoma de tareas”, y el cuello de botella en toda la arquitectura de chips ha cambiado.

Lo que tú buscas en chatear con Doubao es velocidad; cuando Kimi Claw realiza una tarea de 5 horas por ti, no le importa si es 3 segundos más rápido o 30 segundos más lento—le importa si puede recordar el contexto, si puede seguir trabajando. Cada paso que ejecuta, la memoria de trabajo (KV Cache) se expande una capa más. La GPU está diseñada para “esperar frente a la pantalla”: durante el prellenado, la memoria de video está inactiva; durante la decodificación, el poder de cálculo está inactivo—la mitad del tiempo esperando.

Lo que realmente limita no es cuán rápido calcula, sino cuánto puede almacenar y qué tan rápido puede leer. Más fundamentalmente, los agentes de larga duración hacen que la KV Cache pase de ser un caché temporal a una memoria de trabajo persistente. Quien pueda hacer que esta memoria dure más, se reutilice más y cueste menos, tendrá la clave de la economía de los Agentes.

Eso es mucho más importante que los puntajes en benchmarks.

En cuanto al momento de salir a bolsa, hacer una compañía de chips en mayo de 2026 sería casi ideal. Reuters informó el fin de semana:

Dos personas familiarizadas dijeron a Reuters el domingo que, impulsados por la demanda sostenida del mercado por las acciones de esta compañía de chips de IA, Cerebras Systems probablemente aumentará el tamaño y el precio de su oferta pública inicial (OPI) el lunes. Las fuentes indicaron que la compañía está considerando subir el rango de precios de 115–125 dólares por acción a 150–160 dólares, y ampliar el número de acciones de 28 millones a 30 millones; dado que la información aún no es pública, ambas fuentes solicitaron permanecer en el anonimato.

El impulso en las acciones de semiconductores, por supuesto, está impulsado por la IA—especialmente por la creciente conciencia de que: los agentes inteligentes (Agents) absorberán una cantidad masiva de potencia de cálculo (Compute). Pero la proposición que apunta Cerebras es más amplia: hasta ahora, la narrativa de la potencia de cálculo en IA se ha centrado casi exclusivamente en las GPU, en Nvidia; y en el futuro, el panorama será cada vez más heterogéneo (Heterogeneous).

Era GPU

La historia de cómo las GPU se convirtieron en el centro de la IA ya es conocida, en resumen:

Como dibujar píxeles en una pantalla es un proceso paralelo—cuantos más procesadores, más rápido el renderizado—, el cálculo en IA funciona igual: la cantidad de unidades de procesamiento determina la velocidad de cálculo.
Nvidia aprovechó esta “doble utilidad”: convirtió los procesadores gráficos en programables (Programmable), y con CUDA, un ecosistema completo de software, llevó esa capacidad a todos los desarrolladores.
La diferencia fundamental entre gráficos y IA radica en la escala del problema—los modelos son mucho más grandes que las texturas en videojuegos. Esto llevó a dos evoluciones en cadena: una rápida expansión de la capacidad de memoria de alta banda ancha (HBM, High-bandwidth memory) en cada GPU; y avances en la interconexión entre chips (Chip-to-chip networking), permitiendo que múltiples chips funcionen como un sistema direccionable (Addressable system). Nvidia lidera en ambas.
El uso principal de las GPU siempre ha sido el entrenamiento, y este es especialmente exigente en la tercera dimensión. Cada paso de entrenamiento es altamente paralelo, pero los pasos son secuenciales: antes de pasar al siguiente, cada GPU debe sincronizar sus resultados con todas las demás. Por eso, un modelo de billones de parámetros debe caber en la memoria total de decenas de miles de GPU—y estas deben comunicarse como una sola máquina. Nvidia domina ambos desafíos: primero, asegurando la disponibilidad de HBM antes que nadie; y segundo, invirtiendo en tecnología de red a largo plazo.

Por supuesto, el entrenamiento no es la única carga de trabajo en IA, otro es la inferencia (Inference). La inferencia tiene tres partes principales:

1. Prellenado (Prefill): codificar todo lo que el modelo de lenguaje grande (LLM) necesita entender en un estado comprensible; esto es altamente paralelo, y la potencia de cálculo es crucial.

2. Decodificación parte 1 (Decode Part 1): leer la KV cache (KV Cache)—que almacena el contexto, incluyendo la salida del prellenado—para cálculos de atención. Es un paso en serie con un ancho de banda crítico, y la demanda de memoria varía y crece con el tiempo.

3. Decodificación parte 2 (Decode Part 2): realizar cálculos de retroalimentación hacia adelante en los pesos del modelo (Feed-forward computation); también en serie, con demanda de memoria determinada por el tamaño del modelo.

Estos dos pasos de decodificación se alternan en cada capa del modelo (no son simplemente secuenciales, sino entrelazados), es decir, la decodificación es serial y limitada por el ancho de banda de memoria (Memory-bandwidth bound). Cada token generado requiere leer completamente dos pools de memoria diferentes: la KV cache, que crece con cada token y almacena el contexto, y los pesos del modelo. Ambos deben leerse por completo para producir un solo token de salida.

Las GPU responden perfectamente a estas tres necesidades: proveen alta potencia para el prellenado, suficiente HBM para KV cache y pesos, y mediante interconexión entre chips, permiten la agrupación de memoria cuando la memoria en una sola GPU no basta. En otras palabras, la misma arquitectura que funciona para entrenamiento funciona también para inferencia—como se ve en la colaboración entre SpaceX y Anthropic. En su blog oficial, Anthropic dice:

“Hemos firmado un acuerdo para usar toda la capacidad computacional del centro de datos SpaceX Colossus 1. Esto nos da más de 300 MW de capacidad adicional (más de 220,000 GPU Nvidia). Esto mejorará directamente la capacidad de servicio de Claude Pro y Claude Max.”

SpaceX mantiene el Colossus 2—probablemente para entrenamiento de modelos futuros y también para inferencia de modelos existentes. La razón por la que pueden hacer ambas en el mismo centro de datos es que los modelos de xAI aún no usan mucho la capacidad; pero lo que importa aquí es que pueden hacerlo porque tanto entrenamiento como inferencia se hacen en GPU. De hecho, las GPU que Anthropic firmó originalmente para Colossus 1 también se usaron inicialmente para entrenamiento; la flexibilidad de las GPU es una ventaja enorme.

Interpretando Cerebras

Lo que hace Cerebras es completamente diferente. Aunque el diámetro del wafer de silicio es de 300 mm, el “límite de máscara” (Reticle limit)—el tamaño máximo que puede exponer la litografía en el wafer—es aproximadamente 26 mm x 33 mm. Este es el tamaño máximo efectivo del chip; para superar este límite, se necesita conectar chips independientes mediante una “capa intermedia” (interposer), como hizo Nvidia en el B200. Pero Cerebras inventó un método de enrutamiento que atraviesa las “líneas de corte” (Scribe lines, los bordes entre exposiciones de máscara), convirtiendo toda la oblea en un solo chip, sin necesidad de conexiones entre chips relativamente lentas.

El resultado: un chip con una potencia de cálculo impresionante, con una enorme SRAM y velocidades de acceso asombrosas. Datos comparativos: el WSE-3 de Cerebras tiene 44 GB de SRAM en chip, con un ancho de banda de 21 PB/s; mientras que el H100 de Nvidia tiene 80 GB de HBM, con un ancho de banda de 3.35 TB/s. En otras palabras, aunque la memoria del WSE-3 es algo más de la mitad de la del H100, su ancho de banda es 6000 veces mayor.

La comparación entre WSE-3 y H100 se hace porque el H100 es actualmente la GPU más utilizada en inferencia, y claramente Cerebras es muy fuerte en inferencia. Se puede entrenar con Cerebras, pero su historia de interconexión entre chips no es atractiva, lo que significa que la mayor parte de su potencia y memoria en chip queda inactiva; lo que realmente importa es que puede generar tokens mucho más rápido que una GPU.

Pero también hay limitaciones en la inferencia: siempre que toda la data quepa en la memoria del chip, la velocidad de Cerebras es máxima; una vez que la demanda de memoria supera ese límite (por ejemplo, modelos más grandes o KV cache más larga), Cerebras deja de ser razonable, especialmente considerando su precio. La tecnología de “todo en una oblea como chip” implica un alto riesgo de defectos, elevando mucho los costos.

Aún así, creo que los chips estilo Cerebras tienen mercado: actualmente, la compañía enfatiza la velocidad para la programación—la inferencia requiere generar muchos tokens, por lo que aumentar la velocidad de tokens por segundo equivale a pensar más rápido. Pero esto es solo un caso temporal, por una razón que explicaré más adelante. Lo que realmente importa es cuánto tiempo tarda un humano en obtener una respuesta; con la proliferación de dispositivos de IA portátiles, la velocidad de interacción (especialmente en voz) tendrá un impacto sustancial en la experiencia del usuario.

Agentes y la inferencia de agentes

He mencionado antes que en la era de los LLM hemos tenido tres puntos de inflexión:

1. ChatGPT demostró la utilidad de predecir tokens.

2. o1 introdujo el concepto de razonamiento, donde más tokens significan mejores respuestas.

3. Opus 4.5 y Claude Code introdujeron los primeros Agentes prácticos, que usan modelos de razonamiento y un marco con herramientas, verificación de trabajo, etc., para completar tareas reales.

Aunque todos estos son “razonamiento”, creo que la diferencia entre responder—que denomino “razón de respuesta” (Answer inference)—y ejecutar tareas—que llamo “razonamiento de agentes” (Agentic inference)—se está haciendo clara. El mercado objetivo de Cerebras es “razón de respuesta”; pero a largo plazo, creo que la arquitectura de “razonamiento de agentes” será completamente diferente a la de Cerebras o incluso a la de GPU.

Mencioné antes que el razonamiento rápido para programación es solo un caso temporal. Actualmente, programar con LLM todavía requiere intervención humana: definir tareas, revisar código, hacer pull requests (PR), etc.; pero no es difícil imaginar que en el futuro todo esto será automatizado. Esto será ampliamente aplicable al trabajo de agentes: su verdadera potencia no está en hacer tareas para humanos, sino en trabajar de forma independiente, sin intervención humana.

Por analogía, la mejor ruta para resolver el razonamiento de agentes será muy diferente del razonamiento de respuesta. La razón de respuesta valora mucho la velocidad de tokens; mientras que el razonamiento de agentes valora la memoria (Memory). Los agentes necesitan contexto, estado e historia. Parte de esto está en la KV cache activa, otra en la memoria principal o SSD, y más en bases de datos, logs, embeddings y almacenamiento de objetos. La clave: el razonamiento de agentes ya no será solo que una GPU responda a una pregunta, sino que se construirá un sistema complejo de niveles de memoria alrededor del modelo.

Un punto crucial es que esta jerarquía de memoria especializada para agentes implica una compensación inevitable: a mayor velocidad, menor capacidad. Además, si no hay participación humana en tiempo real, la velocidad ya no será la principal preocupación. Si un agente realiza tareas durante toda la noche, no le importa la latencia para el usuario; solo si puede completar la tarea. Si un nuevo método de memoria hace posible tareas complejas, una cierta latencia será aceptable.

Al mismo tiempo, si la latencia deja de ser la prioridad, la búsqueda de máxima potencia y memoria de alta banda ancha (HBM) pierde sentido: si la latencia no es una restricción rígida, memorias más lentas y baratas (como la DRAM tradicional) serán más atractivas. Si todo el sistema espera principalmente la respuesta de la memoria, los chips no necesitan ser los más avanzados en proceso. Esto provocará cambios profundos en la arquitectura, pero no significa que las arquitecturas existentes desaparezcan:

El entrenamiento (Training) seguirá siendo importante, y la arquitectura actual de Nvidia (alta potencia, alta memoria de banda ancha, redes rápidas) seguirá dominando.

La inferencia de respuesta (Answer inference) será un mercado importante pero relativamente pequeño, donde chips como Cerebras o Groq serán muy útiles por su velocidad extrema.

La inferencia de agentes (Agentic inference) se desacoplará progresivamente de las GPU. La limitación de que las GPU desperdician memoria en prellenado y potencia en decodificación será evidente. En su lugar, sistemas con alta capacidad de memoria, bajo costo, y “suficientemente buenos” en cálculo dominarán. De hecho, la velocidad de procesamiento de herramientas en CPU puede ser más importante que en GPU.

Además, estas categorías no serán iguales en escala ni en importancia. Específicamente, el razonamiento de agentes será el mercado más grande del futuro, porque no está limitado por la cantidad de humanos o el tiempo. Los actuales agentes son solo respuestas sofisticadas; los futuros agentes reales serán sistemas que ejecutan tareas según instrucciones de otros sistemas, y su mercado no crecerá con la población, sino con la potencia de cálculo.

Implicaciones del razonamiento de agentes para la potencia de cálculo

Hasta ahora, mencionar “a medida que aumenta la potencia de cálculo” suele implicar una confianza en Nvidia. Sin embargo, la ventaja relativa de Nvidia se basa en gran medida en la baja latencia: sus chips son muy rápidos, pero para mantener esa velocidad, requiere enormes inversiones en HBM y redes. Si la latencia deja de ser una restricción clave, la propuesta de Nvidia puede dejar de justificar su prima.

Nvidia también ha reconocido este cambio: lanzó Dynamo, un marco para descomponer el razonamiento en partes, y productos de memoria independiente y racks de CPU para ampliar la capacidad de KV y acelerar llamadas a herramientas, manteniendo ocupada a la GPU costosa. Pero en última instancia, los grandes proveedores de la nube podrían buscar alternativas en tareas de razonamiento de agentes que no dependan de GPU, por costo y simplicidad.

Por otro lado, China, aunque carece de la potencia de cálculo de punta, tiene todo lo necesario para el razonamiento de agentes: GPU suficientemente rápidas, CPU, DRAM y discos duros. El desafío principal sigue siendo la potencia para entrenamiento; además, la inferencia de respuesta puede ser más importante en seguridad nacional (especialmente en aplicaciones militares).

Otra perspectiva interesante es el espacio (Space): chips más lentos hacen que los “centros de datos espaciales” sean más viables. Primero, si la memoria puede ser externa, los chips pueden ser más simples y más fríos. Segundo, los procesos antiguos, con dimensiones físicas mayores, resisten mejor la radiación espacial. Tercero, los procesos antiguos consumen menos energía y generan menos calor. Cuarto, los procesos no avanzados son más confiables, algo crucial en satélites que no pueden ser reparados.

El CEO de Nvidia, Jensen Huang, dice a menudo que “la ley de Moore ha muerto”; su idea es que la aceleración futura dependerá de la innovación a nivel de sistemas. Sin embargo, cuando los agentes puedan actuar de forma independiente de los humanos, la lección más profunda puede ser: la ley de Moore ya no importa. La forma en que obtenemos más potencia de cálculo es darnos cuenta de que la potencia actual ya es “suficientemente buena”.

NVDAX-4,97%

XAI-5,56%

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
1.85M Popularidad
#
CLARITYActPassesSenateCommittee
3.39M Popularidad
#
IsraelStrikesIranBTCPlunges
46.88K Popularidad
#
#DailyPolymarketHotspot
954.27K Popularidad
#
BitcoinVShapedReversalBack
227.02M Popularidad

Fijado

Entender Cerebras: La potencia de cálculo impulsa el pensamiento de IA, la memoria capacita a los agentes para actuar

Era GPU

Interpretando Cerebras

Agentes y la inferencia de agentes

Implicaciones del razonamiento de agentes para la potencia de cálculo

Temas de actualidad

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Fijado