Entender Cerebras: La potencia de cálculo impulsa el pensamiento de IA, la memoria capacita a los agentes para actuar

Autor: Ben Thompson

La potencia de cálculo enseña a la IA a pensar, la memoria enseña a los Agentes a trabajar.

Esta semana, con la salida a bolsa de Cerebras, el último artículo de Ben Thompson explica: la IA ha evolucionado de “charlar” a “ejecutar tareas autónomas”, y el cuello de botella en toda la arquitectura de chips ha cambiado.

Tú conversas con Doubao por velocidad; cuando Kimi Claw realiza una tarea durante 5 horas por ti, no le importa si es 3 segundos más rápido o 30 segundos más lento—le importa si puede recordar el contexto y si puede seguir trabajando. Cada paso que ejecuta, la memoria de trabajo (KV Cache) se expande una capa más. La GPU está diseñada para “esperar frente a la pantalla”: durante el prellenado, la memoria de video está inactiva; durante la decodificación, la potencia de cálculo está inactiva—la mitad del tiempo esperando.

Lo que realmente limita no es cuán rápido calcula, sino cuánto puede almacenar y qué tan rápido puede leer. Más fundamental aún, los agentes de larga duración convierten la KV Cache de un caché temporal en una memoria de trabajo persistente. Quien pueda hacer que esta memoria dure más, se reutilice más y cueste menos, tendrá la clave de la economía de los Agentes.

Eso es mucho más importante que los puntajes de rendimiento.

En cuanto al momento de la salida a bolsa, hacer una compañía de chips en mayo de 2026 sería casi ideal. Reuters informó el fin de semana:

Dos personas informadas dijeron a Reuters el domingo que, impulsados por la demanda creciente del mercado por las acciones de esta compañía de chips de IA, Cerebras Systems podría ajustar al alza el tamaño y el precio de su oferta pública inicial (OPI) el lunes. Las fuentes indicaron que la compañía está considerando aumentar el rango de precios de 115–125 dólares por acción a 150–160 dólares, y ampliar el número de acciones de 28 millones a 30 millones; dado que la información aún no es pública, ambas fuentes pidieron permanecer en el anonimato.

El impulso en las acciones de semiconductores, en realidad, está impulsado por la IA—especialmente por la creciente conciencia de que: los agentes inteligentes (Agents) absorberán una cantidad masiva de potencia de cálculo (Compute). Pero la proposición que apunta Cerebras es aún más amplia: hasta ahora, la narrativa del poder de cálculo en IA se ha centrado casi exclusivamente en las GPU, en Nvidia; en el futuro, el panorama será cada vez más heterogéneo (Heterogeneous).

Era GPU

La historia de cómo las GPU se convirtieron en el centro de la IA ya es vieja conocida, en resumen:

  • Como dibujar píxeles en una pantalla es un proceso paralelo—cuantos más procesadores, más rápido se renderiza la gráfica—el cálculo en IA funciona igual: la cantidad de unidades de procesamiento determina la velocidad de cálculo.

  • Nvidia aprovechó esta tendencia: convirtió los procesadores gráficos en dispositivos programables (Programmable), y con CUDA, un ecosistema de software completo, llevó esa capacidad a todos los desarrolladores.

  • La diferencia fundamental entre gráficos y IA radica en la escala del problema—los modelos son mucho más grandes que las texturas en videojuegos. Esto llevó a dos evoluciones en cadena: una rápida expansión de la memoria de alta ancho de banda (HBM, High-bandwidth memory) en cada GPU; y avances en la interconexión entre chips (Chip-to-chip networking), permitiendo que múltiples chips funcionen como un sistema direccionable (Addressable system). Nvidia lidera en ambas.

  • El uso principal de las GPU siempre ha sido el entrenamiento, y este proceso es especialmente exigente en los puntos anteriores. Cada paso de entrenamiento es altamente paralelo, pero los pasos son secuenciales: antes de pasar al siguiente, cada GPU debe sincronizar sus resultados con todas las demás. Por eso, un modelo de billones de parámetros (Trillion-parameter) debe caber en la memoria total de decenas de miles de GPU, y estas deben comunicarse como una sola máquina. Nvidia domina estos dos desafíos: primero, asegurando la disponibilidad de HBM antes que nadie; segundo, invirtiendo en tecnología de red a largo plazo.

Por supuesto, el entrenamiento no es la única carga de trabajo en IA, otro es la inferencia (Inference). La inferencia tiene tres partes principales:

1. Prellenado (Prefill): codificar todo lo que el modelo de lenguaje grande (LLM) necesita entender en un estado comprensible; esto es altamente paralelo y requiere mucho poder de cálculo.

2. Decodificación parte 1 (Decode Part 1): leer la KV cache (KV Cache)—que almacena el contexto, incluyendo la salida del prellenado—para cálculos de atención. Es un paso en serie con un ancho de banda crítico, y la demanda de memoria varía y crece con el tiempo.

3. Decodificación parte 2 (Decode Part 2): realizar cálculos de retroalimentación hacia adelante (Feed-forward computation) en los pesos del modelo; también en serie y con una demanda de memoria que depende del tamaño del modelo.

Estos dos pasos de decodificación se alternan en cada capa del modelo (no en secuencia simple, sino en un patrón entrelazado), es decir, la decodificación es serial y limitada por el ancho de banda de memoria (Memory-bandwidth bound). Cada token generado requiere leer completamente dos pools de memoria diferentes: la KV cache, que crece con cada token y almacena el contexto, y los pesos del modelo. Ambos deben leerse por completo para producir un solo token de salida.

Las GPU responden perfectamente a estas tres necesidades: ofrecen alto poder de cálculo para el prellenado, suficiente HBM para KV cache y pesos, y mediante interconexión entre chips, permiten la agrupación de memoria cuando la capacidad de una sola GPU no basta. En otras palabras, la misma arquitectura que funciona para entrenamiento funciona también para inferencia—como se ve en la colaboración entre SpaceX y Anthropic. En su blog oficial, Anthropic dice:

“Hemos firmado un acuerdo para usar toda la capacidad computacional del centro de datos SpaceX Colossus 1. Esto nos da más de 300 MW de capacidad adicional (más de 220,000 GPUs Nvidia). Esto mejorará directamente la capacidad de servicio de Claude Pro y Claude Max.”

SpaceX mantiene el Colossus 2—probablemente para entrenamiento de modelos futuros y también para inferencia de modelos existentes. La razón por la que pueden hacer ambas cosas en el mismo centro de datos es que los modelos de xAI aún no usan mucho la capacidad; pero lo que importa aquí es que pueden hacerlo porque tanto entrenamiento como inferencia se hacen en GPU. De hecho, las GPUs que Anthropic firmó originalmente para Colossus 1 también se usaron inicialmente para entrenamiento; la flexibilidad de las GPU es una gran ventaja.

Interpretando Cerebras

Lo que hace Cerebras es completamente diferente. Aunque el diámetro del wafer de silicio es de 300 mm, el “límite de máscara” (Reticle limit)—el tamaño máximo que puede exponer la litografía en el wafer—es aproximadamente 26 mm x 33 mm. Este es el tamaño máximo efectivo del chip; para superar este límite, se necesita conectar chips independientes mediante una “capa intermedia” (interposer), como hizo Nvidia en el B200. Pero Cerebras inventó un método de enrutamiento que atraviesa las “líneas de corte” (Scribe lines, los bordes entre exposiciones de máscara), convirtiendo toda la oblea en un solo chip, sin necesidad de conexiones entre chips relativamente lentas.

El resultado: un chip con una potencia de cálculo impresionante, con una enorme cantidad de SRAM y velocidades de acceso asombrosas. En comparación: el WSE-3 de Cerebras tiene 44 GB de SRAM en chip, con un ancho de banda de 21 PB/s; mientras que el H100 de Nvidia tiene 80 GB de HBM y un ancho de banda de 3.35 TB/s. En otras palabras, aunque la memoria del WSE-3 es algo más de la mitad de la del H100, su ancho de banda es 6000 veces mayor.

La comparación entre WSE-3 y H100 se hace porque H100 es la GPU más utilizada en inferencia actualmente, y la inferencia es claramente el campo en el que Cerebras destaca. Se puede entrenar con Cerebras, pero su historia de interconexión entre chips no es atractiva, lo que significa que la mayor parte de su potencia y memoria en chip queda inactiva; lo que realmente importa es que puede generar flujos de tokens mucho más rápido que las GPU.

Pero también existen limitaciones en la inferencia: siempre que todos los datos puedan caber en la memoria del chip, la velocidad de Cerebras es máxima; una vez que la demanda de memoria supera ese límite (por ejemplo, modelos más grandes o caches más largas), Cerebras deja de ser razonable, especialmente considerando su costo. La tecnología de “todo en una oblea como chip” implica un alto desafío en la fabricación, elevando mucho los costos.

Aún así, creo que los chips estilo Cerebras tienen mercado: actualmente, la compañía enfatiza la velocidad para la programación—la inferencia requiere generar muchos tokens, lo que implica aumentar la velocidad de generación por segundo, equivalente a pensar más rápido. Pero creo que esto es solo un caso de uso temporal, y la razón la explicaré más adelante. Lo que realmente importa es cuánto tiempo tarda un humano en obtener una respuesta; con la proliferación de dispositivos de IA portátiles, la velocidad de interacción (especialmente en voz) tendrá un impacto sustancial en la experiencia del usuario.

Agentes y la inferencia de agentes (Agentic Inference)

He mencionado antes que en la era de los LLM hemos pasado por tres puntos de inflexión:

1. ChatGPT demostró la utilidad de predecir tokens.

2. o1 introdujo el concepto de inferencia, donde más tokens significan mejores respuestas.

3. Opus 4.5 y Claude Code introdujeron los primeros Agentes, que usan modelos de inferencia y un marco que incluye uso de herramientas, verificación de trabajo, etc., para completar tareas reales.

Aunque todos estos pertenecen a la categoría de “inferencia”, creo que la distinción entre responder—que llamo “inferencia de respuesta” (Answer inference)—y ejecutar tareas—que denomino “inferencia de agentes” (Agentic inference)—se vuelve cada vez más clara. El mercado de Cerebras apunta a la “inferencia de respuesta”; pero a largo plazo, creo que la arquitectura de la “inferencia de agentes” será completamente diferente, incluso opuesta, a la de Cerebras o GPU.

Mencioné antes que la inferencia rápida para programación es solo un caso de uso temporal. Actualmente, programar con LLM aún requiere intervención humana: definir tareas, revisar código, hacer pull requests (PR), etc.; pero no es difícil imaginar que en el futuro todo esto será automatizado. Esto será ampliamente aplicable al trabajo de agentes: su verdadera potencia no está en asistir a humanos, sino en trabajar de forma independiente, sin intervención humana.

Por analogía, la mejor vía para resolver la inferencia de agentes será muy diferente de la de la inferencia de respuesta. La inferencia de respuesta valora mucho la velocidad de tokens; en cambio, la inferencia de agentes valora la memoria (Memory). Los agentes necesitan contexto, estado e historia. Parte de esto está en la KV cache activa, otra en la memoria principal o SSD, y más en bases de datos, logs, embeddings y almacenamiento de objetos. La clave: la inferencia de agentes ya no será solo que la GPU responda a una pregunta, sino que se construirá una jerarquía compleja de memoria alrededor del modelo.

Un punto crucial es que esta jerarquía de memoria especializada para agentes implica una compensación inevitable: a mayor velocidad, menor capacidad. Además, si no hay participación humana en tiempo real, la velocidad ya no será la principal preocupación. Si un agente realiza tareas durante toda la noche, no le importa la latencia en la experiencia del usuario; solo le importa completar la tarea. Si un nuevo método de memoria hace posible tareas complejas, una cierta latencia será aceptable.

Mientras tanto, si la latencia deja de ser la prioridad, la búsqueda de máxima potencia y memoria de alta banda ancha (HBM) pierde sentido: si la latencia no es una restricción estricta, memorias más lentas y baratas (como la DRAM tradicional) serán más atractivas. Si todo el sistema espera respuestas de la memoria, los chips no necesitan ser los más avanzados en proceso de fabricación. Esto provocará cambios profundos en la arquitectura, pero no significa que las arquitecturas existentes desaparezcan:

Entrenamiento (Training): seguirá siendo importante, y la arquitectura actual de Nvidia (alta potencia, alta memoria de banda ancha, redes rápidas) seguirá dominando.

Inferencia de respuesta (Answer inference): será un mercado importante pero relativamente pequeño, donde la velocidad extrema (como Cerebras o Groq) será muy útil.

Inferencia de agentes (Agentic inference): se desacoplará progresivamente de las GPU. La limitación de que las GPU desperdician memoria en prellenado y potencia en decodificación será evidente. En su lugar, sistemas con alta capacidad de memoria, bajo costo y “suficientemente buenos” en cálculo dominarán. De hecho, la velocidad de procesamiento de herramientas por CPU puede ser más importante que la de GPU.

Además, estas categorías no serán iguales en escala o importancia. En concreto, la inferencia de agentes será el mercado más grande del futuro, porque no estará limitada por la cantidad de humanos o el tiempo. Los actuales agentes son solo respuestas sofisticadas; los futuros agentes reales serán computadoras que realizan tareas según instrucciones de otras computadoras, y su mercado crecerá con la potencia de cálculo, no con la población.

Implicaciones de la inferencia de agentes para el poder de cálculo

Hasta ahora, mencionar “a medida que aumenta la potencia de cálculo” suele implicar una confianza en Nvidia. Sin embargo, la ventaja relativa de Nvidia se basa en gran medida en la baja latencia: sus chips son muy rápidos, pero para mantener esa velocidad, requiere enormes inversiones en HBM y redes. Si la latencia deja de ser la restricción principal, la propuesta de Nvidia puede dejar de justificar su prima.

Nvidia también ha reconocido este cambio: lanzó Dynamo, un marco para desglosar la inferencia en partes, y productos como memoria independiente y racks de CPU para ampliar la capacidad de KV y acelerar llamadas a herramientas, manteniendo ocupada a la GPU costosa. Pero en última instancia, los grandes proveedores de la nube pueden buscar alternativas en tareas de inferencia de agentes que no dependan de GPU, por costo y simplicidad.

Por otro lado, China, aunque carece de la potencia de cálculo de punta, tiene todo lo necesario para la inferencia de agentes: GPU suficientemente rápidas, CPU, DRAM y discos duros. El reto principal sigue siendo la potencia para entrenamiento; además, la inferencia de respuesta puede ser más importante en ámbitos de seguridad nacional y aplicaciones militares.

Otra perspectiva interesante es el espacio (Space): chips más lentos hacen que los “centros de datos espaciales” sean más viables. Primero, si la memoria puede ser externa, los chips pueden ser más simples y más fríos. Segundo, los procesos antiguos, con dimensiones físicas mayores, resisten mejor la radiación espacial. Tercero, los procesos antiguos consumen menos energía y generan menos calor. Cuarto, los procesos menos avanzados son más confiables, algo crucial en satélites que no pueden ser reparados.

El CEO de Nvidia, Jensen Huang, dice a menudo que “la ley de Moore ha muerto”; su idea es que el avance futuro dependerá de la innovación a nivel de sistemas. Pero cuando los agentes puedan actuar de forma independiente, la lección más profunda puede ser: la ley de Moore ya no importa. La forma en que obtenemos más potencia de cálculo es darnos cuenta de que la potencia actual ya es “suficientemente buena”.

NVDA-4,36%
XAI-5,39%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado