Nvidia, Alibaba revalúan IA, tiran FLOPS "a la basura"

SnapshotLaborer · 2026-03-18T12:06:11+00:00

El 17 de marzo, Jensen Huang habló durante más de dos horas en el escenario de NVIDIA GTC 2026 vistiendo su icónica chaqueta de cuero, y después del evento, casi toda la red estaba hablando de "NVIDIA quiere ser el Rey de los Tokens".Pero si escuchas cuidadosamente este discurso, descubrirás que lo que Jensen Huang realmente martilló una y otra vez no fue el Token en sí, sino Tokens per Watt (Tokens por vatio). Expresó explícitamente este concepto al mostrar gráficos de rendimiento de inferencia y dijo claramente: cada centro de datos, cada fábrica de IA, está esencialmente limitado por la energía eléctrica; una fábrica de 1GW nunca se convertirá en 2GW, esto está determinado por las leyes de la física. Con una potencia fija, quien tenga el mayor rendimiento de Tokens por vatio tendrá el costo de producción más bajo y la curva de ingresos más pronunciada.Esta es la verdadera esencia de todo GTC 2026.Lo que la opinión pública estaba entusiasmado en discutir era Vera

SnapshotLaborer

2026-03-18 12:06:11

17 de marzo, Jensen Huang en el escenario de NVIDIA GTC 2026 llevó puesto su chaqueta emblemática y habló durante más de dos horas. Después del evento, casi toda la red estuvo diciendo que “NVIDIA quiere ser el rey de los Tokens”.

Pero si escuchas atentamente esta charla, notarás que lo que Huang realmente repite no es el Token en sí, sino Tokens por Vatio (Tokens per Watt). Cuando mostró gráficos de rendimiento de inferencia, explicó claramente este concepto y afirmó: cada centro de datos, cada fábrica de IA, en esencia, está limitado por la electricidad. Una fábrica de 1 GW nunca se convertirá en 2 GW, eso lo dictan las leyes físicas. Con una potencia fija, quien produzca más tokens por vatio tendrá los costos de producción más bajos y la curva de ingresos más empinada.

Esa frase es en realidad el núcleo de toda la GTC 2026.

La discusión popular se centra en cuánto supera Vera Rubin a Blackwell, en cómo Groq LPX puede aumentar la velocidad de inferencia en 35 veces, o en que NVIDIA trasladará los centros de datos al espacio. Todo eso es importante, pero en esencia son diferentes expresiones de la misma lógica: maximizar la producción inteligente por cada vatio de energía bajo restricciones energéticas.

Cuando Huang Huang presenta “Tokens/W” como la métrica central para medir la producción de fábricas de IA, en realidad hay una capa más profunda y significativa en la industria: el sistema de medición de la competencia en poder de cómputo, que pasa de chips a sistemas, de picos de parámetros a eficiencia de extremo a extremo, de quién tiene chips más rápidos a quién puede convertir energía en inteligencia con mayor eficiencia.

Bajo la matriz actual de productos y tecnologías, NVIDIA y Huang Huang todavía están atrapados en tokens/w, y aún les falta mucho para convertirse en el verdadero rey de los tokens.

Es una migración hacia un “lenguaje de medición inteligente”, y esta transición abre una perspectiva industrial mucho más profunda que cualquier nuevo chip.

Curiosamente, justo un día antes de la apertura oficial de GTC, Alibaba anunció la creación de Alibaba Token Hub, liderada personalmente por Wu Yongming. La estrategia central de Alibaba en IA no lleva el nombre de IA, sino de Token, elevando los Tokens al nivel estratégico de Alibaba en IA.

Esto también refleja que, desde una perspectiva sistémica, la visión de la IA está empezando a convertirse en una nueva comprensión en la industria. Esa es la idea que quiero destacar con este artículo, y el significado principal del mismo.

01 Los cambios más importantes en GTC 2026 no están en los chips

En GTC 2026, el foco sigue siendo en Vera Rubin, Rubin POD, LPX, DSX AI Factory y otros nuevos productos y términos. Pero si agrupamos estos lanzamientos, veremos que la narrativa de competencia en poder de cómputo se ha expandido del chip individual a la infraestructura de poder de cómputo, es decir, a toda una fábrica de IA compuesta por cálculo, red, almacenamiento, energía, refrigeración, sistemas de control y software.

Rubin se describe como una plataforma a escala POD, donde múltiples racks conforman un sistema grande y coherente; DSX se define como un diseño de referencia para fábricas de IA, con el objetivo de maximizar tokens por vatio.

Esto indica que la verdadera competencia en la industria ya no se centra solo en la capacidad de un chip, sino en qué tan potente es el sistema completo. Más específicamente, si el sistema puede organizar de manera eficiente los recursos limitados de energía, refrigeración y red para producir IA de forma estable.

La métrica concreta es Tokens/W.

Este artículo busca entender, a través de Tokens/W, el significado que transmite esta conferencia y las oportunidades que presenta para el desarrollo de la infraestructura de IA.

02 Cuando la competencia pasa a sistemas, la métrica no puede seguir en el nivel de chips

Las métricas del era de los chips son bien conocidas: pico de rendimiento en FLOPS, ancho de banda de memoria, FLOPS/W, TOPS/W, bit/J. Todos estos indicadores son importantes porque describen los límites de capacidad de un componente.

Pero en la práctica surge una situación incómoda: en los centros de inteligencia artificial no existe una métrica objetiva, unificada y universal.

Por lo general, se mide la capacidad del centro en MW de energía, y en China, para construir centros de IA, se usa PFlops (basado en FP16). Sin embargo, si un clúster tiene la misma capacidad o consumo de energía, pero sus chips, redes o refrigeración difieren, su eficiencia también será distinta.

La razón no es complicada: las métricas anteriores solo miden un aspecto. El pico de rendimiento describe cuánto puede hacer teóricamente un chip; bit/J mide la eficiencia en transferencia de datos local; ancho de banda mide la capacidad de comunicación de un subsistema. Todos son métricas a nivel de chip.

Pero un sistema completo de IA, en última instancia, debe responder a la pregunta: con un presupuesto de energía, refrigeración y espacio en un centro de datos, ¿cuánto resultado efectivo de IA se puede obtener? Esa respuesta no puede darse solo con métricas de chips.

Desde la narrativa de NVIDIA, podemos ver que ahora se habla de: costo por token, throughput por vatio, rendimiento por vatio, Tokens por vatio.

La lengua de medición está pasando de componentes a sistemas.

Por lo tanto, si las métricas comunes en chips son pico de rendimiento, ancho de banda y bit/J, en sistemas la métrica más adecuada sería Token/W. La primera mide capacidad de componentes, la segunda, producción total. La primera apunta a la optimización local, la segunda, a la optimización del sistema completo.

03 Token/W conecta la energía con la producción inteligente

En la GTC 2026, NVIDIA describe el token como la unidad básica de la IA moderna. Es una descripción muy acertada. Para modelos de lenguaje grande, servicios de inferencia y agentes, lo que los usuarios pagan en última instancia es la capacidad del sistema para generar y procesar tokens.

Desde la perspectiva operativa, el token tiene tres ventajas: 1) está directamente ligado a la inferencia del modelo; 2) está ligado a los ingresos; 3) es adecuado para nuevas cargas en la era de la inferencia.

Agentes, diálogos múltiples, contextos largos, recuperación, llamadas a herramientas, cadenas de inferencia: estas cargas no se describen bien solo con FLOPS, pero dejan huella en tokens, latencia y buenput.

Más importante aún, las restricciones en infraestructura de IA hoy en día se reflejan cada vez más en restricciones energéticas. Según el informe “Energy and AI” de IEA, para 2030, el consumo eléctrico de centros de datos en el mundo alcanzará aproximadamente 945 TWh, un aumento significativo; la IA será uno de los principales impulsores, especialmente en EE. UU., que representará una gran parte de ese crecimiento. En otras palabras, muchos problemas en la industria de IA no son solo de chips, sino de energía, refrigeración y organización de infraestructura.

El concepto de Tokens/W es valioso porque conecta la cadena más esencial de la industria de IA: entrada de energía, cálculo, red, almacenamiento, programación y refrigeración, que finalmente produce tokens.

Desde este punto de vista, Tokens/W no reemplaza simplemente FLOPS/W o bit/J, sino que añade una capa de análisis que antes no se consideraba: cuánta energía se convierte en cuánto de inteligencia.

Creo que lo más importante de esta GTC está en esto: no se puede aislar el chip, hay que integrarlo en el sistema y en la industria.

Este es también el enfoque que siempre he promovido. Ver chips de IA no solo en términos de pico de rendimiento, memoria y conectividad, sino en cómo colaboran en red, cómo se despliegan en racks, cómo se alimentan en parques tecnológicos, cómo se estructuran en costos para clientes y cómo se traducen en resultados comerciales.

GTC 2026, en cierto modo, valida esta visión sistémica. Cuando NVIDIA empieza a centrar su narrativa en la fábrica de IA, la industria está dejando atrás el centralismo en chips y avanzando hacia el sistema de cómputo.

Esto es muy importante. Muchas industrias inicialmente se obsesionan con las especificaciones de componentes, porque son fáciles de medir y promocionar. Pero en la fase de despliegue masivo, lo que realmente decide el éxito o fracaso es la capacidad de organizar sistemas. La infraestructura de IA actual ya está en esa etapa.

04 Desde Tokens/W hacia abajo, la importancia de la interconexión óptica se hace evidente

Cuando la métrica se traslada a nivel de sistema, muchas áreas antes consideradas complementarias adquieren mayor relevancia.

La interconexión óptica es un ejemplo claro.

Antes, la industria se centraba en módulos ópticos, comunicación y componentes: mayor ancho de banda, transmisión más larga, menor consumo por bit, mayor densidad de ancho de banda, menor pérdida de inserción. Todo eso es importante, pero esas métricas aún se limitan a componentes y chips. Con el marco de Tokens/W, el valor de la interconexión óptica se vuelve más evidente: reduce el consumo energético en transferencia de datos y aumenta la capacidad de convertir energía en tokens en sistemas de gran escala.

Al hablar de productos de red óptica de NVIDIA, se menciona que el CPO basado en fotones puede lograr hasta 5 veces más eficiencia energética que los módulos ópticos, además de reducir la latencia y soportar escalas mayores en fábricas de IA.

El punto clave no es solo que la tecnología sea más avanzada, sino que el sistema en su conjunto sea más eficiente y de mayor escala.

Desde la lógica industrial, esto es comprensible. A medida que los modelos crecen, los contextos se alargan y los clústeres se expanden, muchas de las pérdidas energéticas no ocurren en las unidades de cálculo, sino en la transferencia de datos entre chips, placas y racks.

En esta etapa, mejorar Tokens/W ya no basta solo con GPUs más potentes, sino con interconexiones más eficientes.

Por eso, desde Tokens/W, el desarrollo de interconexiones ópticas no es solo una tendencia avanzada, sino una necesidad para reducir el consumo energético en grandes sistemas de IA.

05 La computación óptica, más avanzada que la interconexión, también empieza a tener sentido

La computación óptica es más temprana que la interconexión óptica, eso es un hecho.

Problemas como versatilidad, precisión, compiladores, fabricación y integración aún están en evolución. Pero si se observa desde una perspectiva de sistema, su impacto industrial es ahora más claro que antes.

La razón es que Tokens/W se preocupa por la eficiencia de extremo a extremo. Quien pueda reducir significativamente el consumo energético en rutas de cálculo de alta frecuencia y alta densidad, tendrá la oportunidad de mejorar la eficiencia de tokens en el sistema. No requiere que la computación óptica reemplace completamente a la GPU, ni que sea la base de cálculo universal de inmediato.

Solo necesita una cosa: en cargas de trabajo clave, reducir J/token en todo el sistema y aumentar la producción de tokens bajo un presupuesto de energía fijo.

Por eso, la narrativa de la computación óptica debe pasar de centrarse en la eficiencia de componentes a su contribución en ahorro energético a nivel de sistema. Si solo se mira TOPS/W o MAC/J, parece más un cuento de laboratorio; pero si se mira Tokens/W, puede entrar en la discusión de infraestructura.

Este cambio es especialmente importante para la computación óptica, porque ahora tiene un lenguaje superior para dialogar con clientes, parques tecnológicos, energía y capital.

06 Cuando la medición de poder de cómputo pasa del chip al sistema, la interconexión y la computación óptica se vuelven centrales

Mientras la competencia en poder de cómputo se centraba en chips, la interconexión óptica era solo una tecnología de entrada/salida, y la computación óptica, una exploración avanzada de componentes.

Pero cuando la competencia se traslada a la infraestructura de sistemas a gran escala, la situación cambia. La eficiencia del sistema depende cada vez más del consumo en cálculos intensivos, transferencia de datos, gestión de contexto, colaboración entre nodos, organización de energía y gestión térmica, áreas donde la óptica puede jugar un papel clave.

Desde la perspectiva de Tokens/W, la interconexión óptica resuelve el costo energético en la transferencia de tokens; la computación óptica intenta reducir el costo en el cálculo de cada token. Ambas impactan en la eficiencia de producción de tokens del sistema completo.

Esa es la razón fundamental por la que entran en la línea principal de la industria.

Más allá del rendimiento y la oferta de chips, en el futuro, los centros de datos y fábricas de IA también enfrentan restricciones en la conexión a la red eléctrica, refrigeración, consumo en parques, densidad de potencia en racks y velocidad de despliegue. La evaluación de la energía en IA por parte de la Agencia Internacional de Energía y la visión de NVIDIA sobre las fábricas de IA apuntan en la misma dirección: la infraestructura de IA se está convirtiendo en un sistema que se mide en energía.

Desde esta nueva perspectiva, la interconexión y la computación óptica abordan los problemas cada vez más caros y difíciles de optimizar con métodos tradicionales: el costo energético de la transferencia de datos y el consumo por unidad en cálculos de alta densidad.

Detrás de esto hay un pensamiento de sistema más completo. Y por eso, en GTC 2026, se vuelve a destacar la tecnología fotónica y de silicio fotónico: cuando la medición de poder de cómputo pasa a ser de sistema, la óptica deja de ser solo una tecnología avanzada y empieza a consolidarse como infraestructura industrial.

Desde esta perspectiva, CPO y sistemas de computación óptica tienen un futuro muy prometedor.

Para concluir: la vía hacia AGI

El autor ha promovido siempre la creación de métricas objetivas y medibles de poder de cómputo, y ha utilizado Tokens/W para evaluar diferentes chips.

Históricamente, cuando la eficiencia de la energía en los motores de combustión interna aumentó en relación a su peso, nacieron los autos, los aviones y los cohetes.

En la era de la IA, cuando la producción de un sistema de IA (actualmente en tokens) en relación con el consumo de energía aumenta, la inteligencia se vuelve más avanzada, y la AGI puede surgir en ese proceso.

Lo que realmente importa en GTC 2026 no es si NVIDIA será o no el “rey de los tokens”, sino la claridad en la nueva métrica de medición en la era de la IA.

Y más allá, NVIDIA, Alibaba y otros gigantes de la industria ya están empezando a entender que hay que ver el desarrollo de la IA desde una perspectiva sistémica.

Eso está alineado con la tendencia principal de la civilización humana: usar menos energía para recopilar, transmitir y procesar más información.

La AGI no será una excepción.

Fuente: Tencent Tech

Aviso de riesgo y exención de responsabilidad

El mercado tiene riesgos, invierta con prudencia. Este artículo no constituye consejo de inversión personal y no considera objetivos, situación financiera o necesidades particulares de cada usuario. Los usuarios deben evaluar si las opiniones, puntos de vista o conclusiones aquí expresadas son apropiadas para su situación específica. La inversión es bajo su propio riesgo.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.