Nvidia e Alibaba reavaliaram a IA, jogando FLOPS "para o lixo"

SnapshotLaborer · 2026-03-18T12:06:11+00:00

17 de março, Huang Renxun usou seu icónico casaco de couro no palco do GTC 2026 da Nvidia e fez uma palestra com mais de duas horas. Depois do evento, quase toda a rede estava a dizer "a Nvidia quer ser o rei dos Tokens".Mas se ouvir atentamente esta palestra, descobrirá que o que Huang Renxun realmente martelou repetidamente não foi o Token em si, mas sim Tokens per Watt (Tokens por Watt). Ele expôs explicitamente este conceito quando demonstrava gráficos de desempenho de inferência e disse claramente: cada data center, cada fábrica de IA, está essencialmente limitada pela energia; uma fábrica de 1GW nunca se tornará 2GW, isto é determinado pelas leis da física. Com potência fixa, quem tiver a produção de Tokens por Watt mais elevada terá os custos de produção mais baixos e a curva de receita mais acentuada.Esta é realmente a questão central de toda a conferência GTC 2026.O que a opinião pública gosta de discutir é o Vera

SnapshotLaborer

2026-03-18 12:06:11

17 de março, Jensen Huang subiu ao palco do NVIDIA GTC 2026 vestido com a sua jaqueta icónica e falou por mais de duas horas. Após o evento, quase toda a internet comentou: “A NVIDIA quer ser a rainha dos Tokens”.

Mas, se ouvirmos atentamente essa palestra, perceberemos que o que Jensen Huang realmente repete não é o Token em si, mas Tokens por Watt (Tokens por Watt). Ao mostrar gráficos de desempenho de inferência, ele deixou claro esse conceito e afirmou: cada data center, cada fábrica de IA, está essencialmente limitado pela eletricidade. Uma fábrica de 1 GW nunca se tornará 2 GW, isso é uma lei física. Sob potência fixa, quem produz mais Tokens por Watt tem custos de produção mais baixos e a sua curva de receita é mais íngreme.

Essa frase é o verdadeiro ponto central do GTC 2026.

O que a maioria discute é quanto Vera Rubin é mais forte que Blackwell, se o Groq LPX pode acelerar a inferência em 35 vezes, ou se a NVIDIA vai levar seus data centers ao espaço. Tudo isso é importante, mas, na essência, são diferentes expressões do mesmo raciocínio: sob restrições energéticas, maximizar a produção inteligente por Watt.

Quando Jensen Huang usa “Tokens/W” como métrica principal de produção de fábricas de IA, há uma camada mais profunda de significado industrial: o sistema de medição da competição de poder de processamento, que está migrando de chips para sistemas completos, de picos de desempenho para eficiência de ponta a ponta, de quem tem o chip mais rápido para quem consegue transformar energia em inteligência com maior eficiência.

Sob o atual conjunto de produtos e tecnologias, a NVIDIA e Jensen Huang ainda estão presos ao token/W; para se tornarem verdadeiramente os reis dos tokens, ainda há muitos passos a dar.

Esta é uma transição de “linguagem de medição inteligente”, e a perspectiva industrial que ela abre é muito mais valiosa do que qualquer novo chip.

Coincidentemente, no dia anterior à abertura oficial do GTC, a Alibaba anunciou a criação do Alibaba Token Hub, liderado pessoalmente por Wu Yongming. O núcleo de IA da Alibaba não é nomeado por IA, mas por Token, elevando o Token ao nível estratégico da Alibaba em IA.

Isso também mostra que, ao olhar para IA sob uma perspectiva de sistema, essa visão já está se tornando uma nova compreensão na indústria. Essa é a ideia que queremos enfatizar com este artigo, e o seu significado principal.

01 As mudanças mais importantes do GTC 2026 não estão nos chips

No GTC 2026, o foco continua sendo Vera Rubin, Rubin POD, LPX, DSX AI Factory e outros novos produtos e conceitos. Mas, ao juntar esses lançamentos, percebe-se que a narrativa da competição de poder de processamento evolui do nível de um chip para a infraestrutura de cálculo, ou seja, uma fábrica de IA composta por computação, rede, armazenamento, energia, refrigeração, sistemas de controle e software.

Rubin é descrito como uma plataforma em escala POD, composta por múltiplos racks formando um sistema grande e coerente; o DSX é definido como um projeto de referência para fábricas de IA, com o objetivo de maximizar Tokens por Watt.

Isso indica que a verdadeira competição na indústria mudou de quão potente é um chip para quão forte é o sistema de computação completo. Mais especificamente, se o sistema consegue organizar eficientemente recursos limitados de energia, refrigeração e rede para gerar resultados de IA estáveis.

A métrica específica é Tokens/W.

Este artigo busca, a partir dessa métrica, entender o significado das novidades do evento e as oportunidades que elas trazem para o desenvolvimento da infraestrutura de IA.

02 Como a competição virou sistema, a métrica também precisa evoluir

As métricas do era dos chips são bem conhecidas: pico de desempenho em FLOPS, largura de banda de memória, FLOPS/W, TOPS/W, bit/J. Essas métricas descrevem os limites de capacidade de um componente.

Porém, na prática, surge uma situação desconfortável: não há uma métrica objetiva, unificada e universal para centros de inteligência computacional.

Normalmente, mede-se a energia de um data center em MW, e na China, usa-se PFlops (com base em FP16) como métrica de poder de processamento. Mas, mesmo com a mesma métrica de poder ou energia, clusters com chips, redes e refrigeração diferentes terão eficiências distintas.

A razão é simples: as métricas anteriores só medem um aspecto. Pico de desempenho descreve o potencial teórico de um chip; bit/J mede eficiência de transferência de dados local; largura de banda mede capacidade de comunicação de um subsistema. São métricas de um único nível.

Porém, a questão final de um sistema de IA é: sob restrições de potência, refrigeração e espaço, qual a quantidade efetiva de resultados de IA que ele consegue produzir? Essa resposta não pode ser dada apenas por métricas de chips.

Na linguagem do GTC, aparecem conceitos como: custo por token, throughput por Watt, desempenho por Watt, Tokens/W.

A linguagem de medição está migrando de componentes para sistemas.

Assim, se as métricas de chips são pico de desempenho, largura de banda e bit/J, a métrica mais adequada para sistemas é Token/W. A primeira mede capacidade de componentes, a segunda mede produção global. A primeira é uma otimização local, a segunda, uma otimização de sistema.

03 Token/W conecta energia à produção inteligente

No GTC 2026, NVIDIA descreve o token como a unidade básica da IA moderna. Essa definição é bastante precisa. Para grandes modelos de linguagem, inferência, sistemas de agentes, o que o usuário realmente paga é a capacidade do sistema de gerar e processar tokens.

Do ponto de vista de operação, tokens têm três vantagens: 1) estão diretamente ligados ao processo de inferência; 2) estão ligados ao modelo de receita; 3) são adequados para novas cargas de trabalho na era da inferência.

Agentes, diálogos múltiplos, contexto longo, busca aprimorada, chamadas a ferramentas, cadeias de inferência — essas cargas são difíceis de descrever apenas com FLOPS, mas deixam marcas em tokens, latência e throughput.

Mais importante, as restrições de infraestrutura de IA hoje refletem-se cada vez mais em restrições energéticas. Segundo o relatório “Energy and AI” da IEA, até 2030, o consumo global de energia de data centers deve atingir cerca de 945 TWh, um aumento significativo; a IA será um dos principais motores desse crescimento, especialmente nos EUA. Em outras palavras, muitos problemas da indústria de IA, que parecem ser de chips, na verdade são de energia, refrigeração e organização de infraestrutura.

O conceito de Tokens/W é valioso porque conecta a cadeia mais importante da indústria de IA: entrada de energia, processamento, rede, armazenamento, agendamento e refrigeração, até a produção de tokens.

Nesse sentido, Tokens/W não substitui simplesmente FLOPS/W ou bit/J, mas acrescenta uma camada de visão que antes não era considerada: quanto de energia a um sistema de IA realmente converte em inteligência.

A maior importância do GTC 2026 está aqui: não se pode mais olhar isoladamente para chips, é preciso colocá-los dentro do sistema, e este, dentro das restrições industriais.

Essa é a perspectiva que o autor defende: ao analisar chips de IA, não basta olhar pico de desempenho, memória, interface; é preciso entender como eles colaboram na rede, como são implantados em racks, como consomem energia na instalação, como impactam o custo final e, por fim, como geram resultados de negócio.

O GTC 2026, de certa forma, valida essa visão sistêmica. Quando a própria NVIDIA começa a focar sua narrativa na fábrica de IA, a indústria já está deixando o paradigma do chip de IA para trás e migrando para o sistema de computação.

Isso é fundamental. Muitas indústrias, no início, se concentram em parâmetros de componentes, pois são mais fáceis de medir e divulgar. Mas, na fase de implantação em larga escala, o que realmente decide o sucesso é a capacidade de organização do sistema. A infraestrutura de IA de hoje já atingiu esse estágio.

04 De Tokens/W para baixo, a importância da interconexão óptica aumenta

Quando a métrica migra para o nível de sistema, muitas etapas antes consideradas complementares ganham destaque.

A interconexão óptica é um exemplo clássico. Antes, o foco era em módulos ópticos, comunicação, dispositivos: maior largura de banda, transmissão mais longa, menor consumo por bit, maior densidade de banda, menor perda de inserção. Tudo isso é importante, mas ainda no nível de componentes e chips. Com a nova métrica Tokens/W, o valor da interconexão óptica fica mais claro: ela reduz o consumo energético na transferência de dados, aumentando a capacidade do sistema de transformar energia em tokens.

Ao falar dos produtos de rede óptica da NVIDIA, a CPO baseada em fotônicos oferece até 5 vezes mais eficiência energética, menor latência e maior escala de expansão para fábricas de IA.

O ponto não é só tecnologia de ponta, mas a capacidade de escalar o sistema e melhorar sua eficiência.

Do ponto de vista industrial, é fácil entender: à medida que modelos crescem, o contexto se alonga, e os clusters aumentam, grande parte do consumo de energia não ocorre nos núcleos de cálculo, mas na transferência de dados entre chips, placas, racks e pods.

Nessa fase, aumentar Tokens/W não depende apenas de GPUs mais potentes, mas de interconexões mais eficientes.

Por isso, do ponto de vista de Tokens/W, investir em interconexões ópticas não é só uma inovação tecnológica, mas uma necessidade para a sustentabilidade de grandes sistemas de IA.

05 Computação óptica, mais avançada, mas com lógica também em evolução

A computação óptica é mais precoce que a interconexão óptica, e isso é realista.

Questões de versatilidade, precisão, compiladores, fabricação, integração de sistemas ainda estão em desenvolvimento. Mas, ao olhar para o sistema, sua importância industrial fica mais clara do que nunca.

Porque o Tokens/W mede a eficiência de ponta a ponta. Quem consegue reduzir o consumo de energia em rotas de alta frequência, alta densidade e mapeamento repetível, tem chance de aumentar a eficiência de Tokens/W no sistema. Essa lógica não exige que a computação óptica substitua totalmente GPUs, nem que seja uma solução universal de uma hora para outra.

Basta que, em cargas de trabalho específicas, toda a cadeia de energia por token seja reduzida, e a produção de tokens sob potência fixa seja aumentada.

Por isso, a narrativa da computação óptica precisa evoluir de uma ênfase em eficiência de componentes para a contribuição de economia de energia no sistema. Se a indústria focar apenas em TOPS/W ou MAC/J, será uma história de laboratório; mas, ao olhar para Tokens/W, ela pode entrar na discussão de infraestrutura.

Essa mudança é especialmente importante para a computação óptica, pois ela finalmente fornece uma linguagem de alto nível para dialogar com clientes, parques tecnológicos, energia e investimentos.

06 Quando a métrica de poder de processamento migra do chip para o sistema, a interconexão e a computação óptica se tornam centrais

Enquanto a competição por desempenho ainda se concentra nos chips, a interconexão óptica é vista como uma tecnologia de entrada/saída, e a computação óptica, como uma exploração de ponta.

Quando a competição migra para infraestrutura de sistemas de grande escala, tudo muda. A eficiência do sistema passa a depender de consumo de energia em cálculos intensivos, transferência de dados, gerenciamento de contexto, coordenação entre nós, organização de energia e refrigeração — áreas onde a óptica tem grande potencial.

De Tokens/W, a solução para o transporte de energia na geração de tokens é a interconexão óptica; a computação óptica tenta reduzir parte do consumo de energia em cálculos. Ambas impactam a eficiência de produção de tokens do sistema.

Essa é a razão de entrarem na linha principal da indústria.

De forma mais prática, além da capacidade de chips, os futuros desafios de data centers e fábricas de IA incluem conexão à rede elétrica, refrigeração, consumo de energia no parque, densidade de potência em racks e velocidade de implantação. Relatórios como o da IEA sobre o consumo energético da IA e as declarações da NVIDIA sobre fábricas de IA apontam na mesma direção: infraestrutura de IA está se tornando um sistema que mede energia.

Seguindo essa nova direção, a interconexão e a computação óptica resolvem problemas cada vez mais caros e difíceis de otimizar por métodos tradicionais: o custo energético na transferência de dados e o consumo por unidade de cálculo em alta densidade.

Por trás disso, há uma visão de sistema mais completa. E é por isso que o GTC 2026 voltou a destacar produtos de fotônica e silício fotônico: quando a métrica de desempenho passa do chip para o sistema, a óptica deixa de ser uma tecnologia avançada e passa a ser uma infraestrutura industrial viável.

Deixando de lado o chip, o sistema de computação óptica tem um futuro promissor!

Para finalizar: o eixo do avanço da AGI

O autor sempre defendeu a criação de métricas objetivas de capacidade de cálculo, usando Tokens/W para testar diferentes chips.

Historicamente, quando a eficiência de energia de motores de combustão interna aumentou, carros nasceram, aviões decolaram, foguetes foram lançados.

Na era da IA, quando a proporção entre resultados (Tokens) e energia consumida aumenta, a inteligência se torna mais avançada, e a AGI pode surgir nesse processo.

O que realmente importa no GTC 2026 não é a glória ou a derrota de uma única empresa, nem se Jensen Huang será o “Rei dos Tokens”, mas a definição de uma nova métrica na era da IA.

Mais ainda, NVIDIA, Alibaba e outros gigantes já percebem que é preciso adotar uma visão sistêmica para o desenvolvimento da IA.

Isso está alinhado com o principal eixo da civilização humana: usar menos energia para coletar, transmitir e processar mais informações.

A AGI também seguirá essa lógica!

Fonte: Tencent Tech

Aviso de risco e isenção de responsabilidade

O mercado apresenta riscos, e investimentos devem ser feitos com cautela. Este artigo não constitui aconselhamento de investimento pessoal, nem leva em conta objetivos, situação financeira ou necessidades específicas de cada usuário. Os usuários devem avaliar se as opiniões, pontos de vista ou conclusões aqui apresentadas são compatíveis com suas condições particulares. Investimentos são de responsabilidade do investidor.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.