Hoje, o evento mais importante é a conferência GTC da Nvidia, praticamente uma história da humanidade em versão IA.

robot
Geração de resumo em curso

Hoje, o mais importante é a conferência GTC da Nvidia — praticamente uma História da Humanidade em versão IA.

O Huang Jenxun nem subiu ao palco ainda, e a quantidade de informação vazada antecipadamente já daria para escrever um livro.

A Lili-Lili organizou três grandes destaques. Vamos, pessoal, venham comigo.

1)Os custos de computação de IA ficam logo a um décimo

A geração anterior, a Blackwell, já era bem potente, certo. Em breve, será anunciada a produção em massa da nova geração de chips, a Vera Rubin.

Em que a Vera Rubin é forte? Em resumo, são duas palavras: é barata.

Ao correr os mesmos modelos de IA, a quantidade de chips é reduzida para um quarto, e o custo computacional de inferência desce 90%. Desce 90%, amigos. A AWS, a Microsoft e a Google, as três grandes empresas de cloud, já vão entrar na primeira leva.

2)Os 20 mil milhões de dólares que a Groq custou no ano passado — agora entregue o trabalho de casa

Antes, o Huang Jenxun disse numa reunião de resultados que a Groq entraria no ecossistema da Nvidia como uma arquitetura de extensão, tal como na altura em que compraram a Mellanox para completar capacidades de rede.

A LPU da Groq e a GPU da Nvidia ficam no mesmo data center: a GPU entende o problema, e a LPU fica encarregue de cuspir rapidamente a resposta.

Com divisão de trabalho entre os dois tipos de chips e colaboração, a latência em cenários de agentes cai diretamente para baixo.

Um agente de IA faz o trabalho por humanos; uma tarefa pode voltar e ir e ajustar o modelo dezenas de vezes, e em cada rodada há consumo de capacidade de inferência. E o utilizador fica ali à espera: se for mais lento, a experiência desaba.

A inferência é feita em duas etapas: primeiro, compreender o seu problema; depois, emitir a resposta letra por letra, uma palavra após a outra.

A GPU é ótima na primeira etapa, mas na segunda etapa, a velocidade e a estabilidade de “falar” letras, a LPU da Groq é mais forte.

20 mil milhões foram caros?

Pensem: no futuro, cada empresa vai correr centenas de agentes, e cada agente vai ajustar modelos milhares de vezes por dia.

3)A versão da Nvidia do OpenClaw entra em funcionamento, chama-se NemoClaw

É basicamente uma plataforma open source: a empresa instala e consegue implementar “empregados de IA” para substituir humanos a executar processos, tratar dados e gerir projetos. Dizem que já está em negociações com a Salesforce e a Adobe.

O que há de interessante é que a NemoClaw não exige que você use chips da Nvidia. Reparem nesta lógica. Vender chips dá lucro só na camada de hardware; são as regras que fazem o dinheiro da cadeia inteira. O Huang Jenxun fez bem as contas.

4)Huang Jenxun diz que vai mostrar «um chip que o mundo nunca viu»

Muito provavelmente, é a primeira aparição da Feynman, a arquitetura da próxima próxima geração, com produção em massa em 2028, usando o processo de 1,6 nm mais avançado da TSMC.

Além disso, há um material menos falado que eu acho bastante interessante.

A Nvidia lançou processadores para portáteis, duas versões, com foco em jogos. Quem vende placas gráficas vai ter de vir conquistar o “pão” do CPU.

Sinceramente, acho que, no futuro, o Huang Jenxun vai tornar-se um grande vulto da sua geração.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar