Hoje, o evento mais importante é a conferência GTC da Nvidia, praticamente uma história da humanidade em versão IA.

robot
Geração de resumo em curso

Hoje, a coisa mais importante é a conferência GTC da Nvidia — é mesmo uma espécie de “História Universal do Homem”, versão IA.

Ainda nem o Huang Jen-Hsün subiu ao palco, mas a quantidade de informação vazada antecipadamente já daria para escrever um livro.

A Wanning organizou três pontos-chave. Vamos lá, pessoal, venham comigo.

1)Os custos de computação de IA caem diretamente para um décimo

A geração anterior, a Blackwell, já era muito forte, certo?
Em breve, vão anunciar a produção em massa do novo chip de próxima geração, o Vera Rubin.

O que o Vera Rubin tem de impressionante? Em resumo, são duas coisas: é barato.

Executando o mesmo modelo de IA,
a quantidade de chips fica reduzida para um quarto, e o custo de computação de inferência desce 90%.
Desce 90%, amigos.
A AWS, a Microsoft e o Google, os três grandes fornecedores de cloud, já vão entrar na primeira leva.

2)O Groq que custou 20 mil milhões de dólares no ano passado, hoje entrega os trabalhos

Antes, o Huang Jen-Hsün disse em uma reunião de resultados que o Groq seria integrado ao ecossistema da Nvidia como parte de uma arquitetura de extensão, tal como na altura em que adquiriram a Mellanox para completar as capacidades de rede.

O LPU do Groq fica no mesmo centro de dados que as GPUs da Nvidia: a GPU compreende o problema, e o LPU encarrega-se de cuspir rapidamente as respostas.

Com esta divisão de trabalho e colaboração entre dois tipos de chips, a latência em cenários de agentes cai diretamente.

Agentes de IA fazem o trabalho por você. Uma tarefa pode acabar por ajustar o modelo dezenas de vezes, a cada volta queimando capacidade de inferência, e o utilizador está ali à espera — se for mais lento, a experiência fica comprometida.

A inferência tem dois passos: primeiro compreender a tua pergunta, e depois “a uma letra por vez” cuspir a resposta.

A GPU é boa no primeiro passo, mas no segundo, a velocidade e estabilidade de “despejar” palavras: o LPU do Groq é mais forte.

20 mil milhões é caro?

Pensem nisto: no futuro, cada empresa vai correr centenas de agentes, e cada agente vai ajustar modelos milhares de vezes por dia.

3)O OpenClaw da Nvidia é lançado, chamado NemoClaw

É basicamente uma plataforma open source: as empresas instalam e conseguem implementar “empregados de IA” para executar processos no lugar de humanos, tratar dados e gerir projectos.
Dizem que já estão a negociar com a Salesforce e a Adobe.

O mais interessante é que o NemoClaw não te exige que uses chips da Nvidia.
Reparem nesta lógica. Vender chips ganha apenas dinheiro numa camada — a do hardware. Para ganhar dinheiro na cadeia inteira, tens de definir as regras. O Huang Jen-Hsün calcula esta conta com clareza total.

4)O Huang Jen-Hsün diz que vai mostrar “um chip que o mundo nunca viu”

Provavelmente é a estreia, pela primeira vez, da arquitectura para a próxima geração — o Feynman — com produção em 2028, utilizando o processo de 1,6 nm mais avançado da TSMC.

Além disso, há outro material “menos esperado” que eu acho bem interessante.

A Nvidia lançou processadores para portáteis — dois modelos, com foco em jogos.
Os que vendem placas gráficas vêm agora disputar a refeição do ramo da CPU.

Sinto que a Wanning, no futuro, o Huang Jen-Hsün vai tornar-se um grande líder de uma era.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar