Hoje, o evento mais importante é a conferência GTC da Nvidia, praticamente uma história da humanidade em versão IA.

robot
Geração de resumo em curso

Hoje, a coisa mais importante é a conferência GTC da Nvidia — é praticamente uma espécie de “História Universal” da IA.

O Huang Renxun ainda nem subiu ao palco, mas a quantidade de informação vazada antecipadamente já dá para escrever um livro.

A VAnWan reuniu três destaques, vamos lá, pessoal — acompanhem-me.

1)Os custos de computação da IA ficam diretamente com 1/10

A geração anterior, Blackwell, já era muito forte, certo? Em breve vai ser anunciado a produção em larga escala do novo chip de próxima geração, Vera Rubin.

Em que é que o Vera Rubin é tão forte? Em palavras simples: é barato.

Ao executar o mesmo modelo de IA, a quantidade de chips é reduzida para um quarto e o custo de computação da inferência desce 90%. Desce 90%, amigos. A AWS, a Microsoft e a Google, as três maiores empresas de cloud, já vão ser as primeiras a entrar na “primeira leva”.

2)A Groq, comprada no ano passado por 20 mil milhões de dólares, hoje entrega o trabalho

Antes, o Huang Renxun, numa reunião de resultados, disse que a Groq seria integrada como uma arquitetura extensível no ecossistema da Nvidia — como quando, na altura, ao adquirir a Mellanox, foram para complementar as capacidades de rede.

A Groq LPU e a Nvidia GPU ficam no mesmo centro de dados: a GPU entende o problema e a LPU encarrega-se de “cusparir” rapidamente a resposta.

Com a divisão de funções entre os dois tipos de chips, a latência em cenários de agentes cai diretamente.

Os agentes de IA fazem o trabalho por pessoas. Uma tarefa pode ajustar o modelo dezenas de vezes, e em cada rodada o sistema está a queimar poder de computação de inferência — e o utilizador fica ali à espera; se ficar mais lento, a experiência desmorona.

A inferência tem duas etapas: primeiro, compreender a tua pergunta; depois, letra a letra, “vomitar” a resposta.

As GPUs são excelentes na primeira etapa, mas na segunda etapa, a velocidade e a estabilidade de “escrever palavras”: a Groq LPU é mais forte.

20 mil milhões é caro?

Imagina o futuro: daqui para a frente, cada empresa vai correr centenas de agentes, e cada agente vai ajustar o modelo milhares de vezes por dia.

3)Lança-se a versão da Nvidia do OpenClaw, chamada NemoClaw

É basicamente um conjunto de uma plataforma open source; as empresas instalam e conseguem implementar “empregados de IA” para correr fluxos de trabalho em substituição de pessoas, tratar dados e gerir projectos. Diz-se que já estão a negociar com a Salesforce e a Adobe.

O que é interessante é que o NemoClaw não te exige que uses chips da Nvidia. Analisa bem esta lógica. Vender chips dá lucro apenas na camada de hardware; definir as regras é o que faz dinheiro na cadeia inteira. O Huang Renxun sabe perfeitamente fazer estas contas.

4)O Huang Renxun diz que vai mostrar um “chip que o mundo nunca viu”

É muito provável que seja a primeira aparição da arquitectura da penúltima geração seguinte, a Feynman, com produção em 2028, e que a TSMC use o seu processo mais avançado de 1.6nm.

Além disso, há mais uma peça de informação “de nicho” que eu acho bastante interessante.

A Nvidia está a lançar processadores para computadores portáteis — são dois, com foco em jogos. Quem vende placas gráficas vai ter de vir roubar as “tretas” do CPU.

A VAnWan, sinceramente, sinto que no futuro o Huang Renxun vai tornar-se um grande nome da nossa geração.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar