Uma coisa interessante aconteceu com o mercado de inferência de IA, sobre a qual vale a pena falar. A NVIDIA adquiriu a Groq, e quando Juan Rensun começou a explicar a lógica deste acordo, ficou claro que não era por acaso.



Até então, todo o foco estava em uma coisa: como passar mais dados ao mesmo tempo, ou seja, na largura de banda. Mas, na verdade, o mercado se dividiu. Alguns utilizadores estão dispostos a pagar um preço mais alto para obter uma resposta mais rápida. Os tokens tornaram-se mais caros, e o tempo de geração começou a ter um custo real. Isso muda todo o jogo.

Portanto, a Groq especializa-se exatamente nisso — na baixa latência. A sua arquitetura LPU foi construída para fornecer uma latência determinística e previsível. Quando a NVIDIA adquiriu a Groq, basicamente preencheram uma lacuna no seu portfólio. As GPUs da NVIDIA continuam a ser reis em largura de banda, mas para o segmento de baixa latência, é necessária uma arquitetura diferente.

O novo chip Groq 3 LPU é o primeiro produto após a fusão, fabricado com tecnologia de 4 nm. Segundo a NVIDIA, sua eficiência ao trabalhar com modelos grandes é 35 vezes superior às do seu flagship Blackwell NVL72. Não se trata de velocidade absoluta, mas de quanta potência é necessária para alcançar essa velocidade.

Praticamente, isso significa que agora é possível oferecer soluções diferentes para necessidades distintas: quer máxima largura de banda — há GPUs; precisa de uma resposta rápida a qualquer custo — há Groq. O mesmo modelo pode custar de formas diferentes, dependendo de quão rápido você deseja o resultado. Isso amplia os limites do que pode ser otimizado no mercado de inferência.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar