Então há algumas notícias interessantes sobre Groq que estão circulando a respeito do movimento estratégico da NVIDIA no espaço de inferência. Acontece que Jensen Huang acabou de explicar o verdadeiro raciocínio por trás de por que eles foram atrás da Groq em primeiro lugar.



Em dezembro passado, a NVIDIA investiu $20 bilhões para adquirir o negócio de chips de inferência da Groq. O fundador Jonathan Ross e sua equipe principal foram para a NVIDIA, mas aqui está o ponto—a Groq ainda opera de forma independente. Depois, na GTC deste março passado, eles mostraram o chip Groq 3 LPU construído com o processo de 4nm da Samsung. Os números de desempenho são bastante impressionantes: 35x a taxa de throughput de inferência por megawatt em modelos de trilhões de parâmetros, comparado ao Blackwell NVL72 da NVIDIA.

Mas o que realmente chamou minha atenção foi a explicação de Huang sobre a dinâmica de mercado que impulsiona isso. Ele fala sobre como o mercado de inferência está se dividindo em diferentes segmentos. Durante anos, todo mundo focou em uma coisa: maximizar o throughput. Mas isso está mudando. A economia dos tokens mudou drasticamente. Diferentes usuários agora valorizam tempos de resposta diferentes de forma distinta, e estão dispostos a pagar de acordo.

Huang colocou de forma bastante clara: se você puder oferecer aos desenvolvedores tokens com resposta mais rápida que os tornem mais produtivos, eles pagarão preços premium por essa capacidade. Este é um mercado relativamente novo que surgiu recentemente. Ele está basicamente expandindo a fronteira de Pareto—adicionando um segmento de baixa latência, com preços por token mais altos, ao lado das soluções de alto throughput existentes.

É aí que entra a arquitetura LPU da Groq. Ela foi construída para uma latência determinística baixa, o que é quase o oposto do que os GPUs otimizam. Os GPUs dominam em throughput. Portanto, a aquisição da Groq basicamente preenche uma lacuna na estratégia de produtos da NVIDIA. Você pode rodar o mesmo modelo de duas maneiras diferentes: maximizar o throughput nos GPUs, ou obter uma latência ultra-baixa na LPU da Groq. Modelos de precificação diferentes para casos de uso distintos.

As notícias da Groq aqui realmente destacam como o mercado de inferência de IA está amadurecendo além do mero poder de computação bruto. Trata-se de entender o que diferentes clientes realmente precisam e construir a ferramenta certa para cada segmento. Uma jogada bastante inteligente, se você me perguntar.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar