Em 3 de agosto de 2023, Wall Street e Silicon Valley apresentaram conjuntamente um grande evento que chocou a indústria: permitir que uma empresa iniciante obtivesse US$ 2,3 bilhões em financiamento de dívida, e a garantia era a moeda mais forte do mundo – placa gráfica H100.
O protagonista deste grande evento se chama CoreWeave. Seu principal negócio são serviços de nuvem privada de IA. Simplificando, ele fornece infraestrutura de computação para startups de IA e grandes clientes comerciais, construindo um data center com grande poder de computação GPU. CoreWeave arrecadou um total de US$ 580 milhões e está atualmente na Série B com uma avaliação de US$ 2 bilhões.
A CoreWeave foi fundada em 2016 por três traders de commodities de Wall Street. No início, a empresa tinha apenas um negócio principal: mineração, e comprou um grande número de GPUs para construir um centro de máquinas de mineração. Especialmente quando o círculo monetário estava em baixa, a empresa estocava um grande número de placas gráficas de forma anticíclica e, assim, estabeleceu uma amizade revolucionária de núcleo de ferro com a Nvidia.
Três cofundadores da CoreWeave
Em 2019, CoreWeave começou a transformar essas máquinas de mineração em centros de dados de nível empresarial para fornecer aos clientes serviços em nuvem de IA.O negócio era morno no início, mas após o nascimento do ChatGPT, o treinamento e a inferência de grandes modelos consomem muito poder de computação todos os dias. CoreWeave, que já possui dezenas de milhares de placas gráficas (é claro, não necessariamente o modelo mais recente), decolou às pressas e a porta estava lotada de clientes e investidores de capital de risco.
Mas o que faz as pessoas se sentirem estranhas é: CoreWeave arrecadou apenas um total de 580 milhões de dólares americanos, e o valor líquido da GPU no livro não excederá 1 bilhão de dólares americanos. Mesmo a avaliação geral da empresa é de apenas 2 bilhões de dólares americanos, mas por que pode emprestar 2,3 mil milhões através de hipotecas? Porque é que Wall Street, que sempre foi boa em cálculos e disposta a reduzir o valor das garantias, é tão generosa?
O motivo é mais provável: embora CoreWeave não tenha tantas placas gráficas em sua conta, ela recebeu um compromisso de fornecimento da Nvidia, especialmente o H100.
O relacionamento próximo da CoreWeave com a Nvidia já é um segredo aberto no Vale do Silício. Esse tipo de hardcore está enraizado na lealdade inabalável e no suporte da CoreWeave à Nvidia - usando apenas placas Nvidia, decididamente não fabricando seus próprios núcleos e ajudando a Nvidia a estocar placas quando as placas gráficas não podem ser vendidas. Para Huang, o valor desta relação excede em muito as amizades plásticas com Microsoft, Google e Tesla.
Portanto, apesar da escassez de Nvidia H100, a Nvidia alocou um grande número de novas placas para CoreWeave, mesmo às custas de limitar o fornecimento a grandes fabricantes como Amazon e Google. Huang Renxun elogiou durante a teleconferência: "Um novo grupo de provedores de serviços em nuvem GPU surgirá, o mais famoso deles é o CoreWeave. Eles estão indo muito bem."
Uma semana antes de Xi levantar os US$ 2,3 bilhões, a CoreWeave anunciou que gastaria US$ 1,6 bilhão para construir um data center cobrindo uma área de 42 mil metros quadrados no Texas. Contando apenas com o relacionamento com a Nvidia e os direitos de distribuição prioritária, a CoreWeave pode pedir dinheiro emprestado ao banco para construir o data center – esse modelo lembra as pessoas de incorporadores imobiliários que imediatamente buscam empréstimos bancários após adquirir o terreno.
Portanto, pode-se dizer que o atual compromisso de fornecimento do H100 é comparável a um documento de aprovação de terreno na era de ouro do setor imobiliário.
H100 é uma placa difícil de encontrar
Numa entrevista em abril deste ano, Musk reclamou que [2] : "Até os cães parecem estar comprando GPUs agora."
Ironicamente, a Tesla lançou seu chip D1 autodesenvolvido já em 2021. Ele foi fabricado pela TSMC e usou um processo de 7 nm, alegando ser capaz de substituir o A100 principal da Nvidia na época. Mas 2 anos depois, a Nvidia lançou o H100 mais poderoso, e o D1 da Tesla não tem nenhuma iteração subsequente.Portanto, quando Musk tentou formar sua própria empresa de inteligência artificial, ele ainda teve que se ajoelhar na frente da porta do Sr. Huang e pedir permissão. .
O H100 foi lançado oficialmente em 20 de setembro do ano passado, fabricado pelo processo 4N da TSMC. Comparado com o A100 anterior, o cartão único H100 pode aumentar a velocidade de inferência em 3,5 vezes e a velocidade de treinamento em 2,3 vezes; se o método de computação em cluster de servidor for usado, a velocidade de treinamento pode ser aumentada em 9 vezes. A carga de trabalho do original semana, agora leva apenas 20 horas.
Diagrama da Arquitetura GH100
Comparado com o A100, o preço de uma única placa do H100 é mais caro, cerca de 1,5 a 2 vezes o do A100, mas a eficiência do treinamento de modelos grandes aumentou 200%, então o "desempenho por dólar" é maior . Se combinado com a mais recente solução de sistema de conexão de alta velocidade da NVIDIA, o desempenho da GPU por dólar pode ser 4 a 5 vezes maior, por isso é muito procurado pelos clientes.
Os clientes que correm para comprar o H100 são divididos principalmente em três categorias:
A primeira categoria são gigantes abrangentes da computação em nuvem, como Microsoft Azure, Google GCP e Amazon AWS. Sua característica é que eles são ricos e poderosos e querem "cercar" a capacidade de produção da Nvidia a cada passo, mas cada um deles também esconde seus próprios pensamentos, insatisfeitos com a posição de quase monopólio da Nvidia, e secretamente desenvolve seus próprios chips para reduzir custos.
A segunda categoria são os provedores independentes de serviços de GPU em nuvem, empresas típicas como CoreWeave mencionadas acima, bem como Lambda, RunPod, etc. Esse tipo de empresa tem um poder computacional relativamente pequeno, mas pode prestar serviços diferenciados. A Nvidia também apoia fortemente esse tipo de empresa, e até investe diretamente em CoreWeave e Lambda. O objetivo é muito claro: prestar serviços para aquelas gigantes que constroem núcleos em particular. Coloque colírio.
A terceira categoria são grandes e pequenas empresas que estão treinando LLM (Large Language Model). Inclui startups como Anthropic, Inflection e Midjourney, bem como gigantes da tecnologia como Apple, Tesla e Meta. Eles geralmente usam o poder de computação de provedores externos de serviços em nuvem enquanto compram suas próprias GPUs para construir seus próprios fogões - aqueles que têm dinheiro compram mais, aqueles que não têm dinheiro compram menos, e o objetivo principal é permitir que as pessoas sejam ricas e frugais.
Entre esses três tipos de clientes, o Microsoft Azure tem pelo menos 50.000 H100s, o Google tem cerca de 30.000 H100s, a Oracle tem cerca de 20.000 e a Tesla e a Amazon também têm pelo menos cerca de 10.000. Diz-se que CoreWeave tem um compromisso de cota de 35.000 (o valor real a entrega é de cerca de 10.000). Outras empresas raramente têm mais de 10.000 cópias.
De quantos H100 esses três tipos de clientes precisam no total? De acordo com previsões da organização estrangeira GPU Utils, a demanda atual pelo H100 é de aproximadamente 432.000. Entre eles, OpenAI precisa de 50.000 planilhas para treinar GPT-5, Inflection requer 22.000 planilhas, Meta requer 25.000 planilhas (alguns dizem 100.000 planilhas) e cada um dos quatro principais fornecedores de nuvem pública precisa de pelo menos 30.000 planilhas. São 100.000 peças, e outros pequenos fabricantes de modelos também têm demanda por 100.000 peças. [3] 。
As remessas de H100 da Nvidia em 2023 serão de cerca de 500.000 unidades. Atualmente, a capacidade de produção da TSMC ainda está aumentando. Até o final do ano, a dificuldade de encontrar uma placa H100 será aliviada.
Mas, a longo prazo, a lacuna entre a oferta e a procura do H100 continuará a aumentar com a explosão das aplicações AIGC. De acordo com o Financial Times, as remessas de H100 chegarão a 1,5 milhão a 2 milhões de folhas em 2024, um aumento de 3 a 4 vezes em comparação com as 500.000 folhas deste ano. [4] 。
As previsões de Wall Street são ainda mais radicais: o banco de investimentos norte-americano Piper Sandler acredita que a receita do data center da Nvidia ultrapassará US$ 60 bilhões no próximo ano (2º trimestre do ano fiscal: US$ 10,32 bilhões). Com base nesses dados, o volume de remessas de cartões A+H está próximo de 3 milhões de cópias.
Existem estimativas ainda mais exageradas. A maior fundição de um certo servidor H100 (com uma participação de mercado de 70% a 80%) envia servidores H100 desde junho deste ano, e sua capacidade de produção continuou a aumentar em julho. Uma pesquisa recente mostra que a fundição acredita que o volume de remessas de cartões A+H em 2024 ficará entre 4,5 milhões e 5 milhões.
Isso significa “tremenda riqueza” para a Nvidia, porque os enormes lucros do H100 são inimagináveis para pessoas de outros setores.
Placas gráficas mais caras que ouro
Para entender o quão lucrativo é o H100, podemos também desmantelar sua lista de materiais (BOM).
Conforme mostrado na figura, o H100 SXM, a versão mais comum do H100, adota o pacote TSMC CoWoS de 7 chips e seis chips 16G HBM3 estão dispostos em duas fileiras ao redor do chip lógico no meio.
Isso também constitui as três partes mais importantes do H100: chip lógico, chip de memória HBM, pacote CoWoS.Além disso, existem também alguns componentes auxiliares, como placas PCB e outros componentes auxiliares, mas seu valor não é alto.
Diagrama de desmontagem do H100
O tamanho do chip lógico principal é 814 mm ^ 2, produzido na mais avançada fábrica Tainan nº 18 da TSMC, e o nó de processo usado é "4N". Embora o nome comece com 4, na verdade é 5 nm +. Devido à fraca prosperidade no downstream de 5nm, telefones celulares e outras áreas, a TSMC não tem problemas em garantir o fornecimento de chips lógicos.
Este chip lógico é produzido cortando um wafer de 12 polegadas (área 70.695 mm ^ 2). Em condições ideais, 86 peças podem ser cortadas. No entanto, considerando a taxa de rendimento de 80% e a perda de corte da linha "4N", o último Apenas 65 chips lógicos principais podem ser cortados de um wafer de 12 polegadas.
Quanto custa esse chip lógico central? A cotação externa da TSMC para um wafer de 12 polegadas em 2023 é de US$ 13.400, portanto, convertido em uma única unidade, custará cerca de US$ 200.
Em seguida vêm 6 chips HBM3, que atualmente são fornecidos exclusivamente pela SK Hynix. Esta empresa originou-se da eletrônica moderna. Em 2002, quase se comprometeu com a Micron. Está pelo menos 3 anos à frente da Micron em termos de tecnologia de produção em massa (a Micron é preso no HBM2e e a Hynix irá produzi-lo em massa em meados de 2020).
O preço específico do HBM é mantido em segredo por cada empresa, mas de acordo com a mídia coreana, o HBM é atualmente 5 a 6 vezes maior que o dos produtos DRAM existentes. O preço da VRAM GDDR6 existente é de cerca de US$ 3 por GB, então o preço do HBM é estimado em cerca de US$ 15 por GB. Esse H100 SXM custa US$ 1.500 na HBM.
Embora o preço do HBM continue a subir este ano, e os executivos da Nvidia e Meta também tenham ido à Hynix para "supervisionar o trabalho", o HBM3 da Samsung será gradualmente produzido em massa e enviado no segundo semestre do ano. Juntamente com a expansão do sangue ancestral da dupla coreana, deve ser. No próximo ano, a HBM não será mais o gargalo.
O verdadeiro gargalo é a embalagem CoWoS da TSMC, que é um processo de embalagem 2,5D. Comparado com o pacote 3D de perfuração (TSV) e fiação (RDL) diretamente no chip, o CoWoS pode fornecer melhor custo, dissipação de calor e largura de banda de transferência.Os dois primeiros correspondem ao HBM e os dois últimos são a chave para a GPU.
Portanto, se você deseja um chip com alta capacidade de armazenamento e alto poder computacional, o CoWoS é a única solução em termos de embalagem. O fato de todas as quatro GPUs da Nvidia e AMD usarem CoWoS é a melhor evidência.
Quanto custa o CoWoS? O relatório financeiro de 2022 da TSMC revelou que o processo CoWoS foi responsável por 7% da receita total, então o analista estrangeiro Robert Castellano calculou com base na capacidade de produção e no tamanho da matriz que empacotar um chip de IA pode gerar receita de US$ 723 para a TSMC. [6] 。
Portanto, a soma dos três maiores itens de custo acima é de cerca de 2.500 dólares americanos, dos quais TSMC é responsável por cerca de 1.000 dólares americanos (chip lógico + CoWoS), SK Hynix é responsável por 1.500 dólares americanos (a Samsung definitivamente se envolverá no futuro) e depois contar PCB e outros materiais, o custo geral do material não excede 3.000 dólares americanos.
Quanto custa o H100? 35.000 dólares americanos, um zero é adicionado diretamente e a taxa de lucro bruto excede 90%. Nos últimos 10 anos, a margem de lucro bruto da Nvidia foi de cerca de 60%.Agora impulsionada pela alta margem A100/A800/H100, a margem de lucro bruto da Nvidia no segundo trimestre deste ano atingiu 70%.
Isso é um pouco contra-intuitivo: a Nvidia depende muito da fundição da TSMC, e o status desta última é inabalável, e é até o único elo central que pode grudar no pescoço da Nvidia. Mas por esse cartão de US$ 35.000, a TSMC, que o fabrica, só pode receber US$ 1.000, e isso é apenas receita, não lucro.
No entanto, usar a margem de lucro bruto para definir lucros enormes não significa muito para as empresas de chips.Se você começar com areia, a margem de lucro bruto será maior. Um wafer de 12 polegadas com processo 4N, a TSMC vende para todos por quase 15.000 dólares americanos, e a Nvidia pode adicionar um varejo aos clientes, o que naturalmente tem seu próprio talento.
O segredo desse truque é o seguinte: a Nvidia é essencialmente uma empresa de software disfarçada de fabricante de hardware.
Um fosso integrando software e hardware
A arma mais poderosa da NVIDIA está escondida na margem de lucro bruto menos a margem de lucro líquido.
Antes desta rodada de boom de IA, a margem de lucro bruto da Nvidia permanecia em torno de 65% durante todo o ano, enquanto sua margem de lucro líquido era normalmente de apenas 30%. No segundo trimestre deste ano, impulsionada pela alta margem A100/A800/H100, a taxa de lucro bruto foi de 70% e a taxa de lucro líquido chegou a 45,81%.
Margem de lucro bruto e margem de lucro líquido do trimestre único da NVIDIA nos últimos três anos fiscais
A Nvidia tem atualmente mais de 20.000 funcionários em todo o mundo, a maioria dos quais são engenheiros de software e hardware bem pagos.De acordo com os dados da Glassdoor, o salário médio anual desses cargos é basicamente superior a 200.000 dólares americanos por ano.
Taxa de despesas de P&D da NVIDIA nos últimos dez anos fiscais
Nos últimos dez anos, o valor absoluto das despesas em P&D da Nvidia manteve um rápido crescimento e o índice de despesas em P&D permaneceu acima de 20% em um estado estacionário. É claro que se a demanda por terminais explodir em um determinado ano, como aprendizado profundo em 2017, mineração em 21 anos e grandes modelos de linguagem este ano, o denominador da receita aumentará repentinamente e o índice de despesas com P&D cairá 20%. por um curto período de tempo. O lucro também aumentará de forma não linear.
Dentre os diversos projetos desenvolvidos pela NVIDIA, o mais crítico é sem dúvida o CUDA.
Em 2003, para resolver o problema do limite de programação DirectX ser muito alto, a equipe de Ian Buck lançou um modelo de programação chamado Brook, que também foi o protótipo do que mais tarde foi chamado de CUDA. Em 2006, Buck ingressou na NVIDIA e convenceu Jen-Hsun Huang a desenvolver CUDA. [8] 。
Por oferecer suporte à computação paralela no ambiente da linguagem C, CUDA se tornou a primeira escolha dos engenheiros, e a GPU embarcou no caminho dos processadores de uso geral (GPGPU).
Depois que o CUDA amadureceu gradualmente, Buck mais uma vez convenceu Huang Renxun de que todas as futuras GPUs NVIDIA devem suportar CUDA. O projeto CUDA foi estabelecido em 2006 e o produto foi lançado em 2007. Naquela época, a receita anual da NVIDIA era de apenas US$ 3 bilhões, mas gastou US$ 500 milhões em CUDA. Em 2017, apenas os gastos com P&D em CUDA ultrapassaram 10 bilhões. .
O CEO de uma empresa de nuvem privada disse certa vez em uma entrevista que não havia pensado em comprar placas AMD, mas levaria pelo menos dois meses para depurar essas placas para operação normal. [3] . Para encurtar esses dois meses, a Nvidia investiu dezenas de bilhões e demorou 20 anos.
A indústria de chips tem passado por altos e baixos há mais de meio século, mas nunca houve uma empresa como a Nvidia que vendesse hardware e ecossistema, ou nas palavras de Huang Renxun: “ela vende sistemas barebones”. Portanto, o alvo da Nvidia não são de fato os sábios na área de chips, mas a Apple, outra empresa que vende sistemas.
Desde o lançamento do CUDA em 2007 até se tornar a maior fábrica de impressão de dinheiro do mundo, a NVIDIA não deixou de ter seus oponentes.
Em 2008, a Intel, então rei dos chips, interrompeu a cooperação com a Nvidia no projeto de display integrado e lançou seu próprio processador de uso geral (GPCPU), com a intenção de “dominar o rio” na área de PC. No entanto, nos anos seguintes de iterações de produtos, a Nvidia insistiu em promover seus próprios processadores para campos que exigem capacidades de computação mais poderosas, como espaço, finanças e biomedicina.Portanto, a Intel foi forçada a cancelar o plano de placas gráficas independentes em 10 anos. já que não via esperança de suprimi-lo.
Em 2009, a equipe de desenvolvimento da Apple lançou o OpenCL, na esperança de obter uma fatia do bolo do CUDA em virtude de sua versatilidade. No entanto, OpenCL é muito inferior ao CUDA na ecologia da aprendizagem profunda.Muitas estruturas de aprendizagem suportam OpenCL após o lançamento do CUDA ou não suportam OpenCL. Como resultado, o OpenCL ficou para trás no aprendizado profundo e não conseguiu atingir negócios de maior valor agregado.
Em 2015, AlphaGo começou a mostrar seu destaque na área de Go, anunciando que a era da inteligência artificial chegou. Neste momento, para alcançar o último barramento, a Intel instalou a GPU da AMD em seu próprio chip de sistema. Esta é a primeira colaboração entre as duas empresas desde a década de 1980. Mas agora o valor de mercado combinado do líder em CPU, do segundo líder e do líder em GPU é apenas 1/4 do líder em GPU, Nvidia.
Do ponto de vista atual, o fosso da Nvidia é quase indestrutível. Embora existam muitos grandes clientes que estão desenvolvendo secretamente suas próprias GPUs, mas com seu enorme ecossistema e rápida iteração, esses grandes clientes são incapazes de abrir as rachaduras do império, como Tesla é a prova. O negócio de máquinas de impressão de dinheiro da NVIDIA continuará no futuro próximo.
Talvez o único lugar onde Huang Renxun seja assombrado por nuvens escuras seja aquele onde há muitos clientes e forte demanda, mas o H100 não pode ser vendido, mas as pessoas estão cerrando os dentes para resolver o problema - só existe um lugar no mundo.
Referências
[1] Base crunch
[2] 'Todo mundo e seus cachorros estão comprando GPUs', diz Musk enquanto detalhes de inicialização de IA emergem do HARDWARE do Tom
[3] GPUs Nvidia H100: utilitários de GPU de oferta e demanda
[4] A escassez da cadeia de suprimentos atrasa a bonança de IA do setor de tecnologia , FT
[5] Restrições de capacidade de IA - Cadeia de suprimentos CoWoS e HBM - DYLAN PATEL, MYRON XIE E GERALD WONG , Semianálise
[6] Semicondutor de Taiwan: significativamente subvalorizado como fornecedor de chips e pacotes para Nvidia-Robert Castellano, em busca de Alpha
[7] Guerra de Chips, Yu Sheng
[8] O que é CUDA? Programação paralela para GPUs-Martin Heller, InfoWorld
[9] Guia do usuário NVIDIA DGX H100
Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
Louco H100
Original: Wang Yichuan
**Fonte:**Instituto baseado em silício
Em 3 de agosto de 2023, Wall Street e Silicon Valley apresentaram conjuntamente um grande evento que chocou a indústria: permitir que uma empresa iniciante obtivesse US$ 2,3 bilhões em financiamento de dívida, e a garantia era a moeda mais forte do mundo – placa gráfica H100.
O protagonista deste grande evento se chama CoreWeave. Seu principal negócio são serviços de nuvem privada de IA. Simplificando, ele fornece infraestrutura de computação para startups de IA e grandes clientes comerciais, construindo um data center com grande poder de computação GPU. CoreWeave arrecadou um total de US$ 580 milhões e está atualmente na Série B com uma avaliação de US$ 2 bilhões.
A CoreWeave foi fundada em 2016 por três traders de commodities de Wall Street. No início, a empresa tinha apenas um negócio principal: mineração, e comprou um grande número de GPUs para construir um centro de máquinas de mineração. Especialmente quando o círculo monetário estava em baixa, a empresa estocava um grande número de placas gráficas de forma anticíclica e, assim, estabeleceu uma amizade revolucionária de núcleo de ferro com a Nvidia.
Em 2019, CoreWeave começou a transformar essas máquinas de mineração em centros de dados de nível empresarial para fornecer aos clientes serviços em nuvem de IA.O negócio era morno no início, mas após o nascimento do ChatGPT, o treinamento e a inferência de grandes modelos consomem muito poder de computação todos os dias. CoreWeave, que já possui dezenas de milhares de placas gráficas (é claro, não necessariamente o modelo mais recente), decolou às pressas e a porta estava lotada de clientes e investidores de capital de risco.
Mas o que faz as pessoas se sentirem estranhas é: CoreWeave arrecadou apenas um total de 580 milhões de dólares americanos, e o valor líquido da GPU no livro não excederá 1 bilhão de dólares americanos. Mesmo a avaliação geral da empresa é de apenas 2 bilhões de dólares americanos, mas por que pode emprestar 2,3 mil milhões através de hipotecas? Porque é que Wall Street, que sempre foi boa em cálculos e disposta a reduzir o valor das garantias, é tão generosa?
O motivo é mais provável: embora CoreWeave não tenha tantas placas gráficas em sua conta, ela recebeu um compromisso de fornecimento da Nvidia, especialmente o H100.
O relacionamento próximo da CoreWeave com a Nvidia já é um segredo aberto no Vale do Silício. Esse tipo de hardcore está enraizado na lealdade inabalável e no suporte da CoreWeave à Nvidia - usando apenas placas Nvidia, decididamente não fabricando seus próprios núcleos e ajudando a Nvidia a estocar placas quando as placas gráficas não podem ser vendidas. Para Huang, o valor desta relação excede em muito as amizades plásticas com Microsoft, Google e Tesla.
Portanto, apesar da escassez de Nvidia H100, a Nvidia alocou um grande número de novas placas para CoreWeave, mesmo às custas de limitar o fornecimento a grandes fabricantes como Amazon e Google. Huang Renxun elogiou durante a teleconferência: "Um novo grupo de provedores de serviços em nuvem GPU surgirá, o mais famoso deles é o CoreWeave. Eles estão indo muito bem."
Uma semana antes de Xi levantar os US$ 2,3 bilhões, a CoreWeave anunciou que gastaria US$ 1,6 bilhão para construir um data center cobrindo uma área de 42 mil metros quadrados no Texas. Contando apenas com o relacionamento com a Nvidia e os direitos de distribuição prioritária, a CoreWeave pode pedir dinheiro emprestado ao banco para construir o data center – esse modelo lembra as pessoas de incorporadores imobiliários que imediatamente buscam empréstimos bancários após adquirir o terreno.
Portanto, pode-se dizer que o atual compromisso de fornecimento do H100 é comparável a um documento de aprovação de terreno na era de ouro do setor imobiliário.
H100 é uma placa difícil de encontrar
Numa entrevista em abril deste ano, Musk reclamou que [2] : "Até os cães parecem estar comprando GPUs agora."
Ironicamente, a Tesla lançou seu chip D1 autodesenvolvido já em 2021. Ele foi fabricado pela TSMC e usou um processo de 7 nm, alegando ser capaz de substituir o A100 principal da Nvidia na época. Mas 2 anos depois, a Nvidia lançou o H100 mais poderoso, e o D1 da Tesla não tem nenhuma iteração subsequente.Portanto, quando Musk tentou formar sua própria empresa de inteligência artificial, ele ainda teve que se ajoelhar na frente da porta do Sr. Huang e pedir permissão. .
O H100 foi lançado oficialmente em 20 de setembro do ano passado, fabricado pelo processo 4N da TSMC. Comparado com o A100 anterior, o cartão único H100 pode aumentar a velocidade de inferência em 3,5 vezes e a velocidade de treinamento em 2,3 vezes; se o método de computação em cluster de servidor for usado, a velocidade de treinamento pode ser aumentada em 9 vezes. A carga de trabalho do original semana, agora leva apenas 20 horas.
Comparado com o A100, o preço de uma única placa do H100 é mais caro, cerca de 1,5 a 2 vezes o do A100, mas a eficiência do treinamento de modelos grandes aumentou 200%, então o "desempenho por dólar" é maior . Se combinado com a mais recente solução de sistema de conexão de alta velocidade da NVIDIA, o desempenho da GPU por dólar pode ser 4 a 5 vezes maior, por isso é muito procurado pelos clientes.
Os clientes que correm para comprar o H100 são divididos principalmente em três categorias:
A primeira categoria são gigantes abrangentes da computação em nuvem, como Microsoft Azure, Google GCP e Amazon AWS. Sua característica é que eles são ricos e poderosos e querem "cercar" a capacidade de produção da Nvidia a cada passo, mas cada um deles também esconde seus próprios pensamentos, insatisfeitos com a posição de quase monopólio da Nvidia, e secretamente desenvolve seus próprios chips para reduzir custos.
A segunda categoria são os provedores independentes de serviços de GPU em nuvem, empresas típicas como CoreWeave mencionadas acima, bem como Lambda, RunPod, etc. Esse tipo de empresa tem um poder computacional relativamente pequeno, mas pode prestar serviços diferenciados. A Nvidia também apoia fortemente esse tipo de empresa, e até investe diretamente em CoreWeave e Lambda. O objetivo é muito claro: prestar serviços para aquelas gigantes que constroem núcleos em particular. Coloque colírio.
A terceira categoria são grandes e pequenas empresas que estão treinando LLM (Large Language Model). Inclui startups como Anthropic, Inflection e Midjourney, bem como gigantes da tecnologia como Apple, Tesla e Meta. Eles geralmente usam o poder de computação de provedores externos de serviços em nuvem enquanto compram suas próprias GPUs para construir seus próprios fogões - aqueles que têm dinheiro compram mais, aqueles que não têm dinheiro compram menos, e o objetivo principal é permitir que as pessoas sejam ricas e frugais.
Entre esses três tipos de clientes, o Microsoft Azure tem pelo menos 50.000 H100s, o Google tem cerca de 30.000 H100s, a Oracle tem cerca de 20.000 e a Tesla e a Amazon também têm pelo menos cerca de 10.000. Diz-se que CoreWeave tem um compromisso de cota de 35.000 (o valor real a entrega é de cerca de 10.000). Outras empresas raramente têm mais de 10.000 cópias.
De quantos H100 esses três tipos de clientes precisam no total? De acordo com previsões da organização estrangeira GPU Utils, a demanda atual pelo H100 é de aproximadamente 432.000. Entre eles, OpenAI precisa de 50.000 planilhas para treinar GPT-5, Inflection requer 22.000 planilhas, Meta requer 25.000 planilhas (alguns dizem 100.000 planilhas) e cada um dos quatro principais fornecedores de nuvem pública precisa de pelo menos 30.000 planilhas. São 100.000 peças, e outros pequenos fabricantes de modelos também têm demanda por 100.000 peças. [3] 。
As remessas de H100 da Nvidia em 2023 serão de cerca de 500.000 unidades. Atualmente, a capacidade de produção da TSMC ainda está aumentando. Até o final do ano, a dificuldade de encontrar uma placa H100 será aliviada.
Mas, a longo prazo, a lacuna entre a oferta e a procura do H100 continuará a aumentar com a explosão das aplicações AIGC. De acordo com o Financial Times, as remessas de H100 chegarão a 1,5 milhão a 2 milhões de folhas em 2024, um aumento de 3 a 4 vezes em comparação com as 500.000 folhas deste ano. [4] 。
As previsões de Wall Street são ainda mais radicais: o banco de investimentos norte-americano Piper Sandler acredita que a receita do data center da Nvidia ultrapassará US$ 60 bilhões no próximo ano (2º trimestre do ano fiscal: US$ 10,32 bilhões). Com base nesses dados, o volume de remessas de cartões A+H está próximo de 3 milhões de cópias.
Existem estimativas ainda mais exageradas. A maior fundição de um certo servidor H100 (com uma participação de mercado de 70% a 80%) envia servidores H100 desde junho deste ano, e sua capacidade de produção continuou a aumentar em julho. Uma pesquisa recente mostra que a fundição acredita que o volume de remessas de cartões A+H em 2024 ficará entre 4,5 milhões e 5 milhões.
Isso significa “tremenda riqueza” para a Nvidia, porque os enormes lucros do H100 são inimagináveis para pessoas de outros setores.
Placas gráficas mais caras que ouro
Para entender o quão lucrativo é o H100, podemos também desmantelar sua lista de materiais (BOM).
Conforme mostrado na figura, o H100 SXM, a versão mais comum do H100, adota o pacote TSMC CoWoS de 7 chips e seis chips 16G HBM3 estão dispostos em duas fileiras ao redor do chip lógico no meio.
Isso também constitui as três partes mais importantes do H100: chip lógico, chip de memória HBM, pacote CoWoS.Além disso, existem também alguns componentes auxiliares, como placas PCB e outros componentes auxiliares, mas seu valor não é alto.
O tamanho do chip lógico principal é 814 mm ^ 2, produzido na mais avançada fábrica Tainan nº 18 da TSMC, e o nó de processo usado é "4N". Embora o nome comece com 4, na verdade é 5 nm +. Devido à fraca prosperidade no downstream de 5nm, telefones celulares e outras áreas, a TSMC não tem problemas em garantir o fornecimento de chips lógicos.
Este chip lógico é produzido cortando um wafer de 12 polegadas (área 70.695 mm ^ 2). Em condições ideais, 86 peças podem ser cortadas. No entanto, considerando a taxa de rendimento de 80% e a perda de corte da linha "4N", o último Apenas 65 chips lógicos principais podem ser cortados de um wafer de 12 polegadas.
Quanto custa esse chip lógico central? A cotação externa da TSMC para um wafer de 12 polegadas em 2023 é de US$ 13.400, portanto, convertido em uma única unidade, custará cerca de US$ 200.
Em seguida vêm 6 chips HBM3, que atualmente são fornecidos exclusivamente pela SK Hynix. Esta empresa originou-se da eletrônica moderna. Em 2002, quase se comprometeu com a Micron. Está pelo menos 3 anos à frente da Micron em termos de tecnologia de produção em massa (a Micron é preso no HBM2e e a Hynix irá produzi-lo em massa em meados de 2020).
O preço específico do HBM é mantido em segredo por cada empresa, mas de acordo com a mídia coreana, o HBM é atualmente 5 a 6 vezes maior que o dos produtos DRAM existentes. O preço da VRAM GDDR6 existente é de cerca de US$ 3 por GB, então o preço do HBM é estimado em cerca de US$ 15 por GB. Esse H100 SXM custa US$ 1.500 na HBM.
Embora o preço do HBM continue a subir este ano, e os executivos da Nvidia e Meta também tenham ido à Hynix para "supervisionar o trabalho", o HBM3 da Samsung será gradualmente produzido em massa e enviado no segundo semestre do ano. Juntamente com a expansão do sangue ancestral da dupla coreana, deve ser. No próximo ano, a HBM não será mais o gargalo.
O verdadeiro gargalo é a embalagem CoWoS da TSMC, que é um processo de embalagem 2,5D. Comparado com o pacote 3D de perfuração (TSV) e fiação (RDL) diretamente no chip, o CoWoS pode fornecer melhor custo, dissipação de calor e largura de banda de transferência.Os dois primeiros correspondem ao HBM e os dois últimos são a chave para a GPU.
Portanto, se você deseja um chip com alta capacidade de armazenamento e alto poder computacional, o CoWoS é a única solução em termos de embalagem. O fato de todas as quatro GPUs da Nvidia e AMD usarem CoWoS é a melhor evidência.
Quanto custa o CoWoS? O relatório financeiro de 2022 da TSMC revelou que o processo CoWoS foi responsável por 7% da receita total, então o analista estrangeiro Robert Castellano calculou com base na capacidade de produção e no tamanho da matriz que empacotar um chip de IA pode gerar receita de US$ 723 para a TSMC. [6] 。
Portanto, a soma dos três maiores itens de custo acima é de cerca de 2.500 dólares americanos, dos quais TSMC é responsável por cerca de 1.000 dólares americanos (chip lógico + CoWoS), SK Hynix é responsável por 1.500 dólares americanos (a Samsung definitivamente se envolverá no futuro) e depois contar PCB e outros materiais, o custo geral do material não excede 3.000 dólares americanos.
Quanto custa o H100? 35.000 dólares americanos, um zero é adicionado diretamente e a taxa de lucro bruto excede 90%. Nos últimos 10 anos, a margem de lucro bruto da Nvidia foi de cerca de 60%.Agora impulsionada pela alta margem A100/A800/H100, a margem de lucro bruto da Nvidia no segundo trimestre deste ano atingiu 70%.
Isso é um pouco contra-intuitivo: a Nvidia depende muito da fundição da TSMC, e o status desta última é inabalável, e é até o único elo central que pode grudar no pescoço da Nvidia. Mas por esse cartão de US$ 35.000, a TSMC, que o fabrica, só pode receber US$ 1.000, e isso é apenas receita, não lucro.
No entanto, usar a margem de lucro bruto para definir lucros enormes não significa muito para as empresas de chips.Se você começar com areia, a margem de lucro bruto será maior. Um wafer de 12 polegadas com processo 4N, a TSMC vende para todos por quase 15.000 dólares americanos, e a Nvidia pode adicionar um varejo aos clientes, o que naturalmente tem seu próprio talento.
O segredo desse truque é o seguinte: a Nvidia é essencialmente uma empresa de software disfarçada de fabricante de hardware.
Um fosso integrando software e hardware
A arma mais poderosa da NVIDIA está escondida na margem de lucro bruto menos a margem de lucro líquido.
Antes desta rodada de boom de IA, a margem de lucro bruto da Nvidia permanecia em torno de 65% durante todo o ano, enquanto sua margem de lucro líquido era normalmente de apenas 30%. No segundo trimestre deste ano, impulsionada pela alta margem A100/A800/H100, a taxa de lucro bruto foi de 70% e a taxa de lucro líquido chegou a 45,81%.
A Nvidia tem atualmente mais de 20.000 funcionários em todo o mundo, a maioria dos quais são engenheiros de software e hardware bem pagos.De acordo com os dados da Glassdoor, o salário médio anual desses cargos é basicamente superior a 200.000 dólares americanos por ano.
Nos últimos dez anos, o valor absoluto das despesas em P&D da Nvidia manteve um rápido crescimento e o índice de despesas em P&D permaneceu acima de 20% em um estado estacionário. É claro que se a demanda por terminais explodir em um determinado ano, como aprendizado profundo em 2017, mineração em 21 anos e grandes modelos de linguagem este ano, o denominador da receita aumentará repentinamente e o índice de despesas com P&D cairá 20%. por um curto período de tempo. O lucro também aumentará de forma não linear.
Dentre os diversos projetos desenvolvidos pela NVIDIA, o mais crítico é sem dúvida o CUDA.
Em 2003, para resolver o problema do limite de programação DirectX ser muito alto, a equipe de Ian Buck lançou um modelo de programação chamado Brook, que também foi o protótipo do que mais tarde foi chamado de CUDA. Em 2006, Buck ingressou na NVIDIA e convenceu Jen-Hsun Huang a desenvolver CUDA. [8] 。
Por oferecer suporte à computação paralela no ambiente da linguagem C, CUDA se tornou a primeira escolha dos engenheiros, e a GPU embarcou no caminho dos processadores de uso geral (GPGPU).
Depois que o CUDA amadureceu gradualmente, Buck mais uma vez convenceu Huang Renxun de que todas as futuras GPUs NVIDIA devem suportar CUDA. O projeto CUDA foi estabelecido em 2006 e o produto foi lançado em 2007. Naquela época, a receita anual da NVIDIA era de apenas US$ 3 bilhões, mas gastou US$ 500 milhões em CUDA. Em 2017, apenas os gastos com P&D em CUDA ultrapassaram 10 bilhões. .
O CEO de uma empresa de nuvem privada disse certa vez em uma entrevista que não havia pensado em comprar placas AMD, mas levaria pelo menos dois meses para depurar essas placas para operação normal. [3] . Para encurtar esses dois meses, a Nvidia investiu dezenas de bilhões e demorou 20 anos.
A indústria de chips tem passado por altos e baixos há mais de meio século, mas nunca houve uma empresa como a Nvidia que vendesse hardware e ecossistema, ou nas palavras de Huang Renxun: “ela vende sistemas barebones”. Portanto, o alvo da Nvidia não são de fato os sábios na área de chips, mas a Apple, outra empresa que vende sistemas.
Desde o lançamento do CUDA em 2007 até se tornar a maior fábrica de impressão de dinheiro do mundo, a NVIDIA não deixou de ter seus oponentes.
Em 2008, a Intel, então rei dos chips, interrompeu a cooperação com a Nvidia no projeto de display integrado e lançou seu próprio processador de uso geral (GPCPU), com a intenção de “dominar o rio” na área de PC. No entanto, nos anos seguintes de iterações de produtos, a Nvidia insistiu em promover seus próprios processadores para campos que exigem capacidades de computação mais poderosas, como espaço, finanças e biomedicina.Portanto, a Intel foi forçada a cancelar o plano de placas gráficas independentes em 10 anos. já que não via esperança de suprimi-lo.
Em 2009, a equipe de desenvolvimento da Apple lançou o OpenCL, na esperança de obter uma fatia do bolo do CUDA em virtude de sua versatilidade. No entanto, OpenCL é muito inferior ao CUDA na ecologia da aprendizagem profunda.Muitas estruturas de aprendizagem suportam OpenCL após o lançamento do CUDA ou não suportam OpenCL. Como resultado, o OpenCL ficou para trás no aprendizado profundo e não conseguiu atingir negócios de maior valor agregado.
Em 2015, AlphaGo começou a mostrar seu destaque na área de Go, anunciando que a era da inteligência artificial chegou. Neste momento, para alcançar o último barramento, a Intel instalou a GPU da AMD em seu próprio chip de sistema. Esta é a primeira colaboração entre as duas empresas desde a década de 1980. Mas agora o valor de mercado combinado do líder em CPU, do segundo líder e do líder em GPU é apenas 1/4 do líder em GPU, Nvidia.
Do ponto de vista atual, o fosso da Nvidia é quase indestrutível. Embora existam muitos grandes clientes que estão desenvolvendo secretamente suas próprias GPUs, mas com seu enorme ecossistema e rápida iteração, esses grandes clientes são incapazes de abrir as rachaduras do império, como Tesla é a prova. O negócio de máquinas de impressão de dinheiro da NVIDIA continuará no futuro próximo.
Talvez o único lugar onde Huang Renxun seja assombrado por nuvens escuras seja aquele onde há muitos clientes e forte demanda, mas o H100 não pode ser vendido, mas as pessoas estão cerrando os dentes para resolver o problema - só existe um lugar no mundo.
Referências
[1] Base crunch
[2] 'Todo mundo e seus cachorros estão comprando GPUs', diz Musk enquanto detalhes de inicialização de IA emergem do HARDWARE do Tom
[3] GPUs Nvidia H100: utilitários de GPU de oferta e demanda
[4] A escassez da cadeia de suprimentos atrasa a bonança de IA do setor de tecnologia , FT
[5] Restrições de capacidade de IA - Cadeia de suprimentos CoWoS e HBM - DYLAN PATEL, MYRON XIE E GERALD WONG , Semianálise
[6] Semicondutor de Taiwan: significativamente subvalorizado como fornecedor de chips e pacotes para Nvidia-Robert Castellano, em busca de Alpha
[7] Guerra de Chips, Yu Sheng
[8] O que é CUDA? Programação paralela para GPUs-Martin Heller, InfoWorld
[9] Guia do usuário NVIDIA DGX H100