xAI possui 500.000 GPUs, mas a sua utilização é de apenas 11%

robot
Geração de resumo em curso

Notícias do site Coinjie, a xAI de Elon Musk possui cerca de 500 mil GPUs da Nvidia, sendo um dos maiores clusters de IA entre os dados públicos disponíveis.
Mas um memorando interno mostra que, nas últimas semanas, a MFU (utilização de FLOPS do modelo, que mede a proporção do poder de processamento real do chip em relação ao pico teórico) da xAI está em torno de 11%.
Um pesquisador de um laboratório concorrente afirmou que é difícil para a maioria das empresas ultrapassar 40%, mas 11% é “ridiculamente baixo”.
A baixa utilização é um problema comum na indústria, pois o treinamento de IA é intermitente: as GPUs operam em plena carga durante o treinamento, mas quando os pesquisadores analisam os resultados e decidem os próximos passos, os chips ficam ociosos.
Também há gargalos no hardware: a velocidade da memória de alta largura de banda (HBM) não acompanha os chips de cálculo, e a transmissão de dados entre milhares de GPUs pode ser atrasada por qualquer ponto fraco na rede.
Dentro da indústria, há ainda o fenômeno de “manipulação de dados”, onde um pesquisador de um grande laboratório revelou que colegas repetem várias vezes os experimentos de treinamento para aumentar artificialmente os números de utilização, evitando críticas superiores e impedindo que GPUs ociosas sejam realocadas para outras equipes.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar