A frequente resposta de 'servidor ocupado, por favor, tente novamente mais tarde' do DeepSeek está deixando os usuários de todo o lado loucos.
Anteriormente pouco conhecido pelo público em geral, o DeepSeek ganhou destaque com o lançamento do modelo de linguagem V3, concorrente do GPT 40, em 26 de dezembro de 2024. Em 20 de janeiro, o DeepSeek lançou o modelo de linguagem R1, concorrente do OpenAI o1. Posteriormente, devido à alta qualidade das respostas geradas pelo modo de "pensamento profundo" e ao sinal positivo de inovação que revelou a possibilidade de uma queda acentuada nos custos iniciais de treinamento do modelo, a empresa e o aplicativo se destacaram completamente. Desde então, o DeepSeek R1 tem enfrentado congestionamentos constantes, com sua função de pesquisa online apresentando paralisações intermitentes e o modo de pensamento profundo exibindo frequentemente a mensagem "servidor ocupado", esses fenômenos têm causado grande desconforto a muitos usuários.
Há algumas semanas, o DeepSeek começou a experimentar interrupções no servidor. Ao meio-dia de 27 de janeiro, o site oficial do DeepSeek exibiu várias vezes a mensagem "página/api do deepseek não disponível". No mesmo dia, o DeepSeek tornou-se o aplicativo com o maior número de downloads no iPhone durante o fim de semana, ultrapassando o ChatGPT na lista de downloads da região dos EUA.
Em 5 de fevereiro, DeepSeek móvel está online há 26 dias, com mais de 40 milhões de usuários ativos diários, enquanto o ChatGPT móvel tem 54,95 milhões de usuários ativos diários, representando 74,3% do DeepSeek. Quase ao mesmo tempo em que o DeepSeek está saindo da acentuada curva de crescimento, as reclamações sobre seus servidores ocupados são abundantes, com usuários de todo o mundo enfrentando inconvenientes como quedas ao tentar fazer algumas perguntas, levando ao surgimento de várias alternativas de acesso, como o site substituto do DeepSeek, com grandes provedores de serviços em nuvem, fabricantes de chips e empresas de infraestrutura lançando seus próprios serviços, além de tutoriais de implantação pessoal em todos os lugares. No entanto, a frustração das pessoas não diminui: quase todos os principais fabricantes globais afirmam apoiar a implantação do DeepSeek, mas os usuários locais ainda continuam reclamando da instabilidade do serviço.
O que aconteceu afinal?
1, para aqueles que estão acostumados com o ChatGPT, não conseguem lidar com o DeepSeek que não abre
A insatisfação das pessoas com o "servidor ocupado do DeepSeek" vem do fato de que as principais aplicações de IA, anteriormente dominadas pelo ChatGPT, raramente apresentam atrasos.
Desde o lançamento do serviço OpenAI, embora o ChatGPT tenha passado por alguns acidentes de falha de nível P0 (o nível mais grave de acidente), no geral, ele é relativamente confiável e encontrou um equilíbrio entre inovação e estabilidade, tornando-se gradualmente uma parte crucial semelhante aos serviços de nuvem tradicionais.
O número de vezes em que o ChatGPT caiu em grande escala não é muito alto.
O processo de inferência do ChatGPT é relativamente estável, incluindo duas etapas, codificação e decodificação. Na fase de codificação, o texto de entrada é convertido em um vetor que contém informações semânticas do texto de entrada. Na fase de decodificação, o ChatGPT usa o texto gerado anteriormente como contexto, e gera a próxima palavra ou frase através do modelo Transformer, até gerar uma sentença completa que atenda às necessidades. O próprio modelo é uma arquitetura de decodificação, e a fase de decodificação é o processo de saída de tokens (a unidade mínima de processamento de texto pelo modelo) um por um. Cada vez que o ChatGPT é questionado, inicia-se um processo de inferência.
Por exemplo, se perguntarmos ao ChatGPT 'Como está o seu humor hoje?', o ChatGPT codificará a frase, gerando representações de atenção em cada camada. Com base nas representações de atenção de todos os tokens anteriores, prevê o primeiro token de saída 'eu', e depois decodifica, adicionando 'eu' a 'Como está o seu humor hoje?', resultando em 'Como está o seu humor hoje? Eu'. Com a nova representação de atenção, prevê o próximo token: 'bom'. Seguindo os passos um e dois em um ciclo, obtemos 'Como está o seu humor hoje? O meu humor está ótimo.'
A ferramenta Kubernetes para orquestração de contentores é o "comandante por trás das cortinas" do ChatGPT, responsável pelo agendamento e alocação de recursos do servidor. Quando o volume de utilizadores aumenta para além da capacidade de controlo do plano de controlo do Kubernetes, resulta na paralisação completa do sistema ChatGPT.
O número total de vezes que o ChatGPT entra em colapso não é muito alto, mas por trás disso está o poderoso recurso em que se baseia para manter a operação estável, o que é suportado por uma poderosa potência de cálculo, um aspecto que as pessoas tendem a ignorar.
Em geral, devido ao tamanho dos dados processados pelo raciocínio geralmente ser pequeno, o requisito de potência de cálculo não é tão alto quanto o treinamento. Pessoas da indústria estimam que, durante o processo normal de raciocínio de grandes modelos, o peso dos parâmetros do modelo ocupa a maior parte da memória, provavelmente mais de 80%. A realidade é que, entre vários modelos incorporados no ChatGPT, os tamanhos dos modelos padrão são menores do que os 671B do DeepSeek-R1. Além disso, o ChatGPT possui muito mais potência de cálculo de GPU do que o DeepSeek, naturalmente exibindo um desempenho mais estável do que o DS-R1.
DeepSeek-V3 e R1 são ambos modelos de 671B, o processo de inicialização do modelo é o processo de raciocínio, a reserva de capacidade de cálculo durante o raciocínio precisa corresponder ao número de usuários, por exemplo, se houver 100 milhões de usuários, é necessário equipar com 100 milhões de placas gráficas, não apenas enormes, mas também independentes da reserva de capacidade de cálculo durante o treinamento e não relacionadas. De acordo com várias informações, a reserva de placas gráficas e capacidade de cálculo do DS claramente são insuficientes, resultando em travamentos frequentes.
Esta comparação não é familiar para os utilizadores que estão acostumados à experiência suave do ChatGPT, especialmente agora que o seu interesse no R1 está a aumentar.
2, cartão, cartão, ainda cartão
Além disso, ao comparar cuidadosamente, as situações enfrentadas pela OpenAI e pela DeepSeek são muito diferentes.
O primeiro tem o respaldo da Microsoft e, como única plataforma da OpenAI, o serviço de nuvem da Microsoft Azure incorpora o ChatGPT, o gerador de imagens Dalle-E 2 e a ferramenta de codificação automática GitHub Copilot. Posteriormente, essa combinação se tornou um paradigma clássico de nuvem + IA e se espalhou rapidamente, tornando-se rapidamente um padrão da indústria; o último, embora seja uma startup, geralmente depende de data centers próprios, semelhante ao Google, e não de fornecedores de computação em nuvem de terceiros. O Silicon Star descobriu após consultar informações públicas que a DeepSeek não tem colaborações em nenhum nível com fabricantes de chips ou provedores de nuvem (embora durante o Ano Novo Chinês os provedores de nuvem tenham anunciado que os modelos da DeepSeek estão rodando em suas plataformas, eles não realizaram nenhuma colaboração significativa).
Além disso, o DeepSeek enfrentou um crescimento de usuários sem precedentes, o que significa que ele tem menos tempo de preparação para casos de uso do que o ChatGPT.
O bom desempenho do DeepSeek vem da otimização global feita em nível de hardware e sistema. A empresa-mãe do DeepSeek, QuantX, investiu 200 milhões para construir o cluster de supercomputadores Firefly-1 em 2019, e já armazenou de forma discreta milhares de placas A100 até 22, a fim de treinar de forma mais eficiente em paralelo, o DeepSeek desenvolveu internamente o framework de treinamento HAI LLM. A indústria acredita que o cluster Firefly pode ter adotado milhares a dezenas de milhares de GPUs de alto desempenho (como Nvidia A100/H100 ou chips domésticos) para fornecer uma forte capacidade de computação paralela. Atualmente, o cluster Firefly suporta treinamentos de modelos como DeepSeek-R1, DeepSeek-MoE, que alcançam um nível próximo ao GPT-4 em tarefas complexas de matemática, código, entre outras.
O cluster Firefly representa a jornada de exploração da DeepSeek em novas arquiteturas e métodos, e também faz com que o exterior acredite que, por meio dessas inovações tecnológicas, o DS reduziu o custo de treinamento, podendo treinar um modelo de IA de ponta com apenas um sexto da potência dos modelos mais avançados do Ocidente, resultando em um desempenho equivalente ao modelo de IA de primeira linha R1. A SemiAnalysis calculou que a DeepSeek possui uma grande reserva de potência computacional: a DeepSeek empilhou um total de 60.000 placas de GPU NVIDIA, incluindo 10.000 A100, 10.000 H100, 10.000 H800 da versão especial e 30.000 H20 da versão especial.
Parece que isso significa que a quantidade de cartões R1 é suficiente. Mas na realidade, como modelo de raciocínio, o R1 é comparável ao O3 da OpenAI, esse tipo de modelo de raciocínio requer mais poder computacional para a fase de resposta, mas não está claro se a quantidade de poder computacional economizada pelo DS no custo de treinamento é maior ou menor do que a quantidade de poder computacional drasticamente aumentada no custo de raciocínio.
Vale ressaltar que o DeepSeek-V3 e o DeepSeek-R1 são ambos modelos de linguagem grandes, mas operam de maneiras diferentes. O DeepSeek-V3 é um modelo de instrução, semelhante ao ChatGPT, que recebe prompts e gera texto correspondente em resposta. Já o DeepSeek-R1 é um modelo de raciocínio, quando um usuário faz uma pergunta ao R1, ele passa por um extenso processo de raciocínio antes de gerar a resposta final. Os tokens gerados pelo R1 inicialmente apresentam uma série de processos de cadeias de pensamento, o modelo explica e decompõe a pergunta antes de gerar a resposta, todos esses processos de raciocínio são rapidamente gerados na forma de tokens.
Na opinião de Wen Tingcan, vice-presidente da Yaotu Capital, a reserva de energia computacional massiva mencionada acima da DeepSeek refere-se à fase de treinamento. Na fase de treinamento, a equipe de energia computacional pode ser planejada e prevista, e é improvável que haja escassez de energia computacional. No entanto, a energia computacional de raciocínio tem uma incerteza maior, pois depende principalmente do tamanho e do uso do usuário, sendo mais flexível. "A energia computacional de raciocínio aumentará de acordo com certas regras, mas com o DeepSeek tornando-se um produto fenomenal, o tamanho e o uso dos usuários explodirão em um curto período de tempo, resultando em um crescimento explosivo na demanda por energia computacional de raciocínio na fase de raciocínio, causando assim travamentos."
O designer de produtos de modelo ativo imediatamente, o desenvolvedor independente, Guicang, acredita que o principal motivo para o atraso do DeepSeek é o cartão de identificação de quantidade, e ele acredita que, como o aplicativo móvel com o maior número de downloads em 140 mercados globais, o cartão atual não pode mais aguentar, mesmo que seja um novo cartão, porque "fazer nuvem com um novo cartão leva tempo".
"O custo de rodar chips como Nvidia A100 e H100 por uma hora tem um preço de mercado justo, e o DeepSeek é mais de 90% mais barato do que o modelo semelhante o1 da OpenAI em termos de custo de inferência do token de saída, que não é muito diferente do cálculo de todos, então a arquitetura do modelo MOE em si não é o principal problema, mas o número de GPUs de propriedade da DS determina o número máximo de tokens que eles podem produzir por minuto, mesmo que mais GPUs possam ser usadas para usuários do serviço de inferência, E não para estudos de pré-formação, mas o teto está lá. Chen Yunfei, o desenvolvedor do aplicativo nativo de IA Kitten Fill Light, tem uma visão semelhante.
Também foi mencionado por profissionais da indústria à equipe da Gate.io que a essência do lag do DeepSeek é devido à falta de eficácia da nuvem privada.
Os ataques de hackers são outro fator que causa a R1 travar. Em 30 de janeiro, a mídia soube da empresa de segurança cibernética Qihoo 360 que a intensidade dos ataques contra o serviço online DeepSeek subiu repentinamente, com os comandos de ataque aumentando centenas de vezes em relação a 28 de janeiro. O laboratório Xlab da Qihoo 360 observou pelo menos 2 redes zumbis envolvidas nos ataques.
No entanto, esta lentidão no serviço R1 em si tem uma solução aparentemente óbvia, que é a prestação de serviços por terceiros. Este também é o cenário mais animado que testemunhamos durante a época do Ano Novo Chinês - várias empresas implementaram serviços para atender à demanda das pessoas por DeepSeek.
Em 31 de janeiro, a NVIDIA anunciou que a NVIDIA NIM já pode ser usada com o DeepSeek-R1. Anteriormente, a NVIDIA foi afetada pelo DeepSeek, resultando em uma perda de valor de mercado de quase 600 bilhões de dólares em uma noite. No mesmo dia, os usuários da AWS da Amazon Cloud podem implantar o modelo básico mais recente do DeepSeek, R1, em suas plataformas de inteligência artificial, Amazon Bedrock e Amazon SageMaker AI. Em seguida, novas aplicações de IA, incluindo Perplexity e Cursor, foram em massa integradas ao DeepSeek. A Microsoft, por sua vez, antecipou a Amazon e a NVIDIA ao implantar primeiro o DeepSeek-R1 nos serviços de nuvem Azure e Github.
A partir de 1 de fevereiro, no quarto dia do Ano Novo Chinês, a Huawei Cloud, a Ali Cloud, a Fire Eye Engine da ByteDance e a Tencent Cloud também se juntaram a eles, geralmente oferecendo serviços de implantação de modelos DeepSeek de toda a série e em todos os tamanhos. Em seguida, temos fabricantes de chips de IA como Bi Rui Technology, Hanbo Semiconductor, Ascend, Muxi, que afirmam ter adaptado a versão original ou versões menores do DeepSeek. Do lado das empresas de software, empresas como UFIDA e Kingdee estão integrando modelos DeepSeek em alguns de seus produtos para melhorar a força dos produtos. Por fim, fabricantes de terminais como Lenovo, Huawei e alguns produtos da Honor estão integrando modelos DeepSeek para servir como assistentes pessoais e para uso em cockpits inteligentes de carros.
Até agora, o DeepSeek atraiu uma ampla rede de amigos com seu próprio valor, incluindo provedores de nuvem nacionais e estrangeiros, operadoras, corretoras e plataformas nacionais de supercomputação na Internet. Como o DeepSeek-R1 é um modelo totalmente de código aberto, os provedores de serviços que se conectam se tornam beneficiários do modelo DS. Isso aumentou significativamente o volume do DS, mas também causou um fenômeno mais frequente de gagueira. Tanto os provedores de serviços quanto o DS em si estão cada vez mais presos aos usuários que chegam em massa, sem encontrar a chave para resolver o problema de uso estável.
Considerando que os modelos originais DeepSeek V3 e R1 têm até 671 bilhões de parâmetros, são adequados para serem executados na nuvem. Os provedores de nuvem em si têm mais capacidade de computação e inferência. Ao lançarem serviços de implantação relacionados ao DeepSeek, visam reduzir as barreiras de uso para as empresas. Após a implantação do modelo DeepSeek, eles fornecem externamente a API do modelo DS, o que é considerado uma experiência de uso melhor do que a API fornecida pela DS.
No entanto, na realidade, o problema da experiência de execução do modelo DeepSeek-R1 em si não foi resolvido em nenhum dos serviços, e o exterior acredita que os provedores de serviços não estão com falta de cartões, mas na realidade os R1 implantados por eles, os desenvolvedores têm feedback instável sobre a experiência de resposta, a frequência é totalmente equivalente ao R1, isso se deve mais ao fato de que não há muitos cartões disponíveis para atribuir ao R1 para inferência.
"O calor do R1 permanece alto, os provedores de serviços precisam considerar outros modelos de acesso, e a oferta de cartões para o R1 é muito limitada. Como o R1 é muito popular, qualquer pessoa que o adote a um preço relativamente baixo será subjugada." Guicang, designer de produtos do modelo, explicou a razão para os alienígenas de silício.
A otimização da implantação do modelo é um campo amplo que abrange muitos aspectos, desde a conclusão do treinamento até a implantação real do hardware, envolvendo trabalhos em vários níveis. No entanto, para os incidentes de travamento do DeepSeek, as razões podem ser mais simples, como modelos muito grandes e preparação inadequada antes do lançamento.
Antes do lançamento de um grande modelo popular, enfrentará vários desafios técnicos, de engenharia, de negócios, entre outros, como a consistência entre dados de treinamento e dados de ambiente de produção, o impacto do atraso e da temporalidade dos dados na eficácia do modelo de inferência, eficiência de inferência online e uso excessivo de recursos, capacidade de generalização do modelo insuficiente, e aspectos de engenharia como estabilidade do serviço, integração de API e sistema, entre outros.
Antes do lançamento de muitos modelos de grande escala populares, é altamente valorizado otimizar a inferência, porque há problemas de consumo de computação e memória. O primeiro refere-se a atrasos na inferência, resultando em uma má experiência do usuário, e até mesmo não atendendo aos requisitos de atraso, ou seja, a ocorrência de fenômenos como engasgos. O último refere-se a um grande número de parâmetros do modelo, consumindo memória de vídeo, e até mesmo uma única placa de GPU não sendo capaz de suportá-los, também resultando em engasgos.
Wen Tingcan explicou a razão para Silicon Star, ele disse que o provedor de serviços para fornecer serviços R1 encontrou desafios, a essência do qual é que a estrutura do modelo DS é especial, o modelo é muito grande + MOE (estrutura híbrida especializada, uma forma de computação eficiente) arquitetura, "(provedores de serviços) otimização leva tempo, mas o calor do mercado tem uma janela de tempo, então é primeiro otimizado e depois otimizado, em vez de totalmente otimizado e depois lançado." ”
Para que o R1 funcione de forma estável, o cerne agora está na capacidade de reserva e otimização do lado de raciocínio. O que o DeepSeek precisa fazer é encontrar maneiras de reduzir o custo do raciocínio e diminuir a saída do cartão, o número de tokens de saída por vez.
Ao mesmo tempo, o atraso também indica que a própria DS pode não ter a reserva de energia computacional tão grande quanto a SemiAnalysis descreve, a empresa do fundo de quadrados mágicos precisa de cartas, a equipe de treinamento DeepSeek também precisa de cartas, e não há muitas cartas disponíveis para os usuários. Dadas as circunstâncias atuais, a DeepSeek pode não ter incentivo de curto prazo para gastar dinheiro em aluguel de serviços e, consequentemente, fornecer uma experiência melhor gratuitamente aos usuários. É mais provável que eles esperem até que o primeiro lote de modelos de negócios para consumidores finais esteja claro antes de considerar o tópico do aluguel de serviços, o que também significa que os atrasos continuarão por um bom tempo.
Eles provavelmente precisam de duas etapas: 1) implementar um mecanismo de pagamento para limitar o uso do modelo de usuário gratuito; 2) colaborar com fornecedores de serviços em nuvem para utilizar os recursos de GPU de terceiros. A solução temporária proposta pelo desenvolvedor Chen Yunfei é amplamente reconhecida na indústria.
Mas, por enquanto, a DeepSeek não parece muito ansiosa com seus "servidores ocupados". Como uma empresa que persegue o AGI, a DeepSeek parece relutante em se concentrar demais nesse influxo de tráfego de usuários. Pode ser que os usuários tenham que se acostumar a enfrentar uma interface de "servidor ocupado" em um futuro próximo.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O "servidor ocupado" da DeepSeek está deixando todos loucos, afinal, o que está acontecendo?
Fonte da imagem: Gerada pelo AI sem fronteiras
A frequente resposta de 'servidor ocupado, por favor, tente novamente mais tarde' do DeepSeek está deixando os usuários de todo o lado loucos.
Anteriormente pouco conhecido pelo público em geral, o DeepSeek ganhou destaque com o lançamento do modelo de linguagem V3, concorrente do GPT 40, em 26 de dezembro de 2024. Em 20 de janeiro, o DeepSeek lançou o modelo de linguagem R1, concorrente do OpenAI o1. Posteriormente, devido à alta qualidade das respostas geradas pelo modo de "pensamento profundo" e ao sinal positivo de inovação que revelou a possibilidade de uma queda acentuada nos custos iniciais de treinamento do modelo, a empresa e o aplicativo se destacaram completamente. Desde então, o DeepSeek R1 tem enfrentado congestionamentos constantes, com sua função de pesquisa online apresentando paralisações intermitentes e o modo de pensamento profundo exibindo frequentemente a mensagem "servidor ocupado", esses fenômenos têm causado grande desconforto a muitos usuários.
Há algumas semanas, o DeepSeek começou a experimentar interrupções no servidor. Ao meio-dia de 27 de janeiro, o site oficial do DeepSeek exibiu várias vezes a mensagem "página/api do deepseek não disponível". No mesmo dia, o DeepSeek tornou-se o aplicativo com o maior número de downloads no iPhone durante o fim de semana, ultrapassando o ChatGPT na lista de downloads da região dos EUA.
Em 5 de fevereiro, DeepSeek móvel está online há 26 dias, com mais de 40 milhões de usuários ativos diários, enquanto o ChatGPT móvel tem 54,95 milhões de usuários ativos diários, representando 74,3% do DeepSeek. Quase ao mesmo tempo em que o DeepSeek está saindo da acentuada curva de crescimento, as reclamações sobre seus servidores ocupados são abundantes, com usuários de todo o mundo enfrentando inconvenientes como quedas ao tentar fazer algumas perguntas, levando ao surgimento de várias alternativas de acesso, como o site substituto do DeepSeek, com grandes provedores de serviços em nuvem, fabricantes de chips e empresas de infraestrutura lançando seus próprios serviços, além de tutoriais de implantação pessoal em todos os lugares. No entanto, a frustração das pessoas não diminui: quase todos os principais fabricantes globais afirmam apoiar a implantação do DeepSeek, mas os usuários locais ainda continuam reclamando da instabilidade do serviço.
O que aconteceu afinal?
1, para aqueles que estão acostumados com o ChatGPT, não conseguem lidar com o DeepSeek que não abre
A insatisfação das pessoas com o "servidor ocupado do DeepSeek" vem do fato de que as principais aplicações de IA, anteriormente dominadas pelo ChatGPT, raramente apresentam atrasos.
Desde o lançamento do serviço OpenAI, embora o ChatGPT tenha passado por alguns acidentes de falha de nível P0 (o nível mais grave de acidente), no geral, ele é relativamente confiável e encontrou um equilíbrio entre inovação e estabilidade, tornando-se gradualmente uma parte crucial semelhante aos serviços de nuvem tradicionais.
O número de vezes em que o ChatGPT caiu em grande escala não é muito alto.
O processo de inferência do ChatGPT é relativamente estável, incluindo duas etapas, codificação e decodificação. Na fase de codificação, o texto de entrada é convertido em um vetor que contém informações semânticas do texto de entrada. Na fase de decodificação, o ChatGPT usa o texto gerado anteriormente como contexto, e gera a próxima palavra ou frase através do modelo Transformer, até gerar uma sentença completa que atenda às necessidades. O próprio modelo é uma arquitetura de decodificação, e a fase de decodificação é o processo de saída de tokens (a unidade mínima de processamento de texto pelo modelo) um por um. Cada vez que o ChatGPT é questionado, inicia-se um processo de inferência.
Por exemplo, se perguntarmos ao ChatGPT 'Como está o seu humor hoje?', o ChatGPT codificará a frase, gerando representações de atenção em cada camada. Com base nas representações de atenção de todos os tokens anteriores, prevê o primeiro token de saída 'eu', e depois decodifica, adicionando 'eu' a 'Como está o seu humor hoje?', resultando em 'Como está o seu humor hoje? Eu'. Com a nova representação de atenção, prevê o próximo token: 'bom'. Seguindo os passos um e dois em um ciclo, obtemos 'Como está o seu humor hoje? O meu humor está ótimo.'
A ferramenta Kubernetes para orquestração de contentores é o "comandante por trás das cortinas" do ChatGPT, responsável pelo agendamento e alocação de recursos do servidor. Quando o volume de utilizadores aumenta para além da capacidade de controlo do plano de controlo do Kubernetes, resulta na paralisação completa do sistema ChatGPT.
O número total de vezes que o ChatGPT entra em colapso não é muito alto, mas por trás disso está o poderoso recurso em que se baseia para manter a operação estável, o que é suportado por uma poderosa potência de cálculo, um aspecto que as pessoas tendem a ignorar.
Em geral, devido ao tamanho dos dados processados pelo raciocínio geralmente ser pequeno, o requisito de potência de cálculo não é tão alto quanto o treinamento. Pessoas da indústria estimam que, durante o processo normal de raciocínio de grandes modelos, o peso dos parâmetros do modelo ocupa a maior parte da memória, provavelmente mais de 80%. A realidade é que, entre vários modelos incorporados no ChatGPT, os tamanhos dos modelos padrão são menores do que os 671B do DeepSeek-R1. Além disso, o ChatGPT possui muito mais potência de cálculo de GPU do que o DeepSeek, naturalmente exibindo um desempenho mais estável do que o DS-R1.
DeepSeek-V3 e R1 são ambos modelos de 671B, o processo de inicialização do modelo é o processo de raciocínio, a reserva de capacidade de cálculo durante o raciocínio precisa corresponder ao número de usuários, por exemplo, se houver 100 milhões de usuários, é necessário equipar com 100 milhões de placas gráficas, não apenas enormes, mas também independentes da reserva de capacidade de cálculo durante o treinamento e não relacionadas. De acordo com várias informações, a reserva de placas gráficas e capacidade de cálculo do DS claramente são insuficientes, resultando em travamentos frequentes.
Esta comparação não é familiar para os utilizadores que estão acostumados à experiência suave do ChatGPT, especialmente agora que o seu interesse no R1 está a aumentar.
2, cartão, cartão, ainda cartão
Além disso, ao comparar cuidadosamente, as situações enfrentadas pela OpenAI e pela DeepSeek são muito diferentes.
O primeiro tem o respaldo da Microsoft e, como única plataforma da OpenAI, o serviço de nuvem da Microsoft Azure incorpora o ChatGPT, o gerador de imagens Dalle-E 2 e a ferramenta de codificação automática GitHub Copilot. Posteriormente, essa combinação se tornou um paradigma clássico de nuvem + IA e se espalhou rapidamente, tornando-se rapidamente um padrão da indústria; o último, embora seja uma startup, geralmente depende de data centers próprios, semelhante ao Google, e não de fornecedores de computação em nuvem de terceiros. O Silicon Star descobriu após consultar informações públicas que a DeepSeek não tem colaborações em nenhum nível com fabricantes de chips ou provedores de nuvem (embora durante o Ano Novo Chinês os provedores de nuvem tenham anunciado que os modelos da DeepSeek estão rodando em suas plataformas, eles não realizaram nenhuma colaboração significativa).
Além disso, o DeepSeek enfrentou um crescimento de usuários sem precedentes, o que significa que ele tem menos tempo de preparação para casos de uso do que o ChatGPT.
O bom desempenho do DeepSeek vem da otimização global feita em nível de hardware e sistema. A empresa-mãe do DeepSeek, QuantX, investiu 200 milhões para construir o cluster de supercomputadores Firefly-1 em 2019, e já armazenou de forma discreta milhares de placas A100 até 22, a fim de treinar de forma mais eficiente em paralelo, o DeepSeek desenvolveu internamente o framework de treinamento HAI LLM. A indústria acredita que o cluster Firefly pode ter adotado milhares a dezenas de milhares de GPUs de alto desempenho (como Nvidia A100/H100 ou chips domésticos) para fornecer uma forte capacidade de computação paralela. Atualmente, o cluster Firefly suporta treinamentos de modelos como DeepSeek-R1, DeepSeek-MoE, que alcançam um nível próximo ao GPT-4 em tarefas complexas de matemática, código, entre outras.
O cluster Firefly representa a jornada de exploração da DeepSeek em novas arquiteturas e métodos, e também faz com que o exterior acredite que, por meio dessas inovações tecnológicas, o DS reduziu o custo de treinamento, podendo treinar um modelo de IA de ponta com apenas um sexto da potência dos modelos mais avançados do Ocidente, resultando em um desempenho equivalente ao modelo de IA de primeira linha R1. A SemiAnalysis calculou que a DeepSeek possui uma grande reserva de potência computacional: a DeepSeek empilhou um total de 60.000 placas de GPU NVIDIA, incluindo 10.000 A100, 10.000 H100, 10.000 H800 da versão especial e 30.000 H20 da versão especial.
Parece que isso significa que a quantidade de cartões R1 é suficiente. Mas na realidade, como modelo de raciocínio, o R1 é comparável ao O3 da OpenAI, esse tipo de modelo de raciocínio requer mais poder computacional para a fase de resposta, mas não está claro se a quantidade de poder computacional economizada pelo DS no custo de treinamento é maior ou menor do que a quantidade de poder computacional drasticamente aumentada no custo de raciocínio.
Vale ressaltar que o DeepSeek-V3 e o DeepSeek-R1 são ambos modelos de linguagem grandes, mas operam de maneiras diferentes. O DeepSeek-V3 é um modelo de instrução, semelhante ao ChatGPT, que recebe prompts e gera texto correspondente em resposta. Já o DeepSeek-R1 é um modelo de raciocínio, quando um usuário faz uma pergunta ao R1, ele passa por um extenso processo de raciocínio antes de gerar a resposta final. Os tokens gerados pelo R1 inicialmente apresentam uma série de processos de cadeias de pensamento, o modelo explica e decompõe a pergunta antes de gerar a resposta, todos esses processos de raciocínio são rapidamente gerados na forma de tokens.
Na opinião de Wen Tingcan, vice-presidente da Yaotu Capital, a reserva de energia computacional massiva mencionada acima da DeepSeek refere-se à fase de treinamento. Na fase de treinamento, a equipe de energia computacional pode ser planejada e prevista, e é improvável que haja escassez de energia computacional. No entanto, a energia computacional de raciocínio tem uma incerteza maior, pois depende principalmente do tamanho e do uso do usuário, sendo mais flexível. "A energia computacional de raciocínio aumentará de acordo com certas regras, mas com o DeepSeek tornando-se um produto fenomenal, o tamanho e o uso dos usuários explodirão em um curto período de tempo, resultando em um crescimento explosivo na demanda por energia computacional de raciocínio na fase de raciocínio, causando assim travamentos."
O designer de produtos de modelo ativo imediatamente, o desenvolvedor independente, Guicang, acredita que o principal motivo para o atraso do DeepSeek é o cartão de identificação de quantidade, e ele acredita que, como o aplicativo móvel com o maior número de downloads em 140 mercados globais, o cartão atual não pode mais aguentar, mesmo que seja um novo cartão, porque "fazer nuvem com um novo cartão leva tempo".
"O custo de rodar chips como Nvidia A100 e H100 por uma hora tem um preço de mercado justo, e o DeepSeek é mais de 90% mais barato do que o modelo semelhante o1 da OpenAI em termos de custo de inferência do token de saída, que não é muito diferente do cálculo de todos, então a arquitetura do modelo MOE em si não é o principal problema, mas o número de GPUs de propriedade da DS determina o número máximo de tokens que eles podem produzir por minuto, mesmo que mais GPUs possam ser usadas para usuários do serviço de inferência, E não para estudos de pré-formação, mas o teto está lá. Chen Yunfei, o desenvolvedor do aplicativo nativo de IA Kitten Fill Light, tem uma visão semelhante.
Também foi mencionado por profissionais da indústria à equipe da Gate.io que a essência do lag do DeepSeek é devido à falta de eficácia da nuvem privada.
Os ataques de hackers são outro fator que causa a R1 travar. Em 30 de janeiro, a mídia soube da empresa de segurança cibernética Qihoo 360 que a intensidade dos ataques contra o serviço online DeepSeek subiu repentinamente, com os comandos de ataque aumentando centenas de vezes em relação a 28 de janeiro. O laboratório Xlab da Qihoo 360 observou pelo menos 2 redes zumbis envolvidas nos ataques.
No entanto, esta lentidão no serviço R1 em si tem uma solução aparentemente óbvia, que é a prestação de serviços por terceiros. Este também é o cenário mais animado que testemunhamos durante a época do Ano Novo Chinês - várias empresas implementaram serviços para atender à demanda das pessoas por DeepSeek.
Em 31 de janeiro, a NVIDIA anunciou que a NVIDIA NIM já pode ser usada com o DeepSeek-R1. Anteriormente, a NVIDIA foi afetada pelo DeepSeek, resultando em uma perda de valor de mercado de quase 600 bilhões de dólares em uma noite. No mesmo dia, os usuários da AWS da Amazon Cloud podem implantar o modelo básico mais recente do DeepSeek, R1, em suas plataformas de inteligência artificial, Amazon Bedrock e Amazon SageMaker AI. Em seguida, novas aplicações de IA, incluindo Perplexity e Cursor, foram em massa integradas ao DeepSeek. A Microsoft, por sua vez, antecipou a Amazon e a NVIDIA ao implantar primeiro o DeepSeek-R1 nos serviços de nuvem Azure e Github.
A partir de 1 de fevereiro, no quarto dia do Ano Novo Chinês, a Huawei Cloud, a Ali Cloud, a Fire Eye Engine da ByteDance e a Tencent Cloud também se juntaram a eles, geralmente oferecendo serviços de implantação de modelos DeepSeek de toda a série e em todos os tamanhos. Em seguida, temos fabricantes de chips de IA como Bi Rui Technology, Hanbo Semiconductor, Ascend, Muxi, que afirmam ter adaptado a versão original ou versões menores do DeepSeek. Do lado das empresas de software, empresas como UFIDA e Kingdee estão integrando modelos DeepSeek em alguns de seus produtos para melhorar a força dos produtos. Por fim, fabricantes de terminais como Lenovo, Huawei e alguns produtos da Honor estão integrando modelos DeepSeek para servir como assistentes pessoais e para uso em cockpits inteligentes de carros.
Até agora, o DeepSeek atraiu uma ampla rede de amigos com seu próprio valor, incluindo provedores de nuvem nacionais e estrangeiros, operadoras, corretoras e plataformas nacionais de supercomputação na Internet. Como o DeepSeek-R1 é um modelo totalmente de código aberto, os provedores de serviços que se conectam se tornam beneficiários do modelo DS. Isso aumentou significativamente o volume do DS, mas também causou um fenômeno mais frequente de gagueira. Tanto os provedores de serviços quanto o DS em si estão cada vez mais presos aos usuários que chegam em massa, sem encontrar a chave para resolver o problema de uso estável.
Considerando que os modelos originais DeepSeek V3 e R1 têm até 671 bilhões de parâmetros, são adequados para serem executados na nuvem. Os provedores de nuvem em si têm mais capacidade de computação e inferência. Ao lançarem serviços de implantação relacionados ao DeepSeek, visam reduzir as barreiras de uso para as empresas. Após a implantação do modelo DeepSeek, eles fornecem externamente a API do modelo DS, o que é considerado uma experiência de uso melhor do que a API fornecida pela DS.
No entanto, na realidade, o problema da experiência de execução do modelo DeepSeek-R1 em si não foi resolvido em nenhum dos serviços, e o exterior acredita que os provedores de serviços não estão com falta de cartões, mas na realidade os R1 implantados por eles, os desenvolvedores têm feedback instável sobre a experiência de resposta, a frequência é totalmente equivalente ao R1, isso se deve mais ao fato de que não há muitos cartões disponíveis para atribuir ao R1 para inferência.
"O calor do R1 permanece alto, os provedores de serviços precisam considerar outros modelos de acesso, e a oferta de cartões para o R1 é muito limitada. Como o R1 é muito popular, qualquer pessoa que o adote a um preço relativamente baixo será subjugada." Guicang, designer de produtos do modelo, explicou a razão para os alienígenas de silício.
A otimização da implantação do modelo é um campo amplo que abrange muitos aspectos, desde a conclusão do treinamento até a implantação real do hardware, envolvendo trabalhos em vários níveis. No entanto, para os incidentes de travamento do DeepSeek, as razões podem ser mais simples, como modelos muito grandes e preparação inadequada antes do lançamento.
Antes do lançamento de um grande modelo popular, enfrentará vários desafios técnicos, de engenharia, de negócios, entre outros, como a consistência entre dados de treinamento e dados de ambiente de produção, o impacto do atraso e da temporalidade dos dados na eficácia do modelo de inferência, eficiência de inferência online e uso excessivo de recursos, capacidade de generalização do modelo insuficiente, e aspectos de engenharia como estabilidade do serviço, integração de API e sistema, entre outros.
Antes do lançamento de muitos modelos de grande escala populares, é altamente valorizado otimizar a inferência, porque há problemas de consumo de computação e memória. O primeiro refere-se a atrasos na inferência, resultando em uma má experiência do usuário, e até mesmo não atendendo aos requisitos de atraso, ou seja, a ocorrência de fenômenos como engasgos. O último refere-se a um grande número de parâmetros do modelo, consumindo memória de vídeo, e até mesmo uma única placa de GPU não sendo capaz de suportá-los, também resultando em engasgos.
Wen Tingcan explicou a razão para Silicon Star, ele disse que o provedor de serviços para fornecer serviços R1 encontrou desafios, a essência do qual é que a estrutura do modelo DS é especial, o modelo é muito grande + MOE (estrutura híbrida especializada, uma forma de computação eficiente) arquitetura, "(provedores de serviços) otimização leva tempo, mas o calor do mercado tem uma janela de tempo, então é primeiro otimizado e depois otimizado, em vez de totalmente otimizado e depois lançado." ”
Para que o R1 funcione de forma estável, o cerne agora está na capacidade de reserva e otimização do lado de raciocínio. O que o DeepSeek precisa fazer é encontrar maneiras de reduzir o custo do raciocínio e diminuir a saída do cartão, o número de tokens de saída por vez.
Ao mesmo tempo, o atraso também indica que a própria DS pode não ter a reserva de energia computacional tão grande quanto a SemiAnalysis descreve, a empresa do fundo de quadrados mágicos precisa de cartas, a equipe de treinamento DeepSeek também precisa de cartas, e não há muitas cartas disponíveis para os usuários. Dadas as circunstâncias atuais, a DeepSeek pode não ter incentivo de curto prazo para gastar dinheiro em aluguel de serviços e, consequentemente, fornecer uma experiência melhor gratuitamente aos usuários. É mais provável que eles esperem até que o primeiro lote de modelos de negócios para consumidores finais esteja claro antes de considerar o tópico do aluguel de serviços, o que também significa que os atrasos continuarão por um bom tempo.
Eles provavelmente precisam de duas etapas: 1) implementar um mecanismo de pagamento para limitar o uso do modelo de usuário gratuito; 2) colaborar com fornecedores de serviços em nuvem para utilizar os recursos de GPU de terceiros. A solução temporária proposta pelo desenvolvedor Chen Yunfei é amplamente reconhecida na indústria.
Mas, por enquanto, a DeepSeek não parece muito ansiosa com seus "servidores ocupados". Como uma empresa que persegue o AGI, a DeepSeek parece relutante em se concentrar demais nesse influxo de tráfego de usuários. Pode ser que os usuários tenham que se acostumar a enfrentar uma interface de "servidor ocupado" em um futuro próximo.