Por que a IA na China se desenvolve tão rapidamente? A resposta está escondida dentro dos laboratórios

Título original: Notas de dentro dos laboratórios de IA na China Autor original: Nathan Lambert Tradução: Peggy, BlockBeats

Autor original do texto: BlockBeats

Fonte original:

Reprodução: Mars Finance

Prefácio do editor: Os laboratórios de IA na China estão se tornando uma força cada vez mais difícil de ignorar na competição por grandes modelos globais. Suas vantagens não são apenas uma grande quantidade de talentos, engenharia forte e iteração rápida, mas também uma organização bastante realista: menos conversa sobre conceitos, mais desenvolvimento de modelos; menos ênfase em estrelas individuais, mais foco na execução em equipe; menos dependência de serviços externos, mais controle sobre a pilha tecnológica central.

O autor deste artigo, Nathan Lambert, após visitar vários dos principais laboratórios de IA na China, descobriu que o ecossistema de IA chinês não é exatamente igual ao dos EUA. Os EUA valorizam mais os paradigmas originais, o investimento de capital e a influência de cientistas de ponta; a China, por outro lado, é mais hábil em avançar rapidamente em direções já existentes, através de open source, otimizações de engenharia e grande investimento de jovens pesquisadores, levando as capacidades dos modelos rapidamente à vanguarda.

O mais importante a se observar não é se a IA na China já superou a dos EUA, mas sim que duas trajetórias de desenvolvimento diferentes estão se formando: os EUA parecem mais uma competição de ponta impulsionada por capital e laboratórios estrelados; a China, por sua vez, mais uma competição industrial impulsionada por capacidade de engenharia, ecossistema de open source e consciência de controle tecnológico.

Isso significa que, no futuro, a competição em IA não será apenas uma disputa por rankings de modelos, mas também uma luta por capacidade organizacional, ecossistema de desenvolvedores e execução industrial. A verdadeira mudança na IA na China está em que ela não está mais apenas copiando o Vale do Silício, mas participando do front global à sua própria maneira.

A seguir, o texto original:

Sentado no trem de alta velocidade que partia de Hangzhou para Xangai, olhei pela janela e vi cristas de montanhas bem definidas, pontilhadas por turbinas eólicas, formando silhuetas sob o pôr do sol. As montanhas compunham o fundo, enquanto à minha frente se estendiam vastos campos e arranha-céus entrelaçados.

Voltei à China com grande humildade. Chegar a um lugar tão estranho, mas ser recebido com tanto calor, foi uma experiência muito acolhedora e cheia de humanidade. Tive a sorte de conhecer muitas pessoas do ecossistema de IA, que até então só conhecia de longe; e eles, com sorrisos radiantes e entusiasmo, me receberam, fazendo-me perceber novamente que meu trabalho e todo o ecossistema de IA são, na verdade, globais.

Mentalidade dos pesquisadores chineses

Empresas chinesas que estão construindo modelos de linguagem podem ser consideradas excelentes “seguidoras rápidas” dessa tecnologia. Elas se apoiam na longa tradição cultural de educação e trabalho na China, além de apresentarem uma abordagem de construção de empresas tecnológicas um pouco diferente da ocidental.

Se olharmos apenas a produção — ou seja, os modelos mais recentes e maiores, e os fluxos de trabalho inteligentes que suportam — e os fatores de investimento, como cientistas de excelência, grandes volumes de dados e recursos de computação acelerada, os laboratórios chineses e americanos parecem bastante semelhantes. A verdadeira diferença de longo prazo reside na forma como esses fatores são organizados e moldados.

Sempre acreditei que uma das razões pelas quais os laboratórios chineses são tão hábeis em acompanhar e manter-se na vanguarda é por estarem culturalmente alinhados com essa tarefa. Mas, antes de conversar diretamente com muitos desses cientistas, achei que essa intuição poderia ser uma influência importante demais para ser atribuída sem mais evidências. Após falar com muitos cientistas humildes, abertos e excelentes de laboratórios de ponta na China, minhas ideias ficaram mais claras.

Hoje, construir o melhor grande modelo de linguagem depende, em grande parte, de um trabalho meticuloso ao longo de toda a pilha tecnológica: desde os dados, detalhes de arquitetura, até a implementação de algoritmos de aprendizado por reforço. Cada etapa do modelo pode oferecer melhorias, mas combiná-las de forma eficiente é um processo complexo. Nesse processo, o trabalho de indivíduos muito inteligentes pode precisar ser temporariamente deixado de lado para maximizar o desempenho geral em múltiplos objetivos.

Os pesquisadores americanos também são claramente hábeis em resolver problemas de componentes isolados, mas eles cultivam uma cultura de “falar por si”. Como cientistas, ao buscar atenção para seu trabalho, eles tendem a ter mais sucesso; além disso, a cultura contemporânea incentiva uma nova rota de fama — tornar-se um “cientista de IA de destaque”. Isso pode gerar conflitos diretos.

Há rumores de que, após a hierarquização de interesses, a organização do Llama teria desmoronado sob pressão política. Ouvi também que, às vezes, é necessário “acalmar” um pesquisador de ponta, para que ele pare de reclamar que suas ideias não foram incorporadas ao modelo final. Seja verdade ou não, a mensagem é clara: a autoconsciência e o desejo de ascensão profissional podem atrapalhar a construção do melhor modelo. Mesmo uma pequena diferença cultural entre EUA e China nesse aspecto pode ter um impacto significativo no resultado final.

Uma parte dessa diferença está relacionada a quem está construindo esses modelos na China. Em todos os laboratórios, uma realidade bastante direta é que uma grande proporção dos contribuintes principais ainda está na fase de estudante. Esses laboratórios são bastante jovens, o que me faz lembrar a nossa organização na Ai2: estudantes são considerados colegas e integrados diretamente às equipes de modelos de linguagem grande.

Isso contrasta bastante com os principais laboratórios americanos. Empresas como OpenAI, Anthropic, Cursor, por exemplo, não oferecem estágios formais. Google e outras empresas, nominalmente, oferecem estágios relacionados ao Gemini, mas muitos temem que esses estágios fiquem isolados do núcleo real do trabalho.

Resumindo, essa leve diferença cultural pode potencialmente aumentar a capacidade de construir modelos ao fazer com que as pessoas se dediquem mais a tarefas menos glamourosas; que os novos participantes no campo possam se adaptar mais rapidamente às novas técnicas modernas, sem serem influenciados por ciclos de hype anteriores. De fato, um cientista chinês com quem conversei claramente enxerga isso como uma vantagem; menor autoconsciência facilita a expansão organizacional, pois há menos tentativas de “jogar com o sistema”; e há uma grande quantidade de talentos aptos a resolver problemas já conceitualizados em outros lugares, entre outros fatores.

Essa inclinação mais favorável à construção de modelos atuais de linguagem contrasta com um estereótipo bem conhecido: a ideia de que pesquisadores chineses produzem menos trabalhos acadêmicos mais criativos, capazes de abrir novos campos do zero.

Em várias visitas a laboratórios mais acadêmicos durante essa viagem, muitos responsáveis falaram sobre o cultivo de uma cultura de pesquisa mais ambiciosa. Ao mesmo tempo, alguns líderes técnicos com quem conversei duvidam que essa reformulação na abordagem científica possa acontecer em curto prazo, pois ela exige uma reformulação profunda do sistema de educação e de incentivos, algo muito difícil de realizar sob o atual equilíbrio econômico.

Essa cultura parece estar formando uma geração de estudantes e engenheiros muito hábeis no “jogo de construção de grandes modelos de linguagem”. E, de fato, eles são muitos.

Esses estudantes me disseram que a China também está passando por uma fuga de talentos semelhante à dos EUA: muitos que antes pensavam em seguir carreira acadêmica agora pretendem ficar na indústria. Uma frase particularmente interessante veio de um pesquisador que originalmente queria ser professor: ele disse que queria ser professor para estar mais próximo do sistema educacional; mas logo comentou que a educação já foi resolvida pelos grandes modelos de linguagem — “por que os estudantes ainda viriam falar comigo?”

Esses estudantes, com olhos novos, entram na área de modelos de linguagem grande, o que é uma vantagem. Nos últimos anos, vimos mudanças constantes nos paradigmas-chave de modelos de linguagem: de expandir MoE, para reforço de aprendizado, até suportar agentes inteligentes. Para fazer bem qualquer uma dessas tarefas, é preciso absorver rapidamente uma vasta quantidade de informações de fundo — incluindo literatura mais ampla e a pilha tecnológica interna de suas empresas.

Esses estudantes estão acostumados a fazer esse tipo de trabalho, e também dispostos a abandonar pré-concepções sobre “o que deve funcionar”, com humildade. Eles mergulham de cabeça, dedicando suas vidas à melhoria dos modelos.

Eles também são surpreendentemente diretos, sem as divagações filosóficas que muitas vezes distraem os cientistas. Quando pergunto como veem o impacto econômico ou os riscos sociais de longo prazo dos modelos, há muito menos pesquisadores chineses com opiniões complexas ou que desejam influenciar essas questões. Para eles, seu papel é construir o melhor modelo possível.

Essa diferença é sutil e facilmente negada. Mas, ao conversar longamente com um pesquisador inteligente, articulado e que consegue falar inglês com clareza, ela fica evidente: ao perguntar sobre questões mais filosóficas da IA, essas perguntas fundamentais ficam no ar, enquanto eles demonstram uma espécie de confusão simples. Para eles, isso é uma categoria equivocada.

Alguns até citam a famosa avaliação de Dan Wang: que, em comparação com os EUA, liderados por advogados, a China é governada por engenheiros. Ao falar dessas questões, usam essa analogia para enfatizar o desejo de construir. Na China, não há um caminho sistemático que, como os podcasts mainstream de Dwarkesh ou Lex, cultive a influência de estrelas entre os cientistas chineses.

Tentei fazer com que cientistas chineses comentassem sobre as incertezas econômicas futuras provocadas pela IA, ou debates morais sobre como os modelos deveriam se comportar; mas tudo o que consegui foi uma visão de fundo, relacionada à formação e educação desses cientistas (editada 1). Eles são extremamente focados no trabalho, mas cresceram em um sistema que não incentiva discussões ou expressões sobre como a sociedade deve se organizar ou mudar.

De uma perspectiva mais ampla, especialmente em Pequim, a sensação que tenho é de uma cidade semelhante ao Vale do Silício: um laboratório competitivo, a poucos minutos a pé ou de táxi. Após desembarcar, no caminho para o hotel, passei pelo parque da Alibaba em Pequim. Nos 36 horas seguintes, visitamos Zhipu AI, Dark Side of the Moon, Tsinghua University, Meituan, Xiaomi e 01.ai.

No Brasil, usar Didi é muito conveniente. Se você escolher o modelo XL, frequentemente será levado por uma van elétrica com assento de massagem. Perguntamos aos pesquisadores sobre a disputa por talentos, e eles disseram que é muito semelhante ao que vivemos nos EUA. Trocar de emprego é normal, e a escolha de onde ir depende muito do clima do momento.

Na China, a comunidade de modelos de linguagem grande parece mais um ecossistema do que uma série de tribos em conflito. Em muitas conversas não públicas, ouvi quase toda a atenção voltada ao respeito pelos colegas. Todos os laboratórios chineses têm bastante cautela com ByteDance e seu popular modelo Doubao, pois é a única grande empresa de ponta de código fechado na China. Ao mesmo tempo, todos respeitam DeepSeek, considerado o laboratório com maior refinamento de pesquisa na execução. Nos EUA, ao conversar informalmente com membros de laboratórios, as discussões costumam ser mais acaloradas.

A humildade dos pesquisadores chineses mais me impressiona pelo fato de que eles também frequentemente dizem que isso tudo não é problema deles, do ponto de vista comercial. Nos EUA, parece que todo mundo está imerso em tendências de ecossistema — venda de dados, poder computacional, financiamento.

Diferenças e semelhanças entre a indústria de IA na China e os laboratórios ocidentais

Hoje, construir um modelo de IA é algo muito mais complexo do que simplesmente reunir um grupo de pesquisadores talentosos para criar uma maravilha de engenharia. No passado, era mais assim, mas, para sustentar negócios de IA, os grandes modelos de linguagem estão se tornando uma espécie de híbrido: envolvem construção, implantação, financiamento e promoção da adoção.

As principais empresas de IA estão inseridas em ecossistemas complexos. Esses ecossistemas fornecem financiamento, poder de computação, dados e outros recursos para impulsionar continuamente o avanço na fronteira.

No ecossistema ocidental, a forma de integrar os diversos fatores necessários para criar e manter grandes modelos de linguagem já foi bastante conceitualizada e mapeada. Anthropic e OpenAI são exemplos típicos. Assim, se conseguirmos identificar diferenças claras na forma como os laboratórios chineses pensam sobre esses aspectos, poderemos entender em quais áreas as empresas podem apostar no futuro, embora essas escolhas também sejam fortemente influenciadas por financiamento e recursos computacionais.

Aqui estão algumas das principais lições que extraí das conversas com esses laboratórios, relacionadas ao “nível industrial de IA”:

Primeiro, sinais iniciais de demanda de IA doméstica já aparecem. Uma hipótese amplamente discutida é que o mercado de IA na China será menor, pois as empresas chinesas geralmente não querem pagar por software, e assim nunca liberarão um mercado de inferência suficientemente grande para sustentar laboratórios.

Porém, essa avaliação vale apenas para gastos com software no modelo SaaS. Historicamente, o ecossistema SaaS na China sempre foi pequeno. Por outro lado, a China ainda possui um enorme mercado de nuvem.

Uma questão-chave ainda sem resposta é: o gasto de empresas chinesas em IA será mais parecido com o mercado de SaaS — menor — ou com o mercado de nuvem — mais fundamental? Essa discussão também ocorre dentro dos próprios laboratórios chineses. No geral, sinto que a IA está mais próxima do mercado de nuvem, sem que ninguém realmente tema que o mercado formado por novas ferramentas não cresça.

Segundo, a maioria dos desenvolvedores é fortemente influenciada por Claude. Apesar de, nominalmente, Claude estar proibido na China, a maioria dos desenvolvedores de IA no país é bastante fã do Claude e de como ele mudou sua forma de construir software. Apenas por o país não ter uma cultura de compra de software no passado, não acho que isso signifique que não haverá uma grande demanda por inferência na China.

Os profissionais chineses são muito pragmáticos, humildes e motivados. Essa impressão é mais forte do que qualquer hábito de “não comprar software”.

Alguns pesquisadores chineses mencionam que usam suas próprias ferramentas, como comandos do Kimi ou GLM, mas todos falam sobre o uso do Claude. Surpreendentemente, poucos mencionam Codex, que está rapidamente ganhando popularidade na Bay Area.

Terceiro, há uma mentalidade de propriedade tecnológica nas empresas chinesas. A cultura chinesa, aliada a uma economia em pleno funcionamento, gera resultados imprevisíveis. Uma impressão forte que tenho é que a quantidade de modelos de IA reflete uma abordagem pragmática e equilibrada de muitas empresas tecnológicas aqui. Não há um planejamento centralizado.

Esse setor é definido por uma reverência a ByteDance e Alibaba, considerados grandes players com recursos para conquistar muitos mercados. DeepSeek é respeitado como líder técnico, mas não como líder de mercado. Eles definem direções, mas não possuem uma estrutura econômica que garanta domínio.

Isso deixa espaço para empresas como Meituan ou Ant Group. Os ocidentais podem se surpreender por elas também estarem construindo esses modelos, mas, na prática, elas veem os grandes modelos de linguagem como o núcleo de futuras inovações tecnológicas, e precisam de uma base sólida.

Ao fazer ajustes finos em modelos poderosos, a comunidade open source fornece feedback que fortalece suas pilhas tecnológicas, além de permitir que essas empresas mantenham versões internas de ajuste fino. Essa postura de “abertura prioritária” é bastante pragmática: ajuda a obter feedback forte, contribui com a comunidade open source e reforça a missão própria.

Quarto, o apoio governamental é real, mas seu escopo ainda é incerto. Há afirmações frequentes de que o governo chinês está ativamente apoiando a competição de modelos de linguagem aberta, mas trata-se de uma estrutura governamental descentralizada, com múltiplos níveis, sem um manual de operações claro que defina exatamente o que cada um deve fazer.

Distritos diferentes de Pequim competem para atrair empresas de tecnologia. As “ajudas” oferecidas quase certamente incluem a remoção de burocracias, como licenças. Mas até que ponto esse apoio é efetivo? Os diferentes níveis do governo podem ajudar a atrair talentos? Podem ajudar a contrabandear chips?

Durante toda a visita, houve muitas menções ao interesse ou ajuda do governo, mas as informações não são suficientes para formar uma narrativa definitiva, nem para afirmar com confiança como o governo pode alterar a trajetória do desenvolvimento de IA na China.

Claro que, até o momento, não há sinais de que o alto escalão do governo esteja influenciando decisões técnicas sobre modelos.

Quinto, a indústria de dados ainda está muito atrás do Ocidente. Sabe-se que a Anthropic ou a OpenAI gastam mais de 10 milhões de dólares por ambiente, e que os gastos anuais para impulsionar o avanço em aprendizado por reforço chegam a centenas de milhões de dólares. Assim, queremos saber se os laboratórios chineses também compram ambientes de empresas americanas ou se há uma ecologia doméstica semelhante apoiando-os.

A resposta não é exatamente “não há indústria de dados”, mas sim que, na experiência deles, a qualidade da indústria de dados é relativamente baixa, e muitas vezes é melhor construir ambientes ou dados internamente. Pesquisadores gastam bastante tempo criando ambientes de treinamento de aprendizado por reforço, enquanto grandes empresas como ByteDance e Alibaba podem ter equipes internas de anotação de dados para apoiar esse trabalho. Tudo isso reforça a mentalidade de “construir internamente, não comprar”.

Sexto, há uma forte demanda por chips da Nvidia. O poder de computação da Nvidia é o padrão ouro para treinamento, e o progresso de cada um é limitado pela quantidade de recursos disponíveis. Se a oferta fosse suficiente, eles certamente comprariam. Outros aceleradores, incluindo Huawei, também são bem avaliados para inferência. Muitas instituições podem usar chips Huawei.

Esses pontos descrevem um ecossistema de IA bastante diferente. Se tentarmos aplicar rapidamente o modo de operação dos laboratórios ocidentais aos chineses, muitas vezes cometeremos equívocos de classificação. A questão central é: esses ecossistemas diferentes produzirão tipos de modelos substancialmente distintos, ou os modelos chineses serão sempre interpretados como versões similares às fronteiras ocidentais de 3 a 9 meses atrás?

Conclusão: equilíbrio global

Antes dessa viagem, eu sabia muito pouco sobre a China; ao sair, senti que mal comecei a aprender. A China não é um lugar que possa ser descrito por regras ou fórmulas, mas sim por mecanismos de motivação e reações químicas bastante diferentes. Sua cultura é antiga, profunda, e ainda entrelaçada completamente com a forma como o país constrói sua tecnologia. Ainda tenho muito a aprender.

Muitas partes da estrutura de poder atual nos EUA usam sua visão da China como uma ferramenta psicológica decisiva. Depois de conversar com quase todos os principais laboratórios de IA na China, percebo que há muitas qualidades e instintos no país que são difíceis de modelar na tomada de decisão ocidental.

Mesmo ao perguntar por que esses laboratórios liberam seus modelos mais avançados, ainda é difícil conectar completamente a mentalidade de propriedade com a de apoio sincero ao ecossistema.

Esses laboratórios são muito pragmáticos, não necessariamente absolutistas em relação ao open source, e nem todos os modelos que criam são obrigatoriamente abertos. Mas eles têm uma forte intenção de apoiar desenvolvedores, fortalecer o ecossistema e usar a abertura como uma forma de entender melhor seus próprios modelos.

Quase todas as grandes empresas de tecnologia na China estão construindo seus próprios modelos de linguagem grande. Já vimos empresas como Meituan, Xiaomi, que lançaram modelos abertos. Nos EUA, empresas similares geralmente apenas compram serviços.

Essas empresas não constroem modelos de linguagem para se destacarem em tendências passageiras, mas por um desejo profundo e fundamental: controlar sua própria pilha tecnológica e desenvolver as tecnologias mais importantes do momento. Quando olho para o horizonte e vejo uma série de guindastes, isso reflete a cultura de construção e energia de desenvolvimento mais ampla da China.

A humanidade, a sinceridade e o calor dos pesquisadores chineses são muito acolhedores. No nível pessoal, a discussão dura e política que estamos acostumados nos EUA não permeia esse ambiente. O mundo poderia ter mais dessa positividade simples. Como membro da comunidade de IA, hoje me preocupo mais com as fissuras que estão surgindo entre membros e grupos, em torno de rótulos de nacionalidade.

Se eu dissesse que não quero que os laboratórios americanos liderem claramente cada aspecto da pilha de IA, estaria mentindo. Especialmente na área de modelos abertos, onde passo muito tempo, sou americano e tenho essa preferência sincera.

Ao mesmo tempo, espero que o ecossistema aberto possa prosperar globalmente, pois isso criaria uma IA mais segura, acessível e útil para o mundo. A questão atual é se os laboratórios americanos tomarão ações para assumir essa liderança.

Enquanto escrevo este artigo, rumores sobre possíveis ações executivas para influenciar modelos abertos estão circulando. Isso pode complicar ainda mais a relação de colaboração entre liderança americana e ecossistema global — o que não me dá mais confiança.

Agradeço a todos os excelentes profissionais com quem tive a sorte de conversar na Dark Side of the Moon, Zhipu AI, Meituan, Xiaomi, Qianwen, Ant Light, 01.ai e outros. Todos foram extremamente entusiasmados e generosos com seu tempo. À medida que minhas ideias se formam, continuarei compartilhando minhas observações sobre a China, incluindo aspectos culturais mais amplos e o próprio campo de IA.

Claramente, esse conhecimento estará diretamente ligado à narrativa do desenvolvimento na fronteira da IA.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar