Decodificação do primeiro artigo extenso de Lin Junyang após a sua saída: 6 insights para investir em IA

Três semanas após a saída de Lin Junyang da Alibaba Qwen, como antigo papel central de Tongyi Qwen que esteve em grande destaque, Lin Junyang publicou o seu primeiro artigo técnico público após o desligamento: «De “pensamento baseado em raciocínio” a “pensamento agentic” (From “Reasoning” Thinking to “Agentic” Thinking)».

Este longo artigo, em inglês e com 6000 palavras, faz uma retrospectiva com base nas suas experiências práticas e nas observações do treino dos modelos ao longo do tempo, e apresenta várias orientações que poderão captar a atenção de participantes nas competições de IA.

Neste artigo, Lin explica em detalhe a importância do paradigma de pensamento de agentes (Agent) para o treino de modelos.

Quanto ao papel de retroalimentação (feedback) dos agentes no treino de modelos de IA, a edição anterior da Huaxiang (Wall Street) publicou anteriormente o artigo «O despertar amargo dos Agent: a inteligência está a passar do domínio da linguagem para o domínio da experiência», tentando, a partir da aprendizagem por reforço de Sutton, interpretar por que motivo o Agent é o caminho inevitável para limites superiores de inteligência ainda mais elevados.

Por sua vez, Lin Junyang, neste artigo, combinando as suas práticas técnicas vividas a partir do trabalho da equipa Qwen, oferece referências e provas mais “hardcore” para o pensamento de agentes, com detalhes de engenharia; além disso, aponta com mais precisão onde é que o modo tradicional de raciocínio falha, e quais poderão ser as restrições centrais e os pontos de competição do futuro dos agentes inteligentes.

Para quem procura compreender as mudanças na próxima etapa da forma dos sistemas de IA, este artigo poderá conter, pelo menos, seis ensinamentos de investimento que valem a pena digerir com seriedade.

1. Rendimentos marginais decrescentes do raciocínio

Na primeira metade de 2025, e mesmo antes, toda a indústria tem estado a fazer a mesma coisa: fazer com que os modelos «pensem mais um pouco».

O o1 da OpenAI provou que «pensar» pode tornar-se uma capacidade central treinada especificamente, e a indústria ficou entusiasmada e mergulhou nesta corrida armamentista; a crença central resume-se a uma só: ao fazer o modelo consumir mais computação na fase de raciocínio, consegue-se produzir respostas melhores.

Mas Lin Junyang propõe no artigo um juízo bastante frio:

Trajetórias de raciocínio mais longas não tornam automaticamente o modelo mais inteligente.

Muitas vezes, um raciocínio excessivamente explícito expõe, em vez disso, uma alocação de recursos inadequada.

Esta é uma conclusão contraintuitiva que merece atenção.

De 2024 a 2025, a lógica de precificação do mercado para «modelos de raciocínio» foi construída sobre uma hipótese simples e intuitiva: quanto mais tempo o modelo pensa, melhores são as respostas; por isso, quanto maior o tempo de raciocínio, maior o valor.

A quantidade de consumo de GPU passou a ser um indicador proxy para medir o nível de inteligência. No mercado primário, muitos discursos de financiamento de startups têm como núcleo: «o nosso modelo raciocina mais profundamente».

Contudo, Lin Junyang, com experiências verdadeiramente pessoais na equipa Qwen, mostra que esta hipótese está a deixar de funcionar. Se um modelo tenta pensar em todos os problemas da mesma forma longa, isso indica que não consegue avaliar com eficácia prioridades, não consegue comprimir informação a tempo, e não consegue agir de forma decisiva quando é a altura de atuar. Ele escreveu:

O pensamento deve ser moldado pelo trabalho-alvo.

Se o objetivo é codificar, o pensamento deve ajudar o modelo na navegação do repositório de código, no planeamento de tarefas e na recuperação de erros; se o objetivo é um fluxo de trabalho de agentes, o pensamento deve melhorar a qualidade da execução em escalas de tempo longas, «em vez de produzir apenas um texto intermédio que pareça muito impressionante».

Traduzindo para linguagem de investimento: o retorno marginal do poder computacional para raciocínio está a diminuir.

A rota tecnológica de simplesmente empilhar tempo de raciocínio está a aproximar-se do seu limite de economicidade. As empresas que ainda usam a «profundidade de raciocínio» como narrativa central de valorização podem ter de reexaminar onde, afinal, se encontra a sua verdadeira muralha defensiva.

2. A fragilidade do “modelo unificado”

Lin Junyang revelou no artigo uma escolha de rota pouco conhecida: a equipa Qwen tentou, num determinado momento, fundir «o modo de pensamento» e «o modo de instruções» no mesmo modelo.

Este objetivo parece naturalmente correto. Um sistema ideal deveria funcionar como um especialista experiente: problemas simples recebem respostas diretas; problemas complexos exigem reflexão aprofundada; e o próprio sistema deve conseguir decidir quando usar cada um dos modos.

Qwen3 é uma das tentativas públicas mais claras nesta direção: introduz um «modo misto de pensamento», permitindo que a mesma família de modelos tenha simultaneamente comportamentos de pensar e de não pensar, e sublinha um orçamento de pensamento controlável.

Mas Lin Junyang admite que «unir» é fácil de dizer; o verdadeiro desafio é fazê-lo bem, e a dificuldade não reside na arquitetura do modelo, mas nos dados.

Um modelo forte de instruções é recompensado por ser direto, conciso, com elevada conformidade de formato, e por apresentar baixa latência em tarefas empresariais de alta frequência e alto throughput; um modelo forte de pensamento é recompensado por estar disposto a investir mais tokens em problemas difíceis, por manter uma estrutura intermédia coerente e por explorar caminhos alternativos.

Estas duas imagens de comportamento existem naturalmente em tensão.

Como descreveu Lin Junyang:

Se os dados de fusão não forem filtrados e concebidos com detalhe suficiente, o resultado costuma ser que ambos os lados ficam aquém: o comportamento de pensamento torna-se barulhento, inchado e indeciso; e o comportamento de modo de instruções perde a agilidade, fiabilidade e vantagens de custo que deveria ter.

Foi exatamente por isso que a versão 2507 do Qwen lançou, no final, atualizações independentes de Instruct e Thinking, incluindo as razões para existirem versões separadas de 30B e 235B.

Na implementação comercial, muitos clientes precisam sobretudo de um modo de instruções de alto throughput, baixo custo e altamente controlável; ao fundir à força, a proposta de produto acaba por ficar pouco nítida.

A Anthropic seguiu um caminho oposto. O Claude 3.7 Sonnet é definido como um modelo de raciocínio híbrido: o utilizador pode escolher responder de forma normal ou expandir o pensamento; o Claude 4 vai ainda mais longe, permitindo que o processo de raciocínio e o uso de ferramentas se intercalem. O GLM-4.5 e o DeepSeek V3.1 também seguiram mais tarde uma direção semelhante.

Quanto a estas duas rotas, o juízo de Lin Junyang é: uma fusão verdadeiramente bem-sucedida exige que o investimento no raciocínio seja uma escala espectral suave e contínua, e que o modelo consiga escolher de forma adaptativa quanta força deve ser aplicada para pensar. Se isso não for possível, «a experiência do produto ainda não será natural»; no essencial, continua a ser «duas personalidades rígidas coladas juntas».

O ensinamento para investidores é direto: não se deixe facilmente convencer por narrativas do tipo «modelo unificado» ou «um modelo que faz tudo».

Um modelo que afirma cobrir todos os cenários e um modelo que de facto consegue otimizar em cada cenário são duas coisas diferentes.

As verdadeiras barreiras técnicas de valor, encontram-se nos locais que não podem ser capturados numa simples folha de resultados de referência: a proporção dos dados, o desenho do processo de treino, o alinhamento comportamental, etc. O “universal” apresentado nos slides de financiamento, quando chega à implementação comercial, muitas vezes enfrenta concessões mútuas ao nível dos dados.

3. Elevação de dimensão do alvo de treino

O resumo com maior peso de todo o texto de Lin Junyang talvez seja: «Estamos a passar de uma era focada em treinar modelos para uma era centrada no treino de agentes.»

No artigo anterior, tentámos argumentar a inevitabilidade lógica desta transformação: o limite de dados estáticos já é conhecido e corresponde aos limites do mundo conhecido; só quando os agentes interagem continuamente com ambientes reais é que se consegue ultrapassar esse limite.

Neste artigo, Lin Junyang talvez dê a este juízo uma linguagem de engenharia ainda mais concreta:

O pensamento baseado em raciocínio valoriza a qualidade do pensamento interno do modelo antes de fornecer a resposta final; por exemplo, se consegue resolver teoremas, escrever demonstrações, produzir código correto, e passar testes de referência.

Tudo isto acontece num ambiente fechado e controlável: é uma performance intelectual independente.

Os objetivos de otimização do pensamento de agentes são completamente diferentes.

Ele tem de lidar com problemas que o modelo de raciocínio consegue contornar: decidir quando deve parar de pensar e agir; escolher que ferramenta chamar e em que ordem; absorver ruído do ambiente ou observações incompletas; rever o plano após falhar; e manter consistência entre múltiplas interações.

O foco de Lin Junyang é «se o modelo consegue avançar continuamente a resolução do problema durante a interação com o ambiente». A questão central muda de «o modelo consegue pensar tempo suficiente» para «se o modelo consegue pensar de uma forma que sustente ações eficazes».

Cada um destes desafios corresponde a uma “trajetória decisória da estrutura causal” do ato.

Para investimento em IA, o significado desta mudança é extremamente profundo.

No passado, na validação ampla das Leis de Escala (Scaling Law), os indicadores centrais para avaliar uma empresa de IA eram o próprio modelo — quantos parâmetros tem, que pontuações de referência alcança, quão rápido é o raciocínio.

Mas se o alvo do treino passa do modelo para um sistema composto por “modelo + ambiente”, então o quadro de avaliação também tem de mudar.

Os problemas valiosos no futuro tornar-se-ão: em quantos cenários reais a equipa da empresa fará os seus agentes inteligentes rodar continuamente? Quantos dados de interação com estrutura causal ele acumulou? Quão ampla é a cobertura do ambiente e quão ricos são os sinais de feedback? Quão rápido é o ciclo de “modelo + ambiente” (loop) que ele consegue executar?

O modelo é apenas uma parte do sistema; já não é tudo. Avaliar a empresa de agentes apenas com base no benchmark do modelo, tal como pontuar um veículo todo-o-terreno com base num teste de 0-100, provavelmente fará com que se apanhem indicadores errados.

4. Infraestrutura subavaliada

Lin Junyang dedica uma grande parte do artigo à infraestrutura. Este é um componente que, no investimento em IA, é mais fácil de ignorar, mas que pode afetar mais profundamente o panorama competitivo.

Na aprendizagem por reforço baseada em raciocínio (raciocínio em trilhas geradas), o modelo gera trajetórias de raciocínio, o avaliador dá pontuações, a atualização de estratégia ocorre, mas o ambiente é apenas um verificador estático.

Já na aprendizagem por reforço com agentes, toda a lógica técnica sofre uma mudança qualitativa.

Lin Junyang descreve uma imagem: a estratégia do agente é embutida num enorme quadro de execução — servidores de ferramentas, navegador, terminal, motores de busca, simuladores, sandbox de execução, camada de APIs, sistema de memória e vários frameworks de orquestração.

O ambiente deixa de ser um mero espectador e passa a ser parte do próprio sistema de treino. Ele dá um exemplo muito visual: imagine que um agente de codificação precisa de colocar o código que ele próprio gerou num ambiente de testes em tempo real para executar. Do lado do raciocínio, fica bloqueado à espera do feedback da execução; do lado do treino, fica com falta de “trajetórias concluídas”, porque não consegue obter as trajetórias de finalização; por isso, a utilização de GPU em toda a pipeline é muito mais baixa do que na aprendizagem por reforço clássica baseada em raciocínio. E, ao somar a latência das ferramentas, a observabilidade parcial e ambientes com estado, a ineficiência só tende a ser amplificada.

Para entender por analogia: o treino de modelos de raciocínio assemelha-se a fazer exercícios numa sala de aula silenciosa; as questões têm respostas padrão, e o feedback de acerto/erro é imediato. O treino de agentes assemelha-se a construir numa obra barulhenta: o fornecimento de materiais é incerto, o tempo muda, as ações dos outros trabalhadores afetam o seu progresso e, muitas vezes, é preciso esperar que o betão seque para saber se a betonagem foi feita corretamente.

A infraestrutura necessária para o modo “sala de aula” e para o modo “obra” não é sequer da mesma ordem de grandeza em termos de problema de engenharia.

É por isso que Lin Junyang enfatiza: «o treino e a inferência devem ser separados de forma mais completa». Se não se fizer isto, o throughput do treino de agentes colapsa rapidamente; e os experimentos tornam-se lentos, dolorosos e difíceis de escalar antes sequer de atingirem as capacidades-alvo.

Este poderá ser o quarto ensinamento do investimento em IA: a lógica de investimento em infraestrutura de IA está a sofrer uma transferência estrutural.

No passado, o recurso central era a própria capacidade de computação; quem tivesse mais GPUs ganhava na linha de partida. No futuro, o recurso central será a capacidade de engenharia do sistema para coordenar todo o processo de treino, simular ambientes e recolher feedback.

Esta capacidade é extremamente difícil de copiar, e as empresas que a possuem são muito mais poucas do que as que têm clusters de grande capacidade computacional.

Se a computação for como tijolos, então a infraestrutura de treino de agentes é como capacidade de design de construção — tijolos podem ser comprados, mas capacidade de design não.

5. Escassez de qualidade do ambiente

No artigo, Lin Junyang apresenta uma analogia muito reveladora: «Na era do SFT (fine-tuning supervisionado), estávamos obcecados com a diversidade de dados; na era dos agentes, deveríamos ficar obcecados com a qualidade do ambiente: estabilidade, autenticidade, cobertura, dificuldade, diversidade de estados, riqueza do feedback, capacidade de resistir a exploração, e a escalabilidade gerada por rollout (executar todo o processo por completo).»

Nos últimos dois anos, os dados foram a palavra-chave mais central na narrativa do investimento em IA. Quem tivesse mais dados de treino de alta qualidade teria modelos mais fortes. Termos como muralhas de dados, bacias defensivas de dados (data moats) e ciclos de dados (data flywheels) suportaram grande parte da lógica de financiamento e dos prémios de valuation.

Mas o juízo de Lin Junyang aponta para uma mudança mais fundamental:

Quando o alvo do treino muda do modelo para agentes, a própria definição de recurso escasso muda; pode tornar-se algum tipo de ambiente de treino dinâmico, interativo e capaz de fornecer sinais de feedback ricos.

No artigo anterior, propusemos que o Agent “alimenta o modelo com a espinha dorsal da decisão”, em vez de “as sombras da linguagem”.

A argumentação de Lin Junyang descreve com precisão onde é que essa espinha dorsal é forjada — o ambiente é a oficina, e a oficina determina a resistência da espinha dorsal.

Ele chega mesmo a avaliar:

A construção do ambiente já começou a mudar de “um projeto paralelo feito por conveniência” para uma verdadeira pista de empreendedorismo.

Para investimento em IA, pode estar a formar-se uma categoria de investimento totalmente nova. Diferente das empresas de modelos ou de computação tradicionais, trata-se de “empresas de ambiente”: empresas especializadas na construção de ambientes de simulação de alta qualidade, altamente fiel e escaláveis para o treino de agentes.

Se o objetivo dos agentes for operar em configurações próximas do ambiente de produção, então o ambiente em si é parte da stack central de capacidades. Esta pista hoje ainda quase não está precificada de forma adequada pelos investidores mainstream de IA.

  1. Risco oculto de trapaça

No artigo, Lin Junyang também dedica bastante espaço a um problema que quase não está no radar dos investidores — reward hacking (trapaça de recompensas).

Ele revelou do lado do treino uma dimensão de risco particularmente escondida. Escreveu:

Assim que o modelo obtém acesso real a ferramentas úteis, o reward hacking torna-se muito mais perigoso.

Tal como as premissas de risco do Agent no artigo:

Um modelo com capacidade de busca pode, durante a aprendizagem por reforço, aprender a pesquisar diretamente a resposta em vez de aprender a raciocinar;

Um agente de codificação pode aproveitar informação futura nos repositórios de código, abusar de logs, ou descobrir atalhos que fazem com que a própria tarefa se torne inválida

Um ambiente com vazamentos ocultos pode fazer a estratégia parecer “super-humana”, mas na prática ela só aprendeu a trapacear.

Ferramentas mais fortes tornam o modelo mais útil, mas ao mesmo tempo ampliam a superfície de ataque de pseudo-otimização. Quanto mais poderosas as ferramentas, mais formas de trapaça existem.

Este ponto é especialmente importante para investimento em IA.

Quando se vê que uma empresa publica um benchmark impressionante de agentes, talvez seja necessário perguntar mais uma camada: em que ambiente é que essas métricas foram medidas? O ambiente passou por um desenho sistemático de prevenção de vazamentos e de mecanismos anti-trapaça? Se um agente demonstrar desempenho excecional nos testes, mas o ambiente de teste tiver vazamentos ocultos de informação, então o valor comercial real desta «performance excecional» pode ser zero.

Mais perigoso ainda, produtos baseados nesta capacidade falsa revelam uma taxa de falhas muito maior do que o esperado em cenários comerciais reais.

Lin Junyang considera:

Deve-se esperar que os próximos gargalos de pesquisa verdadeiramente sérios venham do desenho do ambiente, da robustez dos avaliadores, dos protocolos anti-trapaça e de uma conceção mais principializada de interfaces entre a estratégia e o mundo.

Isto implica que as barreiras competitivas da era dos agentes podem não residir apenas ao nível do modelo, mas também na rigorosidade do sistema de avaliação e na capacidade de conceber ambientes com resistência a fragilidades.

As equipas que conseguem construir ambientes de treino e estruturas de avaliação «à prova de ser explorado» detêm uma capacidade extremamente rara e difícil de replicar;

em contrapartida, as empresas que ignoram esta camada e se limitam a perseguir boas pontuações de benchmark podem enfrentar problemas em qualquer momento durante a implementação real.

No final do artigo, Lin Junyang escreve uma frase que pode servir como resumo macro de todos os seis ensinamentos acima:

O caminho de evolução futuro será: sair de treinar modelos, passar a treinar agentes inteligentes, e depois passar a treinar sistemas.

As barreiras competitivas da era do raciocínio vêm de melhores algoritmos de aprendizagem por reforço, de sinais de feedback mais fortes e de pipelines de treino mais escaláveis.

As barreiras competitivas da era dos agentes vêm de ambientes melhores, de uma coordenação mais apertada entre treino de raciocínio e treino de agentes, de engenharia de Harness mais forte e da capacidade de fechar verdadeiramente o ciclo entre decisões do modelo e as suas consequências.

No passado, ao investir em IA, olhávamos para quem tinha o modelo mais forte. No futuro, ao investir em IA, provavelmente olharemos para quem tem o melhor ciclo fechado do sistema.

Aviso de risco e cláusulas de isenção de responsabilidade

        Existem riscos no mercado, invista com prudência. Este artigo não constitui aconselhamento pessoal de investimento, nem considera objetivos de investimento especiais, situação financeira ou necessidades específicas de utilizadores individuais. Os utilizadores devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo se adequam à sua situação específica. O investimento com base nisso é da exclusiva responsabilidade do investidor.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar