【Antes de mil perguntas da Alibaba】林俊暘 mil palavras: Os modelos de IA irão evoluir para uma "pensamento de agente inteligente" Revelando por que Qwen abandonou a fusão de pensamento e o modo de comando

robot
Geração de resumo em curso

Alibaba (09988) Qianwen (Qwen) pessoas-chave do modelo grande, Lin Junheng, deixou o cargo de forma repentina no início de março, o que chegou a levantar especulações sobre um desentendimento entre Lin Junheng e a administração. À medida que a polémica se foi dissipando, Lin Junheng publicou recentemente na plataforma de redes sociais X um artigo intitulado “From “Reasoning” Thinking to “Agentic” Thinking” (Da “pensamento de raciocínio” ao “pensamento agentic”), embora o artigo trate principalmente de direções da tecnologia de IA, entre linhas esconde uma reflexão sobre a rota tecnológica da Alibaba Qianwen.

Ele aponta que o “pensamento de raciocínio”, que apenas consome capacidade de computação, já atingiu o seu pico; a segunda metade da IA pertencerá ao “pensamento agentic” (Agentic Thinking), capaz de interagir com o ambiente do mundo real e agir enquanto raciocina.

A mudança do foco da IA: o que vai acontecer agora?

Lin Junheng assinala que, na primeira metade de 2025, o foco da indústria de IA concentrou-se principalmente no “pensamento de raciocínio” (Reasoning Thinking) — isto é, como fazer com que os grandes modelos consumam mais tempo e capacidade de computação para pensar, como treinar o modelo usando mecanismos de feedback mais fortes e como controlar esses processos adicionais de raciocínio.

No entanto, o problema que a indústria tem de enfrentar neste momento é: o que vai acontecer a seguir?

Ele acredita que a resposta é, sem dúvida, “pensamento agentic” (Agentic Thinking). No futuro, a IA não deve apenas pensar em clausura para chegar a respostas; deve “pensar para agir”. Precisa de fazer simulações enquanto interage com o ambiente e, com base no feedback obtido do mundo real, atualizar e corrigir continuamente o plano.

O blueprint interno da Ali Qwen e a falha da “rota de fusão”

No artigo, Lin Junheng divulga pela primeira vez o blueprint técnico no início de 2025 dentro da equipa Qwen. Na altura, muitos membros esperavam construir um sistema ideal capaz de unificar os modos de “pensamento” e “instrução”. O conceito desta solução é bastante ambicioso:

Ajuste inteligente: consegue determinar automaticamente quanta capacidade de raciocínio é necessária (semelhante a níveis baixo/médio/alto) com base no Prompt e no contexto.

Decisão autónoma: permite que o modelo decida por si quando deve responder em segundos, quando deve ponderar com profundidade e, quando se depara com problemas difíceis, quando deve alocar enorme capacidade de computação.

Lin Junheng afirma que o Qwen3 é a tentativa pública mais clara neste sentido, ao introduzir um “modo híbrido de pensamento”, sublinhando um orçamento de pensamento controlável. No entanto, Lin Junheng é sincero ao dizer: “é fácil falar em fusão; difícil executá-la.”

Lin Junheng acredita que a fusão forçada levaria o modelo a ficar “medíocre”; a “arquitetura do modo de pensamento” e a “arquitetura do modo de instrução” têm distribuições de dados e objetivos de comportamento completamente diferentes por trás; forçar a fusão faria com que o “comportamento de pensamento” ficasse prolixo, inchado e com falta de poder de decisão; e que o “comportamento de instrução” perdesse a sua fluidez e se tornasse pouco fiável, além de aumentar substancialmente os custos de utilização para utilizadores empresariais.

Na prática empresarial, ele considera que o que muitos clientes empresariais realmente precisam é de operações puras de instrução com alto throughput, baixo custo e altamente controláveis (como processamento em lote).

Por isso, a equipa Qwen, nas séries 2507 subsequentes, acabou por optar por publicar versões independentes de instrução (Instruct) e de pensamento (Thinking). Lin Junheng acredita que, ao separar os dois, a equipa consegue focar-se de forma mais pura em resolver os respetivos problemas de dados e de treino, evitando criar “uma personalidade colada de forma constrangedora, duas pessoas”.

Estratégia dos concorrentes: “contenção” e orientação por objetivos da Anthropic

Diferente da rota de separação da Qwen, outros laboratórios como a Anthropic e Zhipu (GLM-4.5) escolheram exatamente o contrário: a “rota de integração”.

Lin Junheng mencionou especialmente a abordagem da Anthropic (série Claude) e considera que a sua trajetória de desenvolvimento revela uma espécie de rigor e contenção; o Claude 3.7 / Claude 4 alterna o raciocínio com “uso de ferramentas”.

Pensamento orientado por objetivos: a Anthropic acredita que produzir caminhos de raciocínio extremamente longos não significa que o modelo seja mais inteligente. Se o modelo disser muito sobre tudo e qualquer coisa, na verdade isso representa alocação inadequada de recursos.

A prática acima de tudo: se o objetivo é escrever programas, o pensamento da IA deve ser usado para planear, decompor tarefas, corrigir bugs e chamar ferramentas; se é um fluxo de trabalho de agente, o pensamento deve ser usado para melhorar a qualidade de execução de tarefas de longo alcance, e não apenas para escrever “ensaios de raciocínio” que parecem impressionantes.

Diferença central entre pensamento de raciocínio e pensamento agentic

Lin Junheng prevê que o “pensamento agentic” acabará por substituir aquele raciocínio “estático em monólogo”, sem interação e com longas elucubrações. Um sistema verdadeiramente avançado deve ter o direito de pesquisar, simular, executar, verificar e corrigir, solucionando problemas de forma robusta e eficiente.

Mudança nos critérios de avaliação: de “se o modelo consegue resolver problemas de matemática” para “se o modelo consegue avançar o progresso ao interagir com o ambiente”.

Dificuldades reais a tratar:

  • Saber quando parar de pensar e partir para a ação.
  • Escolher que ferramenta chamar e a ordem em que a usar.
  • Ser capaz de lidar com observações do mundo real barulhentas e incompletas.
  • Se ocorrerem falhas, saber corrigir o plano.
  • Manter coerência lógica em conversas de múltiplas rondas e em múltiplas chamadas de ferramentas.

Três grandes desafios técnicos para implementar “pensamento agentic”

Além das diferenças ao nível de aplicação, Lin Junyang disse ainda, com mais profundidade, os enormes desafios em desenvolvimento de base do pensamento agentic:

Gargalo da infraestrutura de treino (colapso da eficiência da GPU): aprendizagem por reforço de agentes (RL) é muito mais difícil do que apenas RL de raciocínio. Os agentes de IA precisam de interagir frequentemente com ferramentas externas (como navegadores e sandboxes de execução); esperar pelo feedback do ambiente real faz com que o treino fique estagnado e reduz drasticamente a utilização da GPU. No futuro, será necessário desacoplar de forma “limpa” o “treino” e o “raciocínio”.

“Reward hacking” e risco de batota: quando o modelo tem permissão para usar ferramentas, aprende facilmente a “trapacear” para obter recompensas do sistema (por exemplo, explorar vulnerabilidades do sistema para ver informação futura), em vez de realmente resolver o problema. Ao ampliar as ferramentas, aumenta-se o risco de otimização falsa; no futuro, protocolos anti-cheat serão uma peça-chave para grandes empresas.

Coordenação colaborativa de múltiplos agentes (Multi-agent Orchestration): no futuro, a engenharia do sistema já não dependerá de um único modelo, mas de vários agentes com funções divididas. O sistema incluirá um “orquestrador” responsável por planear, “agentes especialistas” focados em domínios específicos e “subagentes” para tarefas mais estreitas, controlando assim o contexto e evitando que o processo de pensamento seja contaminado.

Resumo: o foco competitivo do próximo estágio da indústria de IA

No fim do artigo, Lin Junheng destaca o foco competitivo do próximo estágio da indústria de IA: no futuro, o alvo principal de treino deixará de ser apenas o “modelo” em si, e passará a ser o sistema integrado de “modelo + ambiente” (agentes e as suas ligações envolventes).

Era passada do raciocínio: A vantagem vinha de algoritmos de aprendizagem por reforço (RL) melhores, sinais de feedback mais fortes e pipelines de treino escaláveis.

Era futura dos agentes: A vantagem dependerá de melhor design do ambiente, de uma integração mais estreita entre treino e entrega (Train-serve integration), de engenharia de sistemas mais forte e da capacidade de fazer o modelo aprender a assumir as consequências das suas decisões e a formar um “ciclo fechado”.

Texto original do X

	 Conversas Quentes de Finanças
	





 Vendas de carros da China conquistam pela primeira vez o “número um” do mundo  O preço elevado do petróleo ajuda a exportação de veículos elétricos?
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar