Opinião: A destilação de API é apenas um trampolim para RL, a iteração autônoma do GLM 5.2 pode eliminar completamente a dependência de modelos americanos

ME AI Mensagem, de acordo com o monitoramento Beating, o engenheiro de software da Google TPU Patrick Toulme apontou que há um equívoco na percepção de que o GLM 5.2 alcança o desempenho do Opus apenas por destilação.
A dificuldade de treinar grandes modelos em tarefas de codificação de agentes reside na «dilema do gradiente zero», ou seja, se o modelo não consegue gerar um caminho de execução correto nos estágios iniciais, o aprendizado por reforço não receberá sinais de gradiente para iniciar a atualização dos parâmetros.
A função da destilação do Claude ou GPT-5.5 é apenas fornecer uma solução inicial de semente na fase de arranque frio, para contornar o dilema do gradiente zero.
Assim que o modelo ultrapassa o limiar de arranque frio, o aumento de desempenho subsequente não dependerá mais da destilação, mas sim da evolução autônoma por meio do algoritmo de escalada do aprendizado por reforço.
Toulme enfatizou que o GLM 5.2 já possui a capacidade de gerar caminhos de sucesso de forma independente, podendo evoluir por meio de aprendizado por reforço até níveis mais avançados, eliminando completamente a dependência de grandes modelos americanos.
Salvatore Sanfilippo, fundador do Redis, acrescentou uma outra possibilidade: embora introduzir modos de raciocínio através de modelos de alta capacidade (destilação) seja muito útil para obter sinais de RL melhores, a prática do DeepSeek R0 já demonstrou que, mesmo na fase de arranque frio totalmente sem destilação, o aprendizado por reforço pode operar de forma autônoma e alcançar avanços.
Ao mesmo tempo, ele acredita que, se for necessário ultrapassar o limiar de arranque frio, o desenvolvimento de grandes modelos pode inicialmente usar modelos open source locais como o DeepSeek-v3.2 para ajuste fino, ao invés de depender exclusivamente da API americana.
(Origem: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado