Opinião: A destilação de API é apenas um trampolim para RL, a iteração autônoma do GLM 5.2 pode eliminar completamente a dependência de modelos americanos

ME AI Mensagem, de acordo com o monitoramento do Beating, o engenheiro de software da Google TPU Patrick Toulme apontou que há um equívoco na percepção de que o GLM 5.2 alcança o desempenho do Opus apenas por meio de destilação.
A dificuldade de treinar grandes modelos em tarefas de codificação de agentes reside na "dilema do gradiente zero", ou seja, se o modelo não consegue gerar um caminho de execução correto nos estágios iniciais, o aprendizado por reforço não receberá sinais de gradiente para iniciar a atualização dos parâmetros.
A função de destilar Claude ou GPT-5.5 é apenas fornecer uma solução inicial de semente na fase de cold start para contornar o dilema do gradiente zero.
Assim que o modelo ultrapassa o limiar de cold start, o aumento de desempenho subsequente não dependerá mais da destilação, mas sim da evolução autônoma por meio do algoritmo de escalada do aprendizado por reforço.
Toulme enfatizou que o GLM 5.2 já possui a capacidade de gerar caminhos de sucesso de forma independente, podendo iterar autonomamente por meio do aprendizado por reforço até níveis mais avançados, eliminando completamente a dependência de grandes modelos americanos.
Salvatore Sanfilippo, fundador do Redis, acrescentou uma outra possibilidade: embora introduzir modos de raciocínio (destilação) com modelos de alta capacidade seja muito útil para obter sinais de RL melhores, a prática do DeepSeek R0 já demonstrou que, mesmo na fase de cold start totalmente sem destilação, o aprendizado por reforço pode operar de forma autônoma e alcançar avanços.
Ao mesmo tempo, ele acredita que, se for necessário ultrapassar o limiar de cold start, o desenvolvimento de grandes modelos pode inicialmente usar modelos open source nacionais como o DeepSeek-v3.2 para fine-tuning, ao invés de depender exclusivamente da API dos EUA.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários