Relatório técnico do Zhipu GLM-5V-Turbo: Design2Code super Claude Opus4.6, escreva código diretamente a partir da captura de tela

robot
Geração de resumo em curso

Notícias do CoinWorld, a Zhipu AI lançou o relatório técnico do GLM-5V-Turbo, que foi disponibilizado na API z.ai e OpenRouter no início de abril. Este relatório complementa a metodologia, o modelo não foi open source. O GLM-5V-Turbo é o primeiro modelo de base multimodal de programação da Zhipu, suportando um contexto de cerca de 200 mil, podendo se conectar a frameworks de agentes como Claude Code e OpenClaw. Desde a fase de pré-treinamento, o modelo integra percepção visual em todo o processo de raciocínio, planejamento, chamada de ferramentas e execução. A arquitetura do modelo possui três designs-chave: o novo codificador visual CogVit, treinado com destilação dupla usando SigLip2 e DinoV3, e alinhado por aprendizado contrastivo com 8 bilhões de pares de dados bilíngues chinês-inglês de imagens e textos para previsão multimodal de múltiplos tokens (MMTP), substituindo a transmissão direta de embeddings visuais por um token especial compartilhado e aprendível, reduzindo a complexidade de comunicação entre fases do pipeline, com treinamento mais estável por reforço conjunto que cobre percepção, raciocínio e execução de agentes em três níveis. Os resultados específicos mostram que o Design2Code atingiu 94,8, superando o Claude Opus com 4,6.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar