Zhipu lança o modelo nativo multimodal Coding GLM-5V-Turbo, com profunda adaptação ao OpenClaw

robot
Geração de resumo em curso

Sina Technology News, 2 de abril de manhã, a Zhipu lançou o seu primeiro modelo de base de codificação multimodal nativo, o GLM-5V-Turbo, anunciando que este modelo integra profundamente capacidades visuais e de programação, podendo processar de forma nativa informações multimodais como texto, imagens e vídeos, além de ser especializado em tarefas complexas como programação, planeamento de longo prazo e execução de operações.

Segundo informações, o GLM-5V-Turbo alcançou desempenho líder em benchmarks centrais como codificação multimodal e agentes, mesmo com um tamanho menor, introduzindo capacidades visuais enquanto mantém o mesmo nível de habilidades de programação e raciocínio em texto puro. Além disso, adapta-se profundamente ao Claude Code e ao cenário de lagosta, permitindo que o OpenClaw tenha uma verdadeira capacidade visual, podendo compreender informações na tela.

Ao contrário dos modelos tradicionais de codificação puramente textual, o GLM-5V-Turbo pode entender diretamente informações visuais como esboços de design, capturas de tela de páginas web, gráficos de velas e gerar código executável, proporcionando uma experiência de programação de IA “o que vê é o que obtém”. Atualmente, o modelo já está acessível através da plataforma MaaS da Zhipu. (Wen Meng)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar