Os modelos de código aberto estão a avançar, mas o que exatamente estão a alcançar?

robot
Geração de resumo em curso

O código aberto está a correr atrás, mas é preciso dizer com clareza em que é que o alcançou

Z.ai lança o GLM-5.1, e a Modal quase que entra em simultâneo com o serviço alojado. Estas duas coisas empilhadas juntas são mais interessantes do que olhar para qualquer uma isoladamente.

O modelo é um MoE de 754B (parâmetros ativos 40B). A pontuação no SWE-Bench Pro é de 58,4%; nas tarefas de codificação está mais ou menos ao nível do GPT-5.4 e do Opus 4.6; consegue correr durante 8 horas inteiras em modo autónomo, e aguenta milhares de iterações sem falhar. O BenchLM está atualmente em 10.º lugar, e o KernelBench mostra que é 3,6 vezes mais rápido do que as soluções open source anteriores.

A reação nas redes sociais foi dividida: Bindu Reddy diz que isto é prova de que o open source alcançou o que antes era apenas closed source; Victor Taelin, por sua vez, duvida que o “500+ tokens/s” seja realista em precisão FP8, e afirma que, numa implementação real, o valor poderá ser apenas cerca de 200 tps. Ambos os lados têm argumentos — o modelo consegue mesmo apresentar resultados, mas os números de marketing parecem otimistas demais.

Desta vez, em comparação com lançamentos open source anteriores, há alguns pontos diferentes:

  • O endpoint gratuito da Modal altera a lógica de disponibilidade e de custos. A Z.ai (anteriormente Zhipu AI, agora cotada em Hong Kong) chega a programadores ocidentais através da Modal, sem que estes tenham de se preocupar com fricções geopolíticas; e o preço de $1/ milhão de tokens de entrada também ajuda a reduzir o “ponto de ancoragem” do preço de serviços proprietários.
  • A divulgação da eficiência de inferência precisa de contexto. O GLM-5.1 recorre a atenção mista esparsa e a aprendizagem por reforço assíncrona para controlar o custo de expansão. Mas os “500+ tps” dependem de uma infra-estrutura que a maioria das pessoas não tem. O verdadeiro gargalo está na industrialização do serviço e na orquestração, não nas especificações “no papel” do modelo.
  • É possível ligar diretamente à cadeia de ferramentas existente. A compatibilidade com Claude Code e OpenClaw significa que pode substituir-se diretamente em fluxos de trabalho proprietários existentes. A pressão sobre a Anthropic e a OpenAI vem sobretudo do preço, não de uma equivalência das capacidades.

A MarkTechPost e a Constellation interpretam tudo isto como uma convergência do “fosso de 6 meses” entre open source e closed source. No sentido de agentes de codificação, este julgamento provavelmente é mesmo válido. A Z.ai usa licença MIT; a afinação para segunda ronda já está a caminho.

Mas não tirem disto a ideia de que o open source fez uma inversão total. Os modelos proprietários continuam bem à frente em alinhamento de segurança e em raciocínio multimodal. O que está a ser erodido é a “moat” neste cenário: empresas valorizam mais o custo de implementação nestas tarefas, e são menos sensíveis a diferenças marginais de capacidade.

Mais importante do que o modelo é a infraestrutura

A Modal assenta num cluster B200, e usa SGLang para implementar o GLM-5.1; em cenários de interação consegue correr a 30–75 tokens/s. Estes detalhes de engenharia, que à partida parecem pouco interessantes, é que são realmente importantes.

A Z.ai demonstrou, no VectorDBBench, um throughput de 21,5k QPS (após 600 iterações de otimização). Este nível de desempenho precisa da elasticidade sem servidores da Modal para ser entregue de forma estável; só o modelo, por si, não chegaria a este patamar.

Isto também altera a forma como vemos os “lançamentos de modelos”: deixam de ser eventos isolados e passam a fazer parte de uma estratégia de ecossistema. A combinação “modelo open source + infraestrutura ocidental” passa a ser uma forma de se fazer hedge contra o bloqueio por uma API de um único laboratório.

Sobre os limites do GLM-5.1: em tarefas de codificação atinge 94,6% do Opus, mas a diferença em inferência ainda existe. Um retrato de capacidades mais “equilibrado” é mais significativo para casos de uso específicos.

A olhar para a frente: as receitas da Z.ai cresceram 131% ano contra ano no ano passado. Se o custo de inferência cair para abaixo de $0.50 por milhão de tokens, o open source tem potencial para conquistar 30–50% da quota de implementação de agentes de codificação dentro de um ano. Mudanças na política dos EUA podem causar perturbações, mas o risco atual parece não ser elevado.

Posição Evidência Impacto na indústria O meu parecer
Otimistas do open source SWE-Bench Pro 58,4%, execução autónoma de 8 horas Empresas começam a fazer pilotos com substituição open source Um pouco exagerado.** A vantagem está na integração e na disponibilidade, não na pontuação. O teste gratuito da Modal é mais importante do que a posição em rankings.**
Guardiões closed source BenchLM em 10.º, capacidade de inferência ainda abaixo do Opus O closed source continua a liderar em segurança e multimodal Desalinhamento de preços. A eficiência do GLM comprime o poder de fixação de preços do adversário, e a Anthropic terá de responder.
Pragmatistas de infraestrutura Endpoint da Modal, compatível com OpenClaw Capital a concentrar-se em plataformas sem servidor Isto é que é a chave. Independentemente de qual modelo vencer, as empresas de infraestrutura beneficiam.
Céticos geopolíticos Z.ai cotada em Hong Kong, licença MIT, tensões EUA-China A origem dos modelos vai ser mais escrutinada Por enquanto, está sobreavaliado. É mais prático focar na** capacidade de monetização com parceiros de alojamento ocidentais**.

Conclusão: Esta combinação de golpes confirma uma coisa: neste domínio vertical de agentes de codificação, a capacidade do open source está praticamente equiparada. Quem beneficia são os construtores que primeiro constroem uma arquitetura “independente da infraestrutura” e os investidores que colocam as suas fichas em plataformas de alojamento. A Anthropic enfrenta pressão de preços. As empresas ainda profundamente dependentes de APIs closed source estão a pagar um prémio para lidar com a capacidade que se vai estreitando.

Importância: Alta
Categoria: Lançamento de modelos、parcerias、open source

Julgamento: Para a corrida dos agentes de codificação, a janela continua relativamente cedo. Os que mais beneficiam agora são duas categorias: (1) os construtores e integradores que montam fluxos de trabalho independentes da infraestrutura; (2) as entidades financeiras que apostam em alojamento sem servidor e em plataformas de inferência. Para negociadores de curto prazo, a vantagem é limitada a menos que consigam apanhar o timing da descida de preços e da migração de tráfego; para os detentores de longo prazo, é preciso acompanhar se a curva de custos desce mesmo para abaixo de $0.50 por milhão de tokens, para validar se a quota consegue dar um salto.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar