Los modelos de código abierto están alcanzando, pero ¿qué es exactamente lo que están logrando?

robot
Generación de resúmenes en curso

El código abierto va detrás, pero hay que decir claramente hasta dónde ha alcanzado

Z.ai publica GLM-5.1, y Modal se pone casi al mismo tiempo en línea para el hospedaje. Dos cosas superpuestas a la vez hacen que resulte más interesante que ver solo una de ellas.

El modelo es un MoE de 754B (parámetros activos de 40B). SWE-Bench Pro obtiene 58.4%; en tareas de codificación está bastante a la par con GPT-5.4 y Opus 4.6; puede ejecutarse durante 8 horas completas en modo autónomo, con iteraciones de varios miles sin caerse. BenchLM está actualmente en el puesto 10, y KernelBench muestra que es 3.6 veces más rápido que las propuestas de código abierto anteriores.

La reacción en redes sociales está dividida: Bindu Reddy dice que es una prueba de que el código abierto ha alcanzado al cerrado; Victor Taelin, en cambio, duda de que “500+ tokens/s” sea realista en precisión FP8, y que un despliegue real quizá solo tenga alrededor de 200 tps. Ambas partes tienen algo de razón: el modelo realmente rinde bien, pero las cifras de marketing son optimistas.

Esta vez, la publicación de código abierto difiere de la de antes en algunos puntos:

  • El endpoint gratuito de Modal cambia la lógica de disponibilidad y costos. Z.ai (antes Zhiyu, ahora cotiza en Hong Kong) llega a desarrolladores occidentales a través de Modal; los desarrolladores no tienen que preocuparse por fricciones geopolíticas; y la fijación de precios de $1 por cada millón de tokens de entrada también reduce el ancla de precio de los servicios propietarios.
  • La promoción de eficiencia de inferencia necesita contexto. GLM-5.1 usa atención híbrida dispersa y aprendizaje por refuerzo asíncrono para controlar el costo de la expansión. Pero “500+ tps” depende de una infraestructura de la que la mayoría de la gente no dispone. El verdadero cuello de botella está en la servitización y la planificación, no en las especificaciones del modelo en el papel.
  • Se puede integrar directamente en la cadena de herramientas existente. Compatible con Claude Code y OpenClaw, lo que significa que puede reemplazar de forma directa en flujos de trabajo propietarios existentes. Esto genera presión principalmente por precio para Anthropic y OpenAI, no porque la capacidad se haya igualado.

MarkTechPost y Constellation interpretan esto como que la “brecha de 6 meses” entre código abierto y cerrado se está cerrando. En el sentido de agentes de codificación, es muy probable que ese juicio sea válido. Z.ai usa una licencia MIT y la afinación secundaria ya está en camino.

Pero no dejes que eso te haga pensar que el código abierto ha invertido por completo la situación. Los modelos propietarios siguen liderando en alineación de seguridad y en inferencia multimodal en gran medida. Lo que se está erosionando es el foso del escenario de agentes de codificación: las empresas valoran más el costo de despliegue en este tipo de tareas, y no son tan sensibles a esa diferencia marginal de capacidad.

Más importante que el modelo es la infraestructura

Modal se basa en clústeres B200; usa SGLang para desplegar GLM-5.1, y en escenarios de interacción puede funcionar a 30–75 tokens/s. Estos detalles de ingeniería que suenan aburridos son en realidad lo verdaderamente importante.

Z.ai muestra en VectorDBBench un rendimiento de 21.5k QPS (tras optimización mediante 600 iteraciones). Este nivel de desempeño necesita la elasticidad de escalado automático sin servidor de Modal para entregarse de manera estable; solo el modelo, por sí mismo, no llega a esa magnitud.

Esto también cambia la forma en que miramos el “lanzamiento de modelos”: ya no son eventos aislados, sino parte de una estrategia de ecosistema. La combinación de “modelo de código abierto + infraestructura occidental” se convierte en una cobertura frente al bloqueo de una sola API de laboratorio.

Sobre los límites de GLM-5.1: el rendimiento de codificación alcanza 94.6% del de Opus, pero la brecha en inferencia aún existe. Un perfil de capacidades más “equilibrado” es más significativo para casos de uso específicos.

De cara al futuro: la facturación de Z.ai creció 131% año contra año el año pasado. Si el costo de inferencia baja a menos de $0.50 por cada millón de tokens, el código abierto podría capturar en el plazo de un año entre 30–50% de la cuota de despliegue de agentes de codificación. Los cambios en políticas de Estados Unidos podrían traer perturbaciones, pero el riesgo actual parece no ser alto.

Postura Evidencia Impacto en la industria Mi juicio
Optimistas del código abierto 58.4% en SWE-Bench Pro, ejecución autónoma de 8 horas Las empresas empiezan a hacer pilotos sustituyendo código abierto Un poco exagerado. La ventaja está en la integración y la disponibilidad, no en las puntuaciones. El periodo de prueba gratuito de Modal es más importante que el puesto en el ranking.
Guardianes del cerrado BenchLM en el puesto 10, capacidad de inferencia aún inferior a Opus El cerrado sigue liderando en seguridad y multimodal Desajuste de precios. La eficiencia de GLM comprime el poder de fijación de precios del rival, y Anthropic debe responder.
Pragmatistas de infraestructura Endpoint de Modal, compatibilidad con OpenClaw El capital se concentra en plataformas sin servidor Este es el punto clave. Gane quien gane el modelo, las empresas de infraestructura se benefician.
Escépticos geopolíticos Z.ai cotiza en Hong Kong, licencia MIT, tensión entre China y EE. UU. El origen del modelo será más escrutado Temporalmente sobreestimado. Es más práctico enfocarse en el potencial de monetización con socios de hospedaje occidentales.

Conclusión: esta combinación de golpes confirma una cosa: en el campo vertical de agentes de codificación, las capacidades del código abierto ya están prácticamente a la par. Los beneficiados son quienes primero construyen una arquitectura “independiente de infraestructura”, y los inversionistas que apuestan por plataformas de hospedaje. Anthropic enfrenta presión por precios. Las empresas aún profundamente atadas a APIs de código cerrado están pagando un sobreprecio por capacidades cada vez más cercanas.

Importancia: Alta
Categoría: Lanzamiento de modelos, colaboración, código abierto

Juicio: Para el segmento de agentes de codificación, todavía es una ventana relativamente temprana. Los que se benefician primero son dos tipos de personas: (1) Builders e integradores que construyen flujos de trabajo independientes de infraestructura; (2) quienes apuestan por capital que impulsa el hospedaje sin servidor y las plataformas de inferencia. Los traders de corto plazo, a menos que puedan capturar el ritmo de recortes de precios y migración de tráfico, tendrán ventajas limitadas; los tenedores de largo plazo necesitan vigilar si la curva de costos realmente baja a menos de $0.50 por cada millón de tokens, para verificar si la cuota puede saltar.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado