Empresas estadounidenses se están volviendo hacia modelos de IA chinos, Coinbase lidera el uso de GLM y Kimi.

Las empresas tecnológicas estadounidenses están incorporando silenciosamente modelos de IA de código abierto chinos en su infraestructura de producción. A medida que el costo de los servicios de los modelos estadounidenses de primer nivel sigue aumentando, empresas como Coinbase están adoptando modelos de código abierto chinos como opción predeterminada, para reducir drásticamente los gastos en IA sin suprimir el uso.

El CEO de Coinbase, Brian Armstrong, publicó en la plataforma X el viernes por la noche que la compañía ha configurado el recién lanzado GLM 5.2 de Zhipu y el Kimi 2.7 de Beijing Moonshot AI como modelos predeterminados para los ingenieros a través de su puerta de enlace interna de LLM. Armstrong dijo que, combinando medidas como la optimización de rutas y mejoras en el almacenamiento en caché, el gasto en IA de Coinbase se ha reducido "casi a la mitad", mientras que el uso de tokens sigue creciendo a un ritmo exponencial.

La ventaja de costos de los modelos de código abierto chinos queda al descubierto

Armstrong señaló claramente en su publicación que el 91% de los ingenieros nunca habían alcanzado el límite de uso original, por lo que Coinbase no optó por reducir el límite ni agregar alertas de consumo, sino que cambió a "modelos predeterminados más baratos".

GLM 5.2 proviene de Zhipu, y Kimi 2.7 de Beijing Moonshot AI; ambos son modelos de pesos abiertos. Armstrong indicó que estos modelos se despliegan en escenarios de tareas rutinarias, mientras que para tareas que requieren planificación compleja, los ingenieros aún pueden elegir modelos de vanguardia. Su lógica es que usar modelos de primer nivel en la ejecución suele ser "matar moscas a cañonazos".

En la revisión de código se adopta una estrategia paralela de múltiples modelos, permitiendo que diferentes modelos verifiquen mutuamente los resultados de salida para mantener los estándares de calidad.

Reestructuración de infraestructura en tres capas impulsa la reducción de costos

Armstrong enumeró tres medidas clave.

Primero: enrutamiento inteligente. En un marco de programación personalizado, el sistema preprocesa las indicaciones, combina la tasa de aciertos de caché y los precios de los modelos, y distribuye automáticamente las tareas al modelo más adecuado y económico. Dijo que el objetivo final es que la IA, no los humanos, realice la selección de modelos.

Segundo: almacenamiento en caché activo. Coinbase exige que todas las solicitudes sean conscientes del caché, reutilizando al máximo el caché existente. Tomando como ejemplo LibreChat, tras implementar correctamente el mecanismo de caché, la tasa de aciertos saltó del 5% al 60%.

Tercero: contexto simplificado. Armstrong sugirió iniciar nuevas sesiones al cambiar de tarea, reducir el alcance del contexto de archivos y desconectar herramientas no utilizadas. Enfatizó que el objetivo no es reducir el uso total de tokens, sino reducir los "tokens desperdiciados".

Eficiencia primero, no suprimir el uso

Armstrong calificó esta reducción de costos como una condición previa para ampliar la escala de adopción de IA, no como una restricción. Dijo que los ingenieros aún pueden usar libremente cualquier cantidad de tokens y cualquier modelo, pero la empresa ha visualizado los datos de uso y ha vinculado el uso con el impacto en el negocio: "Cuanto más gastes, mayor será el impacto que esperamos".

No reveló cifras absolutas específicas de gasto. Pero estructuralmente, lograr una reducción de casi la mitad del gasto mientras el uso crece exponencialmente significa que Coinbase ha logrado, hasta cierto punto, desacoplar el consumo del costo.

La conclusión de Armstrong es que esta metodología es universal y cualquier empresa puede adoptarla para lograr una expansión sostenible del uso de IA sin que el costo se convierta en un techo.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios