Vercel:El volumen de llamadas a tokens de DeepSeek supera al de OpenAI, y el costo representa solo el 1% del gasto total

robot
Generación de resúmenes en curso
ME AI Mensaje, según la monitorización de Beating, Vercel lanzó el índice de producción AI Gateway 2026 en junio. El informe muestra que, gracias a la serie DeepSeek V4 (incluyendo los modelos Flash y Pro) lanzada en mayo en Vercel Gateway, la cuota de tráfico de tokens de DeepSeek aumentó de menos del 1% a 17% en un mes, superando a OpenAI (13%) y ubicándose en tercer lugar. Sin embargo, debido a los precios extremadamente bajos, el costo total para todos los usuarios que utilizan DeepSeek representa solo alrededor del 1% del gasto total en fondos del gateway. El precio es la principal razón del rápido auge de DeepSeek. La tarifa por millón de tokens de DeepSeek V4 Flash, tanto para entrada como para salida, es de solo 0.14 dólares y 0.28 dólares, respectivamente, siendo 20 a 50 veces más barato que modelos similares de vanguardia de Anthropic, y 8 a 12 veces más barato que Qwen 3.6 Plus y Kimi K2.6. Las evaluaciones indican que el rendimiento de DeepSeek V4 cumple con los estándares, lo que ha impulsado a los equipos de desarrollo a desplegar rápidamente en producción. A pesar del aumento en el tráfico de modelos de bajo costo, en términos de consumo de fondos, los modelos de vanguardia siguen dominando. En mayo, la participación en gastos de Anthropic aumentó del 61% al 65%, representando entre el 70% y el 80% del gasto en escenarios de generación de aplicaciones, agentes de backend y programación, por ejemplo, en escenarios de agentes de programación, DeepSeek contribuyó con el 49% del tráfico de tokens, pero solo representó el 4% del costo, mientras que Anthropic consumió el 28% del tráfico y el 70% del presupuesto. Los equipos de desarrollo están gestionando el presupuesto mediante enrutamiento inteligente, desviando tareas de alta frecuencia y bajo riesgo a modelos de bajo costo, y solo usando modelos de vanguardia en etapas clave. La consideración del retorno de inversión (ROI) también ha ralentizado las actualizaciones de modelos. Por ejemplo, el lanzamiento de Google en mayo de Gemini 3.5 Flash, con un precio superior a la versión 3.0, ha provocado una migración lenta; a finales de mes, el 3.0 Flash todavía representaba el 90% del tráfico de la serie Flash, mientras que el 3.5 Flash solo el 7%. Además, los agentes de inteligencia artificial muestran una densidad de consumo de tokens extremadamente alta, consumiendo más de la mitad de los tokens con solo una cuarta parte de las solicitudes. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado