OpenAI descubre un nuevo método para reducir a la mitad los costos de inferencia

robot
Generación de resúmenes en curso
Según una fuente familiarizada con las discusiones, hay una noticia previamente no divulgada: a principios de este mes, ingenieros de OpenAI informaron a algunos colegas que, basándose en varias tecnologías de optimización recientemente desarrolladas, han encontrado una solución que puede reducir los costos de inferencia del modelo en más de la mitad. Después de aplicar esta nueva tecnología a escenarios donde los visitantes con cuentas gratuitas/de pago usan ChatGPT, la cantidad de unidades de procesamiento gráfico (GPU) de Nvidia requeridas se redujo a solo unos pocos cientos — una cifra notablemente baja. Actualmente no está claro qué medios técnicos específicos utilizó OpenAI para lograr esta mejora significativa en la eficiencia computacional. Los métodos de optimización comunes en la industria generalmente incluyen: compresión por cuantización, almacenamiento en caché de clave-valor, procesamiento por lotes de consultas de usuarios en lugar de calcularlas individualmente, y redirigir algunas solicitudes a modelos ligeros o fragmentos de modelos de menor potencia para obtener respuestas.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado