JetBrains esta ola de código abierto es muy concreta, el modelo de 12B solo activa 2.5B, controlando los costos de manera estricta, la aceleración del borrador de MTP también es bastante interesante

Ver original
CoinNetwork
Modelo de código Mellum-2 de código abierto de JetBrains: soporte integrado para encabezado MTP que acelera la decodificación especulativa
JetBrains open source Mellum-2, un modelo experto en código híbrido de 12B de parámetros. Para controlar el coste de inferencia, solo aproximadamente 2.5 mil millones de parámetros se activan por token, los pesos ya están publicados en Hugging Face, Apache 2.0. Se ha añadido un módulo de predicción de múltiples tokens (MTP), durante la inferencia, la cabecera MTP actúa como un modelo preliminar para acelerar el muestreo. Ofrece versiones básica, de diálogo y de reflexión, la versión de reflexión puede mostrar explícitamente la cadena de pensamiento antes de la salida. Benchmark: Humaneval 41.46%, MMLU 70.87%.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado