Arquitectura MoE dispersa, 25B parámetros activos que ahorran energía de manera impresionante

Ver original
CoinNetwork
Cohere de código abierto Command A+:modelo MoE de 218 mil millones de parámetros, enfocado en agentes empresariales y soberanía de datos
Cohere lanza oficialmente el modelo de expertos dispersos con 218 mil millones de parámetros, Command A+, bajo licencia Apache 2.0, dirigido a agentes empresariales y despliegues privados, enfatizando la soberanía de datos y el aislamiento físico. Con un total de 218B, una activación de inferencia única de 25B; puede funcionar con dos tarjetas H100 o una sola B200, y Hugging Face ofrece versiones de baja precisión como W4A4. Command A+ soporta entrada multimodal nativa, con un contexto de entrada de 128K, longitud de salida de 64K, para flujos de trabajo complejos de inferencia, llamadas a herramientas autónomas, consultas a bases de datos y documentos largos, y soporta 48 idiomas (incluidos los idiomas oficiales de la UE).
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado