Modelo de código abierto con billones de parámetros alcanza 981 palabras/segundo, Cerebras prueba Kimi K2.6 y acelera 29 veces.

robot
Generación de resúmenes en curso
ME News noticias, 20 de mayo (UTC+8), según el monitoreo de Dongcha Beating, la empresa de chips a nivel de oblea Cerebras anunció que ha puesto en línea el modelo grande de billones de parámetros Kimi K2.6 en pruebas empresariales, integrando directamente los chips en una oblea de silicio de 12 pulgadas, eliminando por completo la latencia de interconexión de la comunicación tradicional a nivel de placa.
Las pruebas reales de la agencia de evaluación externa Artificial Analysis muestran que su velocidad de generación alcanza los 981 tokens/s, 6.7 veces más rápido que los servicios en la nube de GPU convencionales. En tareas de texto largo con 10000 tokens de entrada y 500 tokens de salida, el tiempo total de respuesta se redujo de 163.7 segundos en la interfaz oficial de Kimi a 5.6 segundos, una aceleración de 29 veces.
Debido a que los pesos del modelo se distribuyen en múltiples obleas y los valores de activación se transmiten en flujo, la comunicación entre capas se ejecuta completamente en la red de tela dentro de la oblea, y su ancho de banda físico de comunicación es más de 200 veces el de NVLink en la arquitectura NVL72 de NVIDIA. Combinado con la optimización de computación distribuida, Kimi K2.6 almacena con bajas pérdidas los pesos originales de 4 bits, utiliza números de punto flotante de 16 bits para mantener la precisión durante el cálculo, y emplea núcleos de operadores personalizados y decodificación especulativa para finalmente lograr una ejecución en tiempo real.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios