¡420 millones! Unlimitation Cloud obtiene un buen comienzo, gana la licitación del proyecto de clúster de mil tarjetas de inferencia de IA de Zhanjiang

robot
Generación de resúmenes en curso

(Origen: YunTianLiFei)

Recientemente, YunTianLiFei ha sido adjudicataria del proyecto de construcción de infraestructura de soporte para la nueva producción de calidad basada en la penetración de IA en Zhanjiang. Según la planificación del proyecto, la compañía participará en la construcción de un clúster de potencia de cálculo para inferencia de IA, basado en su propia tarjeta aceleradora de inferencia de IA de fabricación nacional, y promoverá la adaptación y despliegue de grandes modelos nacionales como DeepSeek en escenarios de aplicación relacionados, proporcionando así soporte de infraestructura de potencia de cálculo para aplicaciones digitales gubernamentales e industriales.

Construcción de infraestructura de potencia de cálculo para inferencia de grandes modelos

El clúster de potencia de cálculo para inferencia de IA que se construirá en este proyecto será diseñado de manera sistemática en torno a las necesidades de tareas de inferencia de grandes modelos.

Durante el proceso de inferencia de grandes modelos, las diferentes etapas de cálculo requieren recursos del sistema en diferentes cantidades. La arquitectura de inferencia actualmente más utilizada en la industria es la separación de “Prefill–Decode”, que optimiza la asignación de recursos en distintas etapas para mejorar la eficiencia general del sistema.

Bajo esta arquitectura, la fase de Prefill se encarga principalmente de la comprensión y cálculo de contextos largos, requiriendo mayor potencia de cálculo y ancho de banda; la fase de Decode, en cambio, genera tokens de forma continua y es más sensible a la latencia del sistema. Durante la construcción del proyecto, se ajustarán los recursos de potencia de cálculo y se optimizará el sistema en función de las características de cada etapa.

Al mismo tiempo, a medida que la longitud del contexto del modelo aumenta, se requiere almacenar una gran cantidad de estados intermedios en forma de caché KV. En torno a esta característica, el diseño del sistema se ha optimizado para coordinar mejor el cálculo, el almacenamiento y la red, con el fin de mejorar la eficiencia del acceso a datos y el rendimiento general del sistema.

En cuanto a la arquitectura de red, el sistema adoptará una estructura de interconexión de alta velocidad unificada, construida mediante una red óptica de 400G para la capa física del clúster, logrando comunicación de alta banda ancha y baja latencia entre nodos, y soportando escalabilidad desde decenas de tarjetas en un solo nodo hasta miles en un clúster completo, para satisfacer diferentes necesidades de aplicaciones de IA de distintos tamaños.

Una vez finalizada la construcción del proyecto, se establecerá una infraestructura de potencia de cálculo orientada a tareas de inferencia de grandes modelos, que proporcionará soporte estable para escenarios de aplicación relacionados.

Impulsando continuamente la investigación y desarrollo de chips de inferencia de IA y sistemas de potencia de cálculo

Según la planificación del proyecto, el clúster de potencia de cálculo para inferencia de IA se construirá en tres fases, utilizando tarjetas aceleradoras de inferencia de IA nacionales desarrolladas por YunTianLiFei.

La primera fase desplegará la tarjeta de aceleración de inferencia YunTianLiFei X6000; en fases posteriores, se implementará primero la última generación de chips de la compañía.

En cuanto a la investigación y desarrollo de chips de inferencia de IA, YunTianLiFei continúa avanzando en la estrategia tecnológica para diferentes etapas de inferencia. De acuerdo con la planificación estratégica de la empresa, en el futuro se lanzarán gradualmente chips optimizados para la fase de Prefill, así como chips de inferencia diseñados para satisfacer las necesidades de baja latencia en la fase de Decode, mejorando aún más la eficiencia global mediante la optimización a nivel de sistema.

Entre estos, se espera que el primer chip de Prefill, DeepVerse100, diseñado para escenarios de inferencia con contextos largos, complete su proceso de fabricación en el año y se despliegue en los sistemas de potencia de cálculo relacionados.

En cuanto a la planificación tecnológica a largo plazo, la empresa ha propuesto el “Plan 1001”, cuyo objetivo a largo plazo es lograr “cien mil millones de tokens por un céntimo”, mediante la optimización conjunta de la arquitectura de chips y sistemas de potencia de cálculo, promoviendo continuamente la reducción de costos en la inferencia de grandes modelos.

En el futuro, la compañía continuará impulsando la investigación y desarrollo de tecnologías relacionadas con chips de inferencia de IA, promoviendo la aplicación generalizada de la inteligencia artificial en más industrias.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado