Caitong Securities: La innovación arquitectónica rompe el cuello de botella de la latencia en la inferencia de grandes modelos, se espera una rápida expansión del amplio espacio de mercado

robot
Generación de resúmenes en curso

La firma de análisis financiero Caitong Securities publicó un informe de investigación que afirma que la LPU es un chip de nueva generación orientado a la etapa de inferencia de grandes modelos, con arquitectura TSP como núcleo. La firma considera que la LPU se beneficia de su excelente rendimiento en la reducción de la latencia de inferencia, lo que le permite una rápida penetración en el mercado. Además, ve con buenos ojos el alto potencial de crecimiento de la LPU y las oportunidades en PCB que surgen con su envío en armarios de servidores. Recomienda prestar atención a: Zhiwei Intelligent (001339.SZ) (participada por Yuan Chuan Micro), Xingchen Technology (301536.SZ) (que ha realizado varias rondas de inversión en Yuan Chuan Micro), Sh电股份 (002463.SZ) (proveedor de PCB para Nvidia), Shenghong Technology (300476.SZ) (proveedor de PCB para Nvidia), y Shennan Circuit (002916.SZ).

Los principales puntos de vista de Caitong Securities son los siguientes:

La LPU es un chip de nueva generación diseñado para la etapa de inferencia de grandes modelos, con arquitectura TSP como núcleo.

La LPU es una arquitectura de chip innovadora diseñada específicamente para tareas de procesamiento secuencial y de alta intensidad computacional. Su núcleo es la arquitectura TSP, que incluye cinco módulos funcionales. Esta arquitectura descompone la tubería de cinco etapas de los procesadores clásicos en todo el chip, eliminando así la complejidad del hardware y garantizando que el orden y el tiempo de ejecución de las instrucciones sean deterministas. Bajo la arquitectura TSP, el compilador puede acceder directamente y controlar con precisión el estado del hardware subyacente del chip, logrando así hardware definido por software.

La LPU puede reducir la latencia durante la inferencia de grandes modelos y mejorar la experiencia del usuario.

Durante la inferencia de grandes modelos, se presenta una latencia que está estrechamente relacionada con la experiencia del usuario. La latencia principal en este proceso se produce en la fase de decodificación, cuyo cuello de botella principal es el ancho de banda de memoria. La LPU cuenta con un ancho de banda de memoria más rápido, lo que permite reducir la latencia en la inferencia de grandes modelos. Además, los grandes modelos basados en la LPU no solo ofrecen una inferencia más rápida, sino que también pueden ofrecer precios más competitivos, lo que puede mejorar aún más la experiencia del usuario.

La LPU tiene un amplio potencial de desarrollo y ya ha entrado en la fase inicial de producción en masa.

Actualmente, el consumo de tokens ha aumentado significativamente. A principios de 2024, el consumo diario promedio de tokens en China alcanzó los 100 mil millones, y en febrero de 2026, el consumo total diario de tokens de los principales grandes modelos ya superaba los 180 billones, con un crecimiento rápido en el consumo de tokens que impulsa un alto crecimiento en el mercado de chips de inferencia. La LPU puede reducir la latencia en la inferencia de grandes modelos. La firma considera que la LPU tiene potencial para infiltrarse gradualmente en el mercado de chips de inferencia, con un espacio de mercado de alto crecimiento. Actualmente, la LPU ha entrado en la fase inicial de producción en masa y su volumen de producción está a punto de comenzar.

Advertencias de riesgo: riesgos de que la iteración de la tecnología de IA no cumpla con las expectativas; riesgos de que el desarrollo de grandes modelos no alcance lo esperado; riesgos de que el desarrollo de la industria de la LPU no sea el previsto.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado