Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
New
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
NVIDIA planea lanzar una "cápsula misteriosa" o una nueva arquitectura diseñada específicamente para inferencia
La conferencia GTC de NVIDIA que se celebrará a mediados de marzo en San José, California, es uno de los eventos más destacados en el campo de la IA. Anteriormente, Jensen Huang anunció que lanzaría un nuevo chip “sin precedentes en el mundo”.
Tras este anuncio, el mercado financiero ha generado mucha discusión. La evaluación más común es que el chip que se planea presentar en GTC probablemente sea un nuevo producto de inferencia que integre el diseño de Groq LPU (Unidad de Procesamiento de Lenguaje).
Según Zhuang Changlei, director del equipo de IA/Manufactura Inteligente de Yunxiu Capital, “si se trata de un plugin para GPU existentes, la transferencia de datos aún tendría que pasar por interfaces externas como PCIe o NVLink, lo que introduciría retrasos adicionales y reduciría las ventajas de baja latencia de SRAM.”
Él añadió: “Una opción más ideal sería crear una arquitectura de cálculo completamente nueva centrada en SRAM, similar a Cerebras, diseñada específicamente para inferencia.”
La era de la inferencia ha llegado
Con la explosión de aplicaciones de nueva generación representadas por “OpenClaw” (Pequeña Langosta), la demanda global de potencia de cálculo está cambiando notablemente, y el enfoque del mercado se está desplazando del entrenamiento a la inferencia.
Según la predicción de Deloitte para 2026 en tecnología, medios y telecomunicaciones, “la inferencia” (ejecución de modelos de IA) representará dos tercios de toda la capacidad de cálculo de IA. Además, en el futuro aparecerán chips de optimización especializados en inferencia valorados en miles de millones de dólares, que se desplegarán en centros de datos y servidores empresariales, con algunos consumos de energía iguales o superiores a los de los chips de IA general.
Recientemente, se supo que, además de que se espera que NVIDIA revele detalles técnicos clave de Rubin y la próxima generación de GPU basada en la arquitectura Feynman en esta conferencia, también es muy probable que lance un nuevo chip de inferencia que integre tecnología LPU.
Este sistema de chip de inferencia completamente nuevo, que incorpora la tecnología LPU del equipo de Groq, podría ser la primera vez que NVIDIA introduce a gran escala una arquitectura externa en su línea de productos principales de capacidad de IA.
CITIC Securities señala que, tras el lanzamiento previo de Rubin CPX para reducir costos en prefill y la adquisición de Groq, esta vez podría lanzar un chip LPU o “tipo LPU” para mejorar la decodificación.
En la inferencia, el modelo generalmente pasa por dos fases: primero, en la fase de prellenado, se procesa la entrada del usuario; luego, en la fase de decodificación, se genera la salida token por token.
El impacto real en la experiencia del usuario en la inferencia depende de la velocidad y la latencia en la fase de decodificación. En arquitecturas de inferencia basadas en GPU, debido a que muchos parámetros del modelo se almacenan en HBM, la transferencia frecuente de datos entre el núcleo de cálculo y la HBM puede afectar la eficiencia en la fase de decodificación.
Por otro lado, la LPU de Groq está diseñada específicamente para acelerar la inferencia, usando unidades de almacenamiento SRAM más cercanas a los núcleos de cálculo para almacenar los parámetros del modelo. Por ejemplo, 230MB de SRAM en el chip pueden ofrecer un ancho de banda de memoria de hasta 80TB/s, mucho más rápido que las arquitecturas GPU.
Sin embargo, desde el punto de vista del diseño físico, reemplazar completamente la HBM por SRAM no es factible.
Zhuang explicó que, frente a modelos grandes con billones de parámetros, una solución puramente SRAM no puede soportar su capacidad. Entonces, ¿cómo innovará NVIDIA?
La respuesta probablemente no sea “sustituir”, sino “apilar”. Zhuang indicó: “Según información de la industria, NVIDIA podría usar una tecnología similar a AMD3D V-Cache, mediante la tecnología de unión híbrida SoIC de TSMC, para apilar directamente en 3D las unidades LPU (procesamiento de lenguaje) que contienen gran cantidad de SRAM, en el wafer del núcleo de GPU.”
La cadena de suministro podría cambiar
En cuanto a la solución de apilamiento 3D, ya hay empresas líderes como AMD que han avanzado en este campo. En 2021, AMD anunció la tecnología de caché vertical 3D (3D V-Cache), que permite apilar en vertical un caché SRAM adicional de 7nm en la parte superior de los chips Ryzen, aumentando significativamente la cantidad de caché L3. En julio de 2024, Fujitsu presentó su procesador MONAKA, que utiliza tecnología 3D SRAM y planea su lanzamiento en 2027.
¿Se convertirá esta solución en la norma?
“El SRAM en chip presenta problemas como la ralentización del proceso de fabricación debido a la escala lógica, lo que hace que ocupe más espacio y aumente los costos,” afirmó Dongfang Securities. “Por ello, algunos inversores consideran que la arquitectura SRAM no será la principal opción para la memoria de chips de IA.” Sin embargo, Zhuang sugirió que la solución de apilamiento 3D de SRAM puede mejorar la densidad mediante apilamiento vertical, superando las limitaciones de capacidad de SRAM tradicional. Si en la inferencia de IA se requiere mayor capacidad, la tecnología de apilamiento 3D podría ampliar sus aplicaciones.
CITIC Securities también opina que, en el futuro, tanto los GPU como los NPU podrían adoptar la tecnología de apilamiento 3D de SRAM para lograr un aumento en el ancho de banda de acceso a memoria, aprovechar las ventajas de LPU y mantener la compatibilidad con los ecosistemas de software existentes, conservando las ventajas originales de GPU y NPU.
Zhuang señaló que los chips de IA complejos podrían requerir ambas tecnologías: primero, apilar LPU y núcleos de GPU con SoIC, y luego encapsular este cubo apilado mediante CoWoS con HBM. Para chips de inferencia pura que no necesitan gran capacidad de HBM, se puede confiar completamente en SRAM apilado en 3D para construirlos, evitando CoWoS. Sin embargo, estos chips están dirigidos a mercados específicos y su volumen no puede desafiar la posición dominante de HBM + CoWoS.
El apilamiento de SRAM en 3D (como SoIC de TSMC) requiere un ensamblaje preciso de wafer a wafer en la fase de fabricación, una tecnología que está estrechamente vinculada a los procesos de fabricación avanzados. Esto trasladará aún más el valor desde el empaquetado posterior.
Por un lado, el valor de los procesos avanzados se amplifica. Zhuang explicó que, para obtener la máxima densidad de interconexión y eficiencia energética en apilamientos verticales, la capa inferior de los wafers de cálculo debe usar los procesos más avanzados (como A16), lo que aumenta la dependencia de tecnologías de vanguardia en la industria.
Por otro lado, si el valor de los chips de alta gama continúa concentrándose en la fabricación frontal y en el empaquetado avanzado, los fabricantes nacionales de empaquetado y prueba podrían enfrentarse al riesgo de ser desplazados del mercado de alta gama. Zhuang sugirió que esto también crea oportunidades para la competencia diferenciada, como ofrecer soluciones de apilamiento 3D maduras y rentables para chips que no requieren procesos de punta, o establecer nuevas barreras tecnológicas en pruebas, disipación de calor y análisis de fiabilidad en la etapa posterior del proceso de fabricación.