Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 40 modelos de IA, con 0% de costos adicionales
Detrás del "chip misterioso" de Nvidia: la era de la inferencia inicia las "cuatro nuevas tendencias en poder de cómputo"
Nvidia integra la tecnología LPU (unidad de procesamiento de lenguaje) y el chip de inferencia de apuestas multilínea de OpenAI, y está cambiando el principal campo de batalla de la competencia en potencia computacional de IA de entrenamiento a inferencia. La investigación de Shenwan Hongyuan considera queLa palabra clave principal de la industria de la potencia informática en 2026 será el razonamiento, y el consumo total de tokens y el paradigma técnico se reconstruirán profundamente en torno a este tema.
El 28 de febrero, según el Wall Street Journal, Nvidia planea lanzar un nuevo chip de inferencia que integra la tecnología de "unidad de procesamiento de lenguaje" (LPU) de Groq en la conferencia de desarrolladores de GTC del próximo mes.El CEO de Nvidia, Jensen Huang, lo calificó como un sistema completamente nuevo que "el mundo nunca había visto antes."。 OpenAI ha aceptado convertirse en uno de los mayores clientes del procesador y comprará una "capacidad dedicada de inferencia" a gran escala a Nvidia.
Mientras tanto, OpenAI alcanzó el mes pasado una asociación informática multimillonaria con la startup Cerebras, que afirmó que sus chips de inferencia han superado a las GPUs (unidades de procesamiento gráfico) de Nvidia. Esta serie de tendencias muestra queLos gigantes de la IA están pasando de una carrera armamentística a un sistema multilínea de poder de cálculo de inferencia.
El informe de Shenwan Hongyuan señaló,En la era de la economía de los tokens, el poder de cálculo por inferencia está dando paso a cuatro grandes tendenciasPrimero, el número de escenarios de despliegue puramente de CPU (unidad central de procesamiento) ha aumentado, y la demanda de inferencia de bajo coste ha acelerado el agotamiento de la potencia de cálculo; segundo, el auge de arquitecturas dedicadas como las LPUs, desafiando el dominio de las GPUs en el proceso de inferencia; Tercero, los chips de potencia informática nacionales han acelerado avances y la tendencia a la diversificación de la cadena de suministro es evidente; En cuarto lugar, la estructura de demanda de la potencia de cálculo por inferencia ha cambiado de "entrenamiento único" a "consumo masivo de tokens", y el rendimiento en costes se ha convertido en un factor competitivo fundamental.
El informe decía,Los fabricantes que puedan proporcionar chips de inferencia suficientes y rentables serán los que más se benefician, y el avance conjunto de CPUs, LPUs y chips domésticos constituye las pistas clave de esta ronda de remodelación de patrones de potencia computacional.
La demanda de inferencia se ha disparado y el consumo de tokens ha alcanzado un récord
---------------------
La investigación de Shenwan Hongyuan considera queDetrás de la continua expansión de la demanda hay dos fuerzas motrices estructurales: primero, la monetización de grandes modelos se ha acelerado, y modelos como Claude han empezado a recortar el lado de las aplicaciones y lanzar una variedad de plug-ins industriales;En segundo lugar, la implementación de Agentes se ha acelerado, y productos como openclaw y Qianwen Agent señalan que los Agentes están entrando en escenarios reales de trabajo y producción, y que cada llamada de modelo y ejecución de tarea de Agente requiere una gran cantidad de soporte de potencia de cálculo de inferencia.
Según datos citados por Shenwan Hongyuan Research, el volumen de inferencia de los modelos grandes líderes nacionales aumentó significativamente durante el Festival de Primavera: el rendimiento de inferencia de Doubao en Nochevieja alcanzó los 63.300 millones de tokens, los usuarios activos mensuales de Yuanbao alcanzaron los 114 millones, y el número de participantes en la actividad "Orden Libre del Festival de Primavera" de Qianwen superó los 120 millones.
Los datos de OpenRouter, una plataforma global de agregación de API de modelos de IA, revelan aún más la magnitud de esta tendencia. En la semana del 9 al 15 de febrero, el modelo chino superó por primera vez al modelo estadounidense de 2,94 billones de tokens con 4,12 billones de tokens; en la semana del 16 al 22 de febrero, el número de llamadas de modelos chinos aumentó aún más hasta 5,16 billones, un 127% más en tres semanas, y China ocupó cuatro de los cinco primeros modelos del mundo.
LPU se ha convertido en una emergente, y los chips de entrenamiento e inferencia se diferencian
------------------
Nvidia gastó 20.000 millones de dólares para licenciar la tecnología central de Groq y trajo un equipo ejecutivo, incluido el fundador Jonathan Ross, en un acuerdo de "contratación principal". La investigación de Shenwan Hongyuan considera queEste acuerdo marca el reconocimiento oficial de la importancia de las fichas de razonamiento puro por parte de los mejores jugadores.
La diferencia arquitectónica entre las LPU y las GPUs tradicionales es la razón fundamental por la que tienen ventajas de eficiencia en escenarios de inferencia.La inferencia de IA se divide en dos etapas: pre-llenado y decodificación, y el proceso de decodificación de grandes modelos es particularmente lento, mientras que LPU ha sido especialmente optimizado para los dos principales cuellos de botella de inferencia: latencia y ancho de banda de memoria. Según informes previos de Wall Street News, los próximos nuevos productos de Nvidia podrían incluir la arquitectura Feynman de próxima generación, adoptar un esquema de integración SRAM más amplio o incluso integrar profundamente las LPUs mediante tecnología de apilamiento 3D.
Shenwan Hongyuan Research sostiene que los chips de IA formarán un claro patrón de división técnica en el futuro:El lado de entrenamiento continúa usando la combinación GPU-HBM, mientras que el lado de inferencia evoluciona hacia el esquema de combinación ASIC+LPU-SRAM+SSD. A medida que la demanda de potencia de cálculo pasa de la formación a la inferencia, los fabricantes que se centren en chips de inferencia abrirán oportunidades de desarrollo.
El sistema de inferencia ha sido innovado de forma integral, y los requisitos de CPU y red han aumentado simultáneamente
---------------------
Desde un solo chip hasta el nivel del sistema, la innovación es otra dimensión importante de esta ronda de actualización de la potencia de cálculo por inferencia. Shenwan Hongyuan Research señaló que, a medida que el escenario de aplicación cambia de chatbot a agente,Los requisitos de latencia, rendimiento y profundidad de pensamiento en sistemas informáticos han aumentado al mismo tiempo, promoviendo la evolución de la arquitectura del sistema hacia redes de Capa 3.
La primera capa es la capa de reacción rápida, proporcionado por un chip puro de inferencia equipado con SRAM para proporcionar retroalimentación de latencia extremadamente baja;La segunda capa es la capa de pensamiento lento, utilizando clústeres de potencia de computación ultra-grande para manejar deducciones lógicas complejas, la demanda de CPUs multinúcleo y multihilo en esta capa aumentará significativamente;La tercera capa es la capa de memoria, correspondiente al ContextMemory System publicado por NVIDIA, la memoria a largo plazo y la caché KV de los agentes de almacenamiento SSD gestionados por Bluefield4 DPU.
Nvidia también está ajustando su estrategia a nivel de hardware. La práctica estándar anterior de agrupar CPUs Vera con GPUs Rubin resultó ser prohibitivamente costosa para cargas de trabajo específicas de agentes de IA. Nvidia anunció este mes que ha ampliado su colaboración con Meta Platforms para completar su primer despliegue masivo puramente de CPU para apoyar a los agentes de IA orientados a publicidad de Meta, lo que señala que la compañía está yendo más allá de un modelo de ventas de una sola GPU.
La potencia informática nacional aceleró los avances
--------
La investigación de Shenwan Hongyuan considera queLa actualización tecnológica de los chips de inferencia domésticos merece la pena prestar atención, y hay una baja expectativa de mercado.
A nivel técnico,La nueva generación de chips de inferencia domésticos ha logrado una serie de mejoras fundamentales: Se añadió soporte para formatos de datos de baja precisión como FP8/MXFP8/MXFP4, con potencia de cálculo que alcanzaba 1P y 2P respectivamente. Mejorar considerablemente la potencia de computación vectorial y adoptar un nuevo diseño isomorfo que soporte modelos de programación dual SIMD/SIMT. El ancho de banda de interconexión es 2,5 veces mayor que en la generación anterior, alcanzando los 2 TB/s.
Es especialmente destacable que la separación de PD se logre a nivel de chip: mediante HBM desarrollado por uno mismo con dos especificaciones diferentes, constituye una versión PR para escenarios de Prefilled y recomendación, y una versión DT para escenarios de Decodificación y entrenamiento. Entre ellas, la versión PR adopta HBM de bajo coste, que puede reducir considerablemente el coste de inversión de la etapa de prellenado por inferencia, y se espera que se lance en el primer trimestre de 2026.
A nivel de cadena de suministro, el progreso de los fabricantes nacionales de envases y pruebas aporta pruebas. Según la primera ronda de consulta y carta de respuesta de una empresa líder en envasado y pruebas, los ingresos del negocio de envasado 2.5D provienen principalmente de servicios de empaquetado de chips de computación de alto rendimiento, que han crecido rápidamente de 50 millones de yuanes en 2022 a 1.820 millones de yuanes en 2024.Confirma que la capacidad de suministro de los chips de potencia informática nacionales sigue mejorando y que el proceso de localización de la cadena de suministro se está acelerando.
Advertencia de riesgo y aviso legal
El mercado es arriesgado y la inversión debe ser cautelosa. Este artículo no constituye asesoramiento personal de inversión y no tiene en cuenta los objetivos específicos de inversión, la situación financiera o las necesidades de los usuarios individuales. Los usuarios deben considerar si las opiniones, puntos de vista o conclusiones contenidas en este artículo son coherentes con sus circunstancias específicas. Invierte en consecuencia bajo tu propio riesgo.