Sugon lanza una supernodo de "versión estándar", ¿la futura forma del poder de cómputo para inferencia de IA?

robot
Generación de resúmenes en curso

Fuente: Caixin Media

OpenClaw de repente se hizo muy popular de forma explosiva; esto es tanto una salida natural a la fama para el sector de los agentes de IA, como una prueba de presión para el mercado de potencia informática de inferencia de IA.

En el Foro Zhongguancun de mediados de 2026, la empresa Sugon dio a conocer el primer supernodo inalámbrico tipo caja de cables del mundo, scaleX40. Antes de eso, los supernodos eran gigantes que a menudo alcanzaban cientos o incluso miles de tarjetas de cómputo, incluidos scaleX640 de Sugon, NVL72 de NVIDIA, ascendente 384 de Huawei, etc.

Estos supernodos de primer nivel están diseñados específicamente para el entrenamiento de modelos a escala masiva; su rendimiento es fuerte, pero el umbral de implementación es extremadamente alto: gabinetes personalizados, conexiones de cables complejas, y equipos profesionales de operaciones y mantenimiento. La inversión, por lo general, asciende a decenas de millones o incluso a cien millones, lo que hace que estén destinados inevitablemente a atender solo a unos pocos actores líderes, como gigantes de Internet o grandes empresas estatales y privadas de gran escala vinculadas al Estado, etc.

En el “lado opuesto” de los supernodos, en el mercado de inferencia se encuentran servidores tradicionales y dominantes de 8 GPUs. Estos productos se despliegan con flexibilidad y con costos controlables; pero al enfrentarse a la demanda de potencia informática de inferencia que se actualiza rápidamente, su rendimiento resulta algo insuficiente.

“En la situación actual, una máquina de 8 tarjetas ya va muy atrasada; incluso si se amplía el tamaño de interconexión a 16 tarjetas, sigue sin satisfacer el ritmo de desarrollo de los servicios de inferencia de modelos”. El vicepresidente senior de Sugon, Li Bin, dijo: “La infraestructura de potencia informática para el desarrollo de la IA está pasando gradualmente de la ‘fábrica de potencia informática’ a la ‘fábrica de Tokens’. El principal objeto de servicio de los sistemas de potencia informática ya no es principalmente apoyar el entrenamiento de modelos como antes, sino que ahora se centra en servir a la inferencia”.

En la era del entrenamiento, el indicador central para evaluar un sistema de potencia informática es cuánta potencia informática tiene; mientras que en la era de la inferencia, el indicador más importante se convierte en “producir Tokens con el costo más económico posible”.

Imagen generada por IA

La demanda de IA se diversifica; la potencia informática para inferencia aún no está satisfecha

Desde la perspectiva de la demanda actual del mercado, la estructura de potencia informática de la IA está experimentando cambios por capas. Según las predicciones de instituciones del sector, la inversión global en infraestructura de IA seguirá manteniendo un crecimiento relativamente rápido, pero la demanda incremental irá cambiando gradualmente desde clústeres a ultra gran escala hacia escenarios empresariales y de aplicaciones del sector.

Bajo esta tendencia, el enfoque de la configuración de potencia informática ya no es buscar únicamente el límite superior de escala, sino prestar más atención al equilibrio entre rendimiento, costo y flexibilidad. En la industria existe un consenso general: una escala de decenas de tarjetas es suficiente para satisfacer las necesidades de potencia informática del entrenamiento de modelos, la inferencia y las pruebas de desarrollo en la mayoría de escenarios del sector; este es el mayor “punto de encuentro” entre eficiencia y nivel de inversión.

Pero la evolución de la demanda en la capa de aplicaciones de IA es demasiado rápida. Incluyendo el auge explosivo de agentes de IA como OpenClaw, que al cambiar las aplicaciones tradicionales del sector, también ha traído la necesidad de una reestructuración del lado de la oferta de potencia informática en la actualidad.

Primero, el cuello de botella de la comunicación: ahora, con los modelos MoE, la comunicación se convierte en el punto clave para mejorar la utilización de la potencia informática. En particular, la incertidumbre en la distribución de los expertos provoca que haya muchísimas comunicaciones entre tarjetas y entre máquinas, lo que atraviesa directamente la arquitectura tradicional de potencia informática de los servidores de 8 tarjetas.

Segundo, el cuello de botella de la memoria: la ventana de contexto se amplía de forma continua. La capacidad de memoria de contexto largo requerida por OpenClaw también hace que la demanda de gran memoria y KV Cache aumente de manera acelerada; esto también es una limitación difícil de superar por parte de los servidores tradicionales de 8 tarjetas.

Tercero, el cuello de botella de la utilización de la potencia informática: la utilización de la potencia informática es casi inversamente proporcional al costo de implementar la inferencia. Los clústeres tradicionales suelen tener el problema de una utilización insuficiente de la potencia informática. El desafío central no es simplemente acumular hardware, sino lograr una mejora doble en la eficiencia del sistema y en la potencia informática efectiva mediante innovaciones en la arquitectura del hardware, combinadas con esfuerzos coordinados de ingeniería de sistemas y de optimización.

Cuarto, el cuello de botella del ecosistema: la cadena de ecosistema de potencia informática nacional es compleja, hay muchos proveedores y la cadena industrial es larga, lo que dificulta la cooperación industrial. Por ello se necesita apoyarse en una arquitectura de computación abierta para conectar entre sí los eslabones de toda la cadena industrial, desde chips, modelos y aplicaciones, hasta sus relaciones upstream y downstream, y construir una base de potencia informática abierta y fácil de usar, “lista para usar al abrir la caja”, económica y con beneficios amplios.

Sugon espera responder al mercado con el supernodo de “configuración estándar” de 40 tarjetas. “El ‘punto dulce’ de 40 tarjetas es algo que exploramos y encontramos mediante investigaciones y sondeos con varios clientes”. El vicepresidente de Sugon, Li Liu, dijo: “Con el tamaño de parámetros y los escenarios de uso de los modelos principales actuales, 32-40 tarjetas ya pueden cubrir la mayoría de las necesidades del sector, y al mismo tiempo equilibrar costos y rendimiento”.

scaleX40 integra 40 GPUs en un solo nodo; la potencia total supera los 28PFLOPS (precisión FP8), la capacidad de memoria HBM supera los 5TB, y el ancho de banda de acceso a memoria supera los 80TB/s. La confiabilidad del sistema se mejora hasta 99.99%.

La configuración a escala de scaleX40 no solo cuenta con la capacidad de soportar entrenamiento y inferencia de modelos grandes, sino que tampoco genera una presión excesiva de inversión. Hacia abajo, puede adaptarse a 32 tarjetas, satisfaciendo entrenamientos, inferencias y pruebas de desarrollo de escala pequeña y mediana; hacia arriba, mediante expansión, puede formar clústeres de mayor escala.

Li Bin calculó los números: “La inversión de cinco máquinas de 8 tarjetas más los costos de todo tipo es básicamente comparable a scaleX40, pero scaleX40 puede mejorar el rendimiento de entrenamiento en 120% y el rendimiento de inferencia, como máximo, en 330%”.

Del DeepSeek a OpenClaw: el nuevo punto de inflexión de la potencia informática

“Los Tokens necesitan potencia informática para producirse, pero las dimensiones y los indicadores de evaluación se han vuelto más numerosos”. Li Bin piensa que: “Para los usuarios comunes, lo que se observa es la velocidad de respuesta: si se pregunta algo, ¿puede devolver una respuesta rápidamente? Para los operadores del sistema de potencia informática, hay que considerar cuántos usuarios simultáneos puede soportar al mismo tiempo y, además, cumplir con una experiencia básica de uso”.

El responsable del departamento de I+D de marcos de IA en el Instituto Zhiyuan, Ao Yulong, también planteó: “En el futuro, para quien suministre potencia informática, el indicador clave es cómo convertir la potencia informática en Tokens efectivos, no en Tokens inefectivos. Quien pueda bajar ese costo será el verdadero ganador”.

El diseño de scaleX40 se basa en estas nuevas necesidades. Una memoria grande de 144G soporta ventanas de contexto largas; el mecanismo de caché KV Cache multinivel satisface la demanda de gran memoria en escenarios de inferencia; y la interconexión de primer nivel de ancho de banda alto con 40 tarjetas recoge el tráfico out-to-out de comunicación de expertos dentro de un solo nodo. Estas características se implementan controlando los costos y maximizando la eficiencia de producción de Tokens por unidad de potencia informática.

El diseño inalámbrico tipo caja de cables también es una gran diferencia de scaleX40. Un punto doloroso central de los supernodos tradicionales es la complejidad del despliegue. Por ejemplo, en el caso de NVIDIA NVL72, utiliza una solución de conexión mediante cables de cobre: entre los gabinetes se requieren grandes cantidades de interconexiones de cables, lo que no solo impone requisitos estrictos al entorno del centro de datos, sino que también prolonga el ciclo de despliegue y, además, hace que la tasa de fallas del mantenimiento y operación posterior sea alta.

La solución de scaleX40 es similar a la solución más reciente que NVIDIA presentó este año en la conferencia GTC: mediante tecnología de bus se logra la expansión Scale-up; los nodos de cómputo y los nodos de conmutación utilizan una arquitectura ortogonal de cableado inalámbrico para insertarse directamente.

Este diseño trae beneficios múltiples: primero, el rendimiento de la tecnología de bus alcanza más de 10 veces el de la red tradicional NDR; también soporta direccionamiento unificado con semántica de memoria y memoria de GPU; segundo, una capa de redes reduce la latencia unidireccional P2P a menos de cien nanosegundos; frente a una red de dos capas, la latencia se reduce más de 30% y la tasa de fallas disminuye entre 30%-50%.

Además, scaleX40 adopta un diseño estándar tipo caja de 19 pulgadas: la altura de una sola unidad es solo 16U. Puede colocarse directamente en gabinetes estándar, es compatible con el entorno existente de centros de datos y no requiere una modificación adicional.

“Muchos productos del pasado, o bien tienen gabinetes demasiado grandes, o bien no están estandarizados, o bien requieren una reforma muy compleja del centro de datos”. Dijo Li Liu: “scaleX40 puede colocarse dentro de gabinetes estándar; al conectarse a los equipos de suministro eléctrico y enfriamiento del centro de datos estándar, las barreras de despliegue y uso se reducen considerablemente”.

Wang Zixiao, responsable de la tecnología de red de potencia informática inteligente del Instituto de Investigación de China Telecom, también dijo: “Al ofrecer servicios de inferencia en forma de supernodo, el rendimiento mejora aproximadamente 2.6 veces respecto a un servidor tradicional de 8 tarjetas. La capacidad de ‘lista para usar al abrir la caja’ del supernodo se fortalece de manera significativa. La complejidad de configuración de la red Scale-out se reduce en órdenes de magnitud, lo cual es muy significativo para la aplicación a gran escala del sector en su conjunto”.

Más en profundidad, el lanzamiento de scaleX40 también refleja la madurez del ecosistema nacional de potencia informática. Desde chips hasta software del sistema; desde almacenamiento hasta red; desde la librería de operadores hasta la librería de comunicaciones, se está formando una cadena industrial completa. Como dijo Li Bin: “En todo el ecosistema doméstico de computación AI, desde chips hasta software del sistema, hasta los modelos y aplicaciones de capa superior, estamos realizando una coordinación vertical entre capas. A través del acoplamiento y la colaboración en dirección vertical, logramos aprovechar mejor la eficiencia”.

Cuando los supernodos comienzan a implementarse y utilizarse de una manera más simple, y cuando todas las industrias —miles de líneas y cientos de sectores— puedan obtener capacidades de potencia informática de alto nivel a un costo razonable, quizá la aplicación a gran escala de la IA de China dé el paso clave de verdad. (Autor del artículo | Zhang Shuai, editor | Yang Lin)

Declaración especial: el contenido anterior solo representa las opiniones o posturas personales del autor, y no representa las opiniones o posturas de Sina Finance Headlines. Si es necesario contactar a Sina Finance Headlines por contenido de la obra, derechos de autor u otros problemas, por favor hágalo dentro de los 30 días posteriores a la publicación del contenido anterior.

Grandes cantidades de información y análisis precisos, todo en la app de Sina Finance

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado