Fuente: TokenPost
Título original: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개
Enlace original: https://www.tokenpost.kr/news/ai/320188
La institución de investigación en IA de China, DeepSeek(DeepSeek), ha anunciado una nueva arquitectura que puede mejorar significativamente el rendimiento del aprendizaje de inteligencia artificial de próxima generación. Conocida como ‘mHC(Manifold-Constrained Hyper-Connections)’, esta tecnología supera el método esencial de ‘conexiones residuales(residual connection)’ en modelos de lenguaje a gran escala(LLM) y modelos de reconocimiento visual, elevando tanto la precisión del aprendizaje como la eficiencia del hardware.
mHC es una mejora sobre la tecnología existente de ‘hiperconexiones(Hyper-Connections)’. Las hiperconexiones ayudan a transmitir información de manera más eficiente entre capas(layer) en modelos de deep learning, pero en entornos operativos reales, su uso ha sido limitado por diversas restricciones técnicas. DeepSeek ha superado esta limitación integrando el concepto de ‘manifold(manifold)’. Un manifold es un espacio matemático con estructura de múltiples capas, que puede variar desde formas simples como círculos hasta estructuras complejas en dimensiones superiores a 3. DeepSeek explica que mHC utiliza estas estructuras basadas en manifolds para garantizar la estabilidad y coherencia en la retropropagación del gradiente(error backpropagation) durante el entrenamiento del modelo.
Para validar el rendimiento de esta arquitectura, DeepSeek entrenó tres tipos de LLM con 3 mil millones, 9 mil millones y 27 mil millones de parámetros, respectivamente, usando la estructura mHC, y comparó estos modelos con versiones similares basadas en hiperconexiones. La compañía afirma que los modelos con estructura mHC superaron consistentemente en 8 benchmarks diferentes. En particular, lograron una mayor eficiencia en el uso de memoria durante el entrenamiento y el overhead de hardware generado fue solo del 6.27%.
El equipo de DeepSeek destacó: “Al comprender más profundamente la relación entre la estructura topológica basada en manifolds y los algoritmos de optimización, mHC puede superar las limitaciones actuales de los modelos de IA y abrir nuevos caminos en el diseño de infraestructuras de próxima generación”, subrayando la importancia técnica del avance.
Este anuncio es especialmente relevante en el contexto de un movimiento global reciente para reevaluar las arquitecturas de aprendizaje en IA. Desde su introducción en 2015, las conexiones residuales han sido ampliamente utilizadas en modelos de lenguaje a gran escala y en clasificación de imágenes. Estas conexiones transmiten la señal de error desde la capa de salida hacia las capas anteriores, ayudando a mitigar la distorsión de la información durante el proceso.
Sin embargo, a medida que los modelos de IA se vuelven cada vez más grandes, las limitaciones de las conexiones residuales se han hecho evidentes, y se han realizado diversos esfuerzos para mejorarlas. La tecnología mHC de DeepSeek representa un avance en este contexto, con potencial para contribuir directamente a la mejora de la eficiencia en el entrenamiento de modelos que sustentan toda la industria de IA.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
8 me gusta
Recompensa
8
8
Republicar
Compartir
Comentar
0/400
PretendingToReadDocs
· hace2h
¡Vaya, otra vez DeepSeek con una nueva jugada! ¿Qué va a revolucionar esta vez el mHC?
---
¿Puede incluso superar las conexiones de잔차? ¿Esta tecnología es confiable o no? Solo con el nombre ya estoy un poco confundido.
---
¿La IA china ha lanzado una nueva arquitectura otra vez? Nosotros todavía estamos en la lucha con la cantidad de parámetros, jaja.
---
¿Tanto pueden mejorar los modelos LLM y los modelos visuales? Parece que están exagerando un poco.
---
¿Este acrónimo mHC por qué suena tan incómodo? No puedo ni recordarlo.
---
DeepSeek publica un paper tras otro, pero no sé cómo serán en realidad los resultados.
---
Otra vez manifold y hyper, a estos tipos les encanta usar esas palabras tan sofisticadas.
Ver originalesResponder0
CryptoHistoryClass
· hace5h
ngl, he visto este gráfico antes... las conexiones residuales se suponía que eran la arquitectura definitiva en 2017. ¿ahora la están "trascendiendo"? *revisa gráficos de rendimiento históricos* ...sí, definitivamente estamos en la fase de "avance revolucionario" del ciclo otra vez. dame 18 meses
Ver originalesResponder0
LiquidationWatcher
· hace5h
ngl deepseek está lanzando una nueva arquitectura de IA mientras todos estamos sudando por nuestras posiciones... ¿recuerdas cuando todos pensaban que las conexiones residuales eran el fin del camino? de todos modos, esto de MHC suena legítimo, pero no sé, cada vez que China anuncia algún avance, se activa mi PTSD de liquidación. Vi demasiadas jugadas de tecnología "revolucionaria" ser frontrun hasta la desaparición en 2022.
Ver originalesResponder0
pvt_key_collector
· hace5h
¡Vaya, otra vez deepseek haciendo cosas nuevas! La mHC suena bastante impresionante esta vez.
---
¿Ya estás aburrido de jugar con conexiones residuales? Tiene su gracia, hay que ver cómo funciona en la práctica.
---
China vuelve a publicar un artículo sobre IA, y los mercados de capital occidentales van a temblar otra vez.
---
La palabra manifold-constrained suena un poco forzada.
---
Tanto los LLM como los modelos visuales se pueden usar, si esto realmente se implementa sería un golpe de reducción de dimensiones.
---
No sé si es una estrategia de marketing o si realmente hay un avance, esperemos a ver los benchmarks.
---
El equipo de deepseek ha estado muy activo últimamente, después de conseguir financiación empezaron a bombardear con artículos.
---
En realidad, todavía están optimizando la arquitectura, ¿qué tan innovador puede ser el núcleo lógico?
---
Este tipo de cosas generalmente toman medio año para demostrar si funcionan o no, no te emociones demasiado.
---
¿Superar la conexión residual? Dios, ¿otra vez van a cambiar los libros de texto?
Ver originalesResponder0
BoredStaker
· hace5h
¿Maldita sea, deepseek ha vuelto a innovar? Cada vez que el equipo chino publica algo, los medios occidentales empiezan a hacer ruido.
Ver originalesResponder0
MemeTokenGenius
· hace5h
Después de pensarlo bien, esta arquitectura mHC suena impresionante, pero en realidad dependerá de qué pueda salir realmente.
DeepSeek está lanzando cosas nuevas, es bastante impresionante, ¿puede superar los modelos actuales?
Lo clave es si realmente se puede reducir el costo, solo los datos en papel no sirven de mucho.
¿Esta ola de iteraciones tecnológicas impactará bastante a los fabricantes de GPU existentes...?
mHC, LLM, suenan profesionales, pero en realidad, ¿cuánto se podrá aplicar en el ecosistema web3... hmm?
Ver originalesResponder0
PanicSeller
· hace5h
Otra vez una nueva arquitectura, ¿cómo se le ocurrió el nombre mHC? Parece que cada vez inventan palabras nuevas
---
deepseek vuelve con una gran jugada, ¿esta vez realmente podrá superar las conexiones residuales? Tengo curiosidad
---
Las empresas chinas de IA realmente están en una competencia feroz, pero ¿esta cosa será realmente útil?
---
Aún no entiendo el título, pero suena a un montón de términos matemáticos
---
emm otra vez con el tema de los modelos ultra grandes, ¿qué tiene que ver con nuestro trading de criptomonedas?
---
Si esto realmente puede reducir los costos de cálculo, sería genial. Ahora entrenar modelos es demasiado costoso
---
El título está mitad en coreano y mitad en chino, me está confundiendo un poco
---
Una buena arquitectura es buena, pero el problema es quién podrá usarla
Ver originalesResponder0
AirdropBlackHole
· hace5h
Los competidores de DeepSea vuelven a la carga, la estructura de mHC en esta ola realmente tiene su mérito, pero honestamente, estos artículos parecen todos iguales
Con el ritmo de DeepSeek, parece que van a romper algunos monopolios
¿El techo del rendimiento de los LLM va a ser roto? Solo podemos esperar y ver
Otra pila de términos técnicos, la verdadera implementación aún depende de cómo se desarrolle más adelante
DeepSeek presenta la arquitectura de IA de próxima generación 'mHC' que supera las conexiones residuales
Fuente: TokenPost Título original: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 Enlace original: https://www.tokenpost.kr/news/ai/320188 La institución de investigación en IA de China, DeepSeek(DeepSeek), ha anunciado una nueva arquitectura que puede mejorar significativamente el rendimiento del aprendizaje de inteligencia artificial de próxima generación. Conocida como ‘mHC(Manifold-Constrained Hyper-Connections)’, esta tecnología supera el método esencial de ‘conexiones residuales(residual connection)’ en modelos de lenguaje a gran escala(LLM) y modelos de reconocimiento visual, elevando tanto la precisión del aprendizaje como la eficiencia del hardware.
mHC es una mejora sobre la tecnología existente de ‘hiperconexiones(Hyper-Connections)’. Las hiperconexiones ayudan a transmitir información de manera más eficiente entre capas(layer) en modelos de deep learning, pero en entornos operativos reales, su uso ha sido limitado por diversas restricciones técnicas. DeepSeek ha superado esta limitación integrando el concepto de ‘manifold(manifold)’. Un manifold es un espacio matemático con estructura de múltiples capas, que puede variar desde formas simples como círculos hasta estructuras complejas en dimensiones superiores a 3. DeepSeek explica que mHC utiliza estas estructuras basadas en manifolds para garantizar la estabilidad y coherencia en la retropropagación del gradiente(error backpropagation) durante el entrenamiento del modelo.
Para validar el rendimiento de esta arquitectura, DeepSeek entrenó tres tipos de LLM con 3 mil millones, 9 mil millones y 27 mil millones de parámetros, respectivamente, usando la estructura mHC, y comparó estos modelos con versiones similares basadas en hiperconexiones. La compañía afirma que los modelos con estructura mHC superaron consistentemente en 8 benchmarks diferentes. En particular, lograron una mayor eficiencia en el uso de memoria durante el entrenamiento y el overhead de hardware generado fue solo del 6.27%.
El equipo de DeepSeek destacó: “Al comprender más profundamente la relación entre la estructura topológica basada en manifolds y los algoritmos de optimización, mHC puede superar las limitaciones actuales de los modelos de IA y abrir nuevos caminos en el diseño de infraestructuras de próxima generación”, subrayando la importancia técnica del avance.
Este anuncio es especialmente relevante en el contexto de un movimiento global reciente para reevaluar las arquitecturas de aprendizaje en IA. Desde su introducción en 2015, las conexiones residuales han sido ampliamente utilizadas en modelos de lenguaje a gran escala y en clasificación de imágenes. Estas conexiones transmiten la señal de error desde la capa de salida hacia las capas anteriores, ayudando a mitigar la distorsión de la información durante el proceso.
Sin embargo, a medida que los modelos de IA se vuelven cada vez más grandes, las limitaciones de las conexiones residuales se han hecho evidentes, y se han realizado diversos esfuerzos para mejorarlas. La tecnología mHC de DeepSeek representa un avance en este contexto, con potencial para contribuir directamente a la mejora de la eficiencia en el entrenamiento de modelos que sustentan toda la industria de IA.