DeepSeek, una startup de IA con sede en Hangzhou (China), ha atraído una atención significativa en la industria mundial de la IA con el lanzamiento del gran modelo de lenguaje DeepSeek-V3 a finales de diciembre de 2024. Este modelo tiene 671.000 millones de parámetros, pero solo tardó unos dos meses en entrenarse a un coste de 5,58 millones de dólares, significativamente inferior a las inversiones de otras grandes empresas tecnológicas. DeepSeek-V3 logra un rendimiento óptimo entre los modelos de código abierto y se compara con los modelos más avanzados del mundo. La empresa ha optimizado el proceso de formación para minimizar los costos, utilizando alrededor de 2.78 millones de horas de GPU con las GPU H800 de Nvidia producidas en China. Esto demuestra que las empresas de IA chinas han logrado un progreso significativo a pesar de las restricciones de EE. UU. para acceder a los semiconductores avanzados necesarios para el entrenamiento de IA. El éxito de DeepSeek ha generado preocupaciones en la industria tecnológica de EE. UU., con las acciones de Nvidia y otras empresas tecnológicas cayendo en picada. Los expertos creen que DeepSeek ha logrado un alto rendimiento a un costo mucho menor que sus contrapartes estadounidenses, gracias al uso de tecnología de código abierto y métodos de entrenamiento efectivos. Además, DeepSeek ha publicado el código fuente y explicaciones técnicas detalladas del modelo, lo que permite a investigadores y desarrolladores de todo el mundo acceder y mejorar esta tecnología. Esta transparencia contrasta con el enfoque más secreto de las principales empresas de IA de EE. UU. Y podría cambiar la forma en que las grandes empresas de tecnología desarrollan modelos en el futuro.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
#Deepseek Goes Viral#
DeepSeek, una startup de IA con sede en Hangzhou (China), ha atraído una atención significativa en la industria mundial de la IA con el lanzamiento del gran modelo de lenguaje DeepSeek-V3 a finales de diciembre de 2024. Este modelo tiene 671.000 millones de parámetros, pero solo tardó unos dos meses en entrenarse a un coste de 5,58 millones de dólares, significativamente inferior a las inversiones de otras grandes empresas tecnológicas.
DeepSeek-V3 logra un rendimiento óptimo entre los modelos de código abierto y se compara con los modelos más avanzados del mundo. La empresa ha optimizado el proceso de formación para minimizar los costos, utilizando alrededor de 2.78 millones de horas de GPU con las GPU H800 de Nvidia producidas en China. Esto demuestra que las empresas de IA chinas han logrado un progreso significativo a pesar de las restricciones de EE. UU. para acceder a los semiconductores avanzados necesarios para el entrenamiento de IA.
El éxito de DeepSeek ha generado preocupaciones en la industria tecnológica de EE. UU., con las acciones de Nvidia y otras empresas tecnológicas cayendo en picada. Los expertos creen que DeepSeek ha logrado un alto rendimiento a un costo mucho menor que sus contrapartes estadounidenses, gracias al uso de tecnología de código abierto y métodos de entrenamiento efectivos.
Además, DeepSeek ha publicado el código fuente y explicaciones técnicas detalladas del modelo, lo que permite a investigadores y desarrolladores de todo el mundo acceder y mejorar esta tecnología. Esta transparencia contrasta con el enfoque más secreto de las principales empresas de IA de EE. UU. Y podría cambiar la forma en que las grandes empresas de tecnología desarrollan modelos en el futuro.