Fuente de la imagen: Generado por la IA sin límites
Los frecuentes mensajes de error de 'Servidor ocupado, por favor, inténtelo de nuevo más tarde' de DeepSeek están volviendo locos a los usuarios de todo el mundo.
DeepSeek, que antes era poco conocido por el público en general, se hizo famoso por el lanzamiento de su modelo de lenguaje V3, que compite con GPT 4o, el 26 de diciembre de 2024. El 20 de enero, DeepSeek lanzó su modelo de lenguaje R1, que compite con OpenAI o1. Posteriormente, debido a la alta calidad de las respuestas generadas en el modo de "pensamiento profundo" y a la señal positiva de que los costos iniciales de entrenamiento del modelo podrían disminuir drásticamente, la empresa y la aplicación se volvieron completamente populares. Desde entonces, DeepSeek R1 ha estado experimentando congestión, con su función de búsqueda en línea intermitentemente paralizada y el modo de "pensamiento profundo" mostrando con frecuencia el mensaje "servidor ocupado", lo que ha causado una gran molestia a muchos usuarios.
Hace unos días, DeepSeek comenzó a experimentar interrupciones en el servidor. El 27 de enero al mediodía, el sitio web oficial de DeepSeek mostró varias veces que "deepseek página/api no está disponible". Ese día, DeepSeek se convirtió en la aplicación con mayor cantidad de descargas de iPhone durante el fin de semana, superando a ChatGPT en la lista de descargas en el área de los Estados Unidos.
El 5 de febrero, 26 días después de que DeepSeek se lanzara en la versión móvil, la actividad diaria superó los 40 millones, mientras que la actividad diaria de ChatGPT en la versión móvil fue de 54,95 millones, lo que representa el 74,3% de DeepSeek. Casi al mismo tiempo que DeepSeek emergía de una curva de crecimiento pronunciada, las críticas sobre la ocupación del servidor comenzaron a llegar en masa: los usuarios de todo el mundo comenzaron a experimentar inconvenientes con caídas cada vez que intentaban hacer algunas preguntas, y comenzaron a surgir varias formas de acceso alternativas, como sitios web de reemplazo de DeepSeek. Los principales proveedores de servicios en la nube, fabricantes de chips y empresas de infraestructura han comenzado a lanzar sus propias versiones, y los tutoriales de implementación personal también están por todas partes. Sin embargo, la frustración de la gente no se ha aliviado: casi todos los principales fabricantes del mundo afirman que han implementado DeepSeek, pero los usuarios locales siguen quejándose de la inestabilidad del servicio.
¿Qué ha pasado realmente detrás de esto?
Aquellos que están acostumbrados a ChatGPT no pueden soportar DeepSeek que no se puede abrir.
La insatisfacción de las personas con la 'ocupación del servidor DeepSeek' proviene de las aplicaciones de IA de primera línea anteriores, principalmente ChatGPT, que rara vez experimentaban retrasos.
Desde el lanzamiento del servicio de OpenAI, aunque ChatGPT ha experimentado varios incidentes de caída de nivel P0 (el nivel de incidente más grave), en general, es relativamente confiable y ha encontrado un equilibrio entre la innovación y la estabilidad, convirtiéndose gradualmente en un componente clave similar a los servicios en la nube tradicionales.
El número de caídas a gran escala de ChatGPT no es muy alto.
El proceso de inferencia de ChatGPT es relativamente estable, incluyendo dos pasos, codificación y decodificación. En la etapa de codificación, el texto de entrada se convierte en un vector que contiene la información semántica del texto de entrada. En la etapa de decodificación, ChatGPT utiliza el texto generado previamente como contexto, y a través del modelo Transformer genera la siguiente palabra o frase, hasta que se genera una oración completa que cumple con los requisitos. El propio modelo grande pertenece a la arquitectura del decodificador. La etapa de decodificación es el proceso de salida de token (la unidad más pequeña cuando el modelo grande procesa el texto). Cada vez que se hace una pregunta a ChatGPT, se inicia un proceso de inferencia.
Por ejemplo, si le preguntas a ChatGPT, "¿Cómo te sientes hoy?", ChatGPT codificará esta frase, generando representaciones de atención en cada capa, y, basándose en las representaciones de atención de todos los tokens anteriores, predecirá el primer token de salida "yo". Luego, durante la decodificación, se concatenará "yo" a "¿Cómo te sientes hoy?", y se obtendrá "¿Cómo te sientes hoy? Yo", generando una nueva representación de atención, y luego se predecirá el siguiente token: "bien". Luego, se repetirán los pasos uno y dos en un ciclo, y finalmente se obtendrá "¿Cómo te sientes hoy? Me siento bien."
La herramienta de orquestación de contenedores Kubernetes es el "comandante en jefe" detrás de ChatGPT, encargado de programar y asignar recursos del servidor. Cuando la afluencia de usuarios supera por completo la capacidad de control del plano de control de Kubernetes, resulta en un colapso total del sistema de ChatGPT.
El número total de veces que ChatGPT se ha paralizado no es demasiado alto, pero detrás de esto está el sólido recurso en el que se basa para mantenerse estable en funcionamiento, la potencia informática sólida que la respalda, y esto es algo que la gente pasa por alto.
En general, debido al tamaño de los datos manejados en el proceso de razonamiento suele ser pequeño, por lo que no se requiere tanta potencia de cálculo como en el entrenamiento. Según estimaciones de profesionales de la industria, en el proceso de inferencia de modelos grandes normales, el peso de los parámetros del modelo ocupa la mayor parte de la memoria, aproximadamente más del 80%. En la realidad, en varios modelos integrados en ChatGPT, los tamaños predeterminados de los modelos son más pequeños que los 671B de DeepSeek-R1, y debido a que ChatGPT cuenta con mucha más potencia de cálculo en la GPU que DeepSeek, naturalmente muestra un rendimiento más estable que DS-R1.
DeepSeek-V3 y R1 son modelos de 671B, el proceso de inicio del modelo es el proceso de inferencia, la reserva de potencia de cálculo durante la inferencia debe coincidir con la cantidad de usuarios, por ejemplo, si hay 100 millones de usuarios, se necesitará una tarjeta gráfica para 100 millones de usuarios, no solo es enorme, sino que también es independiente de la reserva de potencia de cálculo durante el entrenamiento y no está relacionado. Según la información disponible, la reserva de potencia de cálculo y tarjetas gráficas de DS son claramente insuficientes, lo que resulta en frecuentes bloqueos.
Esta comparación no es familiar para los usuarios que están acostumbrados a la experiencia fluida de ChatGPT, especialmente en este momento en que su interés en R1 está aumentando.
2, tarjeta, tarjeta
Además, al comparar cuidadosamente, las situaciones a las que se enfrentan OpenAI y DeepSeek son muy diferentes.
El primero cuenta con el respaldo de Microsoft, como la plataforma exclusiva de OpenAI, Microsoft Azure Cloud Services lleva ChatGPT, Dalle-E 2 generador de imágenes y GitHub Copilot herramienta de codificación automática, que luego se convirtió en un paradigma clásico de la nube + IA y rápidamente se convirtió en un estándar de la industria; el último, aunque es una startup, en la mayoría de los casos depende de centros de datos propios, similar a Google, y no depende de proveedores de servicios de computación en la nube de terceros. Los siliconianos descubrieron después de consultar la información pública que DeepSeek no ha iniciado ninguna colaboración con fabricantes de chips de nube en ningún nivel (aunque durante el período de Año Nuevo Chino, los fabricantes de chips en la nube anunciaron que el modelo DeepSeek se ejecutaría en sus plataformas, pero no han llevado a cabo ninguna colaboración significativa).
Además, DeepSeek ha experimentado un crecimiento de usuarios sin precedentes, lo que significa que tiene un tiempo de preparación para casos de pasión correspondiente incluso menor que ChatGPT.
El buen rendimiento de DeepSeek proviene de la optimización integral que realiza en el hardware y el sistema. La empresa matriz de DeepSeek, Quantitative Magic, ya invirtió 200 millones en la construcción del clúster de supercomputación Firefly-1 en 2019, y para el 22, silenciosamente almacenó miles de tarjetas gráficas A100 para un entrenamiento paralelo más eficiente. DeepSeek también desarrolló internamente el marco de entrenamiento HAI LLM para un entrenamiento paralelo más eficiente. Se cree en la industria que el clúster Firefly puede estar utilizando miles o decenas de miles de GPU de alto rendimiento (como Nvidia A100/H100 o chips nacionales) para proporcionar una potente capacidad de cálculo paralelo. Actualmente, el clúster Firefly respalda el entrenamiento de modelos como DeepSeek-R1, DeepSeek-MoE, los cuales muestran un rendimiento cercano al nivel del GPT-4 en tareas matemáticas, de código y otras tareas complejas.
El clúster Firefly representa la exploración de DeepSeek de nuevas arquitecturas y métodos, y también hace creer al mundo exterior que a través de tecnologías tan innovadoras, DS puede reducir el costo de entrenamiento y puede entrenar a R1 con el rendimiento de los mejores modelos de IA a una fracción de la potencia de cálculo de los modelos occidentales más avanzados. Según los cálculos de SemiAnalysis, DeepSeek tiene una enorme reserva de potencia de cálculo: DeepSeek tiene un total de 60.000 tarjetas GPU NVIDIA, incluidas 10.000 A100, 10.000 H100, 10.000 H800 de "edición especial" y 30.000 H20 de "edición especial".
Esto parece indicar que la cantidad de tarjetas de R1 es suficiente. Pero en realidad, como modelo de razonamiento R1, se compara con O3 de OpenAI, este tipo de modelo de razonamiento requiere desplegar más potencia de cálculo para la fase de respuesta, pero no está claro cuál es más alto o más bajo, el ahorro de potencia de cálculo en el costo de entrenamiento por parte de DS, y el repentino aumento en el costo de razonamiento.
Es importante destacar que DeepSeek-V3 y DeepSeek-R1 son modelos de lenguaje grandes, pero funcionan de manera diferente. DeepSeek-V3 es un modelo de instrucción, similar a ChatGPT, que recibe palabras clave y genera texto correspondiente para responder. Sin embargo, DeepSeek-R1 es un modelo de razonamiento. Cuando un usuario hace una pregunta a R1, primero realiza un extenso proceso de razonamiento y luego genera la respuesta final. En los tokens generados por R1, se observa inicialmente una gran cantidad de procesos de cadenas de pensamiento. El modelo explica y descompone la pregunta antes de generar la respuesta, y todos estos procesos de razonamiento se generan rápidamente en forma de token.
Para Wen Tingcan, vicepresidente de Yaotu Capital, la gran reserva de poder de cálculo de DeepSeek mencionada anteriormente se refiere a la etapa de entrenamiento. Durante esta etapa, el equipo de poder de cálculo puede ser planificado y anticipado, lo que significa que es poco probable que haya escasez de poder de cálculo. Sin embargo, el poder de cálculo para la inferencia es más incierto, ya que depende principalmente del tamaño y el uso de los usuarios, lo que significa que es más flexible. El poder de cálculo para la inferencia crecerá de acuerdo con ciertas reglas, pero a medida que DeepSeek se convierta en un producto fenomenal, el tamaño y el uso explosivo de los usuarios a corto plazo causarán un crecimiento explosivo en la demanda de poder de cálculo para la inferencia, lo que resultará en retrasos.
El diseñador de productos de modelos activos, el desarrollador independiente Guicang, cree que la cantidad de tarjetas reconocidas es la principal causa del atasco de DeepSeek. Él cree que, como la aplicación móvil con mayor número de descargas en 140 mercados de todo el mundo, la tarjeta actual no puede soportarla de ninguna manera, incluso si se usa una nueva tarjeta, porque "hacer una nueva tarjeta en la nube lleva tiempo".
"El costo de ejecutar chips como Nvidia A100 y H100 durante una hora tiene un precio justo de mercado, y DeepSeek es más del 90% más barato que el modelo similar o1 de OpenAI en términos del costo de inferencia del token de salida, que no es muy diferente del cálculo de todos, por lo que la arquitectura del modelo MOE en sí no es el problema principal, pero la cantidad de GPU propiedad de DS determina la cantidad máxima de tokens que pueden producir por minuto, incluso si se pueden usar más GPU para los usuarios del servicio de inferencia. Y no para los estudios previos a la formación, pero el techo está ahí. Chen Yunfei, el desarrollador de la aplicación nativa de IA Kitten Fill Light, tiene una opinión similar.
También se ha mencionado a Silicon Star por profesionales de la industria que la esencia de las interrupciones de DeepSeek radica en que la nube privada no está bien configurada.
Los ataques de hackers son otro factor que provoca el retraso de R1. El 30 de enero, los medios de comunicación obtuvieron información de la empresa de seguridad cibernética Qianxin de que la intensidad de los ataques contra el servicio en línea DeepSeek aumentó repentinamente, con un incremento de órdenes de ataque de cientos de veces en comparación con el 28 de enero. El Laboratorio Xlab de Qianxin observó la participación de al menos 2 redes zombi en el ataque.
Sin embargo, este tartamudeo en el servicio R1 en sí mismo tiene una solución aparentemente obvia, que es que un tercero proporcione el servicio. Esto también es el paisaje más animado que presenciamos durante el Festival de Primavera: todas las empresas despliegan servicios para satisfacer la demanda de DeepSeek por parte de la gente.
El 31 de enero, NVIDIA anunció que NVIDIA NIM ya puede utilizar DeepSeek-R1. Anteriormente, NVIDIA se vio afectada por DeepSeek, lo que resultó en una caída repentina de su valor de mercado de casi 600 mil millones de dólares en una sola noche. El mismo día, los usuarios de Amazon Web Services (AWS) pueden implementar el último modelo base R1 de DeepSeek en sus plataformas de inteligencia artificial, Amazon Bedrock y Amazon SageMaker AI. Posteriormente, nuevos jugadores en la aplicación de inteligencia artificial, incluidos Perplexity y Cursor, también se han integrado en masa en DeepSeek. Microsoft, por su parte, se adelantó a Amazon y NVIDIA al implementar DeepSeek-R1 primero en los servicios en la nube Azure y Github.
A partir del cuarto día del primer mes lunar, Huawei Cloud, Alibaba Cloud, la plataforma de Volcán de ByteDance y Tencent Cloud también se unieron, generalmente ofreciendo servicios de implementación de modelos DeepSeek de serie completa y tamaño completo. A continuación, están los fabricantes de chips de IA como Birui Technology, Hanbo Semiconductor, Ascend y Muxi, que afirman haber adaptado la versión original de DeepSeek o versiones destiladas de menor tamaño. En cuanto a las compañías de software, Yonyou, Kingdee, entre otros, incorporan modelos DeepSeek en algunos de sus productos para mejorar su rendimiento. Por último, los fabricantes de terminales como Lenovo, Huawei y productos de la serie Honor integran modelos DeepSeek en algunos de sus productos para su uso como asistentes personales en el extremo del usuario y en cabinas inteligentes de automóviles.
Hasta ahora, DeepSeek ha atraído a un amplio círculo de amigos basándose en su propio valor, que incluye proveedores de nube nacionales y extranjeros, operadores, corredurías y plataformas nacionales de supercomputación en la nube. Debido a que DeepSeek-R1 es un modelo completamente de código abierto, los proveedores de servicios que se conectan se convierten en beneficiarios del modelo DS. Por un lado, esto ha aumentado en gran medida el volumen de DS, pero también ha causado fenómenos de tartamudeo más frecuentes, y tanto los proveedores de servicios como DS se ven cada vez más atrapados por la afluencia de usuarios, sin encontrar la clave para resolver el problema de la estabilidad del uso.
Dado que los modelos originales de DeepSeek V3 y R1 tienen hasta 671 mil millones de parámetros, son adecuados para ser ejecutados en la nube. Los proveedores de la nube tienen una capacidad de cálculo y razonamiento más que suficiente. Al lanzar servicios de implementación relacionados con DeepSeek, su objetivo es reducir la barrera de entrada para las empresas. Después de implementar el modelo DeepSeek, proporcionan una API del modelo DS al público. Se considera que esta API proporcionada por ellos puede ofrecer una experiencia de uso mejor que la API oficial de DS.
Sin embargo, en la realidad, el problema de la experiencia de funcionamiento del modelo DeepSeek-R1 no se ha resuelto en los servicios de ninguna empresa. Aunque el mundo exterior cree que los proveedores de servicios no carecen de tarjetas, en realidad, la cantidad de tarjetas asignadas para el razonamiento de R1 no es demasiado grande, lo que resulta en una retroalimentación inestable de los desarrolladores, que es completamente comparable con la frecuencia de R1.
El nivel de actividad de R1 se mantiene alto, los proveedores de servicios necesitan considerar otros modelos a los que se pueden acceder, y la disponibilidad de tarjetas para R1 es muy limitada. Dado que la demanda de R1 es alta, si alguien ofrece R1 a un precio relativamente bajo, será abrumado, explicó el diseñador del producto del modelo, el desarrollador independiente Gui Cang a los extraterrestres de silicio.
La optimización de la implementación del modelo es un campo amplio que abarca muchos aspectos, desde la finalización del entrenamiento hasta la implementación real del hardware, que implica un trabajo en múltiples niveles. Sin embargo, para el problema de tartamudeo de DeepSeek, las razones pueden ser más simples, como un modelo demasiado grande y una preparación insuficiente antes del lanzamiento.
Antes de que un modelo grande y popular se lance, enfrentará desafíos técnicos, de ingeniería, comerciales y otros, como la consistencia entre los datos de entrenamiento y los datos del entorno de producción, el impacto de la latencia de los datos en tiempo real en la inferencia del modelo, la eficiencia de la inferencia en línea y el exceso de uso de recursos, la capacidad de generalización del modelo, y aspectos de ingeniería como la estabilidad del servicio, la integración de API y sistemas, entre otros.
Antes del lanzamiento de muchos modelos de vanguardia, se presta mucha atención a la optimización del razonamiento, esto se debe al tiempo de cálculo y a problemas de memoria, el primero se refiere a que el retraso en el razonamiento es demasiado largo, lo que resulta en una mala experiencia del usuario, e incluso no puede satisfacer las necesidades de retraso, es decir, fenómenos como el tartamudeo, y el segundo se refiere a que la cantidad de parámetros del modelo es alta, lo que consume memoria gráfica, e incluso una sola tarjeta GPU no puede contenerla, lo que también puede causar tartamudeo.
Wen Tingcan explicó a los extraterrestres de Silicio la razón, diciendo que el proveedor de servicios enfrenta desafíos al proporcionar el servicio R1, que es fundamentalmente la estructura especial del modelo DS, el modelo es demasiado grande y la arquitectura MOE (una forma eficiente de cálculo con una estructura mixta de expertos). La optimización (del proveedor de servicios) lleva tiempo, pero el mercado tiene una ventana de tiempo para la demanda, por lo que primero se lanza y luego se optimiza en lugar de estar completamente optimizado antes de su lanzamiento.
Para que R1 funcione de manera estable, ahora la clave radica en la capacidad de reserva y optimización del lado de la inferencia. Lo que DeepSeek necesita hacer es encontrar una forma de reducir los costos de la inferencia y disminuir la producción de tarjetas, así como la cantidad de tokens producidos en cada transacción.
Al mismo tiempo, la tartamudez también indica que es probable que la potencia de cálculo de DS en sí misma no sea tan grande como la descrita por SemiAnalysis, la empresa de fondos de cuadrado mágico necesita usar tarjetas, el equipo de entrenamiento de DeepSeek también necesita usar tarjetas, y no hay muchas tarjetas que se puedan ofrecer a los usuarios. Según la situación actual de desarrollo, es posible que DeepSeek no tenga el impulso de gastar dinero en alquilar servicios a corto plazo, y luego proporcionar una mejor experiencia de forma gratuita a los usuarios. Es más probable que esperen hasta que el primer modelo de negocio de C esté claro antes de considerar el tema del alquiler de servicios, lo que también significa que la tartamudez continuará durante un tiempo considerable.
"Probablemente necesitarán dos acciones: 1) implementar un mecanismo de pago para limitar el uso del modelo de usuarios gratuitos; 2) colaborar con proveedores de servicios en la nube para utilizar los recursos de GPU de otros." La solución temporal propuesta por el desarrollador Chen Yunfei ha sido ampliamente aceptada en la industria.
Pero por el momento, DeepSeek no parece estar muy preocupado por su problema de "servidor ocupado". Como empresa que persigue AGI, DeepSeek parece no querer centrarse demasiado en este flujo de usuarios que llega en masa. Es posible que los usuarios tengan que acostumbrarse a la interfaz de "servidor ocupado" en el futuro cercano.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La 'ocupación del servidor' de DeepSeek vuelve locos a todos, ¿qué hay detrás de esto?
Fuente de la imagen: Generado por la IA sin límites
Los frecuentes mensajes de error de 'Servidor ocupado, por favor, inténtelo de nuevo más tarde' de DeepSeek están volviendo locos a los usuarios de todo el mundo.
DeepSeek, que antes era poco conocido por el público en general, se hizo famoso por el lanzamiento de su modelo de lenguaje V3, que compite con GPT 4o, el 26 de diciembre de 2024. El 20 de enero, DeepSeek lanzó su modelo de lenguaje R1, que compite con OpenAI o1. Posteriormente, debido a la alta calidad de las respuestas generadas en el modo de "pensamiento profundo" y a la señal positiva de que los costos iniciales de entrenamiento del modelo podrían disminuir drásticamente, la empresa y la aplicación se volvieron completamente populares. Desde entonces, DeepSeek R1 ha estado experimentando congestión, con su función de búsqueda en línea intermitentemente paralizada y el modo de "pensamiento profundo" mostrando con frecuencia el mensaje "servidor ocupado", lo que ha causado una gran molestia a muchos usuarios.
Hace unos días, DeepSeek comenzó a experimentar interrupciones en el servidor. El 27 de enero al mediodía, el sitio web oficial de DeepSeek mostró varias veces que "deepseek página/api no está disponible". Ese día, DeepSeek se convirtió en la aplicación con mayor cantidad de descargas de iPhone durante el fin de semana, superando a ChatGPT en la lista de descargas en el área de los Estados Unidos.
El 5 de febrero, 26 días después de que DeepSeek se lanzara en la versión móvil, la actividad diaria superó los 40 millones, mientras que la actividad diaria de ChatGPT en la versión móvil fue de 54,95 millones, lo que representa el 74,3% de DeepSeek. Casi al mismo tiempo que DeepSeek emergía de una curva de crecimiento pronunciada, las críticas sobre la ocupación del servidor comenzaron a llegar en masa: los usuarios de todo el mundo comenzaron a experimentar inconvenientes con caídas cada vez que intentaban hacer algunas preguntas, y comenzaron a surgir varias formas de acceso alternativas, como sitios web de reemplazo de DeepSeek. Los principales proveedores de servicios en la nube, fabricantes de chips y empresas de infraestructura han comenzado a lanzar sus propias versiones, y los tutoriales de implementación personal también están por todas partes. Sin embargo, la frustración de la gente no se ha aliviado: casi todos los principales fabricantes del mundo afirman que han implementado DeepSeek, pero los usuarios locales siguen quejándose de la inestabilidad del servicio.
¿Qué ha pasado realmente detrás de esto?
La insatisfacción de las personas con la 'ocupación del servidor DeepSeek' proviene de las aplicaciones de IA de primera línea anteriores, principalmente ChatGPT, que rara vez experimentaban retrasos.
Desde el lanzamiento del servicio de OpenAI, aunque ChatGPT ha experimentado varios incidentes de caída de nivel P0 (el nivel de incidente más grave), en general, es relativamente confiable y ha encontrado un equilibrio entre la innovación y la estabilidad, convirtiéndose gradualmente en un componente clave similar a los servicios en la nube tradicionales.
El número de caídas a gran escala de ChatGPT no es muy alto.
El proceso de inferencia de ChatGPT es relativamente estable, incluyendo dos pasos, codificación y decodificación. En la etapa de codificación, el texto de entrada se convierte en un vector que contiene la información semántica del texto de entrada. En la etapa de decodificación, ChatGPT utiliza el texto generado previamente como contexto, y a través del modelo Transformer genera la siguiente palabra o frase, hasta que se genera una oración completa que cumple con los requisitos. El propio modelo grande pertenece a la arquitectura del decodificador. La etapa de decodificación es el proceso de salida de token (la unidad más pequeña cuando el modelo grande procesa el texto). Cada vez que se hace una pregunta a ChatGPT, se inicia un proceso de inferencia.
Por ejemplo, si le preguntas a ChatGPT, "¿Cómo te sientes hoy?", ChatGPT codificará esta frase, generando representaciones de atención en cada capa, y, basándose en las representaciones de atención de todos los tokens anteriores, predecirá el primer token de salida "yo". Luego, durante la decodificación, se concatenará "yo" a "¿Cómo te sientes hoy?", y se obtendrá "¿Cómo te sientes hoy? Yo", generando una nueva representación de atención, y luego se predecirá el siguiente token: "bien". Luego, se repetirán los pasos uno y dos en un ciclo, y finalmente se obtendrá "¿Cómo te sientes hoy? Me siento bien."
La herramienta de orquestación de contenedores Kubernetes es el "comandante en jefe" detrás de ChatGPT, encargado de programar y asignar recursos del servidor. Cuando la afluencia de usuarios supera por completo la capacidad de control del plano de control de Kubernetes, resulta en un colapso total del sistema de ChatGPT.
El número total de veces que ChatGPT se ha paralizado no es demasiado alto, pero detrás de esto está el sólido recurso en el que se basa para mantenerse estable en funcionamiento, la potencia informática sólida que la respalda, y esto es algo que la gente pasa por alto.
En general, debido al tamaño de los datos manejados en el proceso de razonamiento suele ser pequeño, por lo que no se requiere tanta potencia de cálculo como en el entrenamiento. Según estimaciones de profesionales de la industria, en el proceso de inferencia de modelos grandes normales, el peso de los parámetros del modelo ocupa la mayor parte de la memoria, aproximadamente más del 80%. En la realidad, en varios modelos integrados en ChatGPT, los tamaños predeterminados de los modelos son más pequeños que los 671B de DeepSeek-R1, y debido a que ChatGPT cuenta con mucha más potencia de cálculo en la GPU que DeepSeek, naturalmente muestra un rendimiento más estable que DS-R1.
DeepSeek-V3 y R1 son modelos de 671B, el proceso de inicio del modelo es el proceso de inferencia, la reserva de potencia de cálculo durante la inferencia debe coincidir con la cantidad de usuarios, por ejemplo, si hay 100 millones de usuarios, se necesitará una tarjeta gráfica para 100 millones de usuarios, no solo es enorme, sino que también es independiente de la reserva de potencia de cálculo durante el entrenamiento y no está relacionado. Según la información disponible, la reserva de potencia de cálculo y tarjetas gráficas de DS son claramente insuficientes, lo que resulta en frecuentes bloqueos.
Esta comparación no es familiar para los usuarios que están acostumbrados a la experiencia fluida de ChatGPT, especialmente en este momento en que su interés en R1 está aumentando.
2, tarjeta, tarjeta
Además, al comparar cuidadosamente, las situaciones a las que se enfrentan OpenAI y DeepSeek son muy diferentes.
El primero cuenta con el respaldo de Microsoft, como la plataforma exclusiva de OpenAI, Microsoft Azure Cloud Services lleva ChatGPT, Dalle-E 2 generador de imágenes y GitHub Copilot herramienta de codificación automática, que luego se convirtió en un paradigma clásico de la nube + IA y rápidamente se convirtió en un estándar de la industria; el último, aunque es una startup, en la mayoría de los casos depende de centros de datos propios, similar a Google, y no depende de proveedores de servicios de computación en la nube de terceros. Los siliconianos descubrieron después de consultar la información pública que DeepSeek no ha iniciado ninguna colaboración con fabricantes de chips de nube en ningún nivel (aunque durante el período de Año Nuevo Chino, los fabricantes de chips en la nube anunciaron que el modelo DeepSeek se ejecutaría en sus plataformas, pero no han llevado a cabo ninguna colaboración significativa).
Además, DeepSeek ha experimentado un crecimiento de usuarios sin precedentes, lo que significa que tiene un tiempo de preparación para casos de pasión correspondiente incluso menor que ChatGPT.
El buen rendimiento de DeepSeek proviene de la optimización integral que realiza en el hardware y el sistema. La empresa matriz de DeepSeek, Quantitative Magic, ya invirtió 200 millones en la construcción del clúster de supercomputación Firefly-1 en 2019, y para el 22, silenciosamente almacenó miles de tarjetas gráficas A100 para un entrenamiento paralelo más eficiente. DeepSeek también desarrolló internamente el marco de entrenamiento HAI LLM para un entrenamiento paralelo más eficiente. Se cree en la industria que el clúster Firefly puede estar utilizando miles o decenas de miles de GPU de alto rendimiento (como Nvidia A100/H100 o chips nacionales) para proporcionar una potente capacidad de cálculo paralelo. Actualmente, el clúster Firefly respalda el entrenamiento de modelos como DeepSeek-R1, DeepSeek-MoE, los cuales muestran un rendimiento cercano al nivel del GPT-4 en tareas matemáticas, de código y otras tareas complejas.
El clúster Firefly representa la exploración de DeepSeek de nuevas arquitecturas y métodos, y también hace creer al mundo exterior que a través de tecnologías tan innovadoras, DS puede reducir el costo de entrenamiento y puede entrenar a R1 con el rendimiento de los mejores modelos de IA a una fracción de la potencia de cálculo de los modelos occidentales más avanzados. Según los cálculos de SemiAnalysis, DeepSeek tiene una enorme reserva de potencia de cálculo: DeepSeek tiene un total de 60.000 tarjetas GPU NVIDIA, incluidas 10.000 A100, 10.000 H100, 10.000 H800 de "edición especial" y 30.000 H20 de "edición especial".
Esto parece indicar que la cantidad de tarjetas de R1 es suficiente. Pero en realidad, como modelo de razonamiento R1, se compara con O3 de OpenAI, este tipo de modelo de razonamiento requiere desplegar más potencia de cálculo para la fase de respuesta, pero no está claro cuál es más alto o más bajo, el ahorro de potencia de cálculo en el costo de entrenamiento por parte de DS, y el repentino aumento en el costo de razonamiento.
Es importante destacar que DeepSeek-V3 y DeepSeek-R1 son modelos de lenguaje grandes, pero funcionan de manera diferente. DeepSeek-V3 es un modelo de instrucción, similar a ChatGPT, que recibe palabras clave y genera texto correspondiente para responder. Sin embargo, DeepSeek-R1 es un modelo de razonamiento. Cuando un usuario hace una pregunta a R1, primero realiza un extenso proceso de razonamiento y luego genera la respuesta final. En los tokens generados por R1, se observa inicialmente una gran cantidad de procesos de cadenas de pensamiento. El modelo explica y descompone la pregunta antes de generar la respuesta, y todos estos procesos de razonamiento se generan rápidamente en forma de token.
Para Wen Tingcan, vicepresidente de Yaotu Capital, la gran reserva de poder de cálculo de DeepSeek mencionada anteriormente se refiere a la etapa de entrenamiento. Durante esta etapa, el equipo de poder de cálculo puede ser planificado y anticipado, lo que significa que es poco probable que haya escasez de poder de cálculo. Sin embargo, el poder de cálculo para la inferencia es más incierto, ya que depende principalmente del tamaño y el uso de los usuarios, lo que significa que es más flexible. El poder de cálculo para la inferencia crecerá de acuerdo con ciertas reglas, pero a medida que DeepSeek se convierta en un producto fenomenal, el tamaño y el uso explosivo de los usuarios a corto plazo causarán un crecimiento explosivo en la demanda de poder de cálculo para la inferencia, lo que resultará en retrasos.
El diseñador de productos de modelos activos, el desarrollador independiente Guicang, cree que la cantidad de tarjetas reconocidas es la principal causa del atasco de DeepSeek. Él cree que, como la aplicación móvil con mayor número de descargas en 140 mercados de todo el mundo, la tarjeta actual no puede soportarla de ninguna manera, incluso si se usa una nueva tarjeta, porque "hacer una nueva tarjeta en la nube lleva tiempo".
"El costo de ejecutar chips como Nvidia A100 y H100 durante una hora tiene un precio justo de mercado, y DeepSeek es más del 90% más barato que el modelo similar o1 de OpenAI en términos del costo de inferencia del token de salida, que no es muy diferente del cálculo de todos, por lo que la arquitectura del modelo MOE en sí no es el problema principal, pero la cantidad de GPU propiedad de DS determina la cantidad máxima de tokens que pueden producir por minuto, incluso si se pueden usar más GPU para los usuarios del servicio de inferencia. Y no para los estudios previos a la formación, pero el techo está ahí. Chen Yunfei, el desarrollador de la aplicación nativa de IA Kitten Fill Light, tiene una opinión similar.
También se ha mencionado a Silicon Star por profesionales de la industria que la esencia de las interrupciones de DeepSeek radica en que la nube privada no está bien configurada.
Los ataques de hackers son otro factor que provoca el retraso de R1. El 30 de enero, los medios de comunicación obtuvieron información de la empresa de seguridad cibernética Qianxin de que la intensidad de los ataques contra el servicio en línea DeepSeek aumentó repentinamente, con un incremento de órdenes de ataque de cientos de veces en comparación con el 28 de enero. El Laboratorio Xlab de Qianxin observó la participación de al menos 2 redes zombi en el ataque.
Sin embargo, este tartamudeo en el servicio R1 en sí mismo tiene una solución aparentemente obvia, que es que un tercero proporcione el servicio. Esto también es el paisaje más animado que presenciamos durante el Festival de Primavera: todas las empresas despliegan servicios para satisfacer la demanda de DeepSeek por parte de la gente.
El 31 de enero, NVIDIA anunció que NVIDIA NIM ya puede utilizar DeepSeek-R1. Anteriormente, NVIDIA se vio afectada por DeepSeek, lo que resultó en una caída repentina de su valor de mercado de casi 600 mil millones de dólares en una sola noche. El mismo día, los usuarios de Amazon Web Services (AWS) pueden implementar el último modelo base R1 de DeepSeek en sus plataformas de inteligencia artificial, Amazon Bedrock y Amazon SageMaker AI. Posteriormente, nuevos jugadores en la aplicación de inteligencia artificial, incluidos Perplexity y Cursor, también se han integrado en masa en DeepSeek. Microsoft, por su parte, se adelantó a Amazon y NVIDIA al implementar DeepSeek-R1 primero en los servicios en la nube Azure y Github.
A partir del cuarto día del primer mes lunar, Huawei Cloud, Alibaba Cloud, la plataforma de Volcán de ByteDance y Tencent Cloud también se unieron, generalmente ofreciendo servicios de implementación de modelos DeepSeek de serie completa y tamaño completo. A continuación, están los fabricantes de chips de IA como Birui Technology, Hanbo Semiconductor, Ascend y Muxi, que afirman haber adaptado la versión original de DeepSeek o versiones destiladas de menor tamaño. En cuanto a las compañías de software, Yonyou, Kingdee, entre otros, incorporan modelos DeepSeek en algunos de sus productos para mejorar su rendimiento. Por último, los fabricantes de terminales como Lenovo, Huawei y productos de la serie Honor integran modelos DeepSeek en algunos de sus productos para su uso como asistentes personales en el extremo del usuario y en cabinas inteligentes de automóviles.
Hasta ahora, DeepSeek ha atraído a un amplio círculo de amigos basándose en su propio valor, que incluye proveedores de nube nacionales y extranjeros, operadores, corredurías y plataformas nacionales de supercomputación en la nube. Debido a que DeepSeek-R1 es un modelo completamente de código abierto, los proveedores de servicios que se conectan se convierten en beneficiarios del modelo DS. Por un lado, esto ha aumentado en gran medida el volumen de DS, pero también ha causado fenómenos de tartamudeo más frecuentes, y tanto los proveedores de servicios como DS se ven cada vez más atrapados por la afluencia de usuarios, sin encontrar la clave para resolver el problema de la estabilidad del uso.
Dado que los modelos originales de DeepSeek V3 y R1 tienen hasta 671 mil millones de parámetros, son adecuados para ser ejecutados en la nube. Los proveedores de la nube tienen una capacidad de cálculo y razonamiento más que suficiente. Al lanzar servicios de implementación relacionados con DeepSeek, su objetivo es reducir la barrera de entrada para las empresas. Después de implementar el modelo DeepSeek, proporcionan una API del modelo DS al público. Se considera que esta API proporcionada por ellos puede ofrecer una experiencia de uso mejor que la API oficial de DS.
Sin embargo, en la realidad, el problema de la experiencia de funcionamiento del modelo DeepSeek-R1 no se ha resuelto en los servicios de ninguna empresa. Aunque el mundo exterior cree que los proveedores de servicios no carecen de tarjetas, en realidad, la cantidad de tarjetas asignadas para el razonamiento de R1 no es demasiado grande, lo que resulta en una retroalimentación inestable de los desarrolladores, que es completamente comparable con la frecuencia de R1.
El nivel de actividad de R1 se mantiene alto, los proveedores de servicios necesitan considerar otros modelos a los que se pueden acceder, y la disponibilidad de tarjetas para R1 es muy limitada. Dado que la demanda de R1 es alta, si alguien ofrece R1 a un precio relativamente bajo, será abrumado, explicó el diseñador del producto del modelo, el desarrollador independiente Gui Cang a los extraterrestres de silicio.
La optimización de la implementación del modelo es un campo amplio que abarca muchos aspectos, desde la finalización del entrenamiento hasta la implementación real del hardware, que implica un trabajo en múltiples niveles. Sin embargo, para el problema de tartamudeo de DeepSeek, las razones pueden ser más simples, como un modelo demasiado grande y una preparación insuficiente antes del lanzamiento.
Antes de que un modelo grande y popular se lance, enfrentará desafíos técnicos, de ingeniería, comerciales y otros, como la consistencia entre los datos de entrenamiento y los datos del entorno de producción, el impacto de la latencia de los datos en tiempo real en la inferencia del modelo, la eficiencia de la inferencia en línea y el exceso de uso de recursos, la capacidad de generalización del modelo, y aspectos de ingeniería como la estabilidad del servicio, la integración de API y sistemas, entre otros.
Antes del lanzamiento de muchos modelos de vanguardia, se presta mucha atención a la optimización del razonamiento, esto se debe al tiempo de cálculo y a problemas de memoria, el primero se refiere a que el retraso en el razonamiento es demasiado largo, lo que resulta en una mala experiencia del usuario, e incluso no puede satisfacer las necesidades de retraso, es decir, fenómenos como el tartamudeo, y el segundo se refiere a que la cantidad de parámetros del modelo es alta, lo que consume memoria gráfica, e incluso una sola tarjeta GPU no puede contenerla, lo que también puede causar tartamudeo.
Wen Tingcan explicó a los extraterrestres de Silicio la razón, diciendo que el proveedor de servicios enfrenta desafíos al proporcionar el servicio R1, que es fundamentalmente la estructura especial del modelo DS, el modelo es demasiado grande y la arquitectura MOE (una forma eficiente de cálculo con una estructura mixta de expertos). La optimización (del proveedor de servicios) lleva tiempo, pero el mercado tiene una ventana de tiempo para la demanda, por lo que primero se lanza y luego se optimiza en lugar de estar completamente optimizado antes de su lanzamiento.
Para que R1 funcione de manera estable, ahora la clave radica en la capacidad de reserva y optimización del lado de la inferencia. Lo que DeepSeek necesita hacer es encontrar una forma de reducir los costos de la inferencia y disminuir la producción de tarjetas, así como la cantidad de tokens producidos en cada transacción.
Al mismo tiempo, la tartamudez también indica que es probable que la potencia de cálculo de DS en sí misma no sea tan grande como la descrita por SemiAnalysis, la empresa de fondos de cuadrado mágico necesita usar tarjetas, el equipo de entrenamiento de DeepSeek también necesita usar tarjetas, y no hay muchas tarjetas que se puedan ofrecer a los usuarios. Según la situación actual de desarrollo, es posible que DeepSeek no tenga el impulso de gastar dinero en alquilar servicios a corto plazo, y luego proporcionar una mejor experiencia de forma gratuita a los usuarios. Es más probable que esperen hasta que el primer modelo de negocio de C esté claro antes de considerar el tema del alquiler de servicios, lo que también significa que la tartamudez continuará durante un tiempo considerable.
"Probablemente necesitarán dos acciones: 1) implementar un mecanismo de pago para limitar el uso del modelo de usuarios gratuitos; 2) colaborar con proveedores de servicios en la nube para utilizar los recursos de GPU de otros." La solución temporal propuesta por el desarrollador Chen Yunfei ha sido ampliamente aceptada en la industria.
Pero por el momento, DeepSeek no parece estar muy preocupado por su problema de "servidor ocupado". Como empresa que persigue AGI, DeepSeek parece no querer centrarse demasiado en este flujo de usuarios que llega en masa. Es posible que los usuarios tengan que acostumbrarse a la interfaz de "servidor ocupado" en el futuro cercano.