Una caja NVIDIA de $2999, ¿cómo puede ayudarme a ganar $22,000 más en un año?

Question

Este artículo desglosa cómo @w1nklerr reemplazó su factura mensual de GPU en la nube de $1,900 con una NVIDIA DGX Spark de $2,999. En el primer año, dejó aproximadamente $22,000 en «ganancias externas» en su propio negocio. El contenido cubre especificaciones, comparación de costos, pila de software, instrucciones de implementación y públicos adecuados.
(Resumen previo: ¡Los resultados financieros del Q1 de Nvidia son increíbles! Ingresos récord de 81.6 mil millones de dólares, Jensen Huang anuncia con entusiasmo «La era de la IA Agentic ha llegado», dividendos aumentaron 24 veces)
(Información adicional: Jensen Huang de Nvidia: El mercado chino eventualmente abrirá los chips de IA estadounidenses)

Índice del artículo

Alternar

1. ¿Qué diablos es esto?
- Especificaciones de DGX Spark
1. La parte que me hizo enojar
- Lo que alquilas vs. el gasto mensual
1. Qué se puede correr arriba, por qué tu código casi no necesita cambios
- Qué puede hacer una sola máquina con 128GB
1. Montarlo fue tan fácil que da vergüenza
1. Dónde realmente aparece el dinero
- Si vendes servicios de IA
- Si manejas datos sensibles (el asesino silencioso)
- Cambio de mentalidad
1. La parte en la que seré honesto contigo
- Ventajas:
- Desventajas:
1. Lista completa de herramientas
Por qué ahora, no más tarde

Durante meses, nadie me dijo esto. Ahora te lo digo a ti, para que no desperdicies un año como yo. Comencemos con ese número que me hizo enojar. La temporada pasada, mi gasto mensual en GPU en la nube fue fijo en $1,900.

Estoy en proyectos de IA de pago: ajuste fino de modelos de código abierto, hospedaje de un asistente de 70B, procesamiento por lotes de muchos archivos, trabajos que una tarjeta gráfica de $2,000 simplemente rechazaría porque no cabe en su memoria.

Por eso, alquilo capacidad por hora. Una semana A100, la siguiente H100. Una noche, mirando la factura, de repente me di cuenta: Cobro a mis clientes por hacer el trabajo, y luego envío casi $2,000 cada mes directamente a una empresa de alquiler de máquinas. Eso no es «costo», es ganancia que sale por la puerta de atrás.

Unos días después, alguien en Discord compartió una foto: un objeto del tamaño de una novela de bolsillo, junto a la pantalla. La leyenda decía: «Elimina mi factura en la nube, puedo correr un modelo de 120B en mi escritorio, en dos meses recupero la inversión.»

Era una DGX Spark. De NVIDIA. La misma insignia DGX — que antes significaba gastar $250,000 en un equipo completo en un centro de datos — ahora cabe en una computadora de escritorio.

Esa semana hice el pedido. Esto es todo lo que aprendí.

1. ¿Qué diablos es esto?

La mayoría piensa en un «superordenador de IA» como una fila de servidores zumbando. NVIDIA pasó todo 2025 desmontando esa imagen: en enero en CES anunciaron «Project DIGITS», en marzo en GTC renombraron a DGX Spark, y en octubre realmente lo entregaron a los compradores. Jensen en su discurso de apertura fue claro:

Grace Blackwell, en cada escritorio.

Promocionado como el menor superordenador de IA del mundo, capaz de correr modelos de 200B de parámetros desde una toma de corriente doméstica. La frase que más me impresionó fue: «La IA será la corriente principal en todas las industrias y aplicaciones.»

Quitando el marketing, las especificaciones reales del chip son:

Especificaciones de DGX Spark

| Elemento | Especificación | | --- | --- | | Chip | NVIDIA GB10 Grace Blackwell Superchip | | Capacidad de IA | 1 PFLOP (mil billones de operaciones FP4 por segundo) | | CPU | 20 núcleos ARM (Grace) | | GPU | Blackwell, similar a una RTX 5070 en núcleo | | Memoria | 128GB LPDDR5x, compartida entre CPU y GPU | | Almacenamiento | 4TB Gen5 NVMe, cifrado automático | | Red | ConnectX-7 — dos conectados como uno solo | | Consumo | 150–240W en carga máxima | | Tamaño | 150 × 150 × 50mm, 1.2kg — como un libro grueso de bolsillo | | Precio | $2,999 (precio de lanzamiento) |

Dejemos de lado el número petaflop. La verdadera especificación que puede cambiar tu vida es la memoria unificada de 128GB.

Una tarjeta 4090 te da 24GB de VRAM. La 5090, 32GB. Cuando un modelo supera la VRAM, no se carga — CUDA lanza un out-of-memory, y vuelves a rentar.

Spark te da 128GB, así que puede cargar un modelo que una tarjeta de $2,000 ni siquiera puede abrir. Una sola puede correr hasta 200B de parámetros. Con dos conectadas por ConnectX-7, puedes correr en tu escritorio un modelo de 405B.

No es solo la caja más rápida que puedas comprar. Es la caja que realmente puede albergar «modelos que valen la pena correr».

2. La parte que me hizo enojar

Esto es un trabajo de IA «local» real, con el dinero que se gasta en la nube cada mes:

Lo que alquilas vs. el gasto mensual

| Elemento | Gasto mensual | | --- | --- | | A100 80GB (desarrollo parcial) | $600–1,200 | | H100 (ajuste fino) | $1,000–2,500 | | Hospedaje de inferencia 70B | $300–900 | | La instancia que olvidaste apagar | Una sorpresa aterradora | | Un desarrollador/constructor de IA normal | $1,500–3,000 |

Y con Spark, haciendo el mismo trabajo:

| Elemento | Costo | | --- | --- | | La caja en sí (que posees) | $2,999 una vez | | Electricidad, unos 200W | $8–15 al mes | | Alquiler en la nube | $0 | | Gasto mensual estable | unos $10 |

Para alguien que ya gasta $1,900 al mes en la nube, en aproximadamente 1.6 meses recupera el costo completo de la máquina.

Luego, esos $1,890 mensuales que antes pagaba a la empresa de alquiler, ahora son mi ganancia bruta — todavía en trabajos que ya cobraba a mis clientes. El primer año, aproximadamente $22,000, regresaron a mi negocio desde el centro de datos de otros gracias a esta caja.

Y nunca duerme, sin límites de velocidad, y los datos en ella nunca han salido de la habitación.

3. Qué se puede correr arriba, por qué tu código casi no necesita cambios

Spark arranca con DGX OS — la versión de Ubuntu propia de NVIDIA — que incluye toda la pila de IA: CUDA, y las mismas librerías que en los centros de datos DGX.

Porque todo está basado en CUDA puro, el ecosistema de código abierto funciona desde el primer día: Ollama, vLLM, llama.cpp.

Si ya usas endpoints en la nube, solo cambia una línea para migrar:

# Antes — pagando por hora a la empresa de alquiler:
client = OpenAI(base_url="https://some-gpu-host/v1", api_key="sk-...")

# Después — en tu caja local, sin facturación:
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="local"  # será ignorado
)

El mismo código, el mismo JSON, el mismo comportamiento. La única diferencia es que no hay cobros, ni datos que salgan del edificio.

Qué puede hacer una sola máquina con 128GB

| Modelo | Tamaño | ¿Cabe? | Para qué sirve | | --- | --- | --- | --- | | Llama 3.3 70B | 70B | Full BF16 | Tareas pesadas de asistente | | Qwen 3 (versión grande) | 30–110B | Sí | Multilingüe, programación | | DeepSeek-class | Hasta 200B | Cuantizado | Inferencia, bucles de agente | | FLUX.1 | — | Sí | Generación de imágenes, local | | 405B (dos en serie) | 405B | Conexión en serie | Nivel Frontier, en local |

Las GPU de consumo llegan a su límite en modelos de unos 30B optimizados. Spark puede usar «todo en precisión completa» para 70B, y extenderse hasta 200B. Esa diferencia es toda la razón para tener una Spark.

4. Montarlo fue tan fácil que da vergüenza

# 1. Instala Ollama en Spark
curl -fsSL https://ollama.com/install.sh | sh

# 2. Descarga un modelo que ni una tarjeta de consumo puede albergar
ollama pull llama3.3:70b

# 3. Inicia el servidor
ollama serve
# Tu asistente privado de 70B en línea: http://localhost:11434

¿Quieres una interfaz web estilo ChatGPT, totalmente en tu hardware? Solo un contenedor:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

Abre localhost:3000 y tendrás un chat privado corriendo con modelos de nivel frontier — sin claves, sin planes, sin datos que salgan de la habitación.

5. Dónde realmente aparece el dinero

El truco no es «cuánto puedes ahorrar en papel». El truco es: cuando una llamada a un modelo de 70B cuesta cero, algunas cosas dejan de ser «decisiones».

Nvidia entregó unidades tempranas a Ollama, OpenAI, SpaceX, laboratorios universitarios y estudios de arte IA — pero para un empresario, la jugada más simple es:

Si vendes servicios de IA

Un agente de codificación privado que corre en el repositorio privado del cliente
Un asistente interno que funciona 24/7 en toda la empresa
Un producto cuyo «costo unitario» es la electricidad, no la API — cada cliente genera ganancia bruta
Ajustes finos nocturnos, que antes costaban $400 en la nube por ejecución, ahora son gratis

Si manejas datos sensibles (el asesino silencioso)

Revisión legal y contractual
Historias clínicas
Reportes financieros
Cualquier cosa bajo NDA, que nunca se subirá a modelos públicos

En Spark, estos datos nunca cruzan la red. Y en tu máquina propia, sin TOS que te limiten.

Cambio de mentalidad

El precio en la nube te enseña a «ahorrar». Antes de hacer que el agente corra en bucle, antes de reprocesar toda la base de datos, antes de ajustar con intuición, piensas más.

Con tu propia caja, esa duda desaparece — y el dinero real suele estar en esa duda.

6. La parte en la que seré honesto contigo

No es un milagro. Cualquier persona que diga que «destruye los centros de datos» solo quiere venderte algo.

Ventajas:

Puede cargar modelos de 70B–200B que una GPU de consumo no puede albergar
Ajuste fino y prototipado, sin pagar alquiler de H100
Inferencia 24/7 privada, con costos marginales casi nulos
Reemplazo directo de endpoints en la nube, porque todo funciona con CUDA

Desventajas:

Solo en velocidad — la 5090 es más rápida en tareas que caben en VRAM
Una sola máquina se esfuerza en modelos >405B (eso requiere dos)
Servir a miles de usuarios simultáneos sigue siendo dominio de centros de datos
Los $2,999 iniciales son un cheque real, aunque se recuperan rápido

Conclusión honesta:

Si ya gastas más de $1,000 al mes en la nube en modelos open source grandes, esto es una de las formas más rápidas de recuperar la inversión en IA.

Si solo quieres charlar con un modelo de 7B ocasionalmente, una máquina económica o tu GPU actual son la opción más inteligente.

Elige la caja según el tamaño del trabajo, no por la moda.

7. Lista completa de herramientas

| Categoría | Contenido | | --- | --- | | Hardware | NVIDIA DGX Spark — $2,999 de una sola vez OEM: ASUS, Dell, HP, Lenovo, Acer, MSI, GIGABYTE | | Sistema operativo | NVIDIA DGX OS (basado en Ubuntu), con pila completa de IA de NVIDIA, CUDA, NIM, NeMo preinstalados | | Runtime | Ollama / vLLM / llama.cpp — gratis, de código abierto | | Interfaz | Open WebUI — interfaz local estilo ChatGPT | | Modelos | Llama 3.3 70B, Qwen 3, DeepSeek, FLUX.1 disponibles en Hugging Face / Ollama sin costo | | Expansión | Dos unidades conectadas con ConnectX-7, hasta 405B de parámetros | | Consumo | Aproximadamente $8–15 en electricidad al mes | | Privacidad | Nunca salen de tu red, listo |

Los costos recurrentes después: unos pocos dólares en electricidad. Eso es toda la factura.

¿Por qué ahora, no más tarde?

Nvidia convirtió un DGX de $250,000 en una máquina de escritorio, no por compasión.

Buscan que la próxima ola de IA se construya en sus chips, localmente, y que «cuantos más, mejor». Por eso, establecieron el precio de entrada en $2,999, y Jensen entregó personalmente unidades a Musk y Altman, dejando el mensaje claro.

Ahora Dell, HP, ASUS y Lenovo lanzan sus propias cajas GB10, y la pila de software — Ollama, vLLM, CUDA — se ajusta casi semanalmente para optimizar en sus chips.

Mientras tanto, las GPU en la nube no bajan de precio, las limitaciones de tasa se vuelven más estrictas, y «a dónde van nuestros datos» se vuelve una pregunta que los clientes hacen antes de firmar.

En 2026, quien tenga su carga de trabajo de IA en su escritorio, en 2028, parecerá estar muy por delante de la curva.

NVDA-0,32%

Ver original