Uma caixa NVIDIA de $2999, como pode ajudar-me a ganhar mais $22.000 em um ano?

Question

Este artigo do autor @w1nklerr desmonta como ele usou o NVIDIA DGX Spark de $2.999 para substituir uma conta mensal de GPU na nuvem de $1.900. No primeiro ano, deixou cerca de $22.000 de "lucro de saída" na sua própria empresa. O conteúdo cobre especificações, comparação de custos, stack de software, comandos de implementação e públicos-alvo.
(Resumindo: Nvidia Q1 relatórios financeiros incríveis! Receita de 81,6 bilhões de dólares, recorde, Jensen Huang comemora "Era da IA Agentic", dividendos aumentaram 24 vezes)
(Complemento: Jensen Huang da Nvidia: o mercado chinês acabará por abrir para chips de IA americanos)

Índice deste artigo

Alternar

1. O que exatamente é isso
- Especificações do DGX Spark
1. A parte que me deixou furioso
- Você alugando coisas vs gastos mensais
1. O que roda lá em cima, por que seu código quase não precisa de mudanças
- O que um único 128GB pode rodar
1. Montar tudo ficou até meio constrangedor
1. Onde o dinheiro realmente aparece
- Se você vende serviços de IA
- Se você lida com dados sensíveis (uso silencioso de alto impacto)
- Mudança de mentalidade
1. A parte que preciso ser honesto com você
- Vantagens:
- Desvantagens que não se veem
1. Lista completa de ferramentas
Por que agora, não mais tarde

Há meses, ninguém me contou isso. Agora eu compartilho, para que você não perca um ano como eu. Comecemos pelo número que me deixou furioso. No último trimestre, meu gasto mensal com GPU na nuvem era fixo em $1.900.

Eu trabalhava com projetos pagos de IA: ajuste fino de modelos open source, hospedagem de um assistente de 70B, processamento em lote de muitos arquivos — trabalhos que uma GPU comum de $2.000 simplesmente rejeitaria, pois o modelo não caberia na memória.

Por isso, eu alugava capacidade por hora. Uma semana com A100, na outra com H100. Uma noite, olhando a conta, percebi de repente: Eu cobro do cliente pelo trabalho, e quase $2.000 por mês vão direto para uma empresa de aluguel de máquinas. Isso não é custo, é lucro que sai pela porta da frente.

Alguns dias depois, alguém no Discord enviou uma foto: uma coisa do tamanho de um romance encadernado, ao lado do monitor. A legenda dizia: "Mate minha conta na nuvem, posso rodar um modelo 120B na mesa, e recuperar o investimento em dois meses."

Era um DGX Spark. NVIDIA. A mesma insígnia DGX — que antes significava gastar $250.000 em um rack de servidores — agora cabia numa mesa.

Naquela semana, eu comprei. Aqui está tudo que aprendi.

1. O que exatamente é isso

A maioria das pessoas, ao ouvir "supercomputador de IA", pensa em uma fileira de servidores zumbindo. A Nvidia passou todo 2025 desmontando essa imagem: em janeiro, na CES, anunciou sob o nome "Project DIGITS"; em março, no GTC, renomeou para DGX Spark; em outubro, entregou de verdade ao comprador. Jensen Huang abriu sua apresentação dizendo:

Grace Blackwell, em cada mesa.

Promovido como o menor supercomputador de IA do mundo, capaz de rodar modelos de 200B de parâmetros a partir de uma tomada doméstica comum. A frase que mais me marcou foi: "A IA será uma tecnologia dominante em todos os setores e aplicações."

Deixando de lado a propaganda, as especificações reais do chip são:

Especificações do DGX Spark

| Item | Especificação | | --- | --- | | Chip | NVIDIA GB10 Grace Blackwell Superchip | | Capacidade de IA | 1 PFLOP (um quatrilhão de operações FP4 por segundo) | | CPU | 20 núcleos ARM (Grace) | | GPU | Blackwell, aproximadamente equivalente a uma GPU RTX 5070 | | Memória | 128GB LPDDR5x, compartilhada entre CPU e GPU | | Armazenamento | 4TB Gen5 NVMe, criptografado automaticamente | | Rede | ConnectX-7 — duas unidades conectadas formando uma só | | Consumo | Cerca de 150–240W sob carga máxima | | Dimensões | 150 × 150 × 50mm, 1,2kg — como um livro de bolso grosso | | Preço | $2.999 (preço de lançamento) |

Deixe o petaflop de lado por um momento. O que realmente muda sua vida é a especificação de 128GB de Memória Unificada.

Uma RTX 4090 tem 24GB de VRAM. Uma 5090, 32GB. Quando o modelo é maior que a VRAM, ele simplesmente não carrega — CUDA dá out-of-memory, e você precisa alugar outra máquina.

O Spark oferece 128GB, permitindo carregar um modelo que uma GPU de $2.000 nem consegue abrir. Uma única máquina pode rodar até 200B de parâmetros. Com duas unidades conectadas via ConnectX-7, você consegue rodar 405B na mesa.

Não é o hardware mais caro que você pode comprar. É o hardware que realmente comporta "modelos que valem a pena rodar".

2. A parte que me deixou furioso

Essa é a "realidade do trabalho local de IA", o dinheiro que você perde na nuvem todo mês:

Você alugando coisas vs gastos mensais

| Item | Gastos mensais | | --- | --- | | A100 80GB (para desenvolvimento parcial) | $600–1.200 | | H100 (para ajuste fino) | $1.000–2.500 | | Hospedagem de inferência 70B | $300–900 | | A máquina que você esquece de desligar | Uma surpresa assustadora | | Um profissional de IA comum, freelancer ou construtor | $1.500–3.000 |

E o Spark, rodando o mesmo trabalho:

| Item | Custo | | --- | --- | | Hardware (você possui) | $2.999 uma vez | | Energia, cerca de 200W | $8–15 por mês | | Aluguel na nuvem | $0 | | Gasto mensal de operação | cerca de $10 |

Para alguém acostumado a gastar $1.900 por mês na nuvem, em aproximadamente 1,6 meses, recupera-se o valor da máquina inteira.

Depois, aquele valor de $1.890 que ia para a empresa de aluguel vira meu lucro bruto — ainda pelo mesmo trabalho que cobro do cliente. No primeiro ano, cerca de $22.000, trazidos do data center de terceiros para minha própria empresa.

E ela nunca dorme, nunca limita a velocidade, e os dados na mesa nunca saíram do ambiente.

3. O que roda lá em cima, por que seu código quase não precisa de mudanças

O Spark inicia com DGX OS — a versão do Ubuntu própria da Nvidia — que já vem com toda a stack de IA: CUDA, e a mesma biblioteca que roda nos data centers DGX.

Por que? Porque a base é CUDA puro, e o ecossistema open source funciona de cara: Ollama, vLLM, llama.cpp, PyTorch, Hugging Face.

Se seu código já roda na nuvem, é só trocar uma linha na migração:

# Antes — pagando por hora na nuvem:
client = OpenAI(base_url="https://some-gpu-host/v1", api_key="sk-...")

# Depois — na sua mesa, com o dispositivo desligado:
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="local"  # será ignorado
)

O mesmo código, o mesmo JSON, o mesmo comportamento. A única diferença é que não há cobrança, nem dados saindo do prédio.

O que um único 128GB pode rodar

| Modelo | Tamanho | Cabe? | Para que serve | | --- | --- | --- | --- | | Llama 3.3 70B | 70B | Sim, full BF16 | Tarefas pesadas de assistente | | Qwen 3 (versão grande) | 30–110B | Sim, pode | Multilíngue, programação | | DeepSeek-class | até 200B | Sim, quantizado | Inferência, ciclo de agente | | FLUX.1 | — | Sim, pode | Geração de imagens, localmente | | 405B (duas unidades conectadas) | 405B | Conectando | Nível Frontier, on-premises |

GPU de consumo comum chega ao limite por volta de um modelo de 30B, que foi "exaurido". Spark consegue usar "precisão total" para 70B, e ainda estender até 200B. Essa diferença é toda a razão de existir de uma Spark.

4. Montar tudo ficou até meio constrangedor

# 1. Instale Ollama na Spark
curl -fsSL https://ollama.com/install.sh | sh

# 2. Baixe um modelo que uma GPU comum não consegue rodar
ollama pull llama3.3:70b

# 3. Inicie o servidor
ollama serve
# Seu 70B privado online: http://localhost:11434

Quer uma interface web estilo ChatGPT, toda rodando na sua própria máquina? Um container basta:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

Abra localhost:3000 e terá uma interface de chat privada, rodando com modelos do nível frontier — sem chave, sem plano, sem dados saindo do ambiente.

5. Onde o dinheiro realmente aparece

O segredo não é "quanto se consegue economizar na papelada". O segredo é: quando um modelo de 70B custa zero por chamada, certas coisas deixam de ser "decisões".

A Nvidia entregou unidades iniciais para Ollama, OpenAI, SpaceX, laboratórios universitários e estúdios de arte IA — mas, para quem gerencia um negócio, o jogo é mais simples:

Se você vende serviços de IA

Um agente de codificação privado rodando no repositório do cliente
Um assistente interno sempre ativo para toda a empresa
Um produto cujo custo unitário é energia, não API — cada cliente gera margem
Ajustes finos noturnos, que antes custavam $400 na nuvem, agora são gratuitos

Se você lida com dados sensíveis (uso silencioso de alto impacto)

Contratos e revisões jurídicas
Históricos médicos
Relatórios financeiros
Qualquer coisa sob NDA, que nunca será carregada em modelos públicos

Na Spark, esses dados nunca cruzam a rede. E, na sua máquina, você tem total controle, sem termos de serviço que te limitem.

Mudança de mentalidade

O preço na nuvem ensina "economizar". Antes de rodar o agente em loop, antes de reprocessar toda a base de dados, antes de ajustar por intuição, você pensa duas vezes.

Depois de ter a caixa, essa hesitação desaparece — e o dinheiro de verdade geralmente está escondido aí.

6. Preciso ser honesto com você

Não é um milagre. Quem diz que isso "derruba data centers" está querendo vender alguma coisa.

Vantagens:

Carrega modelos de 70B–200B que uma GPU comum não consegue
Ajuste fino e prototipagem, sem aluguel H100
Inferência sempre ativa, custo marginal quase zero
Substitui facilmente endpoints na nuvem, pois roda CUDA

Desvantagens que não se veem:

Velocidade pura — uma 5090 é mais rápida em tarefas que cabem na VRAM
Uma máquina só fica difícil acima de ~405B (é trabalho de duas)
Ainda depende de data centers para milhares de usuários simultâneos
Os $2.999 iniciais são um cheque de verdade, mesmo com retorno rápido

Conclusão honesta:

Se você já gasta mais de $1.000 por mês em nuvem por modelos open source grandes, essa é uma das formas mais rápidas de recuperar o investimento na IA atualmente.

Se você só conversa de vez em quando com um modelo de 7B, uma máquina acessível ou seu GPU atual ainda são escolhas mais inteligentes.

Escolha o hardware de acordo com o tamanho do trabalho, não pelo hype.

7. Lista completa de ferramentas

| Categoria | Conteúdo | | --- | --- | | Hardware | NVIDIA DGX Spark — $2.999 de uma vez só OEM: ASUS, Dell, HP, Lenovo, Acer, MSI, GIGABYTE | | Sistema Operacional | NVIDIA DGX OS (baseado em Ubuntu), com stack completo de IA: CUDA, NIM, NeMo pré-instalados | | Runtime | Ollama / vLLM / llama.cpp — gratuito, open source | | UI | Open WebUI — interface local estilo ChatGPT | | Modelos | Llama 3.3 70B, Qwen 3, DeepSeek, FLUX.1 disponíveis via Hugging Face / Ollama gratuitamente | | Expansão | Duas unidades conectadas por ConnectX-7, até 405B de parâmetros | | Consumo de energia | Cerca de $8–15 por mês em eletricidade | | Privacidade | Nunca sai da sua rede, ponto final. |

Custos recorrentes: alguns dólares de eletricidade. E essa é toda a conta.

Por que agora, não mais tarde

A Nvidia transformou um DGX de $250.000 em um desktop, não por misericórdia.

Eles querem que a próxima geração de IA seja construída em seus chips, localmente, por "quanto mais, melhor" — por isso, o preço de entrada é $2.999, e Jensen Huang entrega pessoalmente unidades a Musk e Altman, reforçando a mensagem.

Hoje, Dell, HP, ASUS e Lenovo lançam seus próprios caixas GB10, e a stack de software — Ollama, vLLM, CUDA — quase semanalmente ajusta seus chips.

Enquanto isso, a nuvem de GPU não fica mais barata, as limitações de taxa aumentam, e "para onde nossos dados realmente vão" se torna uma questão que os clientes perguntam antes de assinar.

Quem colocar IA na sua mesa até 2026, em 2028 estará bem à frente da curva.

Um dispositivo do tamanho de um livro de bolso. Um petaflop completo. Um modelo de 70B que é "seu, e de mais ninguém". Custando cerca de dez dólares por mês para operar — e deixando de enviar $1.900 por mês para fora do seu negócio.

Essa é toda a troca.

Só queria ter feito essa troca um ano antes.

NVDA-0,68%

Ver original