Une boîte NVIDIA à 2999 $, comment peut-elle me faire gagner 22 000 $ en un an ?

Question

Cet article décompose comment @w1nklerr utilise un NVIDIA DGX Spark à 2 999 $ pour remplacer une facture GPU cloud mensuelle de 1 900 $. La première année, il garde environ 22 000 $ de « profit sortant » dans sa propre entreprise. Le contenu couvre les spécifications, la comparaison des coûts, la pile logicielle, les commandes d’implémentation et les publics cibles.
(Précédent : Nvidia dépasse toutes les attentes avec ses résultats du Q1 ! Revenu de 81,6 milliards de dollars, record, Huang Renxun s’enthousiasme pour « l’ère de l’IA Agentic », dividendes multipliés par 24)
(Complément : Nvidia Huang Renxun : le marché chinois finira par ouvrir ses portes aux puces AI américaines)

Table des matières

Toggle

1. Qu’est-ce que c’est exactement
- Spécifications du DGX Spark
1. La partie qui m’a mis en colère
- Ce que vous louez vs votre dépense mensuelle
1. Ce qui tourne dessus, pourquoi votre code doit presque rester inchangé
- Que peut faire un seul GPU de 128GB
1. Monter ça, c’est presque embarrassant
1. Où l’argent apparaît vraiment
- Si vous vendez des services d’IA
- Si vous traitez des données sensibles (usage silencieux et critique)
- Le changement d’état d’esprit
1. La partie où je dois être honnête avec vous
- Les points forts :
- Les limites :
1. La liste complète des outils
Pourquoi maintenant, pas plus tard

Depuis quelques mois, personne ne m’a dit cette chose. Je vous la dis maintenant, pour que vous ne perdiez pas une année comme moi. Commençons par ce chiffre qui m’a mis en colère. La saison dernière, mes dépenses cloud GPU étaient fixes à 1 900 $ par mois.

Je travaillais sur des projets payants d’IA : fine-tuning de modèles open source, hébergement d’un assistant 70B, traitement en batch de nombreux fichiers — des tâches que des cartes graphiques à 2 000 $ rejetteraient directement, car le modèle ne rentre pas dans leur mémoire.

Je louais donc la puissance de calcul à l’heure. Une semaine A100, la suivante H100. Un soir, en regardant la facture, j’ai soudain réalisé : je facture mes clients pour faire le boulot, puis je leur reverse directement environ deux mille dollars par mois à une société de location de machines. Ce n’est pas un « coût », c’est un profit qui sort par la porte.

Quelques jours plus tard, quelqu’un a posté une photo dans Discord : un objet aussi gros qu’un roman relié, posé à côté de l’écran. La légende disait : « Tu peux tuer ta facture cloud, et faire tourner un modèle 120B sur ton bureau, en deux mois tu rentabilises. »

C’était une DGX Spark. NVIDIA. La même marque DGX — qui désignait autrefois une armoire entière à 250 000 $, à installer dans un centre de données — maintenant intégrée dans un ordinateur de bureau.

J’ai commandé ça cette semaine-là. Voici tout ce que j’ai appris.

1. Qu’est-ce que c’est exactement

La plupart des gens, en entendant « superordinateur AI », pensent à une rangée de serveurs bourdonnants. NVIDIA a passé toute l’année 2025 à faire disparaître cette image : ils ont annoncé en janvier au CES sous le nom « Project DIGITS », renommé DGX Spark en mars lors du GTC, et en octobre, ils l’ont réellement livré aux acheteurs. Jensen a commencé son discours par :

Grace Blackwell, sur chaque bureau.

Présenté comme le plus petit superordinateur AI au monde, capable de faire tourner un modèle de 200B paramètres à partir d’une prise domestique classique. La phrase qui m’a le plus marqué : « L’IA deviendra la norme dans chaque industrie, dans chaque application. »

En enlevant le discours marketing, voici les spécifications techniques :

Spécifications du DGX Spark

| Élément | | --- | | Spécifications | | --- | --- | | Chip | NVIDIA GB10 Grace Blackwell Superchip | | Débit AI | 1 PFLOP (un trillion d’opérations FP4 par seconde) | | CPU | 20 cœurs ARM (Grace) | | GPU | Blackwell, équivalent à une carte RTX 5070 | | Mémoire | 128GB LPDDR5x, partagée entre CPU et GPU | | Stockage | 4TB Gen5 NVMe, crypté automatiquement | | Réseau | ConnectX-7 — deux unités connectées en une seule | | Consommation | 150–240W en charge maximale | | Dimensions | 150 × 150 × 50mm, 1,2kg — la taille d’un gros livre | | Prix | 2 999 $ (prix de lancement) |

Laissez de côté le chiffre petaflop. La vraie spécification qui change votre vie, c’est la mémoire unifiée de 128GB.

Une RTX 4090 vous donne 24GB de VRAM. La 5090, 32GB. Si votre modèle dépasse la VRAM, il ne peut pas charger — CUDA renvoie out-of-memory, et vous devez louer une machine à nouveau.

Spark vous offre 128GB, donc il peut charger un modèle qu’une carte à 2 000 $ ne pourrait même pas ouvrir. Une seule machine peut faire tourner un modèle de 200B paramètres. En connectant deux Spark via le ConnectX-7 intégré, vous pouvez faire tourner 405B sur votre bureau.

Ce n’est pas une boîte la plus rapide qu’on peut acheter avec de l’argent. C’est une boîte capable d’accueillir « le modèle qui vaut la peine d’être exécuté ».

2. La partie qui m’a mis en colère

Voici la vraie « tâche locale d’IA », l’argent qui coule chaque mois dans le cloud :

Ce que vous louez vs votre dépense mensuelle

| Élément | | --- | | Dépense mensuelle | | --- | --- | | A100 80GB (pour développement partiel) | 600–1 200 $ | | H100 (fine-tuning) | 1 000–2 500 $ | | Hébergement pour inférence 70B | 300–900 $ | | La machine que vous oubliez d’éteindre | Une surprise effrayante | | Un freelance/constructeur IA normal | 1 500–3 000 $ |

Et Spark, pour le même travail :

| Élément | | --- | | Coût | | --- | --- | | La machine elle-même (que vous possédez) | 2 999 $ une fois | | Électricité, environ 200W | 8–15 $ par mois | | Location cloud | 0 $ | | Dépense mensuelle stable | environ 10 $

Pour quelqu’un qui dépense 1 900 $ par mois en cloud, il lui faut environ 1,6 mois pour rentabiliser toute la machine.

Ensuite, les 1 890 $ par mois que je versais à la société de location, c’est mon profit brut — c’est le même travail que je facturais déjà à mes clients. La première année, cela représente environ 22 000 $, que cette machine a ramenés de leur data center vers ma propre entreprise.

Et cette machine ne dort jamais, ne limite pas sa vitesse, et les données sur le bureau n’ont jamais quitté la pièce.

3. Ce qui tourne dessus, pourquoi votre code doit presque rester inchangé

Spark démarre avec DGX OS — la version Ubuntu de NVIDIA — qui intègre toute la pile AI : CUDA, et la même bibliothèque que dans les DGX de centre de données.

Parce que tout est basé sur CUDA, l’écosystème open source est « prêt à l’emploi » dès le premier jour : Ollama, vLLM, llama.cpp.

Si vous utilisez déjà un endpoint cloud, il suffit de changer une ligne pour migrer :

# Avant — payer à l’heure pour la location :
client = OpenAI(base_url="https://some-gpu-host/v1", api_key="sk-...")

# Après — boîte sur le bureau, le compteur est coupé :
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="local"  # sera ignoré de toute façon
)

Même code, même JSON, même comportement. La seule différence : aucun coût, aucune donnée ne quitte le bâtiment.

Que peut faire un seul GPU de 128GB

| Modèle | | --- | | Taille | Peut-il contenir ? | Utilisation recommandée | | --- | --- | --- | --- | | Llama 3.3 70B | 70B | Full BF16 | Tâches d’assistance lourdes | | Qwen 3 (version large) | 30–110B | Oui | Multilingue, programmation | | DeepSeek-class | Jusqu’à 200B | Version quantifiée | Inférence, boucle d’agent | | FLUX.1 | — | Oui | Génération d’images, local | | 405B (deux machines connectées) | 405B | Connecté | Niveau Frontier, sur site |

Les GPU grand public atteignent leur limite vers 30B après un certain « épuisement ». Spark peut faire tourner du « plein précision » jusqu’à 70B, et même dépasser 200B. C’est cette différence qui justifie d’avoir une Spark.

4. Monter ça, c’est presque embarrassant

# 1. Installer Ollama sur Spark
curl -fsSL https://ollama.com/install.sh | sh

# 2. Télécharger un modèle trop gros pour une carte grand public
ollama pull llama3.3:70b

# 3. Lancer le serveur
ollama serve
# Votre assistant privé 70B est en ligne : http://localhost:11434

Envie d’une interface web style ChatGPT, entièrement sur votre propre matériel ? Un seul container suffit :

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

Ouvrez localhost:3000, et vous avez une interface privée tournant sur un modèle de niveau frontier — sans clé, sans plan, sans que des données quittent la pièce.

5. Où l’argent apparaît vraiment

Le truc, ce n’est pas « combien on peut économiser sur le papier ». C’est : lorsqu’un modèle 70B coûte zéro à chaque appel, certaines choses ne sont plus une « décision ».

NVIDIA a fourni ses premières unités à Ollama, OpenAI, SpaceX, des laboratoires universitaires et des studios d’art IA — mais pour un entrepreneur, la vraie stratégie est plus simple :

Si vous vendez des services IA

Un agent de codage privé tournant sur le repo privé du client
Un assistant interne toujours actif pour toute l’entreprise
Un produit dont le « coût unitaire » est l’électricité, pas l’API — chaque client est une marge
Fine-tuning nocturne, qui coûtait 400 $ par exécution en cloud, maintenant gratuit

Si vous traitez des données sensibles (usage critique silencieux)

Contrats et vérifications juridiques
Dossiers médicaux
Rapports financiers
Tout ce qui est NDA, et ne sera jamais intégré dans un modèle public

Sur Spark, ces données ne sortent jamais du réseau. Et, sur votre machine, aucune ToS ne vous contrôle.

Changement d’état d’esprit

Les prix cloud vous enseignent à « économiser ». Avant de faire tourner un agent en boucle, de relire tout le corpus, ou de faire un fine-tuning, vous réfléchissez deux fois.

Une fois que vous avez la machine, cette hésitation disparaît — et l’argent réel se cache souvent dans cette hésitation.

6. Je dois être honnête avec vous

Ce n’est pas un miracle. Quiconque dit que ça « détruit les data centers » veut simplement vous vendre quelque chose.

Les points forts :

Charger des modèles de 70B–200B qui ne tiennent pas dans un GPU grand public
Fine-tuning et prototypage, sans louer de H100
Inférence privée toujours active, coût marginal quasi nul
Remplacement direct des endpoints cloud, car tout est CUDA

Les limites :

La vitesse pure — une 5090 est plus rapide pour tout ce qui tient dans la VRAM
Un seul machine au-delà de ~405B, c’est difficile (cela nécessite deux machines)
Servir des milliers d’utilisateurs simultanés reste une tâche de data center
2 999 $ en paiement initial, même si le retour sur investissement est rapide

Conclusion honnête :

Si vous dépensez déjà plus de 1 000 $ par mois en cloud pour de grands modèles open source, c’est l’un des investissements pour rentabiliser le plus rapidement dans l’IA aujourd’hui.

Si vous ne faites que discuter occasionnellement avec un modèle 7B, une machine bon marché ou votre GPU actuel sont plus intelligents.

Choisissez la boîte selon la taille du travail, pas selon la hype.

La liste complète des outils

| Catégorie | | --- | Contenu | | --- | --- | | Matériel | NVIDIA DGX Spark — 2 999 $ en achat unique OEM : ASUS, Dell, HP, Lenovo, Acer, MSI, GIGABYTE | | Système d’exploitation | NVIDIA DGX OS (basé sur Ubuntu), préinstallé avec la pile AI NVIDIA complète, CUDA, NIM, NeMo | | Runtime | Ollama / vLLM / llama.cpp — gratuit, open source | | UI | Open WebUI — interface locale style ChatGPT | | Modèles | Llama 3.3 70B, Qwen 3, DeepSeek, FLUX.1, accessibles via Hugging Face / Ollama gratuitement | | Extension | Deux machines connectées via ConnectX-7 → 405B paramètres | | Consommation | Environ 8–15 $ par mois en électricité | | Confidentialité | Ne quitte pas ton réseau, c’est fini |

Les coûts récurrents : quelques dollars d’électricité. C’est tout le coût.

Pourquoi maintenant, pas plus tard

NVIDIA a transformé un DGX à 250 000 $ en un ordinateur de bureau, pas par bonté.

Ils veulent que la prochaine vague d’IA soit construite sur leurs puces, localisée, et que « plus il y en a, mieux c’est » — c’est pourquoi ils ont fixé le prix d’entrée à 2 999 $, et ont même livré Jensen en personne à Musk et Altman, pour faire passer le message.

Aujourd’hui, Dell, HP, ASUS et Lenovo sortent leurs propres boîtes GB10, et la couche logicielle — Ollama, vLLM, la pile CUDA — est presque chaque semaine optimisée pour cette puce.

Pendant ce temps, le cloud GPU ne devient pas moins cher, les limites de taux se resserrent, et « où vont réellement nos données » devient une question que les clients posent avant de signer.

En 2026, ceux qui auront mis leur charge de travail IA sur leur propre machine, en 2028, seront bien en avance sur la courbe.

Une machine de la taille d’un livre relié. Un petaflop entier. Un modèle 70B « qui t’appartient, pas à personne d’autre ». Environ dix dollars par mois pour faire fonctionner, et chaque mois, 1 900 $ qui ne sortent plus de ta société.

C’est tout l’échange.

J’aurais juste voulu faire cet échange un an plus tôt.