本文作者 @w1nklerr 拆解他如何用 $2,999 的 NVIDIA DGX Spark 取代每月 $1,900 的雲端 GPU 帳單。首年把约 $22,000 的「外流利潤」留在自己的事业裡。內容涵蓋規格、成本比较、软體棧、实作指令与适用对象。 (前情提要:Nvidia 輝达 Q1 财报超狂!營收 816 亿鎂創紀錄,黄仁勳嗨喊「Agentic AI 时代到来」、股息暴漲 24 倍 ) (背景補充:Nvidia 黄仁勳:中国市场終將开放美国 AI 晶片)
本文目錄
Toggle
幾个月来,沒人告訴我这件事。我现在告訴你,免得你跟我一樣浪费了一整年。让我从那个让我火大的數字开始講起。上一季,我的雲端 GPU 支出每个月固定 $1,900。
我接的是 AI 的付费案子:对开源模型做微调、託管一个 70B 助手、批次跑大量文件,那種一般 $2,000 顯卡会直接拒絕的工作,因为模型根本塞不进它的記憶體。
所以我按小时租算力。一週 A100,下一週 H100。某个晚上,看著帳單,我突然意识到:我向客戶收这筆钱做事,然后把其中差不多两千美元每个月直接匯給一家租机公司。那不是「成本」那是利潤从前门走出去。
幾天后,有人在 Discord 丟了一張照片:一个跟精裝小说一樣大的东西,擺在螢幕旁边。圖说寫著:「殺了我的雲端帳單,可以在桌上跑 120B 模型,两个月回本。」
那是一台 DGX Spark。NVIDIA。同樣那个 DGX 徽章——以前指的是要花 25 万美元、塞在伺服器机房的整櫃机器——现在被摺进一台桌面机。
我那一週就下單。以下是我学到的全部。
大部分人聽到「AI 超級电腦」会想到一整排嗡嗡作響的伺服器。NVIDIA 花了整个 2025 年拆掉那幅畫面:他們 1 月在 CES 上以「Project DIGITS」名義预告,3 月 GTC 改名 DGX Spark,10 月真的把它交到买家手裡。Jensen 在台上的开场白就是整篇論述:
Grace Blackwell, on every desk.
被宣傳成地球上最小的 AI 超級电腦,从一般家用插座就能跑 200B 參數的模型。让我印象最深的那句話是:「AI 將会在每个产业的每个应用裡成为主流。」
剝掉行销話術,真正的矽片規格如下:
| 項目 | | --- | | 規格 | | --- | --- | | 晶片 | NVIDIA GB10 Grace Blackwell Superchip | | AI 吞吐量 | 1 PFLOP(每秒一千兆次 FP4 运算) | | CPU | 20 核 ARM(Grace) | | GPU | Blackwell,規模约等於 RTX 5070 等級核心 | | 記憶體 | 128GB LPDDR5x,CPU + GPU 共用 | | 儲存 | 4TB Gen5 NVMe,自动加密 | | 網路 | ConnectX-7——两台串接成一台 | | 耗电 | 滿載约 150–240W | | 體積 | 150 × 150 × 50mm,1.2kg——一本厚平裝书 | | 价格 | $2,999(首发价) |
petaflop 那个數字先放一边。真正改變你人生的規格,是 128GB 的 Unified Memory。
一張 4090 給你 24GB VRAM。5090 給你 32GB。一旦模型比 VRAM 还大,它就是不会載入——CUDA 直接丟 out-of-memory,你又得回去租机。
Spark 給你 128GB,所以它能載入一張 $2,000 顯卡连打开都打不开的模型。一台可以跑到 200B 參數。两台用內建的 ConnectX-7 串起来,你就在桌上跑 405B 了。
它不是钱能买到最快的盒子。它是真的能裝下「值得跑的模型」的盒子。
这是真实的「本地 AI 工作」,每个月在雲端流血的金額:
| 項目 | | --- | | 月燒額 | | --- | --- | | A100 80GB(兼職开发) | $600–1,200 | | H100(微调作业) | $1,000–2,500 | | 託管 70B 推論 | $300–900 | | 你忘了关的那台 instance | 一个可怕的驚喜 | | 一个正常的 AI 自由接案/Builder | $1,500–3,000 |
而 Spark 跑同樣工作量:
| 項目 | | --- | 成本 | | --- | --- | | 盒子本身(你擁有它) | $2,999 一次 | | 工时电费,约 200W | 每月 $8–15 | | 雲端租金 | $0 | | 穩態月支出 | 约 $10 |
对一个每月雲端 $1,900 習慣的人来说,约 1.6 个月就把整台机器的钱賺回来。
之后,过去每月拿去付給租机公司的那 $1,890,就是我留下的毛利——做的还是我本来就在收费的同一份客戶工作。首年大约有 $22,000,被这台盒子从別人的资料中心,導回我自己的事业裡。
而它从不睡覺、从不限速、桌上的资料也从沒一个 byte 离开过房间。
Spark 开机跑的是 DGX OS——NVIDIA 自家的 Ubuntu 版本——並內建完整 AI 棧:CUDA,以及资料中心 DGX 上跑的同一套函式庫。
因为底層是純 CUDA,开源生態系第一天就「直接能用」:Ollama、vLLM、PyTorch、Hugging Face、llama.cpp。
如果你本来就是打 cloud endpoint,迁移就改一行:
# 之前 —— 按小时付钱給租机公司: client = OpenAI(base_url="https://some-gpu-host/v1", api_key="sk-...") # 之后 —— 桌上的盒子,计费器关閉: client = OpenAI( base_url="http://localhost:11434/v1", api_key="local" # 反正会被忽略 )
同一條程式碼路徑、同一份 JSON、同樣的行为。唯一的差別是沒人在收费,也沒有任何资料离开大樓。
| 模型 | | --- | 大小 | 塞得下嗎 | 适合做什麼 | | --- | --- | --- | --- | | Llama 3.3 70B | 70B | Full BF16 | 重型助手任務 | | Qwen 3(大版) | 30–110B | 可以 | 多语、寫程式 | | DeepSeek-class | 最高 200B | 量化版 | 推理、Agent 迴圈 | | FLUX.1 | — | 可以 | 圖像生成,本地 | | 405B(两台串接) | 405B | 串接 | Frontier 等級,on-prem |
消费級 GPU 大概到一个壓榨过的 30B 就到極限了。Spark 可以用「全精度」跑 70B,还能往 200B 伸过去。那个差距就是擁有一台 Spark 的全部理由。
# 1. 把 Ollama 裝到 Spark 上 curl -fsSL https://ollama.com/install.sh | sh # 2. 拉一个消费級顯卡根本裝不下的模型 ollama pull llama3.3:70b # 3. 开伺服 ollama serve # 你的私人 70B 已上線:http://localhost:11434
想要一个 ChatGPT 风格、完全跑在自己硬體上的網頁介面?一个 container 就好:
docker run -d -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ ghcr.io/open-webui/open-webui:main
打开 localhost:3000,你就有一个跑在 frontier 級模型上的私人聊天介面——沒有 key、沒有方案、沒有资料离开这个房间。
訣竅不是「紙上能省多少」。訣竅是:当一个 70B 模型每次呼叫成本为零,某些东西就不再是「決策」了。
NVIDIA 把早期單位送給 Ollama、OpenAI、SpaceX、大学机器人实验室与 AI 藝術工作室——但对一个经營事业的人,真正的玩法更單純:
在 Spark 上,这些资料从不跨網。而且,你完全擁有的机器上,沒有任何 ToS 在管你。
雲端定价在教你「節省」。你会在让 agent 跑迴圈之前、重跑整份檔案庫之前、憑直覺微调之前多想两次。
擁有盒子之后,那个猶豫就消失了——而真正的钱,通常就藏在那个猶豫裡。
这不是奇蹟。任何说它「廢掉资料中心」的人都是想卖你东西。
誠实的結論:
如果你每个月已经因为大型开源模型在燒 $1,000+ 雲端 GPU 租金,这是目前 AI 领域回本最快的买卖之一。
如果你只是偶爾跟 7B 聊一聊,一台便宜边緣裝置或你目前的 GPU 才是聰明的选擇。
根據工作的大小选盒子,不要根據炒作。
| 類別 | | --- | 內容 | | --- | --- | | 硬體 | NVIDIA DGX Spark — $2,999 一次性 OEM:ASUS、Dell、HP、Lenovo、Acer、MSI、GIGABYTE | | 作业系统 | NVIDIA DGX OS(Ubuntu 为基),预載 完整 NVIDIA AI 棧、CUDA、NIM、NeMo | | Runtime | Ollama / vLLM / llama.cpp — 免费、开源 | | UI | Open WebUI — 本地 ChatGPT 风格介面 | | 模型 | Llama 3.3 70B、Qwen 3、DeepSeek、FLUX.1 都可透过 Hugging Face / Ollama 免费取得 | | 擴充 | 两台用 ConnectX-7 串接 → 405B 參數 | | 耗能 | 每月约 $8–15 电费 | | 隐私 | 不离开你的網路,完了 |
之后的经常成本:幾塊美元的电费。那就是全部帳單。
NVIDIA 把一台 $250,000 的 DGX 縮成桌面机,不是出於慈悲。
他們希望下一波 AI 是建構在他們的晶片上、本地化、由「越多人越好」打造——所以他們把入口价定在 $2,999,还让 Jensen 親自把單位送到 Musk 与 Altman 手上,把訊息打到底。
现在 Dell、HP、ASUS 与 Lenovo 都在出自己的 GB10 盒子,而软體層——Ollama、vLLM、CUDA 棧——幾乎每週都在为这顆晶片做调校。
与此同时,雲端 GPU 沒有變便宜,rate limit 越收越緊,而**「我們的资料实际上去了哪裡」變成客戶簽字前一定会问的问題。**
在 2026 年把 AI 工作量拉到自己桌上的盒子的人,到了 2028 年,会看起来远远走在曲線前面。
123.92万 热度
121.16万 热度
21.01万 热度
936.16万 热度
323.12万 热度
一台 $2999 的 NVIDIA 盒子,如何一年幫我多賺 $22,000?
本文作者 @w1nklerr 拆解他如何用 $2,999 的 NVIDIA DGX Spark 取代每月 $1,900 的雲端 GPU 帳單。首年把约 $22,000 的「外流利潤」留在自己的事业裡。內容涵蓋規格、成本比较、软體棧、实作指令与适用对象。
(前情提要:Nvidia 輝达 Q1 财报超狂!營收 816 亿鎂創紀錄,黄仁勳嗨喊「Agentic AI 时代到来」、股息暴漲 24 倍 )
(背景補充:Nvidia 黄仁勳:中国市场終將开放美国 AI 晶片)
本文目錄
Toggle
幾个月来,沒人告訴我这件事。我现在告訴你,免得你跟我一樣浪费了一整年。让我从那个让我火大的數字开始講起。上一季,我的雲端 GPU 支出每个月固定 $1,900。
我接的是 AI 的付费案子:对开源模型做微调、託管一个 70B 助手、批次跑大量文件,那種一般 $2,000 顯卡会直接拒絕的工作,因为模型根本塞不进它的記憶體。
所以我按小时租算力。一週 A100,下一週 H100。某个晚上,看著帳單,我突然意识到:我向客戶收这筆钱做事,然后把其中差不多两千美元每个月直接匯給一家租机公司。那不是「成本」那是利潤从前门走出去。
幾天后,有人在 Discord 丟了一張照片:一个跟精裝小说一樣大的东西,擺在螢幕旁边。圖说寫著:「殺了我的雲端帳單,可以在桌上跑 120B 模型,两个月回本。」
那是一台 DGX Spark。NVIDIA。同樣那个 DGX 徽章——以前指的是要花 25 万美元、塞在伺服器机房的整櫃机器——现在被摺进一台桌面机。
我那一週就下單。以下是我学到的全部。
1. 这玩意到底是什麼
大部分人聽到「AI 超級电腦」会想到一整排嗡嗡作響的伺服器。NVIDIA 花了整个 2025 年拆掉那幅畫面:他們 1 月在 CES 上以「Project DIGITS」名義预告,3 月 GTC 改名 DGX Spark,10 月真的把它交到买家手裡。Jensen 在台上的开场白就是整篇論述:
被宣傳成地球上最小的 AI 超級电腦,从一般家用插座就能跑 200B 參數的模型。让我印象最深的那句話是:「AI 將会在每个产业的每个应用裡成为主流。」
剝掉行销話術,真正的矽片規格如下:
DGX Spark 規格
| 項目 | | --- | | 規格 | | --- | --- | | 晶片 | NVIDIA GB10 Grace Blackwell Superchip | | AI 吞吐量 | 1 PFLOP(每秒一千兆次 FP4 运算) | | CPU | 20 核 ARM(Grace) | | GPU | Blackwell,規模约等於 RTX 5070 等級核心 | | 記憶體 | 128GB LPDDR5x,CPU + GPU 共用 | | 儲存 | 4TB Gen5 NVMe,自动加密 | | 網路 | ConnectX-7——两台串接成一台 | | 耗电 | 滿載约 150–240W | | 體積 | 150 × 150 × 50mm,1.2kg——一本厚平裝书 | | 价格 | $2,999(首发价) |
petaflop 那个數字先放一边。真正改變你人生的規格,是 128GB 的 Unified Memory。
一張 4090 給你 24GB VRAM。5090 給你 32GB。一旦模型比 VRAM 还大,它就是不会載入——CUDA 直接丟 out-of-memory,你又得回去租机。
Spark 給你 128GB,所以它能載入一張 $2,000 顯卡连打开都打不开的模型。一台可以跑到 200B 參數。两台用內建的 ConnectX-7 串起来,你就在桌上跑 405B 了。
它不是钱能买到最快的盒子。它是真的能裝下「值得跑的模型」的盒子。
2. 那个让我火大的部分
这是真实的「本地 AI 工作」,每个月在雲端流血的金額:
你在租的东西 vs 月燒額
| 項目 | | --- | | 月燒額 | | --- | --- | | A100 80GB(兼職开发) | $600–1,200 | | H100(微调作业) | $1,000–2,500 | | 託管 70B 推論 | $300–900 | | 你忘了关的那台 instance | 一个可怕的驚喜 | | 一个正常的 AI 自由接案/Builder | $1,500–3,000 |
而 Spark 跑同樣工作量:
| 項目 | | --- | 成本 | | --- | --- | | 盒子本身(你擁有它) | $2,999 一次 | | 工时电费,约 200W | 每月 $8–15 | | 雲端租金 | $0 | | 穩態月支出 | 约 $10 |
对一个每月雲端 $1,900 習慣的人来说,约 1.6 个月就把整台机器的钱賺回来。
之后,过去每月拿去付給租机公司的那 $1,890,就是我留下的毛利——做的还是我本来就在收费的同一份客戶工作。首年大约有 $22,000,被这台盒子从別人的资料中心,導回我自己的事业裡。
而它从不睡覺、从不限速、桌上的资料也从沒一个 byte 离开过房间。
3. 上面跑什麼,为什麼你的程式碼幾乎不用改
Spark 开机跑的是 DGX OS——NVIDIA 自家的 Ubuntu 版本——並內建完整 AI 棧:CUDA,以及资料中心 DGX 上跑的同一套函式庫。
因为底層是純 CUDA,开源生態系第一天就「直接能用」:Ollama、vLLM、PyTorch、Hugging Face、llama.cpp。
如果你本来就是打 cloud endpoint,迁移就改一行:
同一條程式碼路徑、同一份 JSON、同樣的行为。唯一的差別是沒人在收费,也沒有任何资料离开大樓。
單台 128GB 能跑什麼
| 模型 | | --- | 大小 | 塞得下嗎 | 适合做什麼 | | --- | --- | --- | --- | | Llama 3.3 70B | 70B | Full BF16 | 重型助手任務 | | Qwen 3(大版) | 30–110B | 可以 | 多语、寫程式 | | DeepSeek-class | 最高 200B | 量化版 | 推理、Agent 迴圈 | | FLUX.1 | — | 可以 | 圖像生成,本地 | | 405B(两台串接) | 405B | 串接 | Frontier 等級,on-prem |
消费級 GPU 大概到一个壓榨过的 30B 就到極限了。Spark 可以用「全精度」跑 70B,还能往 200B 伸过去。那个差距就是擁有一台 Spark 的全部理由。
4. 架起来短到有点不好意思
想要一个 ChatGPT 风格、完全跑在自己硬體上的網頁介面?一个 container 就好:
打开 localhost:3000,你就有一个跑在 frontier 級模型上的私人聊天介面——沒有 key、沒有方案、沒有资料离开这个房间。
5. 钱真正出现的地方
訣竅不是「紙上能省多少」。訣竅是:当一个 70B 模型每次呼叫成本为零,某些东西就不再是「決策」了。
NVIDIA 把早期單位送給 Ollama、OpenAI、SpaceX、大学机器人实验室与 AI 藝術工作室——但对一个经營事业的人,真正的玩法更單純:
如果你卖 AI 服務
如果你處理任何敏感资料(沈默的殺手級用途)
在 Spark 上,这些资料从不跨網。而且,你完全擁有的机器上,沒有任何 ToS 在管你。
心態的转變
雲端定价在教你「節省」。你会在让 agent 跑迴圈之前、重跑整份檔案庫之前、憑直覺微调之前多想两次。
擁有盒子之后,那个猶豫就消失了——而真正的钱,通常就藏在那个猶豫裡。
6. 我要对你誠实的部分
这不是奇蹟。任何说它「廢掉资料中心」的人都是想卖你东西。
贏的地方:
抓不到的地方:
誠实的結論:
如果你每个月已经因为大型开源模型在燒 $1,000+ 雲端 GPU 租金,这是目前 AI 领域回本最快的买卖之一。
如果你只是偶爾跟 7B 聊一聊,一台便宜边緣裝置或你目前的 GPU 才是聰明的选擇。
根據工作的大小选盒子,不要根據炒作。
7. 完整工具清單
| 類別 | | --- | 內容 | | --- | --- | | 硬體 | NVIDIA DGX Spark — $2,999 一次性 OEM:ASUS、Dell、HP、Lenovo、Acer、MSI、GIGABYTE | | 作业系统 | NVIDIA DGX OS(Ubuntu 为基),预載 完整 NVIDIA AI 棧、CUDA、NIM、NeMo | | Runtime | Ollama / vLLM / llama.cpp — 免费、开源 | | UI | Open WebUI — 本地 ChatGPT 风格介面 | | 模型 | Llama 3.3 70B、Qwen 3、DeepSeek、FLUX.1 都可透过 Hugging Face / Ollama 免费取得 | | 擴充 | 两台用 ConnectX-7 串接 → 405B 參數 | | 耗能 | 每月约 $8–15 电费 | | 隐私 | 不离开你的網路,完了 |
之后的经常成本:幾塊美元的电费。那就是全部帳單。
为什麼是现在,不是更晚
NVIDIA 把一台 $250,000 的 DGX 縮成桌面机,不是出於慈悲。
他們希望下一波 AI 是建構在他們的晶片上、本地化、由「越多人越好」打造——所以他們把入口价定在 $2,999,还让 Jensen 親自把單位送到 Musk 与 Altman 手上,把訊息打到底。
现在 Dell、HP、ASUS 与 Lenovo 都在出自己的 GB10 盒子,而软體層——Ollama、vLLM、CUDA 棧——幾乎每週都在为这顆晶片做调校。
与此同时,雲端 GPU 沒有變便宜,rate limit 越收越緊,而**「我們的资料实际上去了哪裡」變成客戶簽字前一定会问的问題。**
在 2026 年把 AI 工作量拉到自己桌上的盒子的人,到了 2028 年,会看起来远远走在曲線前面。