Một chiếc hộp NVIDIA giá 2999 đô la, làm thế nào để giúp tôi kiếm thêm 22.000 đô la trong một năm?

Question

Bài viết của tác giả @w1nklerr phân tích cách anh ấy dùng NVIDIA DGX Spark giá $2,999 để thay thế hóa đơn GPU đám mây hàng tháng $1,900. Năm đầu giữ lại khoảng $22,000 “lợi nhuận chảy ra ngoài” vào chính doanh nghiệp của mình. Nội dung bao gồm thông số kỹ thuật, so sánh chi phí, phần mềm, lệnh thực thi và đối tượng phù hợp.
(Trước đó: Báo cáo tài chính Q1 của Nvidia cực kỳ ấn tượng! Doanh thu 81.6 tỷ đô, lập kỷ lục, Jensen Huang hô hào “Thời đại AI Tự Chủ đã đến”, cổ phiếu tăng 24 lần)
(Bổ sung nền: Jensen Huang của Nvidia: Thị trường Trung Quốc cuối cùng sẽ mở cửa cho chip AI của Mỹ)

Mục lục bài viết

Toggle

1. Cái này rốt cuộc là gì
- Thông số DGX Spark
1. Phần khiến tôi tức giận
- Bạn thuê cái gì vs chi phí hàng tháng
1. Những gì chạy trên đó, tại sao mã của bạn gần như không cần sửa
- Một máy 128GB có thể chạy gì
1. Lắp đặt xong, ngượng ngùng chút
1. Nơi tiền thực sự xuất hiện
- Nếu bạn bán dịch vụ AI
- Nếu bạn xử lý dữ liệu nhạy cảm (ứng dụng bí mật, sát thủ)
- Thay đổi tư duy
1. Phần tôi thành thật với bạn
- Điểm mạnh:
- Điểm yếu:
1. Danh sách công cụ đầy đủ
Tại sao bây giờ, không phải muộn hơn

Vài tháng qua, chẳng ai nói với tôi về chuyện này. Giờ tôi nói cho bạn, để khỏi mất cả năm như tôi. Hãy bắt đầu từ con số khiến tôi tức giận đó. Quý trước, chi phí GPU đám mây của tôi cố định mỗi tháng là $1,900.

Tôi nhận các dự án AI trả phí: fine-tune mô hình mã nguồn mở, hosting trợ lý 70B, chạy hàng loạt tài liệu, những công việc mà card đồ họa $2,000 thường sẽ từ chối vì không đủ bộ nhớ.

Vì vậy tôi thuê theo giờ tính toán. Tuần này A100, tuần sau H100. Một đêm, nhìn hóa đơn, tôi chợt nhận ra: Tôi thu tiền khách làm việc, rồi chuyển gần $2,000 mỗi tháng trực tiếp cho công ty thuê máy. Đó không phải “chi phí” mà là lợi nhuận đi ra ngoài cửa trước.

Vài ngày sau, có người gửi hình trong Discord: một thứ to như tiểu thuyết dày cộp, đặt cạnh màn hình. Chú thích: “Giết hóa đơn đám mây của tôi, có thể chạy mô hình 120B trên bàn, hai tháng là hòa vốn.”

Đó là một DGX Spark. NVIDIA. Cùng cái biểu tượng DGX — trước đây là phải bỏ ra 250.000 đô, nhét trong phòng máy chủ — giờ đã thu gọn vào một chiếc máy bàn.

Tuần đó tôi đặt hàng ngay. Dưới đây là tất cả những gì tôi học được.

1. Cái này rốt cuộc là gì

Hầu hết mọi người khi nghe “siêu máy tính AI” sẽ nghĩ đến hàng loạt server ồn ào. NVIDIA đã dành cả 2025 để xóa bỏ hình ảnh đó: tháng 1 tại CES giới thiệu “Project DIGITS”, tháng 3 tại GTC đổi tên thành DGX Spark, tháng 10 thực sự giao hàng cho khách. Jensen Huang mở đầu bài phát biểu là:

Grace Blackwell, trên mọi bàn làm việc.

Được quảng cáo là siêu máy tính AI nhỏ nhất thế giới, có thể chạy mô hình 200B tham số từ ổ cắm điện gia đình. Điều khiến tôi ấn tượng nhất là câu: “AI sẽ trở thành xu hướng chính trong mọi ngành, mọi ứng dụng.”

Bỏ qua lời marketing, thông số kỹ thuật thực của chip như sau:

Thông số DGX Spark

| Mục | | --- | | Thông số kỹ thuật | | --- | --- | | Chip | NVIDIA GB10 Grace Blackwell Superchip | | Tốc độ AI | 1 PFLOP (một nghìn tỷ phép tính FP4 mỗi giây) | | CPU | 20 nhân ARM (Grace) | | GPU | Blackwell, kích cỡ tương đương RTX 5070 | | Bộ nhớ | 128GB LPDDR5x, Chia sẻ giữa CPU và GPU | | Lưu trữ | 4TB Gen5 NVMe, mã hóa tự động | | Mạng | ConnectX-7 — kết nối hai máy thành một | | Tiêu thụ điện | Khoảng 150–240W khi đầy tải | | Kích thước | 150 × 150 × 50mm, 1.2kg — bằng một cuốn sách dày | | Giá | $2,999 (giá mở bán) |

Hãy bỏ qua con số petaflop. Thông số thực làm thay đổi cuộc đời bạn chính là bộ nhớ thống nhất 128GB.

Một chiếc card 4090 cho bạn 24GB VRAM. 5090 là 32GB. Khi mô hình lớn hơn VRAM, nó sẽ không load được — CUDA báo out-of-memory, bạn lại phải thuê máy.

Spark cho bạn 128GB, nên có thể load mô hình lớn hơn card $2,000 nhiều lần. Một máy có thể chạy tới 200B tham số. Hai máy kết nối bằng ConnectX-7 tích hợp, bạn có thể chạy 405B trên bàn.

Nó không phải là cái hộp nhanh nhất bạn có thể mua. Nó là cái hộp đủ chứa “mô hình đáng chạy”.

2. Phần khiến tôi tức giận

Đây là thực tế “công việc AI tại chỗ”, số tiền đổ ra đám mây mỗi tháng:

Bạn thuê cái gì vs chi phí hàng tháng

| Mục | | --- | | Chi phí hàng tháng | | --- | --- | | A100 80GB (phù hợp phát triển bán thời gian) | $600–1,200 | | H100 (fine-tune) | $1,000–2,500 | | Hosting 70B inference | $300–900 | | Máy bạn quên tắt | Một bất ngờ đáng sợ | | Một freelancer/Builder AI bình thường | $1,500–3,000 |

Trong khi đó, Spark chạy cùng công việc:

| Mục | | --- | | Chi phí | | --- | --- | | Máy chủ (bạn sở hữu) | $2,999 một lần | | Thời gian, điện (~200W) | Mỗi tháng $8–15 | | Thuê đám mây | $0 | | Chi phí cố định hàng tháng | Khoảng $10 |

Với người quen dùng đám mây trả $1,900 mỗi tháng, chỉ sau khoảng 1.6 tháng đã hòa vốn toàn bộ máy này.

Sau đó, số tiền $1,890 mỗi tháng đã trả cho thuê máy chính là lợi nhuận gộp của tôi — vẫn là công việc tôi đã tính phí khách hàng ban đầu. Năm đầu, khoảng $22,000, được “hồi” từ chiếc máy này, chuyển từ data center của người khác về doanh nghiệp của tôi.

Và nó không ngủ, không giới hạn tốc độ, dữ liệu trên bàn luôn trong phòng, không mất một byte nào.

3. Những gì chạy trên đó, tại sao mã của bạn gần như không cần sửa

Spark chạy trên DGX OS — hệ điều hành Ubuntu do NVIDIA tự phát triển — tích hợp đầy đủ phần mềm AI: CUDA, cùng thư viện chạy trong data center DGX.

Vì nền tảng là CUDA thuần, hệ sinh thái mã nguồn mở ngày đầu đã “dễ dùng”: Ollama, vLLM, llama.cpp.

Nếu bạn đã quen dùng cloud endpoint, chuyển sang chạy tại chỗ chỉ cần một dòng lệnh:

# Trước đây — trả tiền theo giờ thuê máy:
client = OpenAI(base_url="https://some-gpu-host/v1", api_key="sk-...")

# Sau đó — máy bàn, tắt tính phí:
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="local"  # bỏ qua
)

Cùng một đoạn mã, cùng JSON, cùng hành vi. Điểm khác biệt duy nhất là không ai tính phí, dữ liệu cũng không rời khỏi tòa nhà.

Một máy 128GB có thể chạy gì

| Mô hình | | --- | | Kích thước | | Có chứa được không | | Phù hợp làm gì | | --- | --- | --- | --- | | Llama 3.3 70B | 70B | Full BF16 | Nhiệm vụ trợ lý nặng | | Qwen 3 (phiên bản lớn) | 30–110B | Có thể | Đa ngôn ngữ, lập trình | | DeepSeek-class | Tối đa 200B | Phiên bản lượng tử hóa | Inference, vòng lặp Agent | | FLUX.1 | — | Có thể | Tạo hình ảnh, nội bộ | | 405B (kết nối hai máy) | 405B | Kết nối | Cấp độ Frontier, tại chỗ |

GPU tiêu chuẩn người tiêu dùng khoảng đến giới hạn là 30B đã qua tinh chỉnh. Spark có thể chạy “toàn độ chính xác” mô hình 70B, thậm chí mở rộng tới 200B. Khoảng cách đó chính là lý do để sở hữu một Spark.

4. Lắp đặt xong, ngượng ngùng chút

# 1. Cài Ollama lên Spark
curl -fsSL https://ollama.com/install.sh | sh

# 2. Tải mô hình không thể cài nổi trên card tiêu chuẩn
ollama pull llama3.3:70b

# 3. Khởi động server
ollama serve
# Mô hình 70B của bạn đã online: http://localhost:11434

Muốn có giao diện web kiểu ChatGPT, hoàn toàn chạy trên phần cứng của mình? Chỉ cần một container:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

Mở localhost:3000, bạn có ngay giao diện chat riêng dựa trên mô hình frontier — không có key, không có dịch vụ, dữ liệu không rời khỏi phòng này.

5. Nơi tiền thực sự xuất hiện

Mẹo không phải là “tiết kiệm giấy tờ”. Mẹo là: khi một mô hình 70B mỗi lần gọi là miễn phí, thì không còn là “quyết định” nữa.

NVIDIA đã gửi các đơn hàng đầu tiên cho Ollama, OpenAI, SpaceX, các phòng thí nghiệm robot đại học và studio nghệ thuật AI — nhưng đối với người làm kinh doanh, cách chơi thực tế còn đơn giản hơn:

Nếu bạn bán dịch vụ AI

Một agent mã hóa riêng chạy trên repo riêng của khách
Một trợ lý nội bộ luôn bật cho toàn công ty
Một sản phẩm “chi phí đơn vị là điện chứ không phải API token” — mỗi khách hàng đều sinh lợi
Fine-tune qua đêm, trước đây mỗi lần chạy là hóa đơn $400 đám mây, giờ miễn phí

Nếu bạn xử lý dữ liệu nhạy cảm (ứng dụng bí mật, sát thủ)

Thẩm định hợp đồng, pháp lý
Hồ sơ bệnh án
Báo cáo tài chính
Mọi thứ bị NDA ràng buộc, không bao giờ đưa vào mô hình công khai

Trên Spark, dữ liệu không bao giờ ra ngoài mạng. Hơn nữa, trên máy bạn, không có điều khoản dịch vụ nào kiểm soát.

Thay đổi tư duy

Giá đám mây dạy bạn “tiết kiệm”. Trước khi để agent chạy vòng lặp, trước khi chạy lại toàn bộ thư viện, trước khi tinh chỉnh theo cảm tính, bạn sẽ nghĩ nhiều hơn.

Sau khi có máy, sự do dự đó biến mất — và tiền thật sự thường nằm trong chính sự do dự đó.

6. Phần tôi thành thật với bạn

Đây không phải là phép màu. Ai nói “nó phá hủy data center” đều muốn bán bạn thứ gì đó.

Điểm mạnh:

Load các mô hình 70B–200B không thể chứa nổi trên GPU tiêu chuẩn
Fine-tune và prototype, không cần H100
Luôn bật inference riêng tư, chi phí biên gần như bằng 0
Thay thế cloud endpoint bằng “drop-in”, vì nó chạy CUDA

Điểm yếu:

Tốc độ thuần — 5090 nhanh hơn trong “chứa được VRAM”
Một máy đơn trên ~405B sẽ gặp khó (đó là công việc của hai máy)
Dịch vụ cho hàng nghìn người dùng cùng lúc vẫn là data center
$2,999 ban đầu là một tấm séc thật, dù sớm hòa vốn

Kết luận thành thật:

Nếu mỗi tháng bạn đã tiêu hơn $1,000 cho đám mây chạy các mô hình mã nguồn mở lớn, đây là một trong những cách nhanh nhất để thu hồi vốn trong lĩnh vực AI hiện nay.

Nếu chỉ thỉnh thoảng chat với 7B, một thiết bị nhỏ gọn hoặc GPU hiện tại của bạn là lựa chọn thông minh hơn.

Chọn hộp phù hợp theo quy mô công việc, đừng theo đám đông đẩy giá.

7. Danh sách công cụ đầy đủ

| Loại | | --- | Nội dung | | --- | --- | | Phần cứng | NVIDIA DGX Spark — $2,999 một lần OEM: ASUS, Dell, HP, Lenovo, Acer, MSI, GIGABYTE | | Hệ điều hành | NVIDIA DGX OS (dựa trên Ubuntu), đi kèm đầy đủ stack AI của NVIDIA, CUDA, NIM, NeMo | | Runtime | Ollama / vLLM / llama.cpp — miễn phí, mã nguồn mở | | Giao diện | Open WebUI — Giao diện kiểu ChatGPT chạy tại chỗ | | Mô hình | Llama 3.3 70B, Qwen 3, DeepSeek, FLUX.1 đều có thể lấy miễn phí qua Hugging Face / Ollama | | Mở rộng | Hai máy kết nối bằng ConnectX-7 → 405B tham số | | Tiêu thụ năng lượng | Khoảng $8–15 mỗi tháng tiền điện | | Quyền riêng tư | Không rời khỏi mạng của bạn, xong rồi |

Chi phí định kỳ sau này: vài đô la tiền điện. Đó chính là toàn bộ hóa đơn.

Tại sao là bây giờ, không phải muộn hơn

NVIDIA biến một chiếc DGX trị giá 250.000 đô thành máy bàn không phải vì lòng thương.

Họ muốn làn sóng AI tiếp theo xây dựng dựa trên chip của họ, cục bộ, do “càng nhiều người dùng càng tốt” — nên họ đặt giá vào $2,999, còn Jensen Huang tự tay gửi thiết bị đến tay Musk và Altman, truyền tải thông điệp rõ ràng.

Hiện Dell, HP, ASUS, Lenovo đều ra các hộp GB10 của riêng họ, phần mềm — Ollama, vLLM, stack CUDA — gần như hàng tuần đều được tinh chỉnh cho chip này.

Trong khi đó, GPU đám mây không giảm giá, rate limit ngày càng chặt, và “dữ liệu của chúng ta thực sự đi đâu” luôn là câu hỏi khách hàng sẽ hỏi trước khi ký hợp đồng.

Đến năm 2026, những ai đưa AI về bàn làm việc của mình, đến 2028 sẽ trông xa hơn nhiều so với đường cong.

Một chiếc máy nhỏ như sách dày. Một petaflop trọn vẹn. Một mô hình 70B “thuộc về bạn chứ không ai khác”. Chi phí vận hành hàng tháng khoảng mười đô la — và $1,900 mỗi tháng không còn chảy ra khỏi doanh nghiệp của bạn nữa.

Đây chính là toàn bộ sự trao đổi.

Tôi chỉ ước gì mình đã làm sớm hơn một năm.