Sebuah kotak NVIDIA seharga $2999, bagaimana satu tahun membantu saya mendapatkan penghasilan tambahan $22.000?

Question

Artikel ini membongkar bagaimana dia menggunakan NVIDIA DGX Spark seharga $2,999 untuk menggantikan tagihan GPU cloud bulanan sebesar $1,900. Tahun pertama, sekitar $22,000 dari "keuntungan keluar" tetap di bisnisnya sendiri. Isi mencakup spesifikasi, perbandingan biaya, tumpukan perangkat lunak, instruksi implementasi, dan target pengguna.
(Prakata: Laporan keuangan Q1 Nvidia luar biasa! Pendapatan 81,6 miliar dolar memecahkan rekor, Jensen Huang seru menyebut "Era AI Agenik telah tiba", dividen melonjak 24 kali)
(Informasi tambahan: Jensen Huang Nvidia: Pasar China akhirnya akan membuka chip AI AS)

Daftar isi artikel

Toggle

1. Apa sebenarnya ini
- Spesifikasi DGX Spark
1. Bagian yang membuat saya marah
- Barang yang Anda sewa vs biaya bulanan
1. Apa yang dijalankan di atas, mengapa kode Anda hampir tidak perlu diubah
- Apa yang bisa dijalankan dengan 128GB di satu mesin
1. Pemasangan yang singkat sampai agak memalukan
1. Tempat uang benar-benar muncul
- Jika Anda menjual layanan AI
- Jika Anda menangani data sensitif (penggunaan pembunuh diam-diam)
- Perubahan mindset
1. Bagian yang harus saya jujur kepada Anda
- Keunggulan:
- Kekurangan yang tidak bisa ditangkap:
1. Daftar lengkap alat
Mengapa sekarang, bukan nanti lebih lama

Bulan-bulan ini, tidak ada yang memberi tahu saya tentang hal ini. Sekarang saya beri tahu Anda, agar Anda tidak membuang waktu selama setahun seperti saya. Mari mulai dari angka yang membuat saya marah itu. Pada kuartal lalu, pengeluaran GPU cloud saya tetap $1,900 setiap bulan.

Saya menerima proyek berbayar AI: melakukan fine-tuning model open source, menghosting asisten 70B, menjalankan batch dokumen dalam jumlah besar—pekerjaan yang biasanya ditolak oleh kartu grafis $2,000 karena modelnya tidak muat di memori.

Jadi saya menyewa daya komputasi per jam. Satu minggu A100, minggu berikutnya H100. Suatu malam, melihat tagihan, saya tiba-tiba sadar: Saya membayar klien untuk melakukan pekerjaan ini, lalu sekitar dua ribu dolar setiap bulan langsung saya transfer ke perusahaan penyewaan mesin. Itu bukan "biaya", itu keuntungan yang keluar dari pintu depan.

Beberapa hari kemudian, seseorang di Discord mengirim foto: sebuah benda sebesar novel tebal, diletakkan di samping layar. Keterangan gambarnya: "Bunuh tagihan cloud saya, bisa menjalankan model 120B di meja, balik modal dalam dua bulan."

Itu adalah sebuah DGX Spark. NVIDIA. Logo DGX yang sama—yang dulu berarti harus mengeluarkan 250 ribu dolar, memasangnya di data center—sekarang bisa masuk ke dalam satu PC meja.

Saya langsung pesan minggu itu juga. Berikut semua yang saya pelajari.

1. Apa sebenarnya ini

Kebanyakan orang yang mendengar "superkomputer AI" akan membayangkan deretan server berdengung. NVIDIA menghabiskan seluruh 2025 untuk menghapus gambaran itu: mereka mengumumkan "Project DIGITS" di CES Januari, mengubah nama menjadi DGX Spark di GTC Maret, dan pada Oktober benar-benar menyerahkannya ke pembeli. Jensen di pembukaan acara menyampaikan:

Grace Blackwell, di setiap meja.

Dikenalkan sebagai superkomputer AI terkecil di dunia, yang bisa menjalankan model 200B parameter dari stopkontak rumah biasa. Kalimat yang paling berkesan bagi saya adalah: "AI akan menjadi arus utama di setiap industri dan aplikasi."

Menghapus kata-kata pemasaran, spesifikasi chip yang sebenarnya adalah:

Spesifikasi DGX Spark

| Item | | --- | | Spesifikasi | | --- | --- | | Chip | | NVIDIA GB10 Grace Blackwell Superchip | | Throughput AI | | 1 PFLOP (satu triliun operasi FP4 per detik) | | CPU | | 20 inti ARM (Grace) | | GPU | | Blackwell, sekitar setara dengan inti RTX 5070 | | Memori | | 128GB LPDDR5x, berbagi antara CPU + GPU | | Penyimpanan | | 4TB Gen5 NVMe, enkripsi otomatis | | Jaringan | | ConnectX-7—dua unit terhubung menjadi satu | | Konsumsi daya | | Saat penuh sekitar 150–240W | | Dimensi | | 150 × 150 × 50mm, 1.2kg—seukuran buku tebal | | Harga | | $2,999 (harga peluncuran) |

Petaflop angka itu kita biarkan dulu. Spesifikasi yang benar-benar mengubah hidupmu adalah 128GB Memori Terpadu.

Satu kartu 4090 memberi 24GB VRAM. 5090 memberi 32GB. Jika model lebih besar dari VRAM, model itu tidak akan bisa dimuat—CUDA langsung keluar dari memori, dan Anda harus sewa lagi.

Spark memberi Anda 128GB, jadi bisa memuat model yang bahkan kartu grafis $2,000 tidak bisa dibuka. Satu mesin bisa menjalankan model 200B parameter. Dua mesin yang terhubung dengan ConnectX-7 bawaan, Anda bisa menjalankan 405B di meja.

Ini bukanlah kotak tercepat yang bisa dibeli dengan uang. Ini adalah kotak yang benar-benar mampu menampung "model yang layak dijalankan".

2. Bagian yang membuat saya marah

Ini adalah pekerjaan AI lokal yang nyata, uang yang keluar setiap bulan dari cloud:

Barang yang Anda sewa vs biaya bulanan

| Item | | --- | | Biaya bulanan | | --- | --- | | A100 80GB (pengembangan paruh waktu) | | $600–1,200 | | H100 (fine-tuning) | | $1,000–2,500 | | Hosting inferensi 70B | | $300–900 | | Mesin yang lupa dimatikan | | Kejutan menakutkan | | Seorang freelancer/Builder AI biasa | | $1,500–3,000 |

Sedangkan Spark menjalankan pekerjaan yang sama:

| Item | | --- | Biaya | | --- | --- | | Kotak sendiri (Anda miliki) | | $2,999 sekali bayar | | Waktu listrik, sekitar 200W | | Bulanan $8–15 | | Sewa cloud | | $0 | | Pengeluaran bulanan stabil | | Sekitar $10 |

Bagi orang yang terbiasa membayar cloud $1,900 per bulan, sekitar 1,6 bulan sudah balik modal seluruh mesin ini.

Setelah itu, uang $1,890 yang dulu saya keluarkan untuk sewa mesin, sekarang menjadi laba kotor saya—masih dari pekerjaan klien yang sama. Tahun pertama sekitar $22,000, dari data center orang lain, kembali ke bisnis saya sendiri berkat mesin ini.

Dan mesin ini tidak pernah tidur, tidak ada batas kecepatan, data di meja tidak pernah meninggalkan ruangan satu byte pun.

3. Apa yang dijalankan di atas, mengapa kode Anda hampir tidak perlu diubah

Spark menjalankan DGX OS—versi Ubuntu buatan NVIDIA—dan sudah terpasang lengkap tumpukan AI: CUDA, serta library yang sama yang digunakan di data center DGX.

Karena dasarannya murni CUDA, ekosistem open source langsung bisa digunakan: Ollama, vLLM, llama.cpp.

Kalau Anda sudah biasa menggunakan endpoint cloud, pindah cukup satu baris:

# Sebelumnya — bayar per jam ke penyewaan mesin:
client = OpenAI(base_url="https://some-gpu-host/v1", api_key="sk-...")

# Setelah — di kotak di meja, meteran dimatikan:
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="local"  # akan diabaikan
)

Kode yang sama, file JSON yang sama, perilaku yang sama. Satu-satunya bedanya adalah tidak ada biaya, dan tidak ada data yang keluar dari gedung.

Apa yang bisa dijalankan dengan 128GB di satu mesin

| Model | | --- | | Ukuran | | Muat? | | Cocok untuk apa | | --- | --- | --- | --- | | Llama 3.3 70B | | 70B | | Full BF16 | | Tugas asisten berat | | Qwen 3 (versi besar) | | 30–110B | | Bisa | | Multibahasa, pemrograman | | DeepSeek-class | | Hingga 200B | | Versi kuantisasi | | Inferensi, loop Agen | | FLUX.1 | | — | | Bisa | | Generasi gambar, lokal | | 405B (dua mesin terhubung) | | 405B | | Terhubung | | Tingkat Frontier, on-prem |

GPU kelas konsumen biasanya sampai sekitar 30B yang sudah dioptimasi. Spark bisa menjalankan 70B dengan "presisi penuh", dan bisa sampai 200B. Perbedaan itu adalah alasan utama memiliki Spark.

4. Pemasangan yang singkat sampai agak memalukan

# 1. Pasang Ollama di Spark
curl -fsSL https://ollama.com/install.sh | sh

# 2. Tarik model yang tidak muat di kartu grafis konsumen
ollama pull llama3.3:70b

# 3. Jalankan server
ollama serve
# 70B pribadi Anda sudah online: http://localhost:11434

Ingin tampilan web gaya ChatGPT, berjalan sepenuhnya di hardware sendiri? Cukup satu container:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

Buka localhost:3000, Anda sudah punya antarmuka chat pribadi yang berjalan di model tingkat frontier—tanpa kunci, tanpa rencana, tanpa data keluar dari ruangan ini.

5. Uang benar-benar muncul di mana

Trik bukanlah "berapa banyak yang bisa dihemat di kertas". Trik adalah: Ketika satu model 70B setiap panggilan biayanya nol, maka beberapa hal tidak lagi menjadi "keputusan".

NVIDIA mengirimkan unit awal ke Ollama, OpenAI, SpaceX, laboratorium robot universitas, dan studio seni AI—tapi bagi yang menjalankan bisnis, cara sebenarnya jauh lebih sederhana:

Jika Anda menjual layanan AI

Agen pengkodean pribadi yang berjalan di repo privat klien
Asisten internal yang selalu aktif di seluruh perusahaan
Produk dengan "biaya satuan adalah listrik, bukan token API"—setiap klien adalah margin
Fine-tuning semalam, yang dulu setiap kali dijalankan mengeluarkan tagihan cloud $400, sekarang gratis

Jika Anda menangani data sensitif (penggunaan pembunuh diam-diam)

Peninjauan kontrak dan hukum
Catatan medis
Laporan keuangan
Segala yang terikat NDA, dan tidak akan dimasukkan ke model publik

Di Spark, data ini tidak pernah keluar dari jaringan. Dan, di mesin yang Anda miliki sepenuhnya, tidak ada aturan ToS yang mengatur Anda.

Perubahan mindset

Harga cloud mengajarkan Anda "menghemat". Sebelum menjalankan loop agen, sebelum mengulang seluruh basis data, sebelum melakukan fine-tuning secara intuitif, Anda akan berpikir dua kali.

Setelah memiliki mesin sendiri, keraguan itu hilang—dan uang yang sebenarnya sering tersembunyi di balik keraguan itu.

6. Bagian yang harus saya jujur kepada Anda

Ini bukan keajaiban. Siapa pun yang bilang "menghancurkan data center" adalah orang yang ingin menjual sesuatu.

Keunggulan:

Memuat model 70B–200B yang tidak muat di GPU konsumen
Fine-tuning dan prototipe, tanpa biaya H100
Inferensi pribadi yang selalu aktif, biaya marginal hampir nol
Drop-in pengganti endpoint cloud, karena mendukung CUDA

Kekurangan yang tidak bisa ditangkap:

Kecepatan murni—5090 lebih cepat untuk "yang muat di VRAM"
Mesin tunggal di atas ~405B akan kesulitan (itu pekerjaan dua mesin)
Melayani ribuan pengguna online sekaligus, tetap di data center
$2,999 awal adalah cek nyata, meskipun balik modal cepat

Kesimpulan jujur:

Jika Anda sudah membakar lebih dari $1,000 per bulan untuk cloud GPU besar karena model open source besar, ini adalah salah satu cara tercepat untuk balik modal di bidang AI saat ini.

Kalau hanya sesekali ngobrol dengan 7B, perangkat murah di tepi, atau GPU yang Anda miliki saat ini, adalah pilihan yang bijak.

Pilih kotak sesuai pekerjaan, bukan hype.

7. Daftar lengkap alat

| Kategori | | --- | Isi | | --- | --- | | Hardware | NVIDIA DGX Spark — $2,999 sekali bayar OEM: ASUS, Dell, HP, Lenovo, Acer, MSI, GIGABYTE | | Sistem Operasi | NVIDIA DGX OS (berbasis Ubuntu), sudah terpasang lengkap tumpukan AI NVIDIA, CUDA, NIM, NeMo | | Runtime | Ollama / vLLM / llama.cpp — gratis, open source | | UI | Open WebUI — antarmuka gaya ChatGPT lokal | | Model | Llama 3.3 70B, Qwen 3, DeepSeek, FLUX.1 bisa diakses gratis via Hugging Face / Ollama | | Ekstensi | Dua mesin terhubung dengan ConnectX-7 → 405B parameter | | Konsumsi daya | Sekitar $8–15 listrik per bulan | | Privasi | Tidak meninggalkan jaringan Anda, selesai |

Biaya berkelanjutan berikutnya: beberapa dolar listrik. Itulah seluruh tagihan.

Mengapa sekarang, bukan nanti lebih lama

NVIDIA mengubah sebuah DGX seharga $250,000 menjadi mesin meja, bukan karena belas kasihan.

Mereka ingin gelombang AI berikutnya dibangun di atas chip mereka, lokal, dan dibuat oleh "semakin banyak orang semakin baik"—jadi mereka menetapkan harga masuk di $2,999, dan Jensen sendiri mengantarkan unit ke tangan Musk dan Altman, menyampaikan pesannya secara langsung.

Sekarang Dell, HP, ASUS, dan Lenovo semua merilis kotak GB10 mereka sendiri, dan lapisan perangkat lunak—Ollama, vLLM, tumpukan CUDA—hampir setiap minggu dioptimasi untuk chip ini.

Sementara itu, GPU cloud tidak menjadi lebih murah, rate limit semakin ketat, dan "kemana data kita sebenarnya pergi" menjadi pertanyaan yang pasti akan ditanyakan pelanggan sebelum menandatangani.

Pada 2026, mereka yang membawa pekerjaan AI ke meja sendiri, pada 2028, akan terlihat jauh di depan kurva.

Sebuah mesin seukuran buku tebal. Satu petaflop penuh. Model 70B yang "milikmu, bukan milik orang lain". Biaya operasional sekitar sepuluh dolar per bulan—dan $1,900 yang setiap bulan tidak lagi keluar dari bisnismu.

Itulah seluruh pertukaran.

Saya hanya berharap saya melakukan pertukaran ini satu tahun lebih awal.