Як один NVIDIA-бокс за $2999 може допомогти мені заробити понад $22,000 за рік?

Question

Цей автор @w1nklerr розбирає, як він використовує $2,999 NVIDIA DGX Spark, щоб замінити щомісячний рахунок за хмарний GPU у $1,900. Перший рік він залишає у своєму бізнесі близько $22,000 «зовнішнього прибутку». Зміст охоплює характеристики, порівняння витрат, програмний стек, інструкції з реалізації та цільову аудиторію.
(Попередній контекст: неймовірний фінансовий звіт Nvidia за перший квартал! Доходи 81.6 мільярда доларів — рекорд, Хань Чжунвень радісно оголосив «Наступна ера Agentic AI», дивіденди зросли у 24 рази)
(Додатковий фон: Nvidia Хань Чжунвень: китайський ринок рано чи пізно відкриється для американських AI-чіпів)

Зміст статті

Toggle

1. Що це взагалі таке
- Характеристики DGX Spark
1. Той момент, що мене розлютило
- Ти орендуєш — а витрачаєш щомісяця
1. Що на ньому працює, чому майже не потрібно змінювати код
- Що може працювати на одному 128GB
1. Зібрати — і вже соромно
1. Де справді з’являються гроші
- Якщо ти продаєш AI послуги
- Якщо обробляєш будь-які конфіденційні дані (мовчазний вбивця)
- Зміна менталітету
1. Що я чесно скажу про себе
- Плюси:
- Мінуси:
1. Повний список інструментів
Чому саме зараз, а не пізніше

Місяцями ніхто не казав мені про це. Тепер я кажу вам, щоб ви не витратили цілий рік даремно. Почну з того, що мене розлютило. Минулого кварталу мої витрати на хмарний GPU стабільно становили $1,900 на місяць.

Я займався платними AI-проектами: тонке налаштування відкритих моделей, хостинг асистента 70B, обробка великої кількості файлів — ті роботи, які звичайна відеокарта за $2,000 просто відмовляється виконувати, бо модель не поміщається у пам’ять.

Тому я орендував обчислювальні ресурси по годинах. Один тиждень A100, наступний — H100. Одного вечора, дивлячись на рахунок, я раптом усвідомив: я отримую гроші від клієнтів за роботу, а майже дві тисячі доларів щомісяця просто перераховую компанії, що здає обладнання в оренду. Це не «витрати», це прибуток, що йде з переднього входу.

Через кілька днів хтось у Discord виклав фото: великий, як роман у твердій обкладинці, поруч із монітором. Підпис: «Знищити мій хмарний рахунок, щоб запускати 120B модель на столі, окупиться за два місяці.»

Це був DGX Spark. NVIDIA. Той самий логотип DGX — раніше це означало витратити 250 тисяч доларів на серверний стелаж — тепер він помістився у настільний комп’ютер.

Я одразу зробив замовлення. Ось що я дізнався.

1. Що це взагалі таке

Більшість людей, почувши «AI суперкомп’ютер», уявляють ряд гучних серверів, що гудуть. NVIDIA витратила весь 2025 рік, щоб змінити цю картинку: у січні на CES вони анонсували «Project DIGITS», у березні на GTC перейменували його у DGX Spark, а в жовтні вже передали покупцям. Вступна промова Дженсена була цілком про це:

Grace Blackwell, на кожному столі.

Обіцяючи найменший у світі AI суперкомп’ютер, що може запускати модель у 200B параметрів з розетки домашнього використання. Найбільш вражаюча фраза: «AI стане домінуючою технологією у кожній галузі та застосуванні.»

Знявши маркетингову мішуру, реальні характеристики чіпа такі:

Характеристики DGX Spark

| Параметр | | --- | | --- | --- | | Чіп | NVIDIA GB10 Grace Blackwell Superchip | | AI пропускна здатність | 1 PFLOP (трильйон операцій FP4 за секунду) | | CPU | 20-ядерний ARM (Grace) | | GPU | Blackwell, приблизно рівень ядра RTX 5070 | | Пам’ять | 128GB LPDDR5x, спільна для CPU і GPU | | Зберігання | 4TB Gen5 NVMe, з автоматичним шифруванням | | Мережа | ConnectX-7 — дві з’єднані у один вузол | | Споживання енергії | на повну потужність близько 150–240W | | Розмір | 150 × 150 × 50мм, 1.2 кг — як товста книжка | | Ціна | $2,999 (стартова ціна) |

Залишимо поки що petaflop. Найбільш революційною характеристикою є 128GB єдиної пам’яті.

Одна карта 4090 має 24GB VRAM. 5090 — 32GB. Якщо модель більша за VRAM, вона просто не завантажується — CUDA видає out-of-memory, і знову доводиться орендувати обладнання.

Spark дає 128GB, тому він може завантажити модель, яку навіть $2,000 відеокарта не може відкрити. Одна машина може працювати з моделлю у 200B параметрів. Дві машини, з’єднані через вбудований ConnectX-7, — і ви вже запускаєте 405B на столі.

Це не просто найдорожчий пристрій, який можна купити. Це справжній «міст» для моделей, що варті запуску.

2. Той момент, що мене розлютило

Це реальна «локальна AI-робота», щомісячні витрати на яку у хмарі — кровотеча:

Ти орендуєш — а витрачаєш щомісяця

| Параметр | | --- | Місячні витрати | | --- | --- | | A100 80GB (часткова розробка) | $600–1,200 | | H100 (тонке налаштування) | $1,000–2,500 | | Хостинг 70B для inference | $300–900 | | Забув вимкнути інстанс | страшний сюрприз | | Звичайний AI-фрілансер/розробник | $1,500–3,000 |

А Spark виконує ті ж задачі:

| Параметр | | --- | Вартість | | --- | --- | | Сам пристрій (ваш, у власності) | $2,999 одноразово | | Обчислювальні ресурси, близько 200W | Щомісяця $8–15 | | Хмарна оренда | $0 | | Місячні витрати у стабільному режимі | близько $10 |

Для того, хто звик платити $1,900 щомісяця у хмарі, приблизно за 1.6 місяців він окупить цю машину.

Далі, ті $1,890, що раніше йшли на оренду обладнання, — це моя чиста маржа — я все ще обслуговую тих самих клієнтів. Перший рік — близько $22,000, які ця машина повернула мені з чужого дата-центру у власний бізнес.

І вона ніколи не спить, не обмежена швидкістю, і дані на столі ніколи не залишають кімнату.

3. Що на ній працює, чому майже не потрібно змінювати код

Spark запускає DGX OS — власну Ubuntu-версію NVIDIA — і має вбудований повний AI-стек: CUDA та ті самі бібліотеки, що й у дата-центрах DGX.

Оскільки все базується на чистому CUDA, екосистема з відкритим кодом працює «з коробки»: Ollama, vLLM, llama.cpp.

Якщо ви вже працюєте з cloud endpoint, перенесення — одна стрічка коду:

# раніше — платили за годинну оренду:
client = OpenAI(base_url="https://some-gpu-host/v1", api_key="sk-...")

# тепер — на столі, з вимкненим рахунком:
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="local"  # ігнорується
)

Одна й та сама програма, один і той самий JSON, однаковий поведінковий сценарій. Єдина різниця — ніхто не стягує плату, і дані нікуди не виходять з будівлі.

Що може працювати на одному 128GB

| Модель | | --- | Розмір | Чи поміститься? | Для чого підходить? | | --- | --- | --- | --- | | Llama 3.3 70B | 70B | Full BF16 | Складні задачі асистента | | Qwen 3 (велика версія) | 30–110B | Може | Багатомовність, програмування | | DeepSeek-клас | до 200B | Квантована версія | Inference, цикл агентів | | FLUX.1 | — | Може | Генерація зображень, локально | | 405B (дві машини у з’єднанні) | 405B | З’єднання | Рівень Frontier, on-prem |

Потреби споживчого GPU — приблизно до 30B, якщо його «перегнати». Spark може запускати у «повній точності» 70B і навіть тягнути до 200B. Саме цю різницю і дає наявність Spark.

4. Зібрати — і вже соромно

# 1. Встановити Ollama на Spark
curl -fsSL https://ollama.com/install.sh | sh

# 2. Завантажити модель, що не поміститься на споживчий відеокарту
ollama pull llama3.3:70b

# 3. Запустити сервер
ollama serve
# Ваша приватна 70B модель вже онлайн: http://localhost:11434

Хочете веб-інтерфейс у стилі ChatGPT, що працює цілком на власному обладнанні? Досить одного контейнера:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

Відкрийте localhost:3000 — і отримаєте приватний чат на базі Frontier-моделі — без ключів, без підключень, без виходу даних із кімнати.

5. Де справді з’являються гроші

Ключ не у «як зекономити». Ключ у тому: коли виклик 70B моделі коштує нуль, щось перестає бути «рішенням».

NVIDIA раніше передавала обладнання Ollama, OpenAI, SpaceX, університетським робототехнічним лабораторіям і AI-мистецтву — але для бізнесу важливіше прості речі:

Якщо ти продаєш AI послуги

приватний агент для кодування, що працює у приватному репозиторії клієнта
внутрішній асистент, що працює цілодобово для всієї компанії
продукт, де «вартість за одиницю» — електроенергія, а не API-ключ — кожен клієнт приносить маржу
нічні тонкі налаштування, раніше за кожен запуск платили $400 у хмарі, тепер — безкоштовно

Якщо обробляєш конфіденційні дані (мовчазний вбивця)

юридичні договори та юридична перевірка
медичні історії
фінансові звіти
будь-які NDA-закриті дані, що ніколи не потраплять у публічну модель

На Spark ці дані ніколи не виходять у мережу. І, що важливо, ти цілком володієш обладнанням, і ніяких правил Terms of Service тебе не обмежують.

Зміна менталітету

Хмарна цінова політика навчає «економії». Перед запуском агента у циклі, перед повторним аналізом файлів, перед тонким налаштуванням — ти будеш думати двічі.

З появою власного пристрою цей страх зникає — і справжні гроші зазвичай ховаються саме у цій нерішучості.

6. Що я чесно скажу про себе

Це не диво. Будь-хто, хто каже, що це «знищить дата-центри», просто намагається щось продати.

Плюси:

може запускати моделі у 70B–200B, що не помістяться у споживчий GPU
тонке налаштування і прототипування — без оренди H100
цілодобовий приватний inference, майже без додаткових витрат
легко замінює cloud endpoint, бо підтримує CUDA

Мінуси:

швидкість — RTX 5090 у «VRAM-містких» задачах швидший
одна машина понад ~405B — вже важко, потрібно дві
обслуговування тисяч користувачів одночасно — все ще дата-центр
початкові $2,999 — реальний чек, окупиться швидко

Чесний висновок:

Якщо щомісяця ви витрачаєте понад $1,000 на хмарні GPU для великих відкритих моделей, це один із найшвидших способів окупити інвестиції у AI сьогодні.

Якщо ж ви рідко працюєте з 7B моделями, дешевий пристрій або ваш поточний GPU — розумний вибір.

Обирайте пристрій залежно від задачі, а не від хайпу.

7. Повний список інструментів

| Категорія | | --- | Зміст | | --- | --- | | Апаратура | NVIDIA DGX Spark — $2,999 одноразово OEM: ASUS, Dell, HP, Lenovo, Acer, MSI, GIGABYTE | | ОС | NVIDIA DGX OS (на базі Ubuntu), з попередньо встановленим повним AI-стеком: CUDA, NIM, NeMo | | Рантайм | Ollama / vLLM / llama.cpp — безкоштовно, з відкритим кодом | | UI | Open WebUI — локальний інтерфейс у стилі ChatGPT | | Моделі | Llama 3.3 70B, Qwen 3, DeepSeek, FLUX.1 — доступні через Hugging Face / Ollama безкоштовно | | Розширення | Дві машини, з’єднані через ConnectX-7 — до 405B параметрів | | Споживання енергії | Місячно близько $8–15 за електроенергію | | Конфіденційність | Дані ніколи не виходять у мережу, все під контролем |

Постійні витрати — кілька доларів на електроенергію щомісяця. Це весь рахунок.

Чому саме зараз, а не пізніше

NVIDIA перетворила $250,000 DGX у настільний пристрій — не з милосердя.

Вони прагнуть, щоб наступна хвиля AI базувалася на їхніх чіпах, локалізована, і створена «чим більше, тим краще» — тому стартова ціна встановлена у $2,999, і Дженсен особисто доставляє одиниці Муску та Алтману, щоб донести меседж.

Зараз Dell, HP, ASUS і Lenovo випускають свої власні GB10, а софт — Ollama, vLLM, CUDA — майже щотижня оновлюється для оптимізації під цей чіп.

Водночас, хмарні GPU не дешевшають, обмеження швидкості зростають, і «куди насправді йдуть наші дані» — питання, яке клієнти обов’язково ставитимуть перед підписанням.

До 2026 року ті, хто зможе зробити AI-роботу на власному пристрої, у 2028-му будуть виглядати далеко попереду.

Машина розміром із товсту книжку. Цілком petaflop. «Твій», а не чужий, 70B модель. Щомісячні операційні витрати — близько десяти доларів, і щомісячний потік $1,900 з твого бізнесу зупиняється.

Ось і вся угода.

Я лише шкодую, що зробив це раніше.