Один NVIDIA-ящик за 2999 долларов: как он поможет мне заработать дополнительно 22 000 долларов за год?

Question

Статья автора @w1nklerr разбирает, как он использует NVIDIA DGX Spark за $2,999 вместо ежемесячных облачных GPU за $1,900. В первый год он оставляет в своем бизнесе около $22,000 «утекшей прибыли». В содержании рассматриваются спецификации, сравнение затрат, программный стек, инструкции по реализации и целевая аудитория.
(Предыстория: фантастическая отчетность Nvidia за первый квартал! Выручка 81,6 млрд долларов — рекорд, Хань Хуэй в восторге: «Наступает эпоха Agentic AI», дивиденды выросли в 24 раза)
(Дополнительный фон: Хань Хуэй: рынок Китая в конечном итоге откроется для американских AI-чипов)

Содержание статьи

Toggle

1. Что это вообще такое
- Спецификации DGX Spark
1. Часть, которая меня разозлила
- Арендуемое вами оборудование vs ежемесячные расходы
1. Что на нем запускается, почему ваш код почти не нужно менять
- Что может работать на одном 128GB
1. Так быстро собрать — чуть не стыдно
1. Где действительно появляются деньги
- Если вы продаете AI-услуги
- Если вы работаете с любыми чувствительными данными (молчаливый убийца)
- Перемена менталитета
1. Честные части для вас
- Где выигрыши:
- Где неуловимые моменты:
1. Полный список инструментов
Почему именно сейчас, а не позже

Несколько месяцев никто не говорил мне об этом. А я сейчас расскажу, чтобы вы не потратили целый год зря. Начну с того числа, которое меня разозлило. В прошлом квартале мои расходы на облачные GPU стабильно составляли $1,900 в месяц.

Я брал заказы на AI: донастройка открытых моделей, хостинг помощника на 70B, массовая обработка документов — те задачи, на которые обычная видеокарта за $2,000 просто отказывалась, потому что модель не помещалась в память.

Поэтому я арендовал вычислительные ресурсы по часам. Неделя на A100, следующая — на H100. В один из вечеров, глядя на счет, я вдруг понял: я за работу получаю деньги от клиента, а примерно по $2,000 в месяц напрямую перечисляю компании по аренде машин. Это не «затраты», а прибыль, которая уходит из моего кармана.

Через несколько дней кто-то в Discord прислал фото: устройство такого размера, как толстая книга, стоит рядом с монитором. Подпись: «Убей мой облачный счет, и я смогу запускать модель 120B прямо на столе, окупится за два месяца.»

Это был DGX Spark. NVIDIA. Тот самый логотип DGX — раньше означавший огромный серверный шкаф за $250,000 — теперь встроен в настольный компьютер.

В ту же неделю я заказал его. Вот что я узнал.

1. Что это вообще такое

Большинство людей, услышав «AI-суперкомпьютер», представляют себе ряды гудящих серверов. NVIDIA целый 2025 год потратил на то, чтобы разрушить этот образ: в январе на CES они анонсировали «Project DIGITS», в марте переименовали в DGX Spark на GTC, а в октябре уже передали его покупателям. Вступительная речь Дженсена на сцене — это целая диссертация:

Grace Blackwell, на каждом столе.

Объявлено как самый маленький в мире AI-суперкомпьютер, способный запускать модели на 200B параметров прямо из обычной розетки. Самая запоминающаяся фраза: «AI станет доминирующей технологией во всех отраслях и приложениях.»

Если убрать маркетинговую шелуху, реальные спецификации чипа таковы:

Спецификации DGX Spark

| Параметр | | --- | | Чип | | NVIDIA GB10 Grace Blackwell Superchip | | Производительность AI | | 1 PFLOP (триллион операций FP4 в секунду) | | CPU | | 20-ядерный ARM (Grace) | | GPU | | Blackwell, примерно как RTX 5070 по ядрам | | Память | | 128GB LPDDR5x, общая для CPU и GPU | | Хранение | | 4TB Gen5 NVMe, с автоматическим шифрованием | | Сеть | | ConnectX-7 — два устройства соединены в одно | | Потребление энергии | | Полностью нагруженный — около 150–240W | | Размер | | 150 × 150 × 50 мм, 1,2 кг — как толстая книга | | Цена | | $2,999 (стартовая цена) |

Петафлопы — это отдельная история. Главное — это 128GB объединенной памяти, которая реально меняет жизнь.

Одна видеокарта 4090 даёт 24GB VRAM. 5090 — 32GB. Когда модель превышает VRAM, она не загружается — CUDA выдаёт ошибку out-of-memory, и снова приходится арендовать машину.

Spark даёт 128GB, поэтому он может загрузить модель, которую за $2,000 видеокарта даже открыть не сможет. Он способен запускать модели до 200B параметров. А две такие машины, соединённые встроенным ConnectX-7, позволяют запускать 405B прямо на столе.

Это не просто самый быстрый в мире «коробочный» продукт за деньги. Это реально вместительный «короб» для запуска достойных моделей.

2. Часть, которая меня разозлила

Это реальный «локальный AI-работа», за который в облаке платишь кровью:

Арендуемое оборудование vs ежемесячные расходы

| Параметр | | --- | | Ежемесячные расходы | | --- | --- | | A100 80GB (частичная разработка) | | $600–1,200 | | H100 (микронастройка) | | $1,000–2,500 | | Хостинг 70B для инференса | | $300–900 | | Оставленная включённой машина | | Страшный сюрприз | | Стандартный фриланс/строитель AI | | $1,500–3,000 |

А вот сколько стоит Spark при выполнении тех же задач:

| Параметр | | --- | | Затраты | | --- | --- | | Сам аппарат (ваш) | | $2,999 — один раз | | Электроэнергия, около 200W | | В месяц $8–15 | | Облачная аренда | | $0 | | Постоянные ежемесячные расходы | | примерно $10 |

Для человека, платящего $1,900 в месяц за облако, это примерно 1,6 месяца — и вся машина окупается.

Дальше — те же деньги, что раньше уходили на аренду, — это моя чистая прибыль, ведь я делаю ту же работу для тех же клиентов. Первый год — около $22,000, которые вернулись в мой бизнес благодаря этой машине, взятой из чужого дата-центра.

И она работает без сна, без ограничений по скорости, и все данные на столе никогда не покидают комнату.

3. Что на ней запускается, почему ваш код почти не нужно менять

Spark запускается на DGX OS — собственной Ubuntu-версии NVIDIA — и включает полный AI-стек: CUDA и те же библиотеки, что и в дата-центрах DGX.

Поскольку всё основано на чистом CUDA, экосистема с открытым исходным кодом работает «из коробки»: Ollama, vLLM, llama.cpp, PyTorch, Hugging Face.

Если вы изначально делаете вызовы через облачный API, миграция занимает одну строку:

# Раньше — платили по часам за аренду:
client = OpenAI(base_url="https://some-gpu-host/v1", api_key="sk-...")

# Теперь — на настольной машине, счетчик выключен:
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="local"  # всё равно игнорируется
)

Та же программа, тот же JSON, тот же функционал. Единственное отличие — вы не платите, и никаких данных не покидает здание.

Что может запускать один 128GB

| Модель | | --- | | Размер | | Влезет? | | Для чего подходит | | --- | --- | --- | --- | | Llama 3.3 70B | | 70B | | Full BF16 | | Тяжёлые помощники | | Qwen 3 (большая версия) | | 30–110B | | Можно | | Многоязычность, программирование | | DeepSeek-класс | | До 200B | | Квантованная версия | | Инференс, цикл агента | | FLUX.1 | | — | | Можно | | Генерация изображений, локально | | 405B (две машины в связке) | | 405B | | Связка | | Уровень Frontier, on-prem |

Потребительские GPU примерно на уровне 30B — это максимум, который можно «выжать». Spark способен запускать 70B в «полной точности», а также тянуть до 200B. Именно этот разрыв — вся причина иметь Spark.

4. Так быстро собрать — чуть не стыдно

# 1. Установить Ollama на Spark
curl -fsSL https://ollama.com/install.sh | sh

# 2. Загрузить модель, которая не поместится на обычную видеокарту
ollama pull llama3.3:70b

# 3. Запустить сервер
ollama serve
# Ваша личная 70B модель уже онлайн: http://localhost:11434

Хотите веб-интерфейс в стиле ChatGPT, полностью работающий на вашем оборудовании? Достаточно одного контейнера:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

Откройте localhost:3000 — и у вас появится личный чат на базе модели уровня frontier — без ключа, без подписки, без данных, покидающих комнату.

5. Где действительно появляются деньги

Секрет не в «сколько можно сэкономить». Секрет в том: когда вызов модели на 70B стоит ноль, некоторые решения перестают быть «решениями» вовсе.

NVIDIA раньше поставляла свои чипы Ollama, OpenAI, SpaceX, университетским робототехническим лабораториям и AI-художественным студиям — но для бизнеса всё проще:

Если вы продаете AI-услуги

Личный агент для разработки, работающий прямо в приватных репозиториях клиента
Внутренний помощник, всегда включённый, для всей компании
Продукт, где «единичная стоимость — это электроэнергия, а не API-токен» — каждый клиент приносит прибыль
Ночной микронастройка, которая раньше стоила $400 за запуск в облаке, теперь — бесплатно

Если вы работаете с чувствительными данными (молчаливый убийца)

Контракты и юридическая проверка
Медицинские записи
Финансовая отчётность
Всё, что под NDA и никогда не попадёт в публичную модель

На Spark эти данные никогда не покидают сеть. И более того, на полностью вашей машине нет ни одного условия использования, которое бы ограничивало.

Перемена менталитета

Облачные цены учат вас «экономить». Перед запуском агента, перед повторным анализом всей базы данных, перед тонкой настройкой — вы будете думать на два шага больше.

Обладание собственным устройством убирает эти сомнения — и настоящие деньги часто скрыты именно в них.

6. Честная часть

Это не чудо. Любой, кто говорит, что это «убьёт дата-центры», просто пытается вам что-то продать.

Где выигрыши:

Запуск моделей до 200B на потребительских GPU
Микронастройка и прототипирование без аренды H100
Постоянный приватный инференс с почти нулевыми затратами
Замена облачного API — потому что всё работает на CUDA

Где есть нюансы:

Скорость — RTX 5090 быстрее в задачах, помещающихся в VRAM
Одной машине с ~405B параметрами не справиться (это задача двух машин)
Обслуживание тысяч пользователей — всё ещё дата-центр
Первоначально — $2,999 за устройство, окупится быстро

Честный вывод:

Если вы уже тратите более $1,000 в месяц на облачные GPU для больших открытых моделей, это один из самых быстрых способов окупить AI в текущей индустрии.

Если вы просто хотите пообщаться с 7B моделью время от времени, лучше взять дешевое устройство или использовать текущий GPU.

Выбирайте устройство в зависимости от объема работы, а не от хайпа.

7. Полный список инструментов

| Категория | | --- | | Содержание | | --- | --- | | Аппаратное обеспечение | | NVIDIA DGX Spark — $2,999 единовременно OEM: ASUS, Dell, HP, Lenovo, Acer, MSI, GIGABYTE | | Операционная система | | NVIDIA DGX OS (на базе Ubuntu), предустановлен полный AI-стек NVIDIA, CUDA, NIM, NeMo | | Среда выполнения | | Ollama / vLLM / llama.cpp — бесплатно, с открытым исходным кодом | | UI | | Open WebUI — локальный интерфейс в стиле ChatGPT | | Модели | | Llama 3.3 70B, Qwen 3, DeepSeek, FLUX.1 — доступны бесплатно через Hugging Face / Ollama | | Расширения | | Две машины, соединённые ConnectX-7 — до 405B параметров | | Энергопотребление | | Около $8–15 в месяц за электроэнергию | | Конфиденциальность | | Всё остаётся внутри вашей сети, всё под контролем |

Последующие постоянные расходы — всего несколько долларов за электроэнергию. Это весь ваш счет.

Почему именно сейчас, а не позже

NVIDIA превращает $250,000 DGX в настольный компьютер — не из милосердия.

Они хотят, чтобы следующая волна AI строилась на их чипах, локально, и чем больше людей — тем лучше. Поэтому стартовая цена установлена в $2,999, и Хань Хуэй лично передает устройства Маску и Алтману, чтобы донести сообщение.

Сейчас Dell, HP, ASUS и Lenovo выпускают свои устройства на базе GB10, а программный стек — Ollama, vLLM, CUDA — почти каждую неделю обновляется под новые чипы.

Тем временем облачные GPU не дешевеют, лимиты всё жестче, а «куда уходят наши данные» — вопрос, который клиенты обязательно задают перед подписанием.

К 2026 году те, кто возьмёт AI на свой стол, к 2028 году будут значительно опережать остальных.

Машина размером с толстую книгу. Половина петафлопа. Модель на 70B, которая принадлежит только вам, а не кому-то ещё. Ежемесячные операционные расходы — около десяти долларов, и те же $1,900, которые раньше уходили на аренду.

Это вся сделка.

Жаль, что я не сделал этого раньше.