DeepSeek V4-Flash піднявся на Ollama Cloud, сервери США: Claude Code, OpenClaw — однокнопкове підключення

robot
Генерація анотацій у процесі

Локальний інструмент для запуску AI-моделей Ollama 24/4 публічно оголосив на платформі X, що додасть до сервісу Ollama Cloud модель V4-Flash, випущену напередодні китайським AI-стартапом DeepSeek. Доцінковий хостинг виконуватиметься в США, і буде надано три набори команд «в один клік», щоб розробники могли напряму підключити V4-Flash до популярних робочих процесів розробки AI, зокрема Claude Code, OpenClaw та Hermes.

deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…

— ollama (@ollama) 24 квітня 2026

Попередній перегляд DeepSeek V4: два розміри, 1M контекст

Згідно з оголошенням, опублікованим DeepSeek у офіційній документації API 24/4, DeepSeek-V4 Preview виходить у двох розмірах і синхронно відкривається з відкритим кодом:

Модель Загальні параметри Активні параметри Позиціонування DeepSeek-V4-Pro 1,6 трлн 49,0 млрд Ціль — відповідати закритому флагману DeepSeek-V4-Flash 2,840 млрд 130 млрд Швидко, ефективно, низькою вартістю

Обидві моделі використовують архітектуру Mixture-of-Experts(MoE)та нативно підтримують довгий контекст на 1 млн tokens. DeepSeek в оголошенні заявив: «1M контекст зараз є значенням за замовчуванням для всіх офіційних сервісів DeepSeek».

Архітектурна інновація: DSA розріджена увага+Token-wise стиснення

Ключові архітектурні покращення серії V4 включають:

Token-wise стиснення в поєднанні з DSA(DeepSeek Sparse Attention)—— для суттєвого зниження витрат на обчислення під час інференсу та KV кеш-пам’яті у сценаріях наддовгого контексту

Порівняно з V3.2, у сценарії контексту 1 млн tokens для V4-Pro інференс на 1 token потребує лише 27% FLOPs, а KV cache — лише 10%

Підтримка перемикання у двох режимах: Thinking і Non-Thinking, щоб відповідати вимогам глибокого міркування для різних задач

На рівні API одночасно сумісне з OpenAI ChatCompletions і специфікаціями Anthropic APIs, знижуючи вартість міграції для наявних клієнтів Claude/GPT.

Три команди «в один клік» для Ollama Cloud

Офіційна сторінка моделей Ollama для ідентифікатора моделі deepseek-v4-flash:cloud надає хмарний сервіс інференсу. Розробники можуть використати наведені нижче три набори команд, щоб напряму під’єднати V4-Flash до наявних робочих процесів розробки AI:

Робочий процес Команда Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

Варто звернути увагу на сигнал «хостинг у США». Для корпоративних користувачів і розробників із Європи та США найбільше занепокоєння при використанні китайських open-source моделей — це повернення даних у Китай; Ollama обирає розмістити інференсний рівень V4-Flash у США, що означає, що prompt і вміст коду не залишають юрисдикцію США, зменшуючи тертя на рівні комплаєнсу та суверенітету даних.

Чому ця подія важлива для індустрії AI

З’єднання трьох компонентів — DeepSeek V4-Flash, Ollama Cloud і Claude Code — які раніше існували як незалежні екосистеми, формує три рівні значення:

Лінія витрат: активних параметрів V4-Flash — 13 млрд — значно менше, ніж у GPT-5.5 (вхідні 5 доларів, вихідні 30 доларів/млн tokens) та Claude Opus 4.7. Для задач середніх і малих агентів, пакетних підсумків, автоматизації тестування тощо можна очікувати відчутне зниження питомої вартості

Посередницький шар географічного ризику: Ollama як посередницький інференсний шар, зареєстрований у США, дозволяє корпоративним користувачам китайських моделей обходити занепокоєння щодо «прямого відправлення даних на сервери DeepSeek у Пекіні». Це практичне рішення для міжнародного поширення open-source моделей

Миттєве перемикання для розробників: користувачі Claude Code та OpenClaw можуть в одній команді у командному рядку перемкнути модель, не змінюючи структуру prompt або налаштування IDE; для сценаріїв «ретестування з поверненням до кількох моделей», «пакетних задач з чутливістю до вартості» це справжній вивільнювач продуктивності в продакшені

Зв’язок із попередніми новинами про DeepSeek

Цього разу реліз V4 і швидка інтеграція з Ollama Cloud відбуваються на тлі того, що DeepSeek веде переговори щодо першого раунду зовнішнього фінансування та оцінки в 20 млрд доларів. V4 є ключовим продуктом-підтвердженням у процесі капіталізації DeepSeek; стратегія open-source + швидке поширення через міжнародних партнерів хостингу — це її «гонка швидкості» перед тим, як закріпити монополію на розробницьку екосистему. Для OpenAI та Anthropic однією новою змінною у боротьбі за домінування agent-робочих процесів є open-source модель, яку можна перемикати однією командою всередині Claude Code.

Ця стаття «DeepSeek V4-Flash з’явився на Ollama Cloud, хостинг у США: Claude Code, OpenClaw — підключення в один клік» вперше з’явилася на «鏈新聞 ABMedia».

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити