DeepSeek знову став «м’ясником цін», але цього разу він не лише знищує ціну

Автор: Сяоцзинь

Token переосмислює цінність епохи ШІ, випущено попередню версію DeepSeek V4, знову ставши “ціновим різником”, але водночас приніс нову постановку задачі ціноутворення токенів. За однаковою кількістю токенів, фактична вартість у різних системах може різнитися у порядку величини, великі моделі рухаються до системного ціноутравлення.

Нарешті випущено попередню версію DeepSeek V4, знову знизивши ціну на великі моделі, що цілком відповідає “особливостям” DeepSeek.

V4-Flash — ціноутворення: вхід 1 юань, вихід 2 юані/мільйон токенів, при попаданні кешу — лише 0.2 юані; V4-Pro — ціноутворення: вхід 12 юанів, вихід 24 юані/мільйон токенів, при попаданні кешу — вхід 1 юань, при запуску обмежена пропозиція зі знижкою 75%, актуально до 5 травня. Обидві моделі нативно підтримують контекст до мільйона токенів.

Цієї неділі DeepSeek-V4-Pro знову запускає обмежену пропозицію — ціну знижено до 25%, а ціну за вхід при попаданні кешу — ще на 10%. Інженер ШІ жартома сказав: “Після вихідних, DeepSeek-V4-Pro майже безкоштовний — лише 0.025 юаня”.

Зараз минуло вже два роки з початку цінової війни 2024 року, що почалася з DeepSeek V2. За цей час, вартість обчислень для великих моделей зросла експоненційно, а з урахуванням кешування та інших факторів, ефективна ціна знизилася у сотні разів.

Але сьогодні зниження цін має ще більше значення, ніж раніше. ШІ вже перейшов до агентного парадигму, орієнтованого на довгострокові складні завдання, де одна задача вимагає десятки або сотні викликів моделі.

У цьому контексті, випуск попередньої версії DeepSeek V4 супроводжується двома важливими новинами: по-перше, підтримка контексту до мільйона токенів стала нативною функцією обох моделей; по-друге, підкреслюється важливість ціноутворення кешу, з додатковими знижками. Це знижує ціну на стандартний вхід і вихід до рівня, що дозволяє зменшити загальний рахунок за виконання завдання агентом до найконкурентнішого рівня.


Token отримав нову цінову систему

Поглядаючи на зниження цін у 2024 році, можна сказати, що воно фактично переводить великі моделі з “дорогих експериментів” у “корисні інструменти”. Завдяки архітектурним інноваціям, що підвищують ефективність обчислень, ціна виклику моделі зменшилася з 10-30 доларів за мільйон токенів у GPT-4 до приблизно 1 долара.

Діаграма: Експоненційне зниження цін на токени за останні два роки

Це класичний приклад “абсолютного зниження цін”: розробники можуть викликати великі моделі за низькою ціною, що відкриває застосування на рівні користувача. Але на початковому етапі ціна була прив’язана до “вартості одного виклику”: токен вважався єдиним обчислювальним одиницею, і кількість викликів прямо пропорційна витратам.

Через два роки, структура цін DeepSeek V4 змінилася. З появою кешування (cache), токени тепер поділяються на “нові обчислення” та “повторні обчислення”. У сценаріях з високим кешування ціна може знизитися у десять і більше разів. Ціни перетворилися з статичних у змінні, що залежать від системної архітектури.

Діаграма: Токени поділяються на “нові обчислення” та “повторні обчислення”

Якщо дивитися лише на цінову політику, V4 зберігає низьку цінову стратегію DeepSeek. Внутрішній ринок: ціни на аналогічні моделі, такі як Alibaba Tongyi, Zhipu GLM, Moon’s Dark Side Kimi, коливаються в межах 1–4 юанів за вхід і 4–12 юанів за вихід, тоді як V4-Flash — 1 юань за вхід і 2 юані за вихід, що становить третину або чверть середньої галузевої ціни.

Pro-версія за 12/24 юанів близька до флагманських моделей, але контекст до мільйона токенів — стандартна функція, а не додаткова опція. На глобальному рівні, ціна приблизно у десять разів нижча за деякі конкуренти. Наприклад, ціна GPT-5.5: 5 доларів за мільйон токенів за вхід, 0.5 доларів за кешований вхід, 30 доларів за вихід; Claude Opus 4.7 — 5 доларів за вхід і 25 доларів за вихід, що відповідає ціновій системі Opus 4.6.

Хоча за можливостями, екосистемою та використанням токенів ці моделі не цілком порівнювані, ціна є важливим фактором для комерційної життєздатності. За однакових умов, різниця у витратах на виклики прямо впливає на бізнес-процеси. Зарубіжні компанії також відчувають ціновий тиск: Сэм Альтман відкрито визнав, що ChatGPT Pro збитковий, а Даріо Амодей попереджає про “надмірно агресивне ціноутворення”. За деякими оцінками, ціна системно враховує обчислювальні ресурси, R&D та маркетинг.

Саме тому цінова перевага цього разу має особливе значення. У 2024 році галузь вирішує питання “чи можна використовувати”, а в сучасній агентній парадигмі — головне питання “чи можливо масштабувати”.

Зазвичай, одна задача агента включає десятки або сотні викликів моделі, а багато вхідних даних — системний запит, схеми інструментів і історія пам’яті. Ці елементи високоресурсні та легко “роздувають” витрати.

DeepSeek V4 зосереджений на зменшенні саме цих “повторних обчислень”.


Діаграма: DeepSeek V4 перетворює “витрати” у змінну, яку можна оптимізувати. Ліворуч — узгодженість можливостей, праворуч — різкий спад витрат. При контексті до мільйона токенів, обчислювальні ресурси та кешування зменшилися значно, що робить довгострокові завдання менш затратними. Це — справжня рушійна сила цієї цінової війни.

З огляду на цінову динаміку власних продуктів, ця зміна має логіку. Попередня версія V3.2: ціна вхідних запитів — 2 юані (без кешу), 0.2 юані (з кешем), вихід — 3 юані; V4-Flash — вхід знижено до 1 юаню, вихід — до 2 юанів. Найбільший вплив — зменшення ціни за невдалий виклик (непопадання кешу). У сценаріях з багатократними викликами, накопичені витрати на вхід — головна стаття витрат, і ця зміна має значний ефект.

Pro-версія за 12/24 юанів виглядає дорожчою у 10 разів, але у технічному звіті DeepSeek зазначено, що “Pro-версія обмежена високопродуктивною обчислювальною потужністю, і очікується, що з виходом серії昇腾950 у другій половині року ціна значно знизиться”. Це можна трактувати як тимчасове відображення обмежень пропозиції, а не реальну вартість.

Обидві моделі мають чітке позиціонування: Flash — для високонавантажених, низьколатентних пакетних завдань; Pro — для складних агентних процесів, довгих ланцюгів генерації коду та глибокого аналізу. Згідно з технічним звітом, DeepSeek вже почав оцінювати можливості V4 у реальних задачах, порівнюючи їх із Claude.


“Ціновий різник” — що стоїть за цим?

Як DeepSeek зумів знизити ціну?

Традиційний механізм уваги при обробці довгих текстів має квадратичну складність: обчислювальна навантаженість для 1 мільйона токенів — у 64 рази більша за 128К. Це причина, чому “контекст до мільйона” раніше був малореалістичним для комерційного застосування: пам’ять KV кешу зростає лінійно з довжиною послідовності, і для 1М потрібно або зменшувати паралельність, або масштабувати машини у кілька разів, що не вигідно.

Саме тому закордонні компанії зазвичай застосовують “короткий стандартний вікно, довше — з додатковою платою”: Anthropic навіть зробили окрему цінову категорію для понад 200К токенів, подвоївши ціну.

Діаграма: CSA (стиснене розріджене увагу) у DeepSeek V4 — шляхом попереднього стиснення KV кешу та вибору Top-k ключових контекстів, обчислює лише найважливішу інформацію, значно зменшуючи обчислювальні витрати у довгих текстах.

Просте пояснення V4 — це поєднання “стиснення” та “розрідженого” уваги. Спершу, кожні m токенів KV кешу стискаються у один стиснений запис (CSA — коефіцієнт стиснення 4, HCA — 128), потім кожен запит фокусується лише на top-k ключових записах. Це дозволяє зменшити пам’ять і обчислювальні ресурси одночасно.

Діаграма: HCA (повторне стиснення уваги) — шляхом максимальної компресії KV кешу довших послідовностей у кілька представлень, зберігаючи локальні вікна, і одночасно зменшуючи обчислювальні витрати — ключовий шлях зниження вартості для контексту до мільйона.

Згідно з технічним звітом, при контексті у 1М токенів, FLOPs для V4-Pro — лише 27% від V3.2, а пам’ять KV — 10%; для V4-Flash — ще більш агресивно: FLOPs — 10%, KV — 7%. В поєднанні з кількома технічними оптимізаціями (FP4-квантування, Muon-оптимізатор, власний Mega-kernel MegaMoE) — вартість знизилася у всьому ланцюжку від тренування до обчислень.

Низька ціна — природний результат архітектурних рішень. Один із ключових співробітників внутрішньої команди в Китаї сказав Tencent Tech: “Ціноутворення API для китайських великих моделей (і їхніх власних) здебільшого залежить від витрат. Ще жодна компанія не працює без урахування витрат, щоб “змагатися” у ціні. Тому технологічна перевага у зниженні витрат — дуже важлива”.

Головний технічний директор Alibaba Cloud, Чжоу Цзінжень, також підкреслював: “Кожне зниження ціни — це дуже серйозний процес, що вимагає врахування розвитку галузі, зворотного зв’язку розробників і бізнес-клієнтів. Це не просто цінова війна”.


Чому це “зниження цін” — таке важливе?

З точки зору попиту, зараз більш актуально знизити системно ціну. У звіті Deloitte про Token Economics наведено приклад AT&T: після впровадження агентної системи, щоденне споживання токенів зросло з 8 до 27 мільярдів. Аналіз Stevens Institute показує, що у багатократних діалогах існує “квадратичний” приріст токенів: на 10-й раунд кількість токенів може бути у 7 разів більшою за перший.

Ціна моделі визначає, чи зможе агент працювати у комерційних масштабах.

Журнал CIO три тижні тому цитував CEO компанії Addo AI Аєшу Ханну: “Якщо запускати постійний агент із сучасними API моделями, з високим споживанням токенів, довгим контекстом, багатоступеневим мисленням і повторним виведенням — економічна ефективність швидко погіршується. У деяких випадках, вартість одного завдання стає більшою, ніж наймання людини для цієї роботи”. Це — найреальніший бар’єр для комерціалізації агентів: технології працюють, але рахунки — ні.

Поглядаючи на кілька дій V4, майже всі вони спрямовані на подолання цього бар’єра: зробити контекст до мільйона токенів стандартною функцією, знизити ціну кешування до мінімуму, враховуючи повторне використання системних підказок. У технічному звіті також зазначено, що V4 зберігає весь reasoning content у сценаріях з інструментами (у V3.2 — відкидався на початку кожного нового повідомлення), що важливо для багатократних викликів.


Чи зможе V4 знизити витрати всього агентного AI?

Головне питання — чи зможе V4 знизити системну ціну всього агентного AI? Це — набагато складніше.

По-перше, якщо інші виробники підуть у такому ж напрямку і знизять ціни, то загальна крива витрат знизиться. Але, як показано вище, ціна моделей визначається структурою витрат, і короткостроково виробники не мають значних можливостей зменшити маржу.

По-друге, постачання високопродуктивних обчислювальних ресурсів. Як зазначено у технічному звіті, наразі DeepSeek V4-Pro має обмежену пропускну здатність. Чи зможе вона стабільно постачатися, залежить від швидкості розгортання китайських серверів на базі昇腾950 та інших платформ, а також від внутрішніх інженерних рішень DeepSeek.

У технічному розділі 3.1 зазначено, що DeepSeek протестував на платформах NVIDIA GPU та Huawei Ascend NPU, що вперше у світі одночасно підтверджує сумісність із обома. Це — спроба відірвати обчислювальний шлях від залежності від однієї апаратної платформи. Якщо ця стратегія виявиться ефективною, це матиме довгострокове значення для внутрішнього ринку.

По-третє, чи можна ще оптимізувати структуру токенів у сценаріях агентів. Зараз, багато токенів витрачається даремно через архітектуру агентів. Зниження цін — це добре, але поганий дизайн агентів може знову зробити рахунки неконтрольованими. Це — причина популярності систем Harness.

DeepSeek V4 справді знизив ціну, зробив контекст до мільйона токенів стандартною функцією, а ціна за вихід — нижче одного долара за мільйон токенів, і все це — на основі архітектурних рішень, без додаткових субсидій.

Але, щоб знизити системну ціну всього галузі, потрібно враховувати складність системних взаємозв’язків.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити