Від колективного зниження цін до колективного підвищення — чому «економіка токенів» за два роки зазнала кардинальної зміни курсу

Як застосунок AI·агента викликає бурхливий попит на Token?

Token — це «нові гроші» епохи штучного інтелекту. У 2024 році починається цінова війна в AI, Token оцінюється в «центах»; у 2026 році попит на обчислювальні потужності вибухне, і виробники моделей та хмарні провайдери колективно підвищать ціни на Token.

За останні два роки галузь великих моделей зазнала різкого переходу від цінової війни до боротьби за цінність, і цінність Token переосмислюється. Крім зарплат, премій і частки у капіталі, Token навіть став новим важелем переговорів щодо зарплат інженерів у Кремнієвій долині. Екосистема навколо Token і боротьба за ресурси вже розпочалися.

Від цінового спаду до підвищення цін

У 2026 році виробники моделей і хмарні провайдери колективно підвищать ціни на Token. Цього року вже двічі були оприлюднені повідомлення про підвищення цін. 16 березня компанія Zhipu випустила базову модель GLM-5-Turbo, оптимізовану для глибокого сценарію OpenClaw, ціна API підвищена на 20%. У пакеті «Лобстер» для приватних та корпоративних користувачів місячна карта коштує 39 юанів/місяць, з 35 мільйонами Token, а просунута місячна карта — 99 юанів/місяць, з 100 мільйонами Token. У лютому Zhipu оголосила про зміну цін на Coding Plan, «оскільки попит на ринку GLM Coding Plan стабільно зростає, кількість користувачів і обсяг викликів швидко зростають», — було вирішено скасувати першу знижку для нових покупців, залишивши знижки за підпискою на квартал або рік, а загальний рівень цін підвищився від 30%.

Крім виробників моделей, і хмарні провайдери також підвищують ціни. Через популярність підписки Coding Plan, API виклики моделей Alibaba Cloud різко зросли, 4 березня було оголошено про тимчасове обмеження першої знижки, обмежену кількість пропозицій щодня, продаж закінчиться, коли товар закінчиться. 18 березня Alibaba Cloud повідомила, що через бурхливий попит на AI у світі, зростання цін на ланцюжку поставок і значне зростання витрат на закупівлю основного обладнання галузі, з 18 квітня ціни на обчислювальні ресурси AI, CPFS (інтелектуальні обчислювальні версії) та інші послуги будуть переглянуті. Послуги з обчислювальної потужності, такі як картки Pengtoug Zhenwu 810E, зросли на 5-34%, а CPFS (інтелектуальна версія) — на 30%.

Бірюзовий хмарний сервіс Baidu також оголосив, що з 18 квітня ціни на продукти, пов’язані з AI, зростуть приблизно на 5-30%, а паралельне збереження файлів та інші послуги — приблизно на 30%. Tencent Cloud з 13 березня повідомила, що моделі GLM 5, MiniMax 2.5, Kimi 2.5 завершили публічне тестування і перейшли до комерційного використання, оплата за виклики моделей тепер залежить від обсягу. Ціни на моделі серії Hunyuan також були скориговані: ціна за вхідні дані для моделі Tencent HY2.0 Instruct зросла з 0,0008 юанів/тисячу токенів до 0,004505 юанів/тисячу токенів, а ціна за вихід — з 0,002 юанів/тисячу токенів до 0,01113 юанів/тисячу токенів.

Однак ще два роки тому пам’ятною залишалася «цінова хвиля зниження» Token.

У 2024 році у «битві сотні моделей» галузь великих моделей ще перебувала у гострій ціновій війні, хмарні провайдери і виробники моделей знижували ціни і дарували Token.

У травні того року ByteDance почала цінову війну з ціною 0,0008 юанів за тисячу токенів, а потім Alibaba Cloud підхопила, оголосивши зниження ціни на Tongyi Qianwen до 97%, тоді як основна модель Tongyi Qianwen GPT-4 рівня Qwen-Long для входу знизила ціну з 0,02 юанів до 0,0005 юанів за тисячу токенів. Водночас, нові користувачі Zhipu отримували бонус у 5 мільйонів Token, що зросло до 25 мільйонів Token.

DeepSeek, що навчає високопродуктивні великі моделі за низькою ціною, у березні минулого року розкрив ключову інформацію про свою систему виведення V3/R1, показавши, що за рахунок оптимізації пропускної здатності і затримки, при ціновій моделі DeepSeek-R1, витрати і прибутковість можуть досягати 545%.

Технології — це основа зниження цін моделей. Тандем Тань Дай, президента Volcano Engine, підрозділу ByteDance, у 2024 році зазначив, що зниження цін базується на впевненості у здатності знизити витрати за допомогою технологій, і ринок потребує більш дешевих великих моделей.

«У перші два роки попит на обчислювальні ресурси був здебільшого у підприємств, тепер — у приватних осіб, що сприяє комерціалізації AI-стартапів і великих компаній через споживання Token», — сказав Тян Фенг, директор Інституту швидкого мислення та колишній засновник Інституту розумних технологій SenseTime.

За останні два роки швидко розвивалися моделі, зростала кількість застосувань агентів, що спричинило постійне зростання попиту на обчислювальні ресурси. Високоефективні карти для виведення з обмеженою ціною мають обмежену потужність, а витрати на пам’ять і іншу ключову апаратуру значно зросли. За словами керівника Navica, компанії, що займаються аналізом, консультаціями та інвестиціями у Кремнієвій долині, Бернарда Голдена, вся галузь шалено шукає додаткові обчислювальні ресурси.

У разі дисбалансу попиту і пропозиції підвищення цін є неминучим.

«Більш розумна модель виконує складніші завдання і споживає значно більше ресурсів», — заявив CEO Zhipu, Цзян Пень, у відповідь на стратегію підвищення цін. За його словами, виконання завдань агентами вимагає довгих ланцюгів мислення і логіки, а також взаємодії з базовою інфраструктурою через написання коду, постійного налагодження і корекції помилок. Щоб відповісти на просте питання, потрібно в рази більше Token, ніж для складнішого. Суть у тому, що ціна змінюється через зміну витрат: «Моделі стали більшими і потужнішими, відповідно, і вартість сервісів зросла, тому ми прагнемо повернути їх до нормального комерційного рівня. Постійна низька ціна не сприяє розвитку галузі».

Зростання викликів Token у два роки в тисячі разів

За останні два роки постачальники програмного забезпечення інтегрували можливості генерації тексту, зображень і голосу у платформи обслуговування клієнтів, маркетингові матеріали, роботів і т. ін., використовуючи стандартизовані API. Бізнес-клієнти викликають великі моделі через API, оплачуючи за кількістю викликів або за підпискою, що знижує бар’єри входу і початкові витрати. Адже вартість однієї H100 GPU — близько 25 000 доларів, а кілька таких карт у системі — ще дорожче.

Такий сервіс дозволяє швидко охопити мільйони користувачів, і виклики Token стрімко зростають. Глава Національної служби даних Лі Ліхун повідомив, що до кінця 2025 року в країні вже створено понад 100 тисяч високоякісних датасетів. До березня цього року середньодобовий обсяг викликів Token у Китаї перевищив 140 трильйонів, що у 1000 разів більше, ніж у 2024 році, і на 40% більше, ніж у кінці 2025 року за три місяці.

Тян Фенг зазначив, що у 2024 році попит на обчислювальні ресурси перевищить 50%, а до 2025 року ситуація повністю зміниться. Якщо два роки тому йшла «битва сотень моделей», то тепер — «битва сотень лобстерів».

Вибуховий попит на логіку і глибоке споживання Token у сервісах виведення і логіки — це найбільший і найшвидше зростаючий сценарій обчислювальних ресурсів. Постійне покращення характеристик моделей сприяє зростанню споживання Token, а широке застосування AI-програмування, «Лобстерів» (OpenClaw) і інших агентів викликає бурхливий попит. OpenClaw жартома називають «чорною дірою Token». Для компаній і приватних осіб Token — це найбільший бар’єр витрат.

Тян Фенг зазначив, що автоматичне виконання завдань агентами споживає у 4-15 разів більше Token, ніж традиційні питання-відповіді. Інвестор у AI Ло Сюань використовує OpenClaw для складних досліджень і витрачає мільйони або й більше Token. Щоб знайти дешевший Token, він реєструється у нових хмарних або модельних провайдерів і отримує безкоштовні Token, але все одно скаржиться: «Token занадто дорогий».

Обчислювальні ресурси для програмування, чатів, офісної роботи та інших задач вимірюються Token. З точки зору ширшого споживання обчислювальної потужності, генерація зображень за кількістю зображень, відео за тривалістю і роздільною здатністю також споживає багато ресурсів. Наприклад, закриття сервісу відео OpenAI Sora — це приклад. Запуск відео-генерації вимагає величезних обчислювальних ресурсів і електроенергії, що є великими витратами для будь-якої компанії, а закриття Sora звільняє багато обчислювальних ресурсів.

Попит на обчислювальні ресурси стимулює не лише зростання GPU, а й усіх суміжних компонентів, що стають обмежуючими факторами.

«Охолодження, освітлення, електропостачання серверів — близько 60% витрат дата-центру. Ціни на нафту, природний газ і інші енергоресурси зростають, а цикл зростання пам’яті триває п’ять років», — зазначив Тян Фенг. Вартість енергії і обладнання зростає.

Головний віце-президент Cisco і керівник у Китаї Хуан Чжімін повідомив, що короткостроково інвестиції у обладнання і будівництво заводів не можна завершити за один-два місяці, і попит і пропозиція залишаться нестабільними ще деякий час. Віце-президент Cisco у Китаї і головний технічний директор Хоу Шенлі додав, що для нарощування потужностей потрібно близько двох років, «коригування пам’яті і виробництва — щонайменше два роки, до кінця 2027 року ситуація не покращиться, відновлення заводів і розгортання виробничих ліній не відбудеться швидко». Однак Хуан Чжімін вважає, що з розширенням аудиторії і поширенням застосувань ціна поступово стане доступнішою і дешевшою.

Засновник компанії Piao Cloud, що надає хмарні обчислювальні послуги, Яо Сінь, зазначив, що сьогодні обмежуючими факторами для AI і обчислювальних ресурсів є не найсучасніші чіпи, а звичайні IT-технології і традиційні компоненти. За останні десять років індустрія пам’яті, дисків і комутаторів зростала у відповідності з глобальним ВВП, і стабільний попит визначав помірний темп розширення потужностей. Але вибуховий ріст AI порушив цю рівновагу. Випуск GPU різко зріс, і через «переломний» попит інші компоненти не встигли за ним. «Високопродуктивні чіпи виробляються, але інші — ні. Всі відчули це на собі, тому традиційні компоненти, такі як пам’ять і диски, почали активно розширювати виробництво».

Черговий підйом і стабілізація попиту

«Зараз Token дорожчий за стажиста, але через три-п’ять років він стане дешевшим», — вважає Тян Фенг. Він також переконаний, що короткостроково ціни на обчислювальні ресурси зростають через дисбаланс попиту і пропозиції. Але з точки зору циклу напівпровідників, виробництво має циклічний характер: після розширення виробництва нові потужності швидко виходять на ринок, і ціни знижуються або навіть виникає надлишок. З енергетикою ситуація у Китаї покращується завдяки переходу на нові джерела енергії, що може знизити витрати. У середньостроковій перспективі ціна залежить від здатності базових моделей підвищувати свої можливості — кожне нове оновлення кожні три місяці здатне задовольнити нові потреби і підвищити ціну обчислювальних ресурсів; у довгостроковій — від розвитку логіки і здатності до логічного виведення, що знизить вартість обчислень.

За два роки попит і пропозиція змінювалися по черзі. Тян Фенг зазначив, що DeepSeek — це вершина інновацій у зниженні витрат, а «Лобстери» — це вибух виробничої потужності, що формує попит. Але це не означає, що зниження витрат на логіку і виведення не відбувається під час буму попиту — швидкість зниження цін у цій сфері вища. За 3-5 років загальні витрати на обчислення і Token знизяться у рази.

Яо Сінь додав, що AI увійшло у «точку сингулярності»: «Наступні один-два роки — період швидкого зростання у десятки і сотні разів. У галузях, які не підготувалися до такого зростання, виникне дефіцит. Але, як і коливання води, це зростання з часом стабілізується».

Зростання цін на Token приховує зміну бізнес-логіки. Генеральний директор Nvidia, Хуанреньхун, неодноразово згадував структуру AI у «п’яти шарах»: енергетика, чіпи, інфраструктура, моделі і застосування, причому найвигідніший — верхній рівень застосувань.

«Поточний AI — це як інтернет у 2000 році: багато хто не розумів, що він може робити, але всі вкладали у створення сайтів», — сказав Хоу Шенлі. З розвитком застосувань і інновацій у 2005-2006 роках з’явилися нові сценарії «інтернет+», і послуги почали зливатися. Розвиток AI також має великі перспективи, і, як прогнозують, 2026 рік стане роком появи агентів-інтелекту. У цьому році з’явиться безліч нових застосувань агентів.

Ці застосування вже інтегруються у смартфони, комп’ютери і навіть виробничі лінії. «Потреба кожної людини у підвищенні продуктивності за допомогою AI — безмежна, єдина межа — ціна. Якщо ціна зростає, попит зменшується; якщо знижується — зростає», — сказав Тян Фенг. Навіть зараз великі компанії не однакові у підходах до підвищення цін. «Великі компанії підвищують ціни для B2B (бізнесу), а для споживачів застосовують безкоштовні пробні періоди або дарують Token, щоб захопити ринок C (споживачів)». Тян Фенг зізнався, що ситуація зараз схожа на ранні дні інтернету: головна мета — залучити користувачів, але ще важливіше — залучити розробників.

Раніше розробниками були програмісти у всьому світі, тепер — багато не технічних фахівців мають навички Vibe Coding (програмування у атмосфері). Вони — і споживачі, і творці коду. Великі компанії, контролюючи розробників, можуть тримати їхні результати у своїх хмарах.

Гіганти інтернету надають співробітникам Token для заохочення використання AI. За повідомленнями, Alibaba готує внутрішню програму, яка надає співробітникам Token для використання передових моделей і інструментів AI у роботі. Співробітники можуть безкоштовно користуватися платними інструментами, такими як Wukong, платформа для агентів і програмування Qoder, і отримувати Token у компанії. Вони можуть купити підписку на Coding Plan або зовнішні інструменти AI і отримати компенсацію.

Застосування AI для підвищення ефективності не обмежується програмуванням — воно поширюється і на контент-створення, і на професійний офіс. MiniMax навіть оновила свій план Coding Plan до Token Plan, що підтримує моделі MiniMax у всіх форматах, щоб скористатися можливостями Token.

«Чесно кажучи, у створенні моделей ще не знайдено багато реальних потреб, тому зазвичай застосовують місячну плату. Token привертає увагу, бо кількість користувачів і середній витрата Token безпосередньо впливають на доходи», — сказав Тян Фенг. Це створює сильну лояльність користувачів: якщо продукт зручний, навіть за вищою ціною, користувачі платитимуть за кращий досвід. Більше того, за 500 тисяч Token можна продати за 22 юані або за 400 юанів, і ця різниця залежить від базової моделі і можливостей агента. Тян Фенг підсумував, що по суті, за Token ховається ще не розроблений золотий рудник.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити