От коллективного снижения цен до коллективного повышения цен: почему «экономика токенов» за два года изменила направление ветра

Как применение AI·агентов вызывает взрывной рост спроса на Token?

Token — это «новая валюта» эпохи AI. В 2024 году начинается ценовая война в AI, Token оценивается в «цзяни»; к 2026 году спрос на вычислительные мощности взрывается, и производители моделей и облачные провайдеры коллективно повышают цены на Token.

За последние два года индустрия больших моделей пережила резкий переход от ценовой войны к борьбе за ценность, и ценность Token переосмысливается заново. Помимо зарплат, премий, долей в акциях, Token даже стал новым козырем в переговорах о зарплате инженеров Кремниевой долины. Эко-система и борьба за ресурсы, связанные с Token, уже начались.

От волны снижения цен к волне повышения цен

К 2026 году производители моделей и облачные провайдеры коллективно повышают цены на Token. В этом году, компания Zhipu уже дважды объявляла о повышении цен. 16 марта Zhipu выпустила базовую модель GLM-5-Turbo, оптимизированную для сценариев OpenClaw, цена API увеличена на 20%. В пакете «Лобстер» для частных и корпоративных клиентов, месячный абонемент стоит 39 юаней/мес., включает 35 миллионов Token, а продвинутый месячный абонемент — 99 юаней/мес., включает 100 миллионов Token. В феврале Zhipu объявила о корректировке цен на Coding Plan: «Из-за устойчивого роста спроса на рынок GLM Coding Plan, быстрого увеличения числа пользователей и вызовов», было решено отменить скидки для новых пользователей, оставить скидки при сезонной и годовой подписке, и цены в целом выросли минимум на 30%.

Помимо производителей моделей, облачные провайдеры тоже повышают цены. В связи с популярностью подписки Coding Plan, API вызовы моделей Alibaba Cloud резко выросли, 4 марта объявлено о временном ограничении скидок для новых покупателей, поставки ограничены по времени и количеству, пока не закончатся. 18 марта Alibaba Cloud заявила, что из-за глобального спроса на AI и роста стоимости цепочек поставок, значительно выросли затраты на закупку ключевого оборудования, и с 18 апреля цены на услуги AI-вычислений, CPFS (интеллектуальные вычисления) и другие будут скорректированы. Цены на карты вычислительных мощностей, такие как Pengtougexin Wu 810E, выросли на 5%-34%, а CPFS (интеллектуальные вычисления) — на 30%.

Baidu Cloud также объявила, что с 18 апреля цены на продукты и услуги, связанные с AI-вычислениями, увеличатся примерно на 5%-30%, а такие услуги, как параллельное файловое хранилище, — примерно на 30%. Tencent Cloud с 13 марта завершила публичное тестирование моделей GLM 5, MiniMax 2.5, Kimi 2.5 и перешла к коммерческому использованию, оплата по вызову модели. Цены на модели серии Hun Yuan также скорректированы: цена входных данных модели Tencent HY2.0 Instruct выросла с 0.0008 юаня/тысячу токенов до 0.004505 юаня/тысячу токенов, а цена вывода — с 0.002 юаня/тысячу токенов до 0.01113 юаня/тысячу токенов.

Однако, всего два года назад, память о «волне снижения цен на Token» еще свежа.

В 2024 году, в «битве сотен моделей», тогдашняя индустрия больших моделей находилась в разгаре ценовой войны, облачные провайдеры и производители моделей конкурировали, снижая цены и раздавая Token.

В мае того года ByteDance запустила ценовую войну, предложив цену 0.0008 юаня за тысячу токенов, затем Alibaba Cloud последовала, объявив о снижении стоимости на 97% для модели Tongyi Qianwen, а основные модели уровня GPT-4, такие как Qwen-Long, снизили цену входных данных с 0.02 юаня до 0.0005 юаня за тысячу токенов. В то же время, новые зарегистрированные пользователи Zhipu получали бонусы в размере 5 миллионов Token, увеличенные до 25 миллионов Token.

DeepSeek, обучающаяся на меньших затратах, раскрыла в марте прошлого года ключевую информацию о своей системе V3/R1 для inference, показывая, что при оптимизации пропускной способности и задержки, стоимость и прибыльность при ценах DeepSeek-R1 достигают 545%.

Технологии — основа снижения цен на модели. Президент облачной платформы Volcano Engine, Tan Dai, заявил в 2024 году, что снижение цен основано на уверенности в снижении затрат с помощью технологий, и рынок нуждается в более дешевом большом модели.

«Два года назад спрос на вычислительные мощности был в основном у предприятий, а сейчас — у частных лиц, что стимулирует бизнес-модели AI-стартапов и крупных компаний к увеличению потребления Token», — говорит Тян Фэн, директор Института быстрого мышления и бывший основатель Института искусственного интеллекта SenseTime.

За последние два года модели быстро развиваются, применение интеллектуальных агентов значительно выросло, что ведет к постоянному росту спроса на вычислительные ресурсы. Высокая цена на GPU для inference ограничена, а затраты на память и инфраструктуру заметно выросли. Генеральный директор Navica, аналитической, консультационной и инвестиционной компании в области технологий Кремниевой долины, Bernard Golden, отметил, что вся индустрия безумно ищет больше вычислительных мощностей.

Несбалансированность спроса и предложения делает повышение цен неизбежным.

«Более умная модель выполняет более сложные задачи, и ресурсы для этого расходуются колоссальные», — заявил недавно CEO Zhipu, Zhang Peng. Он отметил, что выполнение задач агентами требует более длинных цепочек мышления и рассуждений, взаимодействия с инфраструктурой через написание кода, постоянной отладки и исправления ошибок, а объем Token, необходимый для выполнения задачи, в 10-100 раз превышает объем для простого вопроса. В основе повышения цен — изменение затрат: «Модель стала больше, мощнее, и соответствующие услуги тоже подорожали, поэтому мы хотим постепенно вернуть их к нормальному коммерческому уровню. Долгосрочная зависимость от низких цен вредна для отрасли».

Двухлетний рост вызова Token в тысячу раз

За последние два года поставщики программного обеспечения интегрировали возможности генерации текста, изображений и голоса в платформы обслуживания клиентов, маркетинговые материалы, роботов и другие продукты через стандартизированные API. Пользователи компаний вызывают модели по API, платя за вызовы или по подписке, что снижает порог входа и начальные инвестиции. Стоимость одной H100 GPU — около 25 000 долларов, а в системе используется несколько таких GPU, что увеличивает затраты.

Такая модель позволяет моделям быстро достигать огромной аудитории, и вызовы Token резко растут. Глава Национального бюро данных Liu Liehong недавно сообщил, что к концу 2025 года в Китае создано более 100 тысяч высококачественных датасетов. К марту этого года, ежедневный объем вызовов Token в Китае превысил 140 триллионов, что в 1000 раз больше, чем в начале 2024 года, а за три месяца — еще на 40% больше по сравнению с концом 2025 года.

Тян Фэн отметил, что в 2024 году потребность в вычислительных мощностях для обучения превысила 50%, а к 2025 году ситуация полностью изменилась. Если два года назад шла «битва сотен моделей», то сейчас — «битва сотен лобстеров».

Резкий рост потребности в inference и глубокая привязка к расходам Token — это самые крупные и быстрорастущие сценарии вычислений. Постоянное повышение производительности моделей ведет к росту расхода Token, а широкое внедрение AI-программирования, таких как «Лобстер» (OpenClaw), вызывает взрыв спроса на Token. OpenClaw называют «черной дырой для Token». Для компаний и частных лиц, использующих Лобстера, Token — это главный барьер затрат.

Тян Фэн отметил, что автоматическое выполнение задач агентами требует в 4-15 раз больше Token, чем традиционные вопросы и ответы. AI-предприниматель Лу Сюань использует OpenClaw для сложных исследований, расходуя миллионы или даже больше Token. Чтобы найти более дешевый Token, он регистрируется у новых облачных или модельных провайдеров, получая бесплатные Token, но все равно жалуется: «Token слишком дорогой».

Расходы на программирование, чат и офисные задачи измеряются Token. В более широком смысле, генерация изображений по количеству изображений, видео по времени и разрешению также требует больших ресурсов. Например, закрытие сервиса видео Sora от OpenAI — пример. Для работы видео-генерации нужны огромные вычислительные ресурсы и электроэнергия, что — для любой компании — огромные затраты, а закрытие Sora освобождает много ресурсов.

Рост спроса на вычислительные мощности стимулирует не только рост GPU, но и всех связанных аппаратных компонентов, что становится ограничивающим фактором.

«В том числе охлаждение, освещение, электропитание серверов — около 60% стоимости дата-центров. Сейчас цены на нефть, природный газ и другие энергоносители растут, а память находится в цикле повышения цен на 5 лет», — говорит Тян Фэн. Энергетические и аппаратные затраты поднимают цены на вычислительные мощности.

Глава Cisco в Китае и Гонконге, Хуан Чжимин, сообщил «Пэнпай Тек», что в краткосрочной перспективе инвестиции в оборудование и строительство новых дата-центров не могут быть завершены за месяц или два, и спрос и предложение будут колебаться еще какое-то время. Вице-президент Cisco в Китае и Гонконге, Hou Shengli, добавил, что для увеличения мощностей потребуется около двух лет, «перестройка памяти и расширение производственных линий — не так быстро. До конца 2027 года ситуация не улучшится, строительство новых фабрик и линий — не быстрый процесс». Однако Хуан Чжимин считает, что с расширением аудитории и распространением приложений, затраты постепенно станут более доступными и дешевыми.

Основатель облачного провайдера PiaoYun, Yao Xin, отметил, что сегодня ограничения AI и вычислительных мощностей связаны не с передовыми чипами, а с обычными IT-технологиями и традиционными компонентами. За последние десять лет цепочка поставок памяти, жестких дисков и коммутаторов росла в соответствии с ростом глобального ВВП, и стабильный спрос определял умеренные темпы расширения мощностей. Но взрывной рост AI разрушил этот баланс. Рост поставок GPU и сопутствующих компонентов в условиях «точечного» спроса не успевает за потребностями. «Производство высокопроизводительных чипов увеличилось, но остальные компоненты — нет. Все участники рынка пострадали, и теперь все — память, жесткие диски и другие компоненты — расширяют производство».

Через смену спроса и предложения, рынок приходит к равновесию

«Сейчас Token дороже стажера, через три-пять лет он станет дешевле», — считает Тян Фэн. Он полагает, что в краткосрочной перспективе рост цен на вычислительные мощности вызван несбалансированностью спроса и предложения. Но с точки зрения полупроводникового цикла, у производственной индустрии есть циклы расширения и сокращения. После расширения новых мощностей, рынок переизбытка приводит к снижению цен и даже к избыточным мощностям. В энергетике, Китай продвигает переход на новые источники энергии, что может снизить затраты на энергию. В среднем цены на базовые модели зависят от их возможностей — каждые три месяца выходят новые версии, решающие ранее нерешенные задачи и создающие новые потребности, что поднимает цены на вычислительные мощности; в долгосрочной перспективе — развитие рассуждательных способностей моделей, что ведет к постоянному снижению стоимости вычислений.

За два года спрос и предложение сменяли друг друга. Тян Фэн отметил, что DeepSeek — это пик снижения затрат на инновационном уровне, а «Лобстер» — это взрыв производительности, создающий пик спроса. «Но это не значит, что при взрыве спроса снижаются издержки inference, — говорит он. — Скорость снижения стоимости inference и вычислений примерно совпадает, и через 3-5 лет общие затраты на вычислительные мощности и Token значительно снизятся».

Yao Xin добавил, что AI вошел в «точку сингулярности», и в ближайшие один-два года ожидается десятикратный и сотикратный рост. Все отрасли, не подготовленные к такому росту, столкнутся с дефицитом. Но, как рябь на воде, рост постепенно уляжется и придет к равновесию.

Рост цен на Token — это не только бизнес-логика, но и изменение самой экономики. Генеральный директор Nvidia, Jensen Huang, неоднократно говорил о структуре AI «пяти слоев»: энергия, чипы, инфраструктура, модели и приложения, причем на верхнем уровне — самые большие экономические выгоды.

«Современный AI похож на интернет 2000-х годов: тогда тоже было неясно, что именно можно делать, но миллионы людей создавали сайты», — говорит Хуан. «С развитием приложений и инноваций, к 2005-2006 годам появилось все больше сценариев ‘интернет+’, и услуги начали объединяться. Перспективы AI тоже очень хорошие, и 2026 год, как предполагается, станет годом интеллектуальных агентов, — прогнозирует он. — В этом году появится множество новых приложений».

Эти агенты уже внедряются в смартфоны, компьютеры и даже производственные линии. «Потребность каждого в повышении производительности с помощью AI почти безгранична, единственный лимит — цена. Если цена растет, спрос падает; если падает — растет», — говорит Тян Фэн. Даже сейчас крупные компании не одинаково повышают цены. «Они повышают цены для B2B (бизнеса), а для потребителей используют бесплатные пробные версии или раздачу Token, чтобы захватить рынок C2C», — признается он. Он сравнил текущую ситуацию с ранним интернетом: крупные компании борются за пользователей, но еще важнее — за разработчиков.

Ранее разработчики — это глобальные программисты, а теперь — множество неспециалистов, владеющих навыками Vibe Coding (кодирование в атмосфере). Они и потребители, и создатели кода. Когда крупные компании удерживают разработчиков, их разработки остаются на их облаках.

Крупные интернет-компании предоставляют сотрудникам Token для стимулирования использования AI. По данным «Интерфакс», Alibaba внедряет внутреннюю программу, по которой сотрудникам предоставляются Token для использования передовых моделей и инструментов AI. Сотрудники могут бесплатно пользоваться платными AI-инструментами, такими как платформы Goku и Qoder, для разработки и офисных задач, а компания компенсирует расходы на покупку подписок или внешних инструментов.

Использование AI для повышения эффективности не ограничивается программированием — оно распространяется на создание контента и профессиональные задачи. MiniMax даже обновила свой план Token, чтобы поддерживать модели MiniMax с мультимодальными возможностями, чтобы воспользоваться спросом на Token.

«Честно говоря, у моделей пока нет очень сильных потребностей, — говорит Тян Фэн. — Поэтому большинство используют модель по месячной подписке. Token привлекает внимание, потому что показатели роста пользователей и среднее потребление Token прямо влияют на доходы». Это создает сильную привязку пользователей: если продукт хорош, даже при высокой цене они готовы платить за лучший опыт. Более того, за те же 5 миллионов Token можно продать за 22 или 400 юаней, и цена напрямую связана с возможностями модели и агента. Тян Фэн считает, что по сути, Token — это еще один нераскрытый золотой рудник.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить