Когда дедукция становится дефицитным ресурсом, кто захватывает ценность

null

Автор оригинала: Frank Fu

Источник оригинала: IOSG Ventures

Тот пробел, предложенный David Cahn в 2023 году, так и не был заполнен со стороны обучения. Он был заполнен со стороны inference (вывод), и только в последние несколько недель рынок начал учитывать его в ценообразовании. Когда Nvidia пересмотрела свои финансовые показатели вокруг «токена сервиса», а Cerebras вышла на IPO с более чем 20-кратным спросом, борьба за узкое место уже завершилась, и настоящая проблема стала следующей: когда inference станет дефицитным ресурсом, в каком слое вычислительной цепочки сосредоточится его ценность.

Следуя за GPU: от проблемы в 200 миллиардов долларов к проблеме в 600 миллиардов долларов

В 2023 году David Cahn из Sequoia поднял вопрос, нависающий над всей строительством ИИ, — «проблему в 200 миллиардов долларов». Каждые потраченные 1 доллар на GPU требуют примерно еще 1 доллара на электропитание в дата-центре, поэтому ежегодные капитальные затраты на GPU означают, что эти чипы должны в конечном итоге приносить около 200 миллиардов долларов дохода, чтобы окупить вложения. Даже при очень щедрых предположениях о доходах от ИИ он обнаружил, что между «затратами» и «фактическими платежами конечных клиентов» существует пробел более 125 миллиардов долларов. Беспокойство очевидно: GPU строятся сверх необходимости, опережая спрос.

Через год разрыв не только не сократился, но и увеличился. В продолжении 2024 года, с ростом капитальных затрат крупнейших производителей, Cahn переопределил проблему как «600 миллиардов долларов». Скептическая логика сводится к знакомой форме: чрезмерное строительство приводит к избытку предложения, а избыток сжигает капитал.

Общая суть обеих статей — один и тот же вопрос: кто заполняет этот пробел? Ответ никогда не появлялся в «учетной книге» со стороны обучения. Он появляется со стороны inference, и только в последние недели рынок начал учитывать его в ценообразовании.

IPO Cerebras и давление на inference

Cerebras вышла на IPO в четверг. В этот раз спрос превысил предложение более чем в 20 раз, а цена оказалась почти вдвое выше итоговой цены в среду. Запросы не связаны с ставкой на «следующего Nvidia убийцу», а вызваны более простым фактом: рынок начал осознавать, что в ИИ настоящая узкая точка — inference, а не обучение.

Главное достоинство Cerebras — это архитектура чипа, которая обеспечивает очень быстрый inference. Не обучение, а inference. Именно это вызывает интерес у Уолл-стрит. Рынок inference — это постоянная потребность, она растет с увеличением использования. Каждый раз, когда Claude отвечает на вопрос, каждый раз, когда агент выполняет задачу, — это расход вычислительных ресурсов. Обучение происходит один раз, inference — никогда не прекращается.

J.P. Morgan оценивает рынок inference в 10–50 раз больше рынка обучения. Когда машины начинают выполнять задачи, поставленные другими машинами, то есть в агентной (интеллектуальной) экспансии, потребность в inference перестает расти с ростом числа пользователей и начинает расти с ростом вычислительной мощности.

Обновленная карта Nvidia: inference становится заголовком

Если Cerebras — это пробуждение рынка, то последний квартальный отчет Nvidia — подтверждение на уровне всей индустрии. На последнем звонке Jensen Huang ясно дал понять: спрос на AI растет по экспоненте. Причина проста: агентный AI уже наступил. Основной AI перешел от разового inference к логическому inference, а затем к стадии, когда он сам вызывает инструменты и управляет задачами. Huang заявил: «Tokens сейчас прибыльны». В эпоху AI вычислительная мощность — это доход и прибыль.

Это полностью меняет отрасль. Обучение — это разовые затраты на создание модели, а inference — постоянные операционные расходы. И сейчас узкое место — inference, а не обучение.

Nvidia включила это в свои финансовые показатели. Теперь она раскрывает их по двум платформам, а не одной: Data Center (данные центры) и Edge Computing (краевые вычисления). Данные центры (за квартал около 75 миллиардов долларов, рост +92%) делятся на Hyperscale (около 38 миллиардов долларов, рост +12%) и ACIE, то есть AI в облаке, промышленность и корпоративный сегмент (около 37 миллиардов долларов, рост +31%). Новая линия — Edge Computing: 6,4 миллиарда долларов, рост +29%, охватывающая агентный AI и физические устройства, такие как ПК, рабочие станции, базовые станции AI-RAN, роботы и автомобили.

На данный момент краевые вычисления занимают менее 8% общего дохода, но Nvidia уже подняла их до уровня «второй платформы» наряду с дата-центрами. Этот сигнал — inference разделяется на две линии: cloud inference (облачный inference) и endpoint inference (краевой inference), AI должен видеть, перемещать и действовать в физическом мире. Дорожная карта следует той же логике: начиная с третьего квартала поставки Vera Rubin, пропускная способность inference достигает 35-кратной у Blackwell; Huang также представил новую CPU Vera, ориентированную на агентные нагрузки, с TAM в 2000 миллиардов долларов. Каждая ведущая модельная компания планирует полностью перейти на нее в первый день.

Когда компания с самой высокой рыночной капитализацией вокруг «токена сервиса» перестраивает свои финансовые показатели, борьба за узкое место уже решена. Остальная часть статьи посвящена тому, кто будет захватывать ценность, когда inference (а не обучение) станет дефицитным ресурсом.

Для начала уточним диапазон. В этих двух линиях речь идет о cloud inference — предоставлении API токенов через арендованные GPU в дата-центрах. Endpoint inference работает внутри устройств на локальных чипах (Nvidia Jetson, RTX, Drive, AI-RAN), полностью исключая аренду и агрегирование GPU. Здесь, пожалуйста, воспринимайте это как усиление всей экономики inference и подтверждение теории узкого места, а не как рынок Hyperbolic и Venice, которые полностью сосредоточены в облаке.

Давление уже началось

Anthropic — это «канарейка» в шахте. Использование превышает запланированные мощности, жалобы на «отсечение мозга» Claude заполнили весь интернет — включая ограничения по скорости ответов, замедление inference, сжатие контекстных окон. Решение — чистая вычислительная мощность: в мае 2026 года Anthropic взяла под управление весь дата-центр Colossus 1 у SpaceX, более 220 тысяч GPU Nvidia, мощностью более 300 МВт, специально для inference, а не обучения.

Эта часть мощности вызвала серию изменений лимитов, каждое из которых — сигнал. 6 мая Anthropic удвоила лимит на Claude Code за пять часов, отменив пиковое ограничение, и значительно повысила скорость API Opus. 13 мая лимит на Claude Code увеличился еще на 50% (до 13 июля). Затем, начиная с 15 июня, они сделали противоположное: отделили агентный и программируемый режимы (Agent SDK, headless mode claude -p, CI pipelines) в отдельный счетчик кредитов (от 20 до 200 долларов в месяц, по API-цене). Последний шаг — это сжатие всей логики в один акт: скорость потребления inference агентами превышает возможности плоских подписок, поэтому их нужно оценивать по «постоянным» издержкам.

Обучение — это разовые капитальные затраты. Inference — это постоянные операционные расходы, которые растут с каждым новым пользователем и каждым новым агентом, — эффект сложного процента.

Эта структура: шесть уровней, один узкий проход

Каждое AI-приложение расположено в цепочке поставок, начинающейся с TSMC и заканчивающейся API-крайними точками:

Большинство компаний владеют только одним уровнем. Nvidia — чипами, CoreWeave — голым металлом, Together AI — оптимизацией inference, OpenRouter — маршрутизацией моделей API.

И только одна компания — исключение.

Hyperbolic: единственная компания, охватывающая три уровня

Hyperbolic запустила в июне 2025 года рынок GPU по требованию. За первые несколько месяцев число разработчиков превысило 200 тысяч, охватывая передовые лаборатории AI, поисковые системы и крупные потребительские платформы.

Интересна его архитектура.

Hyperbolic не владеет собственными GPU. Каждая карта поступает от neocloud и дата-центров, таких как CoreWeave, Lambda Labs, Nebius, а также от меньших операторов с избыточной мощностью. Это кажется слабостью, но на самом деле — это защита.

Позиционируясь между поставщиками GPU и их потребителями, Hyperbolic видит данные в реальном времени, которых не видят другие. Он знает, кто, когда и по какой цене покупает GPU. Он видит это еще до того, как рынок переизбытка станет очевиден, и до того, как спрос взорвется.

Сейчас его конкурентное преимущество — это эта мультиоблачная агрегация. Hyperbolic объединяет фрагментированные мощности десятков облаков и дата-центров в один стандартизированный пул, позволяя разработчикам арендовать самые дешевые GPU без переговоров с каждым оператором и без управления множеством аккаунтов. Чем больше облаков подключено, тем глубже ликвидность и богаче ценовые данные. В будущем команда планирует использовать эти данные для моделирования кривых цен GPU и, в конечном итоге, инвестировать собственный капитал для сглаживания спроса и предложения, выступая в роли маркет-мейкера физической вычислительной мощности; однако эта цель пока находится на ранней стадии, а на текущем этапе важна именно сама агрегирующая платформа.

Это — принцип вращающегося колеса:

Подключение большего числа облаков → больше агрегированной мощности

Больше мощности → более глубокий рынок и актуальные цены

Лучшие данные → более умные маршруты сейчас, а в будущем — модели ценообразования

Лучшие ликвидность и цены → больше разработчиков → больше облаков для подключения

Других компаний, пытающихся реализовать это, нет. Hyperbolic — единственная, которая одновременно охватывает уровни аренды GPU, развертывания и API моделей.

Зеркало Venice

Venice — это наиболее ясное проявление экономики inference на уровне приложений и полезный контраст с Hyperbolic. Это приватное приложение inference: API, совместимый с OpenAI, и подписки для потребителей (Free / Pro / Pro+ / Max), маршрутизирующие запросы к примерно 75 моделям, из которых около двух третей — открытые или самоуправляемые (Llama, Mistral, Qwen, DeepSeek), остальные — анонимный транзит закрытых моделей. Главное — Venice сама не обладает значительной вычислительной мощностью. Она арендует ее у недоступных публичных GPU-партнеров и поставщиков конфиденциальных вычислений (NEAR AI Cloud, Phala), платит за доступ к передовым лабораториям, а ее реальный «cost of revenue» — inference-вычислительная мощность, а не SaaS-хостинг.

Главный продукт Venice — это приватность. Под «приватностью» здесь понимается не превращение публичных ресурсов в частные, а обеспечение гарантии для коммерческого inference: не сохранять данные, не использовать их для обучения, а делать запросы анонимными, часть нагрузки работает внутри TEE, чтобы даже операторы не могли видеть открытый текст. Базовая вычислительная мощность — это массовый товар, а цена — за слой приватности. И эта гарантия — многоуровневая и неоднородная: для моделей с открытым исходным кодом, работающих на собственных или TEE GPU, можно добиться почти полного конфиденциального вычисления; для закрытых моделей вроде Claude или GPT — анонимный транзит, где приватность — это лишь удаление идентификации, а исходный prompt все равно обрабатывается на стороне передовых лабораторий. Поэтому самая сильная приватность — у открытых моделей, а у закрытых — только анонимность, а не «настоящая конфиденциальность». Маржа Venice — это разница между ценой подписки и затратами на inference, и та часть, которую она может дополнительно взимать сверх API — почти вся обеспечивается этой слоем приватности, что объясняет ее низкую прибыльность и зависимость от цен на передовые модели.

Дизайн токенов включает в себя упаковку этой части inference-запросов. Venice работает с двумя токенами: VVV (залоги и вход в платформу) и DIEM, который представляет собой кредит на inference, примерно равный 1 доллару в день за вычислительную мощность. Оплачиваемая подписка вызывает программное выкупление и уничтожение VVV (Pro / Pro+ / Max — примерно 2 / 5 / 10 долларов), а эмиссия происходит по фиксированному графику: 6 миллионов в месяц → 5 миллионов → 4 миллиона VVV, а с 1 июля — до 3 миллионов. Выкуп — реальная операция, но она произвольна и относительно небольшая: в апреле и мае было уничтожено около 103 тысяч долларов, в июне — медленно приближается к 110 тысячам, значительно ниже 200 тысяч долларов в месяц.

Фундаментальнее, чем заголовки. Общедоступная цифра «7 миллионов долларов ARR» почти наверняка — это ошибка, приписывающая подписочные платежи новым клиентам, а не чистому приросту. Более реалистичный диапазон — около 6–15 миллионов долларов ARR. В этом диапазоне — реальный бизнес: около 136 тысяч держателей токенов, около 9,9 миллионов посещений сайта в месяц (примерно 330 тысяч в день), прирост подписок Pro — около 1400 в день. Это реальный бизнес, но с низкой маржой, и его экономика зависит от приобретенной вычислительной мощности.

Именно поэтому Hyperbolic находится на следующем уровне. Если Venice — это заправка, то Hyperbolic — это нефтеперерабатывающий завод. Venice покупает вычислительную мощность у общего ограниченного поставщика; Hyperbolic агрегирует и стандартизирует эту фрагментированную мощность и продает ее Venice и другим игрокам. По мере роста спроса на inference ценность не только накапливается в приложениях, использующих вычислительную мощность, но и в агрегировании и маршрутизации этой мощности, а также в захвате части стоимости доходов этих приложений.

Почему это важно именно сейчас

Nvidia пересмотрела свои финансы вокруг «токена сервиса». IPO Cerebras подтвердило, что inference — это узкое место. Anthropic борется за мощность, что подтверждает реальность проблемы. агентный и физический AI увеличат спрос в несколько раз, охватывая облачные и краевые линии.

И это также закрывает «проблему в 600 миллиардов долларов». Скептическая логика Cahn — чрезмерное строительство и избыток — вероятно, подтвердится. Но избыток — это и есть лучший сценарий для легких активов: когда цены на GPU падают, а предложение фрагментировано по множеству облаков, тот, кто не владеет аппаратным обеспечением и маршрутизирует работу на самые дешевые карты, зарабатывает на разнице цен, а операторы с устаревшими GPU несут убытки. Hyperbolic — это ставка на избыток, а не на его дефицит.

В конечном итоге победит та компания, которая сможет показывать, где и по какой цене доступны GPU, и сможет маршрутизировать каждую задачу туда, где она обойдется дешевле всего.

Hyperbolic создает именно такую компанию. Не владея GPU, полностью программно, на трех уровнях, — она формирует конечную агрегирующую платформу для inference.

VVV-7,29%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено