《НВИДИА остается только 48% доли, где находятся возможности эпохи инференса?》


Это девятая статья серии из 100 о AI инвестициях и исследованиях, объемом 20 тысяч слов, рекомендуется сначала сохранить, мало кто сможет полностью прочитать.
Ранее рассматривались Intel, AMD, ARM. Их акции за последний год выросли значительно — AMD удвоился, Intel утроился, ARM достиг исторического максимума. После роста возникает простой вопрос: можно ли еще держать эти акции? Есть ли шансы у тех, кто не вырос?
Чтобы ответить на этот вопрос, необходимо понять один ключевой термин — инференс. В анализе этих компаний, которые выросли, два слова постоянно повторяются.
Итак: насколько велик рынок инференса? На каком этапе сейчас? Какие компании выиграют? Какие уже оценены рынком, а какие еще нет?
Это то, что нужно понять в первую очередь.
一、Насколько велик рынок
Обучение моделей — это «написание программ», инференс — «процесс вызова этой программы ежедневно». После обучения GPT, миллиарды людей ежедневно задают ему вопросы, каждое взаимодействие расходует вычислительные ресурсы для инференса. Claude Code выполняет задачу, агент сам запускает 100 раундов, каждый — это инференс.
Много отраслевых исследований и СМИ указывают в одном направлении: после внедрения модели в производственную среду, инференс станет основной частью жизненного цикла, составляя 80-90% затрат. То есть, в будущем, в эпоху AI, счета за вычислительные ресурсы будут показывать, что 8 из 10 рублей тратятся на инференс.
Но за последние три года рынок обсуждал почти исключительно обучение, потому что обучение — более «завлекающая» история — кто больше H100, у кого больше параметров, кто раньше обучит следующую версию модели. Инференс воспринимается как сопутствующая послеобучающая задача.
Это искаженное восприятие постепенно меняется, и именно это стало основной причиной переоценки полупроводниковых компаний за последний год.
Но насколько велик рынок инференса? Можно оценить его по пяти аспектам.
Первое — число пользователей. ChatGPT активен 9 миллиардов раз в неделю, платных пользователей — 50 миллионов. В Китае ситуация еще ярче — среднесуточное использование токенов выросло с 100 миллиардов в начале 2024 года до 140 триллионов в 2026 году, что в 1400 раз больше. Этот показатель еще далек от насыщения.
Второе — интенсивность использования. Объем обработки токенов OpenAI в октябре 2025 года составлял 6 миллиардов в минуту, к апрелю 2026 года — 15 миллиардов, за полгода увеличившись в 2,5 раза. Доходы корпоративной версии превышают 40%, а корпоративные пользователи используют в разы больше, чем потребители.
Третье — длина диалога. Длина контекста выросла с нескольких сотен токенов в ранних версиях до 1 миллиона в API DeepSeek V4 Pro / Flash, максимальный вывод — 384 тысячи. Чем длиннее диалог, тем больше памяти и вычислительных ресурсов требуется для одного инференса.
Четвертое — сама модель становится все более ресурсоемкой. Модели reasoning, такие как OpenAI o1, DeepSeek R1, Claude Thinking, перед ответом сначала «думают» внутри на несколько тысяч или десятки тысяч токенов. Хуанг Жэньхун, например, приводил DeepSeek R1 как пример, отмечая, что модели инференса могут требовать значительно больше вычислений — в сотни раз.
Раньше, задавая AI вопрос, получали ответ сразу; сейчас, задавая сложную задачу, AI сначала «думает» полминуты, прежде чем дать ответ. Это «полминуты размышлений» — дополнительное потребление вычислительных ресурсов.
Пятое — агент. Обычно один агент вызывает модель 10-100 раз. Активность OpenAI Codex уже превысила 3 миллиона активных недель — это только один продукт одной компании. Эксперт по индустрии считает, что общее потребление ресурсов AI-агентами может превышать в 10 раз параметры крупных языковых моделей.
Произведение этих пяти факторов показывает, что в течение трех-пяти лет спрос на инференс резко возрастет, и это не преувеличение, а все более вероятная тенденция.
В экономике существует явление, называемое парадоксом Джевонса — повышение эффективности использования ресурса ведет к росту общего потребления, потому что он становится дешевле и его используют в большем числе сценариев. После повышения эффективности паровой машины в Великобритании резко выросло потребление угля; снижение стоимости токенов инференса вызвало взрыв вызовов AI. Это один и тот же сценарий. Согласно расчетам IEA, глобальное потребление электроэнергии дата-центрами с 2024 года увеличится с 1,5% до 945 ТВтч к 2030 году — примерно столько же, сколько вместе потребляют Германия и Франция за год.
Кроме того, конкретные действия в индустрии подтверждают этот тренд:
ARR Anthropic с конца 2024 года до начала 2026 года вырос в 30 раз — с 1 миллиарда до 30 миллиардов долларов за 14 месяцев. Для поддержки этого роста компания заблокировала более 11 ГВт вычислительных мощностей, заказав у Broadcom TPU на сумму 21 миллиард долларов. OpenAI уже пообещала развернуть 10 ГВт своих чипов. Цель по поставкам TPU от Google в 2026 году увеличена на 50% — до 6 миллионов штук.
Капитальные расходы облачных провайдеров более показательны. Google планирует в 2026 году потратить 175-185 миллиардов долларов, почти вдвое больше, чем в 2025 году; Amazon — 200 миллиардов долларов; Meta — увеличить расходы на 65%, до 118 миллиардов долларов. Общие капитальные затраты восьми крупнейших облачных компаний в 2026 году превысят 600 миллиардов долларов, что на 40% больше по сравнению с предыдущим годом.
Объединив все эти данные, можно сделать простой вывод — спрос на инференс уже превысил возможности любого поставщика аппаратного обеспечения.
Это и есть основа рынка инференса: эпоха обучения — «создание бога», эпоха инференса — «этот бог вызывается миллиардами людей ежедневно, каждый агент вызывает его сотни раз, и каждый раз думает десятки тысяч токенов». Переход от первого к второму сопровождается не линейным, а геометрическим ростом потребления ресурсов.
二、Какие акции выиграют?
Большой рынок не означает автоматической выгоды для всех компаний, и монопольное положение NVIDIA уже начало ослабевать!
К 2026 году доля NVIDIA на мировом рынке AI инференсных чипов составляет около 48,2%, AMD — около 16,7%, ASIC — примерно 18,5% (включая Google TPU 7,8%, AWS Inferentia 5,2%, другие ASIC 5,5%), а отечественные инференсные чипы — 16,6%.
NVIDIA сохраняет более 80% доли на рынке обучения, но в сегменте инференса уже занимает менее половины — 48,2%.
Почему так происходит?
В эпоху обучения NVIDIA конкурирует за комплексные возможности — высокопроизводительные GPU + NVLink для быстрого соединения + экосистема CUDA. Этот набор решений дает преимущество в обучении.
阅读全文:《НВИДИА остается только 48% доли, где находятся возможности эпохи инференса?》
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить