Технологические гиганты коллективно делают ставку на собственные чипы, а битва за AI-чипы ускоряется в направлении переноса на сторону инференса (инференса).

2026-04-07 14:04:19

Бурное распространение генеративного ИИ стремительно перестраивает конкурентный ландшафт всей полупроводниковой отрасли. Основное поле битвы на рынке ИИ-чипов структурно переходит от этапа обучения моделей к этапу вывода — эта перемена касается не только приоритетов в дизайне чипов, но и глубоко влияет на логику инвестиций в инфраструктуру, бизнес-модели и долгосрочные траектории полупроводниковой цепочки поставок.

Есть уже явные сигналы всплеска потребности в выводе. Вспышка вирусных сценариев применения, таких как генерация изображений в стиле Ghibli, привела к полной насыщенности GPU-ресурсов OpenAI. Генеральный директор Openай Сэм Альтман публично заявил, что никогда не видел такого быстрого роста потребления, поэтому GPT-4.5 пришлось выпускать поэтапно: на начальном этапе — только для платных пользователей. Аналогичные узкие места в вычислительных мощностях испытывают и ведущие ИИ-компании вроде Meta. В то же время OpenAI разрабатывает собственные ИИ-чипы: цель — выйти на серийное производство примерно к 2026 году, чтобы снизить зависимость от NVIDIA; а совместный с Microsoft проект супердатацентра «Врата в звёздность», о котором сообщается, включает инвестиции в размере до 500 млрд долларов.

Эта серия шагов указывает на то, что ИИ-вывод становится стратегической опорой наравне с центрами обработки данных, облачной инфраструктурой и полупроводниками. Для инвесторов это означает, что ценностной центр тяжести инвестиций в ИИ-вычислительные мощности смещается: обучающие чипы представляют собой разовые капитальные затраты, тогда как выводные чипы — это модель непрерывного «съедания» доходов. ИИ превращается из технологического инструмента в движок вычислительных мощностей с оплатой по объёму.

Обучение и вывод: два принципиально разных типа потребностей в вычислительных мощностях

Чтобы понять эту структурную трансформацию, прежде всего нужно прояснить фундаментальные различия между обучением и выводом в нагрузке.

На этапе обучения, базируясь на архитектуре Transformer, опубликованной Google в 2017 году, требуется выполнять прямой и обратный проход на огромных датасетах, постоянно обновляя веса модели. Это связано с вычислениями колоссального масштаба: матричными операциями, расчётом градиентов и обновлением параметров, обычно выполняемыми в распределённых вычислениях на кластерах из множества GPU или TPU в течение недель и даже месяцев. Поэтому обучающие чипы должны обладать высокоплотными вычислительными ядрами, большим объёмом памяти с высокой пропускной способностью (например, HBM) и возможностью горизонтального масштабирования по нескольким чипам.

Этап вывода по структуре более прост: нужен только прямой проход, без обновления градиентов или обратного распространения ошибки. Как правило, требуемая вычислительная мощность при этом обычно на порядок ниже, чем при обучении. Однако реальная сложность вывода — в трёх ограничениях: низкая задержка (пользователи ожидают мгновенный ответ), высокая пропускная способность (провайдеры должны обрабатывать огромное число одновременных запросов) и низкая стоимость (удельная стоимость каждого запроса напрямую влияет на коммерческую осуществимость). Эти требования полностью противоположны логике обучения «без учёта задержки и ради предельной производительности», и поэтому выводные чипы в архитектурном проектировании должны идти по дифференцированному пути: приоритет энергоэффективности, оптимизация перемещений данных, максимизация использования иерархии памяти и пропускной способности, а также совместная оптимизация аппаратного и программного обеспечения.

Крупнейшие облачные провайдеры и стартапы ускоряют подготовку выводных чипов

Именно исходя из различий в архитектуре, всё больше компаний предпочитает обходить прямую конкуренцию с NVIDIA на рынке обучающих GPU и вместо этого создавать специализированные чипы, оптимизированные под вывод.

Со стороны гипермасштабных облачных провайдеров: Google выпускает TPU (для обучения) и Edge TPU (для вывода на периферии), Amazon развёртывает Inferentia и Trainium, Meta разрабатывает MTIA (Meta Training and Inference Accelerator). Линия стартапов также активна: Groq, Tenstorrent, Cerebras, SambaNova и другие компании ищут дифференцированные прорывы в таких измерениях, как архитектура потоков данных, распределение площади кристалла, энергоэффективность, паттерны доступа к памяти и дизайн вычислительных ядер; цель — превзойти универсальные GPU по эффективности вывода и структуре затрат.

Формирование этой конкурентной картины тесно связано с эволюцией сценариев применения ИИ. По мере того как ИИ развивается от простых вопросов-ответов к системам интеллектуальных агентов (Agentic AI) — способным планировать задачи, выполнять рабочие процессы, вызывать инструменты и даже замещать часть ручного труда — потребность в выводе будет не только продолжать расти, но и ускоренно расширяться. Требования интеллектуальных агентных систем к низкой задержке, высокой пропускной способности памяти и устойчивым вычислениям дополнительно повысят стратегическую ценность выводных специализированных чипов.

NVIDIA: переход от лидера эпохи обучения к формирователю правил эпохи вывода

Перед лицом этой структурной трансформации NVIDIA не просто пассивно реагирует, а активно расширяет своё присутствие на рынке вывода.

Ключевая цель новейшей архитектуры Blackwell — повышать пропускную способность и при этом снижать стоимость генерации каждого токена. Эта логика образует «положительную петлю»: падение стоимости → рост использования → расширение спроса → увеличение масштаба инфраструктуры, что стимулирует экспоненциальный рост экономики ИИ. На системном уровне NVIDIA с помощью крупномасштабных тесно интегрированных GPU-кластеров вроде NVL72 строит архитектуру «ИИ-завода», способную обрабатывать более длинные контекстные окна, более сложные задачи вывода и многошаговые ИИ-рабочие процессы, тем самым продвигая эволюцию AI-инфраструктуры в сторону централизации, высокой плотности и системно-ориентированного управления.

Однако истинный ров NVIDIA заключается не только в аппаратном обеспечении. От CUDA до TensorRT-LLM и программного стека оптимизации вывода NVIDIA превращает себя из поставщика чипов в поставщика полноформатной AI-инфраструктуры. Такие облачные провайдеры, как Microsoft, Oracle, CoreWeave, продолжают приближаться к этой архитектуре, дополнительно усиливая эффект высокой стоимости переключения в экосистеме и стандартизации отрасли. Покупатель приобретает уже не просто GPU, а целую платформу «ИИ-завода».

Тем не менее интенсивность конкуренции на рынке вывода заметно растёт. Выводные чипы больше не являются второстепенным вариантом для обучающих GPU: они становятся основным двигателем вычислительных мощностей для AI-облачных сервисов, периферийных устройств, встраиваемых систем и реального времени. Под влиянием двойного драйвера — эволюции аппаратной части и расширения приложений — ключевой тезис конкурентной борьбы за AI-чипы меняется коренным образом: от «кто может обучить самый большой модель» к «кто сможет запускать модели в масштабируемых сценариях с наивысшей эффективностью».

Структурная трансформация меняет конкурентный ландшафт полупроводниковой отрасли

Это перемещение от обучения к выводу выходит за рамки самих чипов и глубоко проникает в трёх измерениях: архитектура AI-систем, стратегии коммерческого развёртывания и структура цепочек поставок.

На уровне бизнес-модели происходит фундаментальная перестройка экономической логики ИИ. Обучение соответствует капитальным затратам, вывод — постоянным поступлениям: вычислительные мощности напрямую связываются с выручкой через техпоказатели, а GPU превращаются из аппаратного устройства в машины генерации токенов. Этот сдвиг парадигмы означает, что масштабы и эффективность выводной инфраструктуры напрямую определят прибыльность AI-компаний и их конкурентные барьеры.

На уровне цепочек поставок рост «постобучающей эпохи» — включая широкое применение таких технологий, как дообучение, LoRA, адаптеры, а также механизмы усиления вывода, такие как корректировка динамических структур подсказок и кооперация нескольких моделей, — существенно повышает степень зависимости от вычислительных мощностей для вывода, ускоряя быстрое расширение спроса на разнообразные выводные аппаратные решения, включая NPU, ASIC, FPGA и т.п.

Для инвесторов эта структурная трансформация подаёт ясный рыночный сигнал: ценностной центр инвестиций в AI-инфраструктуру смещается с обучающей стороны на выводную. Компании, которые смогут одновременно получить преимущество в трёх измерениях — эффективность вывода, контроль затрат и масштабируемое развёртывание, — займут инициативу в следующем этапе конкуренции за AI-вычислительные мощности.

Предупреждение о рисках и условия об освобождении от ответственности

        На рынке есть риски, инвестируйте с осторожностью. Настоящая статья не является персональной инвестиционной рекомендацией и не учитывает особые инвестиционные цели отдельных пользователей, их финансовое положение или потребности. Пользователям следует оценить, соответствуют ли любые мнения, взгляды или выводы в данной статье их конкретной ситуации. Ответственность за инвестиции на основании этого полностью ложится на инвестора.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .