За кулисами "таинственного чипа" NVIDIA — эпоха дедукции открывает "четыре новых тренда в вычислительной мощности"

robot
Генерация тезисов в процессе

Nvidia интегрирует технологию LPU (language processing unit) и многолинейный чип для вывода ставок от OpenAI, а также меняет основное поле боя конкуренции в области вычислительной мощности ИИ с обучения на вывод. Исследования Шэньвань Хуньюань полагают, чтоКлючевым словом индустрии вычислительной энергии в 2026 году будет рассуждение, и общее потребление токенов и техническая парадигма будут глубоко перестроены вокруг этой темы.

28 февраля, по данным Wall Street Journal, Nvidia планирует выпустить новый чип вывода, интегрирующий технологию «language processing unit» (LPU) компании Groq, на конференции разработчиков GTC в следующем месяце.Генеральный директор Nvidia Дженсен Хуанг назвал её совершенно новой системой, «которую мир ещё не видел».。 OpenAI согласилась стать одним из крупнейших клиентов процессора и приобрести крупномасштабные «выделенные инференционные мощности» у Nvidia.

Тем временем OpenAI заключила многомиллиардное партнёрство в области вычислений с стартапом Cerebras в прошлом месяце, который заявил, что её чипы вывода превзошли GPU (графические процессоры) Nvidia. Эта серия тенденций показывает, чтоГиганты ИИ переходят от гонки вооружений к многолинейной схеме вычислительной мощности выводов.

В отчёте Шэньвань Хуньюаня отмечалось,В эпоху экономики токенов вычислительная мощность выводов открывает четыре основных тенденцииВо-первых, количество сценариев развертывания чисто CPU (центрального процессора) увеличилось, а спрос на недорогие выводы ускорил расход вычислительной мощности; во-вторых, рост специализированных архитектур, таких как LPU, что бросает вызов доминированию GPU в процессе вывода; В-третьих, отечественные чипы вычислительной мощности ускорили прорывы, и тенденция диверсификации цепочек поставок очевидна; В-четвёртых, структура спроса на вычислительные мощности для выводов изменилась с «единого обучения» на «массовое потребление токенов», а производительность затрат стала ключевым конкурентным фактором.

В отчёте говорилось:Производители, способные предоставить достаточные и экономически эффективные чипы вывода, получат наибольшую выгоду, а совместный прорыв процессоров, LPU и отечественных чипов является ключевыми ключами к этому этапу изменения схемы вычислительной мощности.

Спрос на выводы взорвался в воздух, а потребление токенов достигло рекордного уровня

Исследования Шэньвань Хуньюань полагают, чтоЗа постоянным ростом спроса стоят две структурные движущие силы: во-первых, монетизация крупных моделей ускорилась, и такие модели, как Claude, начали входить в сферу применения и выпускать различные отраслевые плагиныВо-вторых, внедрение агентов было ускорено, и такие продукты, как openclaw и Qianwen Agent, отмечают, что агенты входят в реальные рабочие и производственные сценарии, и каждый вызов модели и выполнение задач агента требуют значительной поддержки вычислительной мощности вывода.

Согласно данным, приведённым исследованием Shenwan Hongyuan, объем выводов ведущих отечественных крупных моделей значительно вырос во время Весеннего фестиваля: пропускная способность Doubao в новогоднюю ночь достигла 63,3 миллиарда токенов, ежемесячных активных пользователей Yuanbao — 114 миллионов, а число участников деятельности Цяньвэнь «Свободный заказ на весенний праздник» превысило 120 миллионов.

Данные от OpenRouter, глобальной платформы агрегации API моделей ИИ, дополнительно раскрывают масштаб этой тенденции. За неделю с 9 по 15 февраля китайская модель впервые превзошла американскую модель с 2,94 триллиона токенов с 4,12 триллиона токенов; в неделю с 16 по 22 февраля количество китайских моделей ещё больше выросло до 5,16 триллиона токенов, что на 127% больше за три недели, а Китай занял четыре из пяти ведущих моделей мира.

LPU стал новичком, и чипы обучения и вывода дифференцированы

Nvidia потратила 20 миллиардов долларов на лицензирование основной технологии Groq и привлекла исполнительную команду, включая основателя Джонатана Росса, в рамках сделки по «основному найму». Исследования Шэньвань Хуньюань полагают, чтоЭта сделка знаменует официальное признание важности чистых рассуждений фишек ведущими игроками.

**Архитектурное различие между LPU и традиционными GPU — это фундаментальная причина, почему они обладают преимуществами в эффективности в сценариях вывода.**Инференция ИИ делится на два этапа: предварительное заполнение и декодирование, при этом процесс декодирования крупных моделей особенно медленен, в то время как LPU был специально оптимизирован для двух основных узких мест вывода — задержки и пропускной способности памяти. Согласно предыдущим сообщениям Wall Street News, новые продукты Nvidia могут включать архитектуру следующего поколения Feynman, более широкую схему интеграции SRAM или даже глубокую интеграцию LPU с помощью технологии 3D-стекирования.

Исследование Shenwan Hongyuan оценивает, что в будущем чипы на базе искусственного интеллекта сформируют чёткую модель технического разделения:Обучающая сторона продолжает использовать комбинацию GPU-HBM, а часть вывода развивается в схему комбинации ASIC+LPU-SRAM+SSD. По мере того как спрос на вычислительные мощности меняется от обучения к выводу, производители, сосредотачивающиеся на инференционных чипах, открывают возможности для разработки.

Система вывода была комплексно усовершенствована, а требования к процессору и сети одновременно увеличились

От одного микрочипа до уровня системы — инновации — ещё одно важное измерение этого этапа повышения вычислительной мощности инференции. Shenwan Hongyuan Research отметила, что по мере перехода сценария приложения от чат-бота к агенту,Требования к задержке, пропускной способности и глубине мышления в вычислительных системах одновременно выросли, что способствует эволюции архитектуры системы в сети уровня 3.

Первый слой — это слой быстрой реакции, обеспечиваемый чисто инференционным чипом с SRAM для обеспечения крайне низкой задержки обратной связи;Второй слой — это слой медленного мышления, используя кластеры вычислительной мощности сверхбольшой пропускной способности для обработки сложных логических вычислий, спрос на многоъядерные и многопоточные процессоры на этом уровне значительно возрастёт;Третий слой — это слой памяти, соответствующей системе ContextMemory, выпущенной NVIDIA, долгосрочной памяти и кэшу KV SSD-носителей, управляемой DPU Bluefield4.

Nvidia также корректирует свою стратегию на аппаратном уровне. Ранее стандартная практика объединения процессоров Vera с GPU Rubin оказалась чрезмерно дорогой для конкретных нагрузок агентов ИИ. Nvidia объявила в этом месяце, что расширила партнёрство с Meta Platforms, завершив первое масштабное развертывание чисто CPU для поддержки рекламных ИИ-агентов Meta, что свидетельствует о переходе компании от модели продажи одного GPU.

Прорывы в отечественной вычислительной мощности ускорены

Исследования Шэньвань Хуньюань полагают, чтоТехнологическое обновление отечественных чипов вывода заслуживает внимания, и рыночные ожидания плохие.

С технической точки зрения,Новое поколение отечественных чипов вывода достигло ряда фундаментальных улучшений: Добавлена поддержка низкоточных форматов данных, таких как FP8/MXFP8/MXFP4, при этом вычислительная мощность достигает 1P и 2P соответственно. Значительно повысить мощность векторных вычислений и принять новый изоморфный дизайн, поддерживающий модели двойного программирования SIMD/SIMT. Пропускная способность межсоединения в 2,5 раза выше, чем у предыдущего поколения, достигая 2 ТБ/с.

Особенно примечательно, что разделение PD достигается на уровне чипа: с помощью самостоятельно разработанной HBM с двумя разными спецификациями она представляет собой PR-версию для сценариев предварительного заполнения и рекомендаций, а также DT-версию для декодирования и обучающих сценариев. Среди них версия PR использует недорогой HBM, что может значительно снизить затраты на этап предварительной заполнения вывода, и ожидается запуск в первом квартале 2026 года.

На уровне цепочки поставок успех отечественных производителей упаковки и тестирования подтверждает доказательства. Согласно первому раунду запросов и ответов ведущей компании по упаковке и тестированию, доходы от бизнеса упаковки 2,5D в основном приходят на услуги по упаковке высокопроизводительных вычислительных чипов, которые быстро выросли с 50 миллионов юаней в 2022 году до 1,82 миллиарда юаней в 2024 году.Это подтверждает, что мощность поставок отечественных вычислительных микросхем продолжает расти, а процесс локализации цепочки поставок ускоряется.

Предупреждение о рисках и отказ от ответственности

        Рынок рискован, и инвестиции должны быть осторожны. Данная статья не является личным инвестиционным советом и не учитывает конкретные инвестиционные цели, финансовое положение или потребности отдельных пользователей. Пользователям следует учитывать, соответствуют ли мнения, мнения или выводы, содержащиеся в этой статье, их конкретным обстоятельствам. Инвестируйте соответственно на свой страх и риск.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено