Только что заметил кое-что, что тихо меняет всю игру в инфраструктуре ИИ, и честно говоря, удивительно, как мало об этом говорят.



Годами мы все были одержимы дефицитом GPU — именно там происходит вычисление, верно? Но вот в чем дело: мы смотрели на проблему неправильно. Настоящее ограничение больше не в выводе модели. Это CPU. И я серьезно — когда нужно управлять сложными рабочими процессами агентов, обрабатывать API-запросы, управлять базами данных и работать с огромными окнами контекста, которые не помещаются в память GPU, внезапно ваш процессор становится узким местом, пока дорогой GPU просто сидит и ждет.

Позвольте мне объяснить, что на самом деле происходит на рынке. Генеральный директор AMD Лиза Су практически подтвердила, что этот сдвиг реален. Их доходы от дата-центров достигли 5,4 миллиарда долларов за последний квартал с ростом на 39% по сравнению с прошлым годом. Только процессоры пятого поколения EPYC приносят более половины их доходов от серверных CPU, и мы видим более 50% роста облачных инстансов на базе EPYC. Впервые AMD захватывает более 40% доли рынка серверных CPU. Это не случайность — все вдруг поняли, что им нужны серьезные мощности CPU, чтобы реально запускать ИИ-агентов в масштабах.

Тем временем Intel борется, но действует умно. Они подписали многолетнее соглашение с Google специально для развертывания процессоров Xeon в дата-центрах ИИ. Их идея? CPU и специализированные ускорители теперь — настоящие драйверы производительности, а не просто вспомогательные компоненты. Элона Маска даже заказал у Intel кастомные чипы для его проекта Terafab — это мощный сигнал о том, куда движется инфраструктура.

Почему это важно: рабочие нагрузки агентов принципиально отличаются от чатботов. В случае с агентами вы не просто генерируете токены — вы делаете многошаговое рассуждение, управляете API, следите за состоянием, читаете и пишете в базы данных. Статья из Georgia Tech прошлого года показала, что обработка на стороне CPU может занимать от 50% до 90% всей задержки. GPU готов, а CPU все еще ждет ответов инструментов. Добавьте сюда окна контекста, которые сейчас превышают миллион токенов, и внезапно вам нужны огромные объемы памяти и пропускной способности CPU, чтобы хранить KV-кеши, которые не помещаются на GPU.

Ответ NVIDIA интересен. Их CPU Grace имеет всего 72 ядра по сравнению с 128 у AMD или типичным набором Intel. Но это сделано специально — они оптимизируют эффективность взаимодействия CPU и GPU, а не просто увеличивают число ядер. Они продвигают идею, что CPU — это скорее координационный центр, а не универсальный процессор. Благодаря их межсоединению NVLink со скоростью 1,8 ТБ/с CPU может напрямую обращаться к памяти GPU, что полностью меняет управление этими огромными KV-кешами.

Рынок говорит ясно и громко. Bank of America прогнозирует, что рынок CPU может удвоиться с $27 миллиарда до $60 миллиарда к 2030 году, почти полностью за счет ИИ. И слушайте: в партнерстве Amazon на $38 миллиардов с OpenAI они явно планируют развернуть десятки миллионов CPU. Вот новая метрика. Мы уже не говорим о сотнях тысяч GPU; речь идет о создании целых слоев инфраструктуры для оркестрации CPU.

Настоящее, что происходит — это переход от эпохи ограничений GPU к эпохе системной эффективности. Компании, которые научатся балансировать работу CPU и GPU, управлять огромными иерархиями памяти и эффективно реализовывать сложные рабочие процессы агентов — побеждают. Уже не важны отдельные компоненты. Важна вся система, которая работает как единое целое. И если вы не задумываетесь о стратегии CPU в 2026 году, вы уже отстаете.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить