Тільки-но я помітив щось, що тихо змінює всю гру у сфері інфраструктури штучного інтелекту, і чесно кажучи, дивно, як мало людей про це говорять.



Протягом років ми всі були одержимі дефіцитом GPU — саме там відбувається обчислювальна робота, так? Але ось у чому справа: ми дивилися на проблему неправильно. Реальне обмеження тепер — це не інференція. Це CPU. І я серйозно — коли потрібно координувати складні робочі процеси агентів, обробляти API-запити, керувати базами даних і мати справу з величезними контекстними вікнами, які не поміщаються у пам’ять GPU, раптом ваш процесор стає вузьким місцем, тоді як ваш дорогий GPU просто сидить і чекає.

Дозвольте мені розбити, що насправді відбувається на ринку. Генеральний директор AMD Ліза Су фактично підтвердила цю зміну. Їхній дохід від дата-центрів у минулому кварталі склав 5,4 мільярда доларів із зростанням на 39% у порівнянні з минулим роком. Тільки процесори п’ятого покоління EPYC складають понад половину їхнього доходу від серверних CPU, і ми бачимо понад 50% зростання у хмарних інстансах, що працюють на EPYC. Вперше AMD захоплює понад 40% ринку серверних CPU. Це не випадковість — це тому, що всі раптом усвідомили, що їм потрібна серйозна потужність CPU, щоб реально запускати AI-агенти у масштабі.

Тим часом Intel намагається з цим боротися, але грає розумно. Вони щойно підписали багаторічну угоду з Google саме для розгортання процесорів Xeon у дата-центрах AI. Ідея? CPU та спеціалізовані прискорювачі тепер — це справжні драйвери продуктивності, а не просто допоміжні компоненти. Ілон Маск навіть замовив індивідуальні чипи у Intel для свого проекту Terafab — це потужний сигнал, куди рухається інфраструктура.

Ось чому це важливо: робочі навантаження агентів кардинально відрізняються від чат-ботів. У випадку агентів ти не просто генеруєш токени — ти виконуєш багатоступеневе мислення, координуєш API, керуєш станом, читаєш і записуєш у бази даних. Стаття з Georgia Tech минулого року показала, що обробка на стороні CPU може становити від 50% до 90% загальної затримки. GPU готовий, але CPU все ще чекає на відповіді інструментів. Додайте до цього контекстні вікна, що тепер перевищують мільйон токенів, і раптом потрібно величезна пам’ять і пропускна здатність CPU, щоб зберігати кеші KV, які не поміщаються на GPU.

Відповідь NVIDIA цікава. Їхній процесор Grace має всього 72 ядра у порівнянні з 128 у AMD або типовим набором Intel. Але це навмисно — вони оптимізують для ефективності між CPU і GPU, а не для кількості ядер. Вони просувають ідею, що CPU — це справжній координаційний центр, а не універсальний процесор. З їхнім інтерконектом NVLink, що досягає 1,8 ТБ/с, CPU може безпосередньо отримувати доступ до пам’яті GPU, що повністю змінює спосіб управління цими величезними кешами KV.

Ринковий сигнал голосно і ясно. Bank of America прогнозує, що ринок CPU може подвоїтися з $27 мільярдів до $60 мільярдів до 2030 року, майже цілком завдяки AI. І ще одна цікава річ — у партнерстві Amazon з OpenAI на суму $38 мільярдів вони явно планують розгортати десятки мільйонів CPU. Це новий показник. Ми вже не говоримо про сотні тисяч GPU; йдеться про побудову цілого рівня інфраструктури для оркестрації CPU.

Що насправді відбувається — ми переходимо від епохи обмежень GPU до епохи системної ефективності. Компанії, які зуміють збалансувати співпрацю CPU і GPU, керувати величезними ієрархіями пам’яті та ефективно обробляти складні робочі процеси агентів, — саме вони виграють. Це вже не про окремі компоненти. Це про цілісну систему, що працює разом. І якщо ви не думаєте про свою стратегію CPU у 2026 році, ви вже відстаєте.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити