Зрозуміти Cerebras: обчислювальна потужність сприяє штучному інтелекту, пам’ять надає агентам здатність виконувати завдання

Автор: Бен Томпсон

Обчислювальна потужність навчає ШІ думати, а пам’ять — навчає Агентів виконувати роботу.

Цього тижня, коли Cerebras виходить на біржу, остання стаття Бена Томпсона розкриває: еволюція ШІ від “чатів” до “самостійного виконання завдань”, змінила вузькі місця архітектури чипів.

Ти спілкуєшся з豆包, очікуючи швидкості; коли Kimi Claw виконує за тебе завдання протягом 5 годин, його не цікавить, швидше він — на 3 секунди чи повільніше на 30 секунд — важливо, чи він може запам’ятати контекст, чи може працювати безперервно. Кожен крок — робоча пам’ять (KV Cache) розширюється на рівень. GPU створені для “очікування перед екраном”: під час попереднього заповнення пам’ять порожня, під час декодування — обчислювальні ресурси простоюють — половину часу вони просто чекають.

Справжня вузька точка — не швидкість обчислень, а скільки можна зберегти і швидко зчитати. Більш глибше — довготривалі агенти перетворюють KV Cache з тимчасового буфера у постійну робочу пам’ять. Той, хто зможе зробити цю пам’ять більш довговічною, з високим повторним використанням і за меншими витратами, — той і тримає ключ до економіки агентів.

Це набагато важливіше за бали у тестах.

Щодо моменту виходу на ринок — створити компанію з чипами до травня 2026 року — майже ідеально. Reuters у вихідні повідомляє:

Двоє джерел повідомили Reuters, що через зростаючий попит на акції цієї компанії з виробництва ШІ-чипів, Cerebras Systems найближчим часом у понеділок підвищить обсяг і ціну первинного публічного розміщення (IPO). За словами джерел, компанія розглядає можливість підвищити ціновий діапазон з початкових 115–125 доларів за акцію до 150–160 доларів, а кількість акцій — з 28 мільйонів до 30 мільйонів; оскільки інформація ще не оприлюднена, обидва джерела попросили залишатися анонімними.

Цикл зростання акцій у секторі напівпровідників зумовлений, безумовно, ШІ — особливо з огляду на те, що ринок поступово усвідомлює: агенти (Agents) поглинуть величезну обчислювальну потужність (Compute). Але те, що вказує Cerebras, — ширша картина: до цього моменту, нарратив про обчислювальні ресурси ШІ майже цілком зосереджений на GPU, NVIDIA; у майбутньому ж сценарій стане дедалі гетерогенним (Heterogeneous).

Епоха GPU


Історія, як GPU стали центром ШІ, вже давно відома. Коротко:

  • Як і пікселі на екрані — паралельний процес (Parallel process): чим більше обчислювальних блоків, тим швидше графіка — так і для ШІ: кількість обчислювальних одиниць прямо визначає швидкість.

  • NVIDIA вчасно схопила цю ідею: зробила графічні процесори програмованими (Programmable), а за допомогою CUDA — повноцінної екосистеми — відкрила цю можливість для всіх розробників.

  • Головна різниця між графікою і ШІ — у масштабі задач: моделі набагато більші за текстури у відеоіграх. Це спричинило дві ланцюгові еволюції: різке зростання обсягу високопродуктивної пам’яті (HBM) на одному GPU; і прориви у міжчиповій комунікації (Chip-to-chip networking), що дозволили кільком чипам працювати як єдиній адресованій системі. NVIDIA лідирує у цих напрямках.

  • Основне застосування GPU — тренування моделей, і тут особливо важливий третій пункт. Кожен крок тренування — високопаралельний, але між кроками — послідовний: перед переходом до наступного потрібно синхронізувати результати між усіма GPU. Це причина, чому модель з трильйоном параметрів має поміститися у десятки тисяч GPU і мати здатність обмінюватися даними так само швидко, як одна машина. NVIDIA домінує і тут: вона першою забезпечила поставки HBM і інвестує у мережеві технології.

Звісно, тренування — не єдине завдання ШІ. Інше — Inference (виведення). Виведення має три основні етапи:

1. Попереднє заповнення (Prefill): кодування всього, що потрібно для роботи великої мовної моделі (LLM), у зрозумілу форму; цей процес — високопаралельний, обчислювальна потужність — критична.

2. Декодування першої частини (Decode Part 1): зчитування KV кешу (KV Cache) — що зберігає контекст, включно з виходами попереднього заповнення — для обчислення уваги. Це вузьке місце — з високою пропускною здатністю, і пам’ять тут змінюється залежно від задачі.

3. Декодування другої частини (Decode Part 2): обчислення на основі ваг моделі (Feed-forward), що теж — вузьке місце, і залежить від розміру моделі.

Ці два етапи чергуються на кожному рівні моделі (вони працюють у черзі, а не послідовно), тобто декодування — послідовний процес, обмежений пропускною здатністю пам’яті (Memory-bandwidth bound). Кожен токен вимагає повного зчитування двох різних пам’ятних пулів: KV кешу, що зростає з кожним токеном, і ваг моделі. Обидва мають бути зчитані цілком, щоб отримати один вихідний токен.

GPU ідеально підходять для цих трьох задач: забезпечують високу обчислювальну потужність для попереднього заповнення, достатню кількість HBM для KV і ваг, і при недостатності пам’яті — через міжчипову комунікацію — об’єднують пам’ять. Іншими словами, архітектура, що підходить для тренування, — підходить і для inference. Це підтверджує угода SpaceX з Anthropic:

“Ми підписали угоду про використання всього обчислювального ресурсу дата-центру SpaceX Colossus 1. Це дає нам понад 300 МВт нових потужностей (більше 220 тисяч NVIDIA GPU). Це безпосередньо підвищить можливості обслуговування користувачів Claude Pro і Claude Max.”

SpaceX зберігає Colossus 2 — ймовірно, для тренування майбутніх моделей і для inference існуючих. Можливість одночасно виконувати обидва завдання у тому ж дата-центрі пояснюється тим, що моделі xAI наразі не дуже великі; важливо, що і тренування, і inference — можна робити на GPU. Насправді, ці GPU, що спочатку були для тренування, тепер використовуються і для inference — це величезна перевага.

Аналіз Cerebras


Вироби Cerebras — зовсім інші. Хоча діаметр кремнієвої пластини — 300 мм, “ліміт ретікулю” (Reticle limit) — приблизно 26х33 мм. Це максимальний розмір чипа; щоб перевищити його, потрібно з’єднувати кілька чипів через “проміжний шар” (interposer), як робить NVIDIA на B200. Але Cerebras винайшли спосіб — прокладати мости через “смуги” (Scribe lines), щоб зробити цілій пластині один чип без повільних міжчипових з’єднань.

Результат — унікальний чип із неймовірною обчислювальною потужністю і масивами SRAM, швидким доступом. Порівняння: новий WSE-3 має 44 ГБ SRAM на кристалі і пропускну здатність 21 PB/с; тоді як H100 має 80 ГБ HBM і пропускну здатність 3,35 TB/с. Тобто, у WSE-3 менше пам’яті, але пропускна здатність у 6000 разів більша.

Порівняння з H100 — тому що H100 — найпоширеніший чип для inference, і Cerebras у цій сфері — майстер. Можна тренувати на Cerebras, але міжчипові мережі — не їхня сильна сторона, тому більша частина обчислювальної потужності і пам’яті залишається невикористаною; справжня цінність — швидке генерування токенів.

Але й обмеження для inference — схожі з тренуванням: якщо всі дані помістяться у пам’ять на кристалі, швидкість — неймовірна; якщо ж пам’ять не вистачає (через більшу модель або довший KV кеш), — Cerebras стає неефективним, особливо враховуючи ціну. Технологія “цілий пласт кремнію — один чип” ускладнює високий вихідний рівень, що підвищує вартість.

Я вважаю, що подібні чипи Cerebras мають ринок: зараз компанія наголошує на швидкості для програмування — inference вимагає швидкої генерації токенів, що означає швидкий обмін даними. Але це — тимчасовий сценарій, і я поясню чому. Головне — скільки часу потрібно людині, щоб отримати відповідь. З поширенням носимих пристроїв і голосових інтерфейсів швидкість взаємодії стане критичною.

Агентний inference


Раніше я виділяв три ключові етапи у розвитку LLM:

1. ChatGPT довів корисність прогнозування токенів.

2. o1 ввів поняття reasoning — що більше токенів, то краща відповідь.

3. Opus 4.5 і Claude Code — перші практичні Agents, що використовують reasoning і набір інструментів для виконання завдань.

Хоча все це — частина reasoning, я вважаю, що межа між “відповіддю” (Answer inference) і “виконанням завдань” (Agentic inference) стає дедалі чіткішою. Cerebras орієнтований на “відповіді”, але у довгостроковій перспективі архітектура “агентів” — зовсім інша, ніж у GPU.

Раніше я казав, що швидке reasoning для програмування — тимчасовий сценарій. Зараз — людська участь ще потрібна: визначення завдань, перевірка коду, подання PR. Але вже очевидно, що у майбутньому все це зможуть робити машини. Це — широка сфера для агентів: їхня сила — не у допомозі людині, а у здатності працювати автономно.

Отже, шлях для агентного reasoning — зовсім інший, ніж для відповіді. Головне для відповіді — швидкість токенів; для агентів — пам’ять (Memory). Агентам потрібен контекст, стан і історія. Частина з них — у активному KV кеші, частина — у пам’яті хосту або SSD, ще частина — у базах даних, логах, вбудовуваннях і об’єктних сховищах. Ключове — агентські системи не просто відповідають на питання, а будують складну ієрархію пам’яті навколо моделі.

Це означає, що для агентів потрібно балансувати між швидкістю і обсягом пам’яті — “швидкість за рахунок обсягу”. І якщо система працює без людського контролю у реальному часі, швидкість вже не є головним. Якщо агент виконує нічні задачі — його не турбує затримка для користувача; важливо — чи він виконає завдання. Нові підходи до пам’яті дозволять складні задачі — і затримки будуть прийнятними.

Якщо затримка перестане бути пріоритетом, тоді і прагнення до максимальної швидкості і високої пропускної здатності пам’яті (HBM) — втратить сенс: тоді більш дешеві і повільніші рішення — наприклад, звичайна DRAM — стануть більш привабливими. Якщо вся система чекатиме відповіді з пам’яті, чипи не потрібно буде мати найновіший техпроцес. Це — глибока архітектурна зміна, але не означає, що старі архітектури зникнуть:

  • Тренування (Training) залишиться важливим, і архітектура NVIDIA (висока обчислювальна потужність, високий пропуск, швидкі мережі) залишиться домінуючою.
  • Відповідь (Answer inference) — важливий, але менший ринок, де дуже швидкі рішення (Cerebras, Groq) — корисні.
  • Агентний inference — поступово відокремиться від GPU. Недоліки GPU — марнування пам’яті під час попереднього заповнення і марнування обчислень під час декодування — стануть очевидними. Замість них з’являться системи з високою ємністю і низькою вартістю пам’яті, з “достатньою” обчислювальною здатністю. Навіть CPU може бути швидшим у викликах інструментів.

Ці категорії — не рівні за масштабом і значущістю. Зокрема, агентний inference — найбільший ринок майбутнього, бо він не залежить від кількості людей або часу. Сьогоднішні агенти — просто гарні відповіді; майбутні — системи, що виконують роботу за командою інших систем, — їхній масштаб зростатиме не з населенням, а з обчислювальною потужністю.

Висновки щодо агентного inference


До теперішнього часу “зростання з обчислювальною потужністю” зазвичай асоціювалося з NVIDIA. Але їхня перевага — у низькій затримці: швидкі чипи, але для їхнього використання потрібно багато інвестицій у HBM і мережі. Якщо затримка перестане бути головним обмеженням, переваги NVIDIA зменшаться.

NVIDIA вже це усвідомила: компанія запустила Dynamo — фреймворк для розбиття reasoning на частини, і пропонує окремі продукти для розширення KV і CPU-стелажів, щоб збільшити кеш і швидкість викликів. Це — спроба зменшити залежність від дорогих GPU. Але у довгостроковій перспективі великі хмарні провайдери, можливо, шукатимуть альтернативи через зниження вартості і спрощення.

Водночас, у Китаї, хоча й бракує топової обчислювальної потужності, є все необхідне для агентного reasoning: швидкі GPU, CPU, DRAM і диски. Важливою проблемою залишається тренування — але для inference у національній безпеці (зокрема військових застосунках) це може бути навіть важливішим.

Ще один цікавий аспект — космос (Space): повільніші чипи роблять “космічні дата-центри” більш реальними. По-перше, якщо пам’ять можна під’єднати зовні, чипи можна робити простішими і менш тепловитратними. По-друге, старі техпроцеси — більші за розміром і краще витримують космічне випромінювання. По-третє, вони споживають менше енергії і мають менше теплових проблем. По-четверте, менш сучасні техпроцеси — більш надійні, що важливо для супутників, які не ремонтуються.

Голова NVIDIA Дженсен Хуань часто каже, що “закон Мура помер”; він має на увазі, що майбутнє прискорення — системне. Але коли агент може діяти автономно, найглибший висновок — закон Мура вже не важливий. Ми отримуємо більше обчислювальної потужності, усвідомлюючи, що вже маємо “достатньо хорошу” — і цим користуємося.

NVDAX-4,96%
XAI-5,28%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено