Зрозуміти Cerebras: обчислювальна потужність сприяє штучному інтелекту, пам’ять надає агентам здатність виконувати завдання

Автор: Бен Томпсон

Обчислювальна потужність навчає ШІ думати, а пам’ять — навчає Агентів виконувати роботу.

Цього тижня, коли Cerebras виходить на біржу, остання стаття Бена Томпсона розкриває: еволюція ШІ від “чатів” до “самостійного виконання завдань”, змінила вузькі місця архітектури чипів.

Ти спілкуєшся з豆包, очікуючи швидкості; коли Kimi Claw виконує за тебе завдання 5 годин, його не цікавить, швидше він чи повільніше на 3 секунди — його цікавить, чи може він запам’ятати контекст, чи може працювати безперервно. Кожен крок — робоча пам’ять (KV Cache) розширюється на рівень. GPU створені для “очікування перед екраном”: під час попереднього заповнення пам’ять порожня, під час декодування — обчислювальні ресурси простоюють — половину часу вони просто чекають.

Справжня вузька частина — не швидкість обчислень, а обсяг збереженої та швидкості читання. Більш глибше — довготривалі агенти перетворюють KV Cache з тимчасового буфера у постійну робочу пам’ять. Той, хто зможе зберігати цю пам’ять довше, з високою повторюваністю та за меншими витратами, — той і тримає ключі до економіки Агентів.

Це набагато важливіше за бали у тестах.

Щодо моменту виходу на ринок — створити компанію з чипами до травня 2026 року — майже ідеально. Reuters у вихідні повідомляє:

Двоє джерел повідомили Reuters, що через зростаючий попит на акції цієї компанії з ШІ-чипами, Cerebras Systems найближчим часом, у понеділок, підвищить обсяг і ціну IPO. Джерела кажуть, що компанія розглядає можливість підвищити ціновий діапазон з 115–125 доларів за акцію до 150–160 доларів, а кількість акцій — з 28 мільйонів до 30 мільйонів; оскільки інформація ще не оприлюднена, обидва джерела попросили залишитися анонімними.

Цикл зростання акцій наповнює драйвер — безумовно, ШІ, особливо коли ринок усвідомлює: агенти (Agents) поглинають масивні обчислювальні ресурси (Compute). Але головна теза Cerebras ширша: до сьогодні, історія обчислювальної потужності ШІ майже цілком зосереджена навколо GPU, Nvidia; у майбутньому ж сценарій стане дедалі гетерогеннішим (Heterogeneous).

Епоха GPU


Історія, як GPU стали центром ШІ, вже давно відома. Коротко:

  • Як і пікселі на екрані — паралельний процес (Parallel process): чим більше обчислювальних блоків, тим швидше графіка — так і для ШІ: кількість обчислювальних одиниць прямо визначає швидкість.

  • Nvidia скористалася цим трендом: зробила графічні процесори програмованими (Programmable), а за допомогою CUDA — створила цілі екосистеми для розробників.

  • Головна різниця між графікою та ШІ — у масштабі задач: моделі значно більші за текстури у відеоіграх. Це спричинило дві ланцюгові еволюції: різке зростання обсягу високопродуктивної пам’яті (HBM) на GPU; прориви у міжчиповій комунікації (Chip-to-chip networking), що дозволяє кільком GPU працювати як єдина адресована система. Nvidia лідирує у цих напрямках.

  • Основне застосування GPU — тренування моделей, і тут особливо важливий третій пункт. Кожен крок тренування — високопаралельний, але між кроками — послідовний: перед переходом до наступного, кожен GPU має синхронізувати результати з іншими. Тому модель з трильйоном параметрів має поміститися у десятки тисяч GPU, які можуть обмінюватися даними як одна машина. Nvidia контролює обидва аспекти: і контроль поставок HBM, і довгострокові інвестиції у мережеві технології.

Звісно, тренування — не єдине завдання ШІ. Інше — інференс (Inference). Він складається з трьох основних етапів:

1. Попереднє заповнення (Prefill): кодування всього необхідного для роботи великої мовної моделі (LLM); цей процес — високопаралельний, обчислювальні ресурси — критично.

2. Декодування першої частини (Decode Part 1): зчитування KV кешу (KV Cache) — що зберігає контекст, включно з виходами попереднього заповнення — для обчислення уваги. Це вузьке місце — з високою пропускною здатністю, і пам’ять тут змінюється залежно від задачі.

3. Декодування другої частини (Decode Part 2): обчислення на основі ваг моделі (Feed-forward); теж вузьке місце, залежить від розміру моделі.

Ці два етапи чергуються на кожному рівні моделі (вони працюють у черзі, а не послідовно). Тобто, декодування — послідовний процес, обмежений пропускною здатністю пам’яті (Memory-bandwidth bound). Кожен токен вимагає повного зчитування двох різних пам’ятних пулів: KV кешу, що зростає з кожним токеном, і ваг моделі. Обидва мають бути зчитані цілком для отримання одного вихідного токена.

GPU ідеально справляється з цими трьома вимогами: забезпечує високу обчислювальну потужність для попереднього заповнення, достатню HBM для KV і ваг, і при нестачі пам’яті — через міжчипову мережу об’єднує пам’ять. Іншими словами, архітектура, що підходить для тренування, — підходить і для інференсу. Це підтверджує угода SpaceX з Anthropic:

“Ми підписали контракт на використання всього обчислювального ресурсу дата-центру SpaceX Colossus 1. Це дає нам понад 300 МВт нових потужностей (більше 220 тисяч Nvidia GPU). Це безпосередньо підвищить можливості сервісу для користувачів Claude Pro і Claude Max.”

SpaceX зберігає Colossus 2 — ймовірно, для тренування майбутніх моделей і для інференсу існуючих. Вони можуть робити і те, і інше у тому ж дата-центрі, бо модель xAI наразі не дуже велика; важливо, що тренування і інференс — обидва на GPU. Навіть GPU, які спочатку були для тренування, тепер використовуються і для інференсу — це величезна перевага.

Аналіз Cerebras


Вироби Cerebras — зовсім інші. Хоча діаметр кремнієвої пластини — 300 мм, “реліктовий” (Reticle limit) — максимум 26х33 мм, тобто максимальний розмір чипа. Перевищити цей розмір можна лише через “проміжний рівень” міжчипової з’єднувальної технології, як у Nvidia на B200. Але Cerebras винайшли спосіб з’єднувати всю пластину у один чип, без повільних міжчипових з’єднань.

Результат — унікальний чип із неймовірною обчислювальною потужністю і масивною SRAM-пам’яттю, швидкою до неймовірності. Порівняння: новий WSE-3 має 44 ГБ SRAM на кристалі і пропускну здатність 21 PB/с; тоді як H100 Nvidia — 80 ГБ HBM і 3.35 TB/с. Тобто, у WSE-3 менше пам’яті, але у 6000 разів більша пропускна здатність.

Порівняння з H100 — тому що H100 — найпоширеніший чип для інференсу, і Cerebras у цій сфері сильний. Можна тренувати на Cerebras, але міжчипові мережі — слабке місце, тому більша частина обчислень і пам’яті — просто ідеально недосяжні для використання. Реальна цінність — швидке генерування токенів, що значно перевищує GPU.

Але й обмеження залишаються: якщо всі дані помістяться у SRAM, швидкість — неймовірна; якщо ж обсяг даних перевищує пам’ять (більше моделі або довший KV кеш), — Cerebras стає нерентабельним, особливо враховуючи ціну. Технологія “ціла пластина — чип” вимагає високої врожайності, що підвищує вартість.

Я вважаю, що подібні чипи мають ринок: зараз компанія наголошує на швидкості для програмування — інференс означає багато токенів, тобто швидкість генерації — ключова. Але це — тимчасовий сценарій, поясню згодом. Головне — скільки часу потрібно людині, щоб отримати відповідь. З поширенням носимих пристроїв і додатків, швидкість взаємодії (особливо голосової) стане критичною для користувацького досвіду.

Агентський інференс


Раніше я виділяв три ключові етапи у розвитку LLM:

1. ChatGPT — довів корисність прогнозування токенів.

2. o1 — ввів концепцію інференсу, де більше токенів — кращі відповіді.

3. Opus 4.5 і Claude Code — перші практичні Агенти, що використовують моделі з інструментами, перевіркою роботи тощо.

Хоча все це — “інференс”, я вважаю, що межа між відповіддю (Answer inference) і виконанням завдань (Task execution / Agentic inference) стає все більш очевидною. Cerebras орієнтований на “відповіді”, але у довгостроковій перспективі архітектура “агентів” буде зовсім іншою, ніж шлях GPU або Cerebras.

Раніше я казав, що швидкий інференс для програмування — тимчасовий сценарій. Зараз, коли людська участь у програмуванні зменшується, — люди визначають завдання, перевіряють код, роблять PR; але у майбутньому все це цілком може робити машина. Це — широка сфера для агентів: їхня сила — не у допомозі людині, а у здатності працювати автономно.

Отже, шлях вирішення задач агентського інференсу — відрізнятиметься від відповіді. Відповідь — швидкий, з високою швидкістю токенів; а агентський інференс — головне — пам’ять (Memory). Агенту потрібен контекст, стан і історія. Частина з них — у активному KV кеші, частина — у пам’яті хосту або SSD, ще частина — у базах даних, логах, вбудовуваннях і об’єктних сховищах. Головне — агентський інференс не просто відповідає на питання, а будує складну ієрархію пам’яті навколо моделі.

Це означає, що для агентського інференсу потрібно балансувати між швидкістю і обсягом пам’яті — зменшити швидкість заради більшої пам’яті. Якщо система працює без людського втручання у реальному часі, швидкість вже не є головним. Якщо агент виконує нічні задачі, його не турбує затримка — важливо лише, щоб він виконав завдання. Нові підходи до пам’яті дозволять вирішувати складні задачі, і невелика затримка цілком допустима.

Якщо ж затримка перестає бути критичною, — тоді зменшуються вимоги до високої пропускної здатності і високої ціни пам’яті (HBM): більш повільна і дешевша пам’ять (наприклад, DRAM) стане більш привабливою. Це спричинить глибокі зміни в архітектурі, але не означає, що існуючі підходи зникнуть:

  • Тренування (Training) залишиться важливим, і архітектура Nvidia (висока обчислювальна потужність, HBM, швидкі мережі) залишиться домінуючою.
  • Відповідь (Answer inference) — важливий, але менший ринок, де потрібна максимальна швидкість (Cerebras, Groq).
  • Агентський інференс — поступово відокремиться від GPU. Недоліки GPU — марна пам’ять під час попереднього заповнення і марна обчислювальна потужність під час декодування — будуть усунені системами з високою ємністю і низькою вартістю пам’яті, з достатньою обчислювальною здатністю. Навіть CPU може бути важливішим для обробки інструментів.

Ці категорії не рівні за масштабом і значущістю. Зокрема, агентський інференс — найбільший ринок майбутнього, бо він не обмежений людською кількістю або часом. Сьогоднішні агенти — просто гарні відповіді; майбутні — системи, що виконують роботу за командою інших систем, і їхній масштаб зростатиме не з населенням, а з обчислювальними ресурсами.

Висновки щодо агентського інференсу


До теперішнього часу, говорячи про “зростання з обчислювальною потужністю”, переважно маємо на увазі Nvidia. Але їхній перевага — у низькій затримці: швидкі чипи, але для їхнього використання потрібно багато інвестицій у HBM і мережі. Якщо затримка перестане бути головним обмеженням, — переваги Nvidia зменшаться, і платити за їхню технологію стане менш виправдано.

Nvidia вже це усвідомила: компанія запустила Dynamo — фреймворк для розбиття інференсу на частини, і пропонує окремі продукти для пам’яті і CPU-стійок, щоб розширити KV кеш і швидкість викликів. Це дозволяє зменшити залежність від дорогих GPU. Але у довгостроковій перспективі, великі хмарні провайдери, можливо, шукатимуть альтернативи через ціну і простоту.

Водночас, у Китаї є все необхідне для агентського інференсу: швидкі GPU, CPU, DRAM і диски. Вони мають виклики у тренуванні, але для відповіді — все є. Важливо й те, що у сфері національної безпеки (зокрема військової) — відповіді мають особливе значення.

Ще один цікавий аспект — космос (Space): повільніші чипи роблять більш реальним створення “космічних дата-центрів”. По-перше, якщо пам’ять можна під’єднати зовні, чипи можна робити простішими і менш тепловитратними. По-друге, старі технології — більш стійкі до космічного випромінювання. По-третє, вони споживають менше енергії і краще охолоджуються. По-четверте, менш сучасний процес — більш надійний, що важливо для супутників, які не ремонтуються.

Генеральний директор Nvidia, Дженсен Хуанг, часто каже, що “закон Мура помер”. Його ідея — у майбутньому швидкість зростатиме завдяки системним інноваціям. Але коли агентські системи зможуть діяти автономно, найглибший висновок — закон Мура вже не важливий. Ми отримуємо більше обчислювальної потужності, усвідомлюючи, що вона вже “достатньо хороша”.

NVDA-4,36%
XAI-5,39%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено