Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
Зрозуміти Cerebras: обчислювальна потужність сприяє штучному інтелекту, пам’ять надає агентам здатність виконувати завдання
Автор: Бен Томпсон
Обчислювальна потужність навчає ШІ думати, а пам’ять — навчає Агентів виконувати роботу.
Цього тижня, коли Cerebras виходить на біржу, остання стаття Бена Томпсона розкриває: еволюція ШІ від “чатів” до “самостійного виконання завдань”, змінила вузькі місця архітектури чипів.
Ти спілкуєшся з豆包, очікуючи швидкості; коли Kimi Claw виконує за тебе завдання протягом 5 годин, його не цікавить, швидше він — на 3 секунди чи повільніше на 30 секунд — важливо, чи він може запам’ятати контекст, чи може працювати безперервно. Кожен крок — робоча пам’ять (KV Cache) розширюється на рівень. GPU створені для “очікування перед екраном”: під час попереднього заповнення пам’ять порожня, під час декодування — обчислювальні ресурси простоюють — половину часу вони просто чекають.
Справжня вузька точка — не швидкість обчислень, а скільки можна зберегти і швидко зчитати. Більш глибше — довготривалі агенти перетворюють KV Cache з тимчасового буфера у постійну робочу пам’ять. Той, хто зможе зробити цю пам’ять більш довговічною, з високим повторним використанням і за меншими витратами, — той і тримає ключ до економіки агентів.
Це набагато важливіше за бали у тестах.
Щодо моменту виходу на ринок — створити компанію з чипами до травня 2026 року — майже ідеально. Reuters у вихідні повідомляє:
Цикл зростання акцій у секторі напівпровідників зумовлений, безумовно, ШІ — особливо з огляду на те, що ринок поступово усвідомлює: агенти (Agents) поглинуть величезну обчислювальну потужність (Compute). Але те, що вказує Cerebras, — ширша картина: до цього моменту, нарратив про обчислювальні ресурси ШІ майже цілком зосереджений на GPU, NVIDIA; у майбутньому ж сценарій стане дедалі гетерогенним (Heterogeneous).
Епоха GPU
Історія, як GPU стали центром ШІ, вже давно відома. Коротко:
Як і пікселі на екрані — паралельний процес (Parallel process): чим більше обчислювальних блоків, тим швидше графіка — так і для ШІ: кількість обчислювальних одиниць прямо визначає швидкість.
NVIDIA вчасно схопила цю ідею: зробила графічні процесори програмованими (Programmable), а за допомогою CUDA — повноцінної екосистеми — відкрила цю можливість для всіх розробників.
Головна різниця між графікою і ШІ — у масштабі задач: моделі набагато більші за текстури у відеоіграх. Це спричинило дві ланцюгові еволюції: різке зростання обсягу високопродуктивної пам’яті (HBM) на одному GPU; і прориви у міжчиповій комунікації (Chip-to-chip networking), що дозволили кільком чипам працювати як єдиній адресованій системі. NVIDIA лідирує у цих напрямках.
Основне застосування GPU — тренування моделей, і тут особливо важливий третій пункт. Кожен крок тренування — високопаралельний, але між кроками — послідовний: перед переходом до наступного потрібно синхронізувати результати між усіма GPU. Це причина, чому модель з трильйоном параметрів має поміститися у десятки тисяч GPU і мати здатність обмінюватися даними так само швидко, як одна машина. NVIDIA домінує і тут: вона першою забезпечила поставки HBM і інвестує у мережеві технології.
Звісно, тренування — не єдине завдання ШІ. Інше — Inference (виведення). Виведення має три основні етапи:
1. Попереднє заповнення (Prefill): кодування всього, що потрібно для роботи великої мовної моделі (LLM), у зрозумілу форму; цей процес — високопаралельний, обчислювальна потужність — критична.
2. Декодування першої частини (Decode Part 1): зчитування KV кешу (KV Cache) — що зберігає контекст, включно з виходами попереднього заповнення — для обчислення уваги. Це вузьке місце — з високою пропускною здатністю, і пам’ять тут змінюється залежно від задачі.
3. Декодування другої частини (Decode Part 2): обчислення на основі ваг моделі (Feed-forward), що теж — вузьке місце, і залежить від розміру моделі.
Ці два етапи чергуються на кожному рівні моделі (вони працюють у черзі, а не послідовно), тобто декодування — послідовний процес, обмежений пропускною здатністю пам’яті (Memory-bandwidth bound). Кожен токен вимагає повного зчитування двох різних пам’ятних пулів: KV кешу, що зростає з кожним токеном, і ваг моделі. Обидва мають бути зчитані цілком, щоб отримати один вихідний токен.
GPU ідеально підходять для цих трьох задач: забезпечують високу обчислювальну потужність для попереднього заповнення, достатню кількість HBM для KV і ваг, і при недостатності пам’яті — через міжчипову комунікацію — об’єднують пам’ять. Іншими словами, архітектура, що підходить для тренування, — підходить і для inference. Це підтверджує угода SpaceX з Anthropic:
SpaceX зберігає Colossus 2 — ймовірно, для тренування майбутніх моделей і для inference існуючих. Можливість одночасно виконувати обидва завдання у тому ж дата-центрі пояснюється тим, що моделі xAI наразі не дуже великі; важливо, що і тренування, і inference — можна робити на GPU. Насправді, ці GPU, що спочатку були для тренування, тепер використовуються і для inference — це величезна перевага.
Аналіз Cerebras
Вироби Cerebras — зовсім інші. Хоча діаметр кремнієвої пластини — 300 мм, “ліміт ретікулю” (Reticle limit) — приблизно 26х33 мм. Це максимальний розмір чипа; щоб перевищити його, потрібно з’єднувати кілька чипів через “проміжний шар” (interposer), як робить NVIDIA на B200. Але Cerebras винайшли спосіб — прокладати мости через “смуги” (Scribe lines), щоб зробити цілій пластині один чип без повільних міжчипових з’єднань.
Результат — унікальний чип із неймовірною обчислювальною потужністю і масивами SRAM, швидким доступом. Порівняння: новий WSE-3 має 44 ГБ SRAM на кристалі і пропускну здатність 21 PB/с; тоді як H100 має 80 ГБ HBM і пропускну здатність 3,35 TB/с. Тобто, у WSE-3 менше пам’яті, але пропускна здатність у 6000 разів більша.
Порівняння з H100 — тому що H100 — найпоширеніший чип для inference, і Cerebras у цій сфері — майстер. Можна тренувати на Cerebras, але міжчипові мережі — не їхня сильна сторона, тому більша частина обчислювальної потужності і пам’яті залишається невикористаною; справжня цінність — швидке генерування токенів.
Але й обмеження для inference — схожі з тренуванням: якщо всі дані помістяться у пам’ять на кристалі, швидкість — неймовірна; якщо ж пам’ять не вистачає (через більшу модель або довший KV кеш), — Cerebras стає неефективним, особливо враховуючи ціну. Технологія “цілий пласт кремнію — один чип” ускладнює високий вихідний рівень, що підвищує вартість.
Я вважаю, що подібні чипи Cerebras мають ринок: зараз компанія наголошує на швидкості для програмування — inference вимагає швидкої генерації токенів, що означає швидкий обмін даними. Але це — тимчасовий сценарій, і я поясню чому. Головне — скільки часу потрібно людині, щоб отримати відповідь. З поширенням носимих пристроїв і голосових інтерфейсів швидкість взаємодії стане критичною.
Агентний inference
Раніше я виділяв три ключові етапи у розвитку LLM:
1. ChatGPT довів корисність прогнозування токенів.
2. o1 ввів поняття reasoning — що більше токенів, то краща відповідь.
3. Opus 4.5 і Claude Code — перші практичні Agents, що використовують reasoning і набір інструментів для виконання завдань.
Хоча все це — частина reasoning, я вважаю, що межа між “відповіддю” (Answer inference) і “виконанням завдань” (Agentic inference) стає дедалі чіткішою. Cerebras орієнтований на “відповіді”, але у довгостроковій перспективі архітектура “агентів” — зовсім інша, ніж у GPU.
Раніше я казав, що швидке reasoning для програмування — тимчасовий сценарій. Зараз — людська участь ще потрібна: визначення завдань, перевірка коду, подання PR. Але вже очевидно, що у майбутньому все це зможуть робити машини. Це — широка сфера для агентів: їхня сила — не у допомозі людині, а у здатності працювати автономно.
Отже, шлях для агентного reasoning — зовсім інший, ніж для відповіді. Головне для відповіді — швидкість токенів; для агентів — пам’ять (Memory). Агентам потрібен контекст, стан і історія. Частина з них — у активному KV кеші, частина — у пам’яті хосту або SSD, ще частина — у базах даних, логах, вбудовуваннях і об’єктних сховищах. Ключове — агентські системи не просто відповідають на питання, а будують складну ієрархію пам’яті навколо моделі.
Це означає, що для агентів потрібно балансувати між швидкістю і обсягом пам’яті — “швидкість за рахунок обсягу”. І якщо система працює без людського контролю у реальному часі, швидкість вже не є головним. Якщо агент виконує нічні задачі — його не турбує затримка для користувача; важливо — чи він виконає завдання. Нові підходи до пам’яті дозволять складні задачі — і затримки будуть прийнятними.
Якщо затримка перестане бути пріоритетом, тоді і прагнення до максимальної швидкості і високої пропускної здатності пам’яті (HBM) — втратить сенс: тоді більш дешеві і повільніші рішення — наприклад, звичайна DRAM — стануть більш привабливими. Якщо вся система чекатиме відповіді з пам’яті, чипи не потрібно буде мати найновіший техпроцес. Це — глибока архітектурна зміна, але не означає, що старі архітектури зникнуть:
Ці категорії — не рівні за масштабом і значущістю. Зокрема, агентний inference — найбільший ринок майбутнього, бо він не залежить від кількості людей або часу. Сьогоднішні агенти — просто гарні відповіді; майбутні — системи, що виконують роботу за командою інших систем, — їхній масштаб зростатиме не з населенням, а з обчислювальною потужністю.
Висновки щодо агентного inference
До теперішнього часу “зростання з обчислювальною потужністю” зазвичай асоціювалося з NVIDIA. Але їхня перевага — у низькій затримці: швидкі чипи, але для їхнього використання потрібно багато інвестицій у HBM і мережі. Якщо затримка перестане бути головним обмеженням, переваги NVIDIA зменшаться.
NVIDIA вже це усвідомила: компанія запустила Dynamo — фреймворк для розбиття reasoning на частини, і пропонує окремі продукти для розширення KV і CPU-стелажів, щоб збільшити кеш і швидкість викликів. Це — спроба зменшити залежність від дорогих GPU. Але у довгостроковій перспективі великі хмарні провайдери, можливо, шукатимуть альтернативи через зниження вартості і спрощення.
Водночас, у Китаї, хоча й бракує топової обчислювальної потужності, є все необхідне для агентного reasoning: швидкі GPU, CPU, DRAM і диски. Важливою проблемою залишається тренування — але для inference у національній безпеці (зокрема військових застосунках) це може бути навіть важливішим.
Ще один цікавий аспект — космос (Space): повільніші чипи роблять “космічні дата-центри” більш реальними. По-перше, якщо пам’ять можна під’єднати зовні, чипи можна робити простішими і менш тепловитратними. По-друге, старі техпроцеси — більші за розміром і краще витримують космічне випромінювання. По-третє, вони споживають менше енергії і мають менше теплових проблем. По-четверте, менш сучасні техпроцеси — більш надійні, що важливо для супутників, які не ремонтуються.
Голова NVIDIA Дженсен Хуань часто каже, що “закон Мура помер”; він має на увазі, що майбутнє прискорення — системне. Але коли агент може діяти автономно, найглибший висновок — закон Мура вже не важливий. Ми отримуємо більше обчислювальної потужності, усвідомлюючи, що вже маємо “достатньо хорошу” — і цим користуємося.