Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
Центр діяльності
Беріть учать та отримуйте винагороди
Реферал
20 USDT
Запрошуйте друзів та отримуйте бонуси
Партнерська програма
Ексклюзивні комісійні винагороди
Gate Booster
Зростайте та отримуйте аірдропи
Оголошення
Оновлення платформи в реальному часі
Блог Gate
Статті про криптоіндустрію
VIP послуги
Величезні знижки на комісії
Управління активами
Універсальне рішення для управління активами
Інституційний
Рішення цифрових активів для бізнесу
Розробники (API)
Підключається до екосистеми додатків Gate
Позабіржовий банківський переказ
Поповнюйте та виводьте фіат
Брокерська програма
Щедрі механізми знижок API
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
Зрозуміти Cerebras: обчислювальна потужність сприяє штучному інтелекту, пам’ять надає агентам здатність виконувати завдання
Автор: Бен Томпсон
Обчислювальна потужність навчає ШІ думати, а пам’ять — навчає Агентів виконувати роботу.
Цього тижня, коли Cerebras виходить на біржу, остання стаття Бена Томпсона розкриває: еволюція ШІ від “чатів” до “самостійного виконання завдань”, змінила вузькі місця архітектури чипів.
Ти спілкуєшся з豆包, очікуючи швидкості; коли Kimi Claw виконує за тебе завдання 5 годин, його не цікавить, швидше він чи повільніше на 3 секунди — його цікавить, чи може він запам’ятати контекст, чи може працювати безперервно. Кожен крок — робоча пам’ять (KV Cache) розширюється на рівень. GPU створені для “очікування перед екраном”: під час попереднього заповнення пам’ять порожня, під час декодування — обчислювальні ресурси простоюють — половину часу вони просто чекають.
Справжня вузька частина — не швидкість обчислень, а обсяг збереженої та швидкості читання. Більш глибше — довготривалі агенти перетворюють KV Cache з тимчасового буфера у постійну робочу пам’ять. Той, хто зможе зберігати цю пам’ять довше, з високою повторюваністю та за меншими витратами, — той і тримає ключі до економіки Агентів.
Це набагато важливіше за бали у тестах.
Щодо моменту виходу на ринок — створити компанію з чипами до травня 2026 року — майже ідеально. Reuters у вихідні повідомляє:
Цикл зростання акцій наповнює драйвер — безумовно, ШІ, особливо коли ринок усвідомлює: агенти (Agents) поглинають масивні обчислювальні ресурси (Compute). Але головна теза Cerebras ширша: до сьогодні, історія обчислювальної потужності ШІ майже цілком зосереджена навколо GPU, Nvidia; у майбутньому ж сценарій стане дедалі гетерогеннішим (Heterogeneous).
Епоха GPU
Історія, як GPU стали центром ШІ, вже давно відома. Коротко:
Як і пікселі на екрані — паралельний процес (Parallel process): чим більше обчислювальних блоків, тим швидше графіка — так і для ШІ: кількість обчислювальних одиниць прямо визначає швидкість.
Nvidia скористалася цим трендом: зробила графічні процесори програмованими (Programmable), а за допомогою CUDA — створила цілі екосистеми для розробників.
Головна різниця між графікою та ШІ — у масштабі задач: моделі значно більші за текстури у відеоіграх. Це спричинило дві ланцюгові еволюції: різке зростання обсягу високопродуктивної пам’яті (HBM) на GPU; прориви у міжчиповій комунікації (Chip-to-chip networking), що дозволяє кільком GPU працювати як єдина адресована система. Nvidia лідирує у цих напрямках.
Основне застосування GPU — тренування моделей, і тут особливо важливий третій пункт. Кожен крок тренування — високопаралельний, але між кроками — послідовний: перед переходом до наступного, кожен GPU має синхронізувати результати з іншими. Тому модель з трильйоном параметрів має поміститися у десятки тисяч GPU, які можуть обмінюватися даними як одна машина. Nvidia контролює обидва аспекти: і контроль поставок HBM, і довгострокові інвестиції у мережеві технології.
Звісно, тренування — не єдине завдання ШІ. Інше — інференс (Inference). Він складається з трьох основних етапів:
1. Попереднє заповнення (Prefill): кодування всього необхідного для роботи великої мовної моделі (LLM); цей процес — високопаралельний, обчислювальні ресурси — критично.
2. Декодування першої частини (Decode Part 1): зчитування KV кешу (KV Cache) — що зберігає контекст, включно з виходами попереднього заповнення — для обчислення уваги. Це вузьке місце — з високою пропускною здатністю, і пам’ять тут змінюється залежно від задачі.
3. Декодування другої частини (Decode Part 2): обчислення на основі ваг моделі (Feed-forward); теж вузьке місце, залежить від розміру моделі.
Ці два етапи чергуються на кожному рівні моделі (вони працюють у черзі, а не послідовно). Тобто, декодування — послідовний процес, обмежений пропускною здатністю пам’яті (Memory-bandwidth bound). Кожен токен вимагає повного зчитування двох різних пам’ятних пулів: KV кешу, що зростає з кожним токеном, і ваг моделі. Обидва мають бути зчитані цілком для отримання одного вихідного токена.
GPU ідеально справляється з цими трьома вимогами: забезпечує високу обчислювальну потужність для попереднього заповнення, достатню HBM для KV і ваг, і при нестачі пам’яті — через міжчипову мережу об’єднує пам’ять. Іншими словами, архітектура, що підходить для тренування, — підходить і для інференсу. Це підтверджує угода SpaceX з Anthropic:
SpaceX зберігає Colossus 2 — ймовірно, для тренування майбутніх моделей і для інференсу існуючих. Вони можуть робити і те, і інше у тому ж дата-центрі, бо модель xAI наразі не дуже велика; важливо, що тренування і інференс — обидва на GPU. Навіть GPU, які спочатку були для тренування, тепер використовуються і для інференсу — це величезна перевага.
Аналіз Cerebras
Вироби Cerebras — зовсім інші. Хоча діаметр кремнієвої пластини — 300 мм, “реліктовий” (Reticle limit) — максимум 26х33 мм, тобто максимальний розмір чипа. Перевищити цей розмір можна лише через “проміжний рівень” міжчипової з’єднувальної технології, як у Nvidia на B200. Але Cerebras винайшли спосіб з’єднувати всю пластину у один чип, без повільних міжчипових з’єднань.
Результат — унікальний чип із неймовірною обчислювальною потужністю і масивною SRAM-пам’яттю, швидкою до неймовірності. Порівняння: новий WSE-3 має 44 ГБ SRAM на кристалі і пропускну здатність 21 PB/с; тоді як H100 Nvidia — 80 ГБ HBM і 3.35 TB/с. Тобто, у WSE-3 менше пам’яті, але у 6000 разів більша пропускна здатність.
Порівняння з H100 — тому що H100 — найпоширеніший чип для інференсу, і Cerebras у цій сфері сильний. Можна тренувати на Cerebras, але міжчипові мережі — слабке місце, тому більша частина обчислень і пам’яті — просто ідеально недосяжні для використання. Реальна цінність — швидке генерування токенів, що значно перевищує GPU.
Але й обмеження залишаються: якщо всі дані помістяться у SRAM, швидкість — неймовірна; якщо ж обсяг даних перевищує пам’ять (більше моделі або довший KV кеш), — Cerebras стає нерентабельним, особливо враховуючи ціну. Технологія “ціла пластина — чип” вимагає високої врожайності, що підвищує вартість.
Я вважаю, що подібні чипи мають ринок: зараз компанія наголошує на швидкості для програмування — інференс означає багато токенів, тобто швидкість генерації — ключова. Але це — тимчасовий сценарій, поясню згодом. Головне — скільки часу потрібно людині, щоб отримати відповідь. З поширенням носимих пристроїв і додатків, швидкість взаємодії (особливо голосової) стане критичною для користувацького досвіду.
Агентський інференс
Раніше я виділяв три ключові етапи у розвитку LLM:
1. ChatGPT — довів корисність прогнозування токенів.
2. o1 — ввів концепцію інференсу, де більше токенів — кращі відповіді.
3. Opus 4.5 і Claude Code — перші практичні Агенти, що використовують моделі з інструментами, перевіркою роботи тощо.
Хоча все це — “інференс”, я вважаю, що межа між відповіддю (Answer inference) і виконанням завдань (Task execution / Agentic inference) стає все більш очевидною. Cerebras орієнтований на “відповіді”, але у довгостроковій перспективі архітектура “агентів” буде зовсім іншою, ніж шлях GPU або Cerebras.
Раніше я казав, що швидкий інференс для програмування — тимчасовий сценарій. Зараз, коли людська участь у програмуванні зменшується, — люди визначають завдання, перевіряють код, роблять PR; але у майбутньому все це цілком може робити машина. Це — широка сфера для агентів: їхня сила — не у допомозі людині, а у здатності працювати автономно.
Отже, шлях вирішення задач агентського інференсу — відрізнятиметься від відповіді. Відповідь — швидкий, з високою швидкістю токенів; а агентський інференс — головне — пам’ять (Memory). Агенту потрібен контекст, стан і історія. Частина з них — у активному KV кеші, частина — у пам’яті хосту або SSD, ще частина — у базах даних, логах, вбудовуваннях і об’єктних сховищах. Головне — агентський інференс не просто відповідає на питання, а будує складну ієрархію пам’яті навколо моделі.
Це означає, що для агентського інференсу потрібно балансувати між швидкістю і обсягом пам’яті — зменшити швидкість заради більшої пам’яті. Якщо система працює без людського втручання у реальному часі, швидкість вже не є головним. Якщо агент виконує нічні задачі, його не турбує затримка — важливо лише, щоб він виконав завдання. Нові підходи до пам’яті дозволять вирішувати складні задачі, і невелика затримка цілком допустима.
Якщо ж затримка перестає бути критичною, — тоді зменшуються вимоги до високої пропускної здатності і високої ціни пам’яті (HBM): більш повільна і дешевша пам’ять (наприклад, DRAM) стане більш привабливою. Це спричинить глибокі зміни в архітектурі, але не означає, що існуючі підходи зникнуть:
Ці категорії не рівні за масштабом і значущістю. Зокрема, агентський інференс — найбільший ринок майбутнього, бо він не обмежений людською кількістю або часом. Сьогоднішні агенти — просто гарні відповіді; майбутні — системи, що виконують роботу за командою інших систем, і їхній масштаб зростатиме не з населенням, а з обчислювальними ресурсами.
Висновки щодо агентського інференсу
До теперішнього часу, говорячи про “зростання з обчислювальною потужністю”, переважно маємо на увазі Nvidia. Але їхній перевага — у низькій затримці: швидкі чипи, але для їхнього використання потрібно багато інвестицій у HBM і мережі. Якщо затримка перестане бути головним обмеженням, — переваги Nvidia зменшаться, і платити за їхню технологію стане менш виправдано.
Nvidia вже це усвідомила: компанія запустила Dynamo — фреймворк для розбиття інференсу на частини, і пропонує окремі продукти для пам’яті і CPU-стійок, щоб розширити KV кеш і швидкість викликів. Це дозволяє зменшити залежність від дорогих GPU. Але у довгостроковій перспективі, великі хмарні провайдери, можливо, шукатимуть альтернативи через ціну і простоту.
Водночас, у Китаї є все необхідне для агентського інференсу: швидкі GPU, CPU, DRAM і диски. Вони мають виклики у тренуванні, але для відповіді — все є. Важливо й те, що у сфері національної безпеки (зокрема військової) — відповіді мають особливе значення.
Ще один цікавий аспект — космос (Space): повільніші чипи роблять більш реальним створення “космічних дата-центрів”. По-перше, якщо пам’ять можна під’єднати зовні, чипи можна робити простішими і менш тепловитратними. По-друге, старі технології — більш стійкі до космічного випромінювання. По-третє, вони споживають менше енергії і краще охолоджуються. По-четверте, менш сучасний процес — більш надійний, що важливо для супутників, які не ремонтуються.
Генеральний директор Nvidia, Дженсен Хуанг, часто каже, що “закон Мура помер”. Його ідея — у майбутньому швидкість зростатиме завдяки системним інноваціям. Але коли агентські системи зможуть діяти автономно, найглибший висновок — закон Мура вже не важливий. Ми отримуємо більше обчислювальної потужності, усвідомлюючи, що вона вже “достатньо хороша”.