Понимание Cerebras: вычислительная мощность стимулирует размышления ИИ, память усиливает агента в выполнении задач

Автор: Бен Томпсон

Мощность позволяет ИИ учиться думать, память — учиться выполнять работу.

На этой неделе Cerebras вышла на биржу, и в последней статье Бен Томпсон подробно объяснил: эволюция ИИ от “чатов” к “самостоятельному выполнению задач” изменила узкие места всей архитектуры чипов.

Вы общаетесь с豆包 ради скорости; когда Kimi Claw выполняет за вас задачу в течение 5 часов, ему всё равно, быстрее ли он на 3 секунды или медленнее на 30 секунд — важна возможность запомнить контекст, возможность работать непрерывно. Каждый шаг увеличивает рабочую память (KV Cache). GPU создан для “ожидания перед экраном”: при предзагрузке видеопамять простаивает, при декодировании — вычислительные ресурсы простаивают — половину времени он просто ждет.

Настоящая проблема — не в скорости вычислений, а в том, сколько памяти можно сохранить и как быстро её читать. Более фундаментально — долгосрочный агент превращает KV Cache из временного буфера в постоянную рабочую память. Тот, кто сможет сделать эту память более долговечной, с более высокой переиспользуемостью и меньшими затратами, — тот и возьмет ключ к экономике Agent.

Это гораздо важнее, чем показатели скорости.

Если говорить о времени выхода на рынок, то создание чип-компании к маю 2026 года — почти идеальный сценарий. Reuters в выходные сообщил:

Два источника, знакомых с ситуацией, сообщили Reuters, что в связи с растущим спросом на акции этой AI-компании Cerebras Systems, в понедельник планируется увеличить объем и цену первичного публичного размещения (IPO). Источники сообщили, что компания рассматривает возможность повышения диапазона цены с первоначальных 115–125 долларов за акцию до 150–160 долларов, а количество акций — с 28 миллионов до 30 миллионов; поскольку информация еще не опубликована, оба анонимны.

Рост акций полупроводникового сектора обусловлен, конечно, AI — особенно с учетом того, что рынок постепенно осознает: агенты (Agents) будут поглощать огромные вычислительные ресурсы (Compute). Но более широкая постановка вопроса у Cerebras — это более глобальная картина: до сих пор нарратив о вычислительной мощности ИИ почти полностью связан с GPU и Nvidia; в будущем же сценарий станет всё более гетерогичным (Heterogeneous).

Эпоха GPU

История о том, как GPU стал центром ИИ, давно известна. В двух словах:

  • Как рисование пикселей на экране — параллельный процесс (Parallel process): чем больше обработчиков, тем быстрее графика — так и в ИИ: количество вычислительных единиц прямо влияет на скорость.

  • Nvidia воспользовалась этим трендом: сделала графические процессоры программируемыми (Programmable) и создала полноценную экосистему CUDA, которая расширила возможности программирования для всех разработчиков.

  • Основное отличие графики и ИИ — в масштабах задач: модели значительно больше текстур в видеоиграх. Это привело к двум цепным эволюциям: увеличению объема высокопроизводительной памяти (HBM) на GPU; и к прорывам в межчиповой коммуникации (Chip-to-chip networking), позволяющим нескольким чипам работать как единая адресуемая система. Nvidia лидирует в обеих областях.

  • Основное применение GPU — обучение моделей, и это особенно сложно из-за третьего пункта. Каждый шаг обучения — высоко параллелен, но между шагами — последовательность: перед переходом к следующему этапу все GPU должны синхронизировать результаты. Поэтому модель с триллионом параметров должна помещаться в память тысяч GPU, которые могут обмениваться данными как одна машина. Nvidia успешно решает обе задачи: контролирует поставки HBM, инвестирует в сетевые технологии.

Обучение — не единственная задача ИИ, есть ещё вывод (Inference). Он включает три основных этапа:

1. Предзагрузка (Prefill): кодирование всего необходимого для понимания большой языковой модели (LLM); очень параллельный процесс, требующий высокой вычислительной мощности.

2. Декодирование первой части (Decode Part 1): чтение KV-кеша (KV Cache) — хранилища контекста, включая выводы предзагрузки — для вычисления внимания. Это узко-канальный, последовательный этап, требующий высокой пропускной способности, с переменным и растущим объемом памяти.

3. Декодирование второй части (Decode Part 2): прямое распространение (Feed-forward) на основе весов модели; тоже узко-канальный, последовательный этап, объем памяти зависит от размера модели.

Эти два этапа чередуются на каждом слое модели (они работают перекрестно, а не последовательно), то есть декодирование — последовательный процесс, ограниченный пропускной способностью памяти (Memory-bandwidth bound). Каждый токен требует полного чтения двух разных пулов памяти: KV-кеша, который растет с каждым токеном, и весов модели. Оба должны быть полностью прочитаны для генерации одного токена.

GPU идеально справляется с этими требованиями: обеспечивает высокую вычислительную мощность для предзагрузки, достаточную HBM для KV и весов, а при нехватке памяти — объединяет память нескольких GPU через межчиповые соединения. Иными словами, архитектура, подходящая для обучения, подходит и для вывода — что подтверждается сделкой SpaceX и Anthropic. В их официальном блоге говорится:

«Мы подписали соглашение о использовании всей вычислительной мощности дата-центра SpaceX Colossus 1. Это даст нам более 300 МВт новых мощностей (более 220 тысяч GPU Nvidia). Это напрямую повысит качество обслуживания пользователей Claude Pro и Claude Max.»

SpaceX сохранил Colossus 2 — предполагается, что он используется для обучения будущих моделей и для вывода существующих. Возможность одновременно выполнять обе задачи в одном дата-центре объясняется тем, что модели xAI пока не очень большие; важнее то, что обучение и вывод могут выполняться на GPU. На самом деле, эти GPU изначально предназначались для обучения, и их гибкость — огромный плюс.

Анализ Cerebras

Продукт Cerebras принципиально отличается. Хотя диаметр кремниевой пластины — 300 мм, предел “масштаба” (Reticle limit) — примерно 26x33 мм, то есть максимальный размер области, которую можно экспонировать за один проход. Для выхода за этот предел используют межчиповые соединения, как делает Nvidia на B200. Cerebras придумала способ соединения по границам “срисблайнов” (Scribe lines), — полностью превращая всю пластину в один чип, без медленных межчиповых соединений.

Результат — чип с фантастической вычислительной мощностью, огромным объемом SRAM и невероятной скоростью доступа. Например, последний WSE-3 содержит 44 ГБ встроенной SRAM и достигает пропускной способности 21 PB/с; тогда как H100 Nvidia — 80 ГБ HBM и 3,35 TB/с. То есть, у WSE-3 объем памяти чуть меньше, но пропускная способность — в 6000 раз выше.

Сравнение делается именно с H100, потому что это самый популярный чип для вывода. И, очевидно, Cerebras лучше всего подходит для вывода, а не для обучения: межчиповые сети не так развиты, и большая часть мощности и памяти простаивают. Но для генерации токенов — скорость у Cerebras значительно выше GPU.

Однако ограничения есть и в выводе: если все данные помещаются в память чипа, скорость — фантастическая; если же объем данных превышает память (большая модель или длинный KV-кеш), Cerebras становится неэффективной, особенно учитывая цену. Технология “один пласт кремния — один чип” требует очень высокого качества производства, что повышает стоимость.

Тем не менее, я считаю, что подобные чипы найдут рынок: сейчас компания подчеркивает скорость как важнейшее качество — для вывода токенов, что ускоряет “мышление”. Но я считаю, что это временный сценарий. Главное — сколько времени потребуется человеку, чтобы получить ответ. С ростом популярности носимых устройств и голосовых интерфейсов скорость генерации токенов станет критичной для пользовательского опыта.

Агентский вывод (Agentic Inference)

Ранее я выделял три ключевых этапа в эпоху LLM:

1. ChatGPT доказал практичность предсказания токенов.

2. o1 ввел понятие “инференции” — чем больше токенов, тем лучше ответ.

3. Opus 4.5 и Claude Code внедрили первые агенты (Agents), использующие модели с инструментами, проверкой работы и выполнением задач.

Хотя все это — часть “инференции”, я считаю, что граница между “ответной” (Answer inference) и “исполнительной” (Task execution) — становится все более четкой. Cerebras ориентирована на “ответную” инференцию; а в долгосрочной перспективе архитектура “агентской” инференции будет кардинально отличаться от путей Nvidia и других GPU.

Ранее я говорил, что быстрый вывод для программирования — временный сценарий. Сейчас — человек все еще участвует: задает задачи, проверяет код, делает pull-запросы. Но в будущем всё это будет полностью автоматизировано. И это применимо к работе агентов: их настоящая сила — не в помощи человеку, а в самостоятельной работе без вмешательства.

Следовательно, лучший путь решения задач агентской инференции — это не просто ускорение, а создание сложных систем памяти. В них часть данных — в активных KV-кешах, часть — в основной памяти или SSD, а еще больше — в базах данных, логах, встраиваниях и объектных хранилищах. Главное — не просто отвечать на вопросы, а строить сложные многоуровневые системы памяти вокруг модели.

Ключевой момент — эта иерархия памяти для агентов подразумевает компромисс: ускорение за счет уменьшения объема памяти. И если в системе нет постоянного участия человека, задержки уже не так важны. Агент, работающий всю ночь, не заботится о задержке — важна только возможность завершить задачу. Если новые методы памяти позволят решать сложные задачи, небольшие задержки допустимы.

При этом, если задержка перестает быть приоритетом, то и потребность в самой высокой вычислительной мощности и HBM снижается: если задержка не критична, то более медленная и дешевая память (например, обычная DRAM) становится привлекательнее. В системе, где основное время занимает ожидание ответа памяти, чипы не обязательно должны быть на передовом техпроцессе. Это вызовет кардинальные изменения в архитектуре, но не означает исчезновения существующих решений:

Обучение (Training) останется важным, и архитектура Nvidia (высокая мощность, HBM, быстрая сеть) продолжит доминировать.

Ответная инференция (Answer inference) — важный, но меньший рынок, где очень важна скорость (например, Cerebras или Groq).

Агентская инференция (Agentic inference) — постепенно отделится от GPU. Недостатки GPU при предзагрузке и декодировании станут очевидны: потребуется системы с большим объемом и низкой стоимостью памяти, с “достаточной” вычислительной мощностью. На самом деле, скорость вызова инструментов CPU может оказаться важнее, чем GPU.

Эти категории по масштабам и значимости не равны. В частности, агентская инференция — это будущее крупнейшее направление, потому что она не ограничена числом людей или временем. Современные агенты — это просто “примитивные” ответные системы; будущие — это системы, которые по сути выполняют работу по указанию других систем, и их рынок не зависит от численности населения, а растет с увеличением вычислительных ресурсов.

Выводы для агентской инференции

До сих пор, говоря о “росте с увеличением вычислительной мощности”, обычно подразумевали Nvidia. Но их преимущество — в низкой задержке: их чипы очень быстры, но требуют огромных инвестиций в HBM и сеть. Если задержка перестанет быть критичной, преимущества Nvidia могут исчезнуть, и платить за них станет невыгодно.

Nvidia уже осознает этот сдвиг: компания запустила фреймворк Dynamo для разбиения инференции на части, а также выпускает отдельные продукты для расширения KV-кеша и ускорения вызова инструментов, чтобы держать GPU занятыми. Но крупные облачные провайдеры могут в будущем искать альтернативы, чтобы снизить затраты и упростить инфраструктуру — особенно в задачах агентской инференции, где GPU не так необходимы.

В то же время, в Китае есть всё необходимое для агентской инференции: достаточно быстрые GPU, CPU, DRAM и диски. Основной вызов — в обучении. Также, в задачах ответной инференции важна национальная безопасность и военные приложения.

Интересный взгляд — космос (Space): медленные чипы делают “космические дата-центры” более реализуемыми. Во-первых, если память можно вынести за пределы чипа, то чипы могут быть проще и работать прохладнее. Во-вторых, старые техпроцессы — больше физического размера, лучше сопротивляются космическому излучению. В-третьих, они потребляют меньше энергии и выделяют меньше тепла. В-четвертых, меньшие требования к точности изготовления повышают надежность, что важно для спутников, недоступных для ремонта.

Генеральный директор Nvidia Хуанг Жуньцюань часто говорит, что “закон Мура умер”; он подразумевает, что будущее ускорение — за системными инновациями. Но когда агенты смогут действовать независимо от человека, самое важное — понять, что закон Мура уже не так важен. Мы получаем больше вычислительных ресурсов, потому что понимаем: наши текущие мощности уже “достаточно хороши”.

NVDA-4,36%
XAI-5,39%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено