2026-04-07 07:53:18

Большие модели все еще соревнуются в параметрах, но по-настоящему начинающая ограничивать индустриальный потолок — это уже другой вопрос: хранение контекста.

Когда длина выводов, цепочки вызовов агента и долгосрочная память становятся все длиннее, то, что действительно определяет качество опыта и затраты — это не только вычислительные мощности, а «может ли контекст быть эффективно прочитан, записан, управляем и повторно использован».
Именно поэтому в последнее время рынок начал обращать внимание на инфраструктуру вроде Context Memory, KV Cache, многоуровневого хранения для вывода.
Следующий этап конкуренции в AI, возможно, будет не в том, кто сможет генерировать больше контента, а в том, кто сможет обеспечить стабильную и недорогую работу модели в более длинных задачах.
Если в эпоху обучения соревновались в мощностях GPU, то в эпоху агентов — соревнуются в памяти.
Это также причина, по которой я в одной группе обсуждал, почему стоит играть в лобстера: я сказал, что Claude Code специально заточен под лобстера. Но когда они начали говорить о полном контексте, я вдруг остолбенел, и честно говоря, решил просто спокойно продолжать выращивать креветок.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков