Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Launchpad
Будьте готовы к следующему крупному токен-проекту
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Расшифровка первого длинного поста после ухода Линь Цзюньянга: 6 уроков для инвестиций в ИИ
Спустя три недели после ухода из Alibaba Qianwen, Линь Цзюньян, бывший ключевой участник ядра Tongyi Qianwen, который когда-то был на виду, опубликовал свой первый после увольнения публичный технический лонгрид《От “Reasoning” Thinking до “Agentic” Thinking》。
Этот лонгрид на 6000 английских слов основан на его практическом опыте обучения прошлых моделей и наблюдениях, в нем сделан разбор пройденного пути, а также даны многочисленные выводы, которые, вероятно, заинтересуют участников AI-олимпиад и соревнований.
В этой статье Линь подробно раскрывает важность парадигмы Agent-мышления для обучения моделей.
Что касается отдачи (обратной связи) от Agent к обучению AI-моделей, Wall Street Zhijian ранее публиковал статью《Горькое пробуждение Agent: интеллект движется от языка к опыту》, пытаясь, опираясь на подход Саттона в обучении с подкреплением, объяснить, почему Agent — это неизбежный путь к более высокому потолку интеллекта.
А Линь Цзюньян в этой статье, опираясь на свой опыт реальной технической практики в команде Qianwen, с инженерными деталями дает более жесткие референсы и доказательства для Agentic thinking. Он также точнее указывает, в чем именно проблема традиционного режима рассуждений, и какие могут быть ключевые ограничения и точки конкурентности у будущих интеллектуальных агентов.
Для тех, кто пытается понять, как изменится форма следующего этапа развития AI, возможно, в этой статье как минимум спрятано 6 инвестиционных подсказок, которые стоит серьезно переварить.
1. Убывающая предельная отдача рассуждений
В первой половине 2025 года — и даже раньше — вся индустрия занималась одним и тем же: заставляла модели “думать еще немного”.
o1 от OpenAI доказала, что “мышление” может стать специально обучаемым базовым умением, и отрасль взволнованно вложилась в эту гонку вооружений: единственная ключевая вера — если на этапе рассуждений модель тратит больше вычислений, она выдаст лучший ответ.
Но Линь Цзюньян в статье выдвигает очень спокойный вывод:
Это контринтуитивное заключение заслуживает внимания.
С 2024 по 2025 год логика ценообразования “рассуждающих моделей” на рынке строилась на простом допущении: чем дольше модель думает, тем лучше ответ, поэтому чем больше времени на рассуждения, тем выше ценность.
Расход GPU стал прокси-метрикой уровня интеллекта. В первичном рынке многие инвестиционные истории стартапов тоже делают акцент на “мы рассуждаем глубже”.
Но Линь Цзюньян на основе собственного опыта в команде Qianwen показывает: это допущение перестает работать. Если модель пытается думать обо всех вопросах одинаково длинным и громоздким способом, это означает, что она не умеет эффективно определять приоритеты, не умеет своевременно сжимать информацию и, главное, не умеет решительно действовать в момент, когда пора действовать. Он пишет:
Если задача — кодирование, то мышление должно помогать модели в навигации по кодовой базе, в планировании задач и в восстановлении после ошибок; если задача — Agent workflow, то мышление должно повышать качество выполнения на длинных временных масштабах — “а не выдавать отрезок промежуточного текста рассуждений, который выглядит очень впечатляюще”.
Переводя на язык инвестиций: предельная отдача вычислений на рассуждения снижается.
Чистое наращивание времени на рассуждения все ближе подбирается к своей экономической границе. Те компании, которые до сих пор ставят “глубину рассуждений” в основу своей оценки, возможно, должны заново проверить, где именно находится их ров (защитный барьер) и на чем он реально построен.
2. Хрупкость “единой модели”
Линь Цзюньян в статье раскрывает малоизвестный выбор маршрута: команда Qianwen ранее пыталась объединить “режим мышления” и “режим инструкций” в одной и той же модели.
Звучит это естественно и правильно. Идеальная система должна вести себя как опытный эксперт: на простые вопросы отвечает напрямую, на сложные — углубляется в размышления, и при этом сама определяет, когда применять тот или иной режим.
Qwen3 — один из самых ясных публичных экспериментов в этом направлении: он вводит “гибридный режим мышления”, позволяя одной и той же семье моделей иметь одновременно действия в режиме мышления и в режиме без мышления, и подчеркивает контролируемый бюджет на размышления.
Однако Линь Цзюньян признается: объединить — легко, но сделать по-настоящему качественно — крайне сложно; сложность не в архитектуре модели, а в данных.
Мощная instruction-модель вознаграждается за прямоту, краткость, высокую дисциплину следования формату и низкую задержку в задачах предприятия с высокой частотой и большим потоком. Мощная thinking-модель вознаграждается за готовность тратить больше токенов на сложные задачи, за способность поддерживать связную промежуточную структуру и за возможность исследовать альтернативные пути.
Эти два профиля поведения естественно тянут в разные стороны.
Как описывает Линь Цзюньян:
Именно поэтому в конечном итоге в версии Qwen 2507 были выпущены отдельно обновления Instruct и Thinking, которые развиваются независимо: в том числе причина отдельных версий 30B и 235B.
В коммерческом развертывании многим клиентам нужны прежде всего высокая пропускная способность, низкая стоимость и сильно контролируемый instruction-режим; принудительное объединение наоборот размывает позиционирование продукта.
Anthropic пошла по противоположному пути. Claude 3.7 Sonnet определили как гибридную модель рассуждений: пользователи могут выбирать обычные ответы либо расширять мышление; Claude 4 сделал еще шаг вперед — он позволяет чередовать процесс рассуждений и использование инструментов. Позднее GLM-4.5 и DeepSeek V3.1 также двинулись в похожем направлении.
По двум траекториям Линь Цзюньян делает оценку: по-настоящему успешное слияние требует, чтобы затраты на рассуждения представляли собой гладкую, непрерывную шкалу, а модель могла адаптивно выбирать, сколько усилий стоит вложить в размышления. Если этого не добиться, “пользовательский опыт по-прежнему не будет естественным” — по сути, это “два грубо склеенных характера”.
Вывод для инвесторов довольно прямой: не позволяйте легко себя впечатлить нарративом про “единую модель” или “одна модель, которая может все”.
Утверждать, что одна модель покрывает все сценарии, и действительно делать в каждом сценарии оптимально — это разные вещи.
По-настоящему ценные технологические барьеры скрыты в соотношении данных, дизайне обучающих процессов, выравнивании поведения — то есть там, где это нельзя уловить одной базовой сводной таблицей результатов. На “всемогущность” в инвестиционных PPT в коммерческом развертывании часто приходится смотреть как на игру с нулевой суммой на уровне данных.
3. Поднятие уровня объекта обучения
Самое тяжелое по весу обобщение Линь Цзюньян, возможно, таково: “Мы переходим от эпохи, когда обучение было сосредоточено на моделях, к эпохе, где обучение сосредоточено на интеллектуальных агентах.”
В предыдущей статье мы пытались обосновать неизбежность логики этого перехода: верхний предел статических данных — это граница известного мира; чтобы выйти за нее, агент должен постоянно взаимодействовать с реальной средой.
В этой статье Линь Цзюньян, вероятно, переводит это суждение на чрезвычайно конкретный инженерный язык:
Линь Цзюньян делает акцент на том, “может ли модель непрерывно продвигать решение проблемы в процессе взаимодействия со средой”. Ключевой вопрос меняется с “может ли модель думать достаточно долго” на “может ли модель думать так, чтобы это поддерживало эффективные действия”.
Каждая из этих трудностей соответствует “траектории решений причинно-следственной структуры” действия.
Для AI-инвестиций смысл этого перехода крайне глубокий.
Раньше, в общем подтверждении Scaling Law, при оценке AI-компании ключевыми метриками считались сама модель — сколько параметров, какие оценки на бенчмарках, какова скорость вывода.
Но если объект обучения — это уже не модель, а система, состоящая из “модель + среда”, то и оценочный фреймворк тоже должен измениться.
В будущем ценными будут вопросы: насколько в реальных сценариях агент этой компании продолжает стабильно работать? Сколько у нее накоплено данных взаимодействий с причинно-следственной структурой? Насколько широк охват среды и насколько богаты сигналы обратной связи? Насколько быстро замыкается цикл “модель + среда”?
Модель — лишь часть системы, больше не все. И оценивать агентскую компанию только по результатам бенчмарка модели — все равно что оценивать внедорожник по времени разгона 0-100: очень вероятно, что вы схватите не те метрики.
4. Недооцененная инфраструктура
В статье Линь Цзюньян уделяет много места инфраструктуре. Для AI-инвестиций это та часть, которую легче всего упустить, но которая может сильнее всего влиять на конкурентный ландшафт.
В обучении с подкреплением в парадигме рассуждений модель генерирует траектории рассуждений, оценщик выставляет баллы, происходит обновление стратегии, но среда просто выступает статическим валидатором.
А в агентном обучении с подкреплением вся технологическая логика претерпевает качественный скачок.
Линь Цзюньян описывает сцену: стратегия агента встроена в огромный исполнительский каркас — серверы инструментов, браузер, терминал, поисковая система, симулятор, исполняющий sandbox, слой API, система памяти и различные фреймворки оркестрации.
Среда перестает быть наблюдателем и становится частью самой обучающей системы. Он приводит очень наглядный пример: представьте coding-агента, которому нужно поместить сгенерированный им код в реальную среду тестирования и выполнить его. Со стороны рассуждений выполнение блокируется из-за ожидания обратной связи; со стороны обучения pipeline “голодает”, потому что нельзя получить завершенную траекторию. В итоге загрузка GPU по всей линии оказывается гораздо ниже, чем в классическом reinforcement learning для вывода рассуждений. Если добавить задержки инструментов, частичную наблюдаемость и среду с состоянием, неэффективность только усилится.
Понять это можно по аналогии: обучение рассуждающей модели похоже на решение задач в тихом классе — у задач есть стандартный ответ, а правильность/ошибки дают мгновенную обратную связь. Обучение агента похоже на стройку в шумном месте — подача материалов непредсказуема, меняется погода, действия других рабочих влияют на ваш прогресс, а во многих случаях нужно ждать, пока застынет бетон, чтобы узнать, правильно ли уложили.
Инфраструктура для “классной модели” и “стройки” — это вообще не один и тот же масштаб инженерной задачи.
Поэтому Линь Цзюньян подчеркивает: “обучение и вывод (inference) должны быть отделены гораздо более тщательно”. Если этого не сделать, пропускная способность обучения агентам быстро рухнет: даже до достижения целевой способности эксперименты станут медленными, мучительными и плохо масштабируемыми.
Возможно, это и есть четвертое инвестиционное прозрение по AI: инвестиционная логика AI-инфраструктуры переходит в структурно иной режим.
Раньше ключевым ресурсом была сама вычислительная мощность: у кого больше GPU, тот выигрывает на старте. В будущем ключевым ресурсом станет инженерная способность собрать целую систему координации обучающего процесса, симуляции среды и сбора обратной связи.
Такая способность очень трудно воспроизводима, и компаний, которые ей реально обладают, значительно меньше, чем компаний с большими кластерами вычислений.
Если вычислительная мощность — это кирпич, то инфраструктура обучения агентов — это способность проектировать здание: кирпич можно купить, а способность проектирования — нельзя.
5. Дефицит качества среды
В статье Линь Цзюньян выдвигает аналогию, полную прозорливости: “в эпоху SFT (supervised fine-tuning) мы были одержимы разнообразием данных; в эпоху агентов нам следует быть одержимыми качеством среды: стабильностью, достоверностью, охватом, сложностью, разнообразием состояний, богатством обратной связи, устойчивостью к злоупотреблениям (antigaming), а также масштабируемостью, возникающей из rollout (полного исполнения процесса), сгенерированного агентом”.
За последние два года данные были ключевым словом в инвестиционном нарративе AI. Кто имеет больше высококачественных обучающих данных, у того более сильная модель. “Стена данных”, “ров данных”, “дата-флайвил” — эти концепции поддерживали массу логик финансирования и премий к оценке.
Но вывод Линь Цзюньян указывает на более базовый сдвиг:
когда объект обучения перестает быть моделью и становится агентом, само определение дефицитного ресурса меняется: это может быть некоторая обучающая среда, которая динамична, интерактивна и способна давать богатые сигналы обратной связи.
В нашей предыдущей статье мы предложили, что Agent кормит модель “костями решений”, а не “тенями языка”.
Данное рассуждение Линь Цзюньян точно описывает, на каком “цеховом производстве” эти кости куют — среда и есть цех, который определяет прочность костей.
Он даже делает оценку:
Для AI-инвестиций это означает, что может формироваться совершенно новая категория инвестиционного актива. Она отличается от прежних компаний моделей или вычислительных мощностей и является “environment company” — предприятием, которое специализируется на создании высококачественных, высокоимитационных, масштабируемых симуляционных сред для обучения агентов.
Если цель интеллектуального агента — работать в настройках, максимально близких к производственной среде, то сама среда становится частью ключевого стека компетенций. Сегодня эта ниша почти не получает полного ценообразования со стороны основной массы инвесторов в AI.
В статье Линь Цзюньян также уделяет заметное место проблеме, которая почти не попадает в радар инвесторов — reward hacking (жульничество с наградами).
Это измерение риска он раскрывает на стороне обучения: он пишет:
Как в статье о рисках Agent:
Это особенно важно для AI-инвестиций.
Когда вы видите, что компания публикует поразительные бенчмарки интеллектуальных агентов, возможно, стоит задать еще один слой вопросов: в какой именно среде измерялись эти метрики? Была ли среда системно спроектирована для предотвращения утечек и антижульничества? Если агент демонстрирует выдающиеся результаты на тестах, но в том тестовом окружении есть скрытая утечка информации, то фактическая коммерческая ценность этого “выдающегося результата” может быть равна нулю.
Еще опаснее то, что продукт, запущенный на основе таких мнимых способностей, в реальных коммерческих сценариях может раскрыть гораздо более высокий, чем ожидалось, процент неудач.
Линь Цзюньян считает:
Это означает, что конкурентные барьеры эпохи агентов могут быть не только на уровне моделей, но и в строгости оценочной системы и способности разрабатывать среду, устойчивую к сбоям и уязвимостям.
Команды, которые способны построить тренировочные среды и оценочные фреймворки, “которые нельзя обойти”, обладают крайне дефицитной и трудно воспроизводимой компетенцией;
а те компании, которые игнорируют этот слой и бездумно гонятся за красивыми бенчмарками, в любой момент могут столкнуться с проблемами при реальном развертывании.
В конце статьи Линь Цзюньян пишет одну фразу, которую можно считать общим руководством для всех шести прозрений выше:
Конкурентные барьеры эпохи рассуждений происходят от лучших алгоритмов reinforcement learning, более сильных сигналов обратной связи и более масштабируемых тренировочных пайплайнов.
Конкурентные барьеры эпохи агентов происходят от лучшей среды, более тесного согласования обучения и рассуждения, более сильного инженерного “Harness” и способности действительно замкнуть цикл принятия решений модели и ее последствий.
Раньше, инвестируя в AI, смотрели, чья модель сильнее. В будущем инвестируя в AI, вероятно, будут смотреть, чья системная замкнутость (closed loop) лучше.
Предупреждение о рисках и отказ от ответственности