Расшифровка первого длинного поста после ухода Линь Цзюньянга: 6 уроков для инвестиций в ИИ

Спустя три недели после ухода из Alibaba Qianwen, Линь Цзюньян, бывший ключевой участник ядра Tongyi Qianwen, который когда-то был на виду, опубликовал свой первый после увольнения публичный технический лонгрид《От “Reasoning” Thinking до “Agentic” Thinking》。

Этот лонгрид на 6000 английских слов основан на его практическом опыте обучения прошлых моделей и наблюдениях, в нем сделан разбор пройденного пути, а также даны многочисленные выводы, которые, вероятно, заинтересуют участников AI-олимпиад и соревнований.

В этой статье Линь подробно раскрывает важность парадигмы Agent-мышления для обучения моделей.

Что касается отдачи (обратной связи) от Agent к обучению AI-моделей, Wall Street Zhijian ранее публиковал статью《Горькое пробуждение Agent: интеллект движется от языка к опыту》, пытаясь, опираясь на подход Саттона в обучении с подкреплением, объяснить, почему Agent — это неизбежный путь к более высокому потолку интеллекта.

А Линь Цзюньян в этой статье, опираясь на свой опыт реальной технической практики в команде Qianwen, с инженерными деталями дает более жесткие референсы и доказательства для Agentic thinking. Он также точнее указывает, в чем именно проблема традиционного режима рассуждений, и какие могут быть ключевые ограничения и точки конкурентности у будущих интеллектуальных агентов.

Для тех, кто пытается понять, как изменится форма следующего этапа развития AI, возможно, в этой статье как минимум спрятано 6 инвестиционных подсказок, которые стоит серьезно переварить.

1. Убывающая предельная отдача рассуждений

В первой половине 2025 года — и даже раньше — вся индустрия занималась одним и тем же: заставляла модели “думать еще немного”.

o1 от OpenAI доказала, что “мышление” может стать специально обучаемым базовым умением, и отрасль взволнованно вложилась в эту гонку вооружений: единственная ключевая вера — если на этапе рассуждений модель тратит больше вычислений, она выдаст лучший ответ.

Но Линь Цзюньян в статье выдвигает очень спокойный вывод:

Более длинная траектория рассуждений автоматически не делает модель умнее.

Во многих случаях чрезмерно явные рассуждения лишь раскрывают неверное распределение ресурсов.

Это контринтуитивное заключение заслуживает внимания.

С 2024 по 2025 год логика ценообразования “рассуждающих моделей” на рынке строилась на простом допущении: чем дольше модель думает, тем лучше ответ, поэтому чем больше времени на рассуждения, тем выше ценность.

Расход GPU стал прокси-метрикой уровня интеллекта. В первичном рынке многие инвестиционные истории стартапов тоже делают акцент на “мы рассуждаем глубже”.

Но Линь Цзюньян на основе собственного опыта в команде Qianwen показывает: это допущение перестает работать. Если модель пытается думать обо всех вопросах одинаково длинным и громоздким способом, это означает, что она не умеет эффективно определять приоритеты, не умеет своевременно сжимать информацию и, главное, не умеет решительно действовать в момент, когда пора действовать. Он пишет:

Мышление должно формироваться задачей.

Если задача — кодирование, то мышление должно помогать модели в навигации по кодовой базе, в планировании задач и в восстановлении после ошибок; если задача — Agent workflow, то мышление должно повышать качество выполнения на длинных временных масштабах — “а не выдавать отрезок промежуточного текста рассуждений, который выглядит очень впечатляюще”.

Переводя на язык инвестиций: предельная отдача вычислений на рассуждения снижается.

Чистое наращивание времени на рассуждения все ближе подбирается к своей экономической границе. Те компании, которые до сих пор ставят “глубину рассуждений” в основу своей оценки, возможно, должны заново проверить, где именно находится их ров (защитный барьер) и на чем он реально построен.

2. Хрупкость “единой модели”

Линь Цзюньян в статье раскрывает малоизвестный выбор маршрута: команда Qianwen ранее пыталась объединить “режим мышления” и “режим инструкций” в одной и той же модели.

Звучит это естественно и правильно. Идеальная система должна вести себя как опытный эксперт: на простые вопросы отвечает напрямую, на сложные — углубляется в размышления, и при этом сама определяет, когда применять тот или иной режим.

Qwen3 — один из самых ясных публичных экспериментов в этом направлении: он вводит “гибридный режим мышления”, позволяя одной и той же семье моделей иметь одновременно действия в режиме мышления и в режиме без мышления, и подчеркивает контролируемый бюджет на размышления.

Однако Линь Цзюньян признается: объединить — легко, но сделать по-настоящему качественно — крайне сложно; сложность не в архитектуре модели, а в данных.

Мощная instruction-модель вознаграждается за прямоту, краткость, высокую дисциплину следования формату и низкую задержку в задачах предприятия с высокой частотой и большим потоком. Мощная thinking-модель вознаграждается за готовность тратить больше токенов на сложные задачи, за способность поддерживать связную промежуточную структуру и за возможность исследовать альтернативные пути.

Эти два профиля поведения естественно тянут в разные стороны.

Как описывает Линь Цзюньян:

Если объединительные данные не прошли достаточно тщательную фильтрацию и проектирование, результат часто оказывается плохим с обеих сторон: поведение мышления становится шумным, раздувшимся и нерешительным; а поведение instruction-режима теряет присущую ему четкость, надежность и преимущество по стоимости.

Именно поэтому в конечном итоге в версии Qwen 2507 были выпущены отдельно обновления Instruct и Thinking, которые развиваются независимо: в том числе причина отдельных версий 30B и 235B.

В коммерческом развертывании многим клиентам нужны прежде всего высокая пропускная способность, низкая стоимость и сильно контролируемый instruction-режим; принудительное объединение наоборот размывает позиционирование продукта.

Anthropic пошла по противоположному пути. Claude 3.7 Sonnet определили как гибридную модель рассуждений: пользователи могут выбирать обычные ответы либо расширять мышление; Claude 4 сделал еще шаг вперед — он позволяет чередовать процесс рассуждений и использование инструментов. Позднее GLM-4.5 и DeepSeek V3.1 также двинулись в похожем направлении.

По двум траекториям Линь Цзюньян делает оценку: по-настоящему успешное слияние требует, чтобы затраты на рассуждения представляли собой гладкую, непрерывную шкалу, а модель могла адаптивно выбирать, сколько усилий стоит вложить в размышления. Если этого не добиться, “пользовательский опыт по-прежнему не будет естественным” — по сути, это “два грубо склеенных характера”.

Вывод для инвесторов довольно прямой: не позволяйте легко себя впечатлить нарративом про “единую модель” или “одна модель, которая может все”.

Утверждать, что одна модель покрывает все сценарии, и действительно делать в каждом сценарии оптимально — это разные вещи.

По-настоящему ценные технологические барьеры скрыты в соотношении данных, дизайне обучающих процессов, выравнивании поведения — то есть там, где это нельзя уловить одной базовой сводной таблицей результатов. На “всемогущность” в инвестиционных PPT в коммерческом развертывании часто приходится смотреть как на игру с нулевой суммой на уровне данных.

3. Поднятие уровня объекта обучения

Самое тяжелое по весу обобщение Линь Цзюньян, возможно, таково: “Мы переходим от эпохи, когда обучение было сосредоточено на моделях, к эпохе, где обучение сосредоточено на интеллектуальных агентах.”

В предыдущей статье мы пытались обосновать неизбежность логики этого перехода: верхний предел статических данных — это граница известного мира; чтобы выйти за нее, агент должен постоянно взаимодействовать с реальной средой.

В этой статье Линь Цзюньян, вероятно, переводит это суждение на чрезвычайно конкретный инженерный язык:

Рассуждающее мышление ценит качество внутренних размышлений модели до выдачи финального ответа, например: может ли она решать теоремы, писать доказательства, генерировать корректный код, проходить по бенчмаркам.

Все это происходит в закрытой, контролируемой среде — это отдельное интеллектуальное представление.

Цели оптимизации Agentic thinking полностью другие.

Она должна решать проблемы, которые рассуждающая модель может обходить: решить, когда нужно остановиться и перейти к действию; выбрать, какие инструменты вызывать и в каком порядке; поглощать шум из среды или неполные наблюдения; пересматривать план после неудачи; поддерживать согласованность между многораундовыми взаимодействиями.

Линь Цзюньян делает акцент на том, “может ли модель непрерывно продвигать решение проблемы в процессе взаимодействия со средой”. Ключевой вопрос меняется с “может ли модель думать достаточно долго” на “может ли модель думать так, чтобы это поддерживало эффективные действия”.

Каждая из этих трудностей соответствует “траектории решений причинно-следственной структуры” действия.

Для AI-инвестиций смысл этого перехода крайне глубокий.

Раньше, в общем подтверждении Scaling Law, при оценке AI-компании ключевыми метриками считались сама модель — сколько параметров, какие оценки на бенчмарках, какова скорость вывода.

Но если объект обучения — это уже не модель, а система, состоящая из “модель + среда”, то и оценочный фреймворк тоже должен измениться.

В будущем ценными будут вопросы: насколько в реальных сценариях агент этой компании продолжает стабильно работать? Сколько у нее накоплено данных взаимодействий с причинно-следственной структурой? Насколько широк охват среды и насколько богаты сигналы обратной связи? Насколько быстро замыкается цикл “модель + среда”?

Модель — лишь часть системы, больше не все. И оценивать агентскую компанию только по результатам бенчмарка модели — все равно что оценивать внедорожник по времени разгона 0-100: очень вероятно, что вы схватите не те метрики.

4. Недооцененная инфраструктура

В статье Линь Цзюньян уделяет много места инфраструктуре. Для AI-инвестиций это та часть, которую легче всего упустить, но которая может сильнее всего влиять на конкурентный ландшафт.

В обучении с подкреплением в парадигме рассуждений модель генерирует траектории рассуждений, оценщик выставляет баллы, происходит обновление стратегии, но среда просто выступает статическим валидатором.

А в агентном обучении с подкреплением вся технологическая логика претерпевает качественный скачок.

Линь Цзюньян описывает сцену: стратегия агента встроена в огромный исполнительский каркас — серверы инструментов, браузер, терминал, поисковая система, симулятор, исполняющий sandbox, слой API, система памяти и различные фреймворки оркестрации.

Среда перестает быть наблюдателем и становится частью самой обучающей системы. Он приводит очень наглядный пример: представьте coding-агента, которому нужно поместить сгенерированный им код в реальную среду тестирования и выполнить его. Со стороны рассуждений выполнение блокируется из-за ожидания обратной связи; со стороны обучения pipeline “голодает”, потому что нельзя получить завершенную траекторию. В итоге загрузка GPU по всей линии оказывается гораздо ниже, чем в классическом reinforcement learning для вывода рассуждений. Если добавить задержки инструментов, частичную наблюдаемость и среду с состоянием, неэффективность только усилится.

Понять это можно по аналогии: обучение рассуждающей модели похоже на решение задач в тихом классе — у задач есть стандартный ответ, а правильность/ошибки дают мгновенную обратную связь. Обучение агента похоже на стройку в шумном месте — подача материалов непредсказуема, меняется погода, действия других рабочих влияют на ваш прогресс, а во многих случаях нужно ждать, пока застынет бетон, чтобы узнать, правильно ли уложили.

Инфраструктура для “классной модели” и “стройки” — это вообще не один и тот же масштаб инженерной задачи.

Поэтому Линь Цзюньян подчеркивает: “обучение и вывод (inference) должны быть отделены гораздо более тщательно”. Если этого не сделать, пропускная способность обучения агентам быстро рухнет: даже до достижения целевой способности эксперименты станут медленными, мучительными и плохо масштабируемыми.

Возможно, это и есть четвертое инвестиционное прозрение по AI: инвестиционная логика AI-инфраструктуры переходит в структурно иной режим.

Раньше ключевым ресурсом была сама вычислительная мощность: у кого больше GPU, тот выигрывает на старте. В будущем ключевым ресурсом станет инженерная способность собрать целую систему координации обучающего процесса, симуляции среды и сбора обратной связи.

Такая способность очень трудно воспроизводима, и компаний, которые ей реально обладают, значительно меньше, чем компаний с большими кластерами вычислений.

Если вычислительная мощность — это кирпич, то инфраструктура обучения агентов — это способность проектировать здание: кирпич можно купить, а способность проектирования — нельзя.

5. Дефицит качества среды

В статье Линь Цзюньян выдвигает аналогию, полную прозорливости: “в эпоху SFT (supervised fine-tuning) мы были одержимы разнообразием данных; в эпоху агентов нам следует быть одержимыми качеством среды: стабильностью, достоверностью, охватом, сложностью, разнообразием состояний, богатством обратной связи, устойчивостью к злоупотреблениям (antigaming), а также масштабируемостью, возникающей из rollout (полного исполнения процесса), сгенерированного агентом”.

За последние два года данные были ключевым словом в инвестиционном нарративе AI. Кто имеет больше высококачественных обучающих данных, у того более сильная модель. “Стена данных”, “ров данных”, “дата-флайвил” — эти концепции поддерживали массу логик финансирования и премий к оценке.

Но вывод Линь Цзюньян указывает на более базовый сдвиг:

когда объект обучения перестает быть моделью и становится агентом, само определение дефицитного ресурса меняется: это может быть некоторая обучающая среда, которая динамична, интерактивна и способна давать богатые сигналы обратной связи.

В нашей предыдущей статье мы предложили, что Agent кормит модель “костями решений”, а не “тенями языка”.

Данное рассуждение Линь Цзюньян точно описывает, на каком “цеховом производстве” эти кости куют — среда и есть цех, который определяет прочность костей.

Он даже делает оценку:

построение среды уже начинает превращаться из ‘подработки, сделанной по случаю’ в действительно самостоятельную стартовую дорожку"

Для AI-инвестиций это означает, что может формироваться совершенно новая категория инвестиционного актива. Она отличается от прежних компаний моделей или вычислительных мощностей и является “environment company” — предприятием, которое специализируется на создании высококачественных, высокоимитационных, масштабируемых симуляционных сред для обучения агентов.

Если цель интеллектуального агента — работать в настройках, максимально близких к производственной среде, то сама среда становится частью ключевого стека компетенций. Сегодня эта ниша почти не получает полного ценообразования со стороны основной массы инвесторов в AI.

  1. Скрытый риск жульничества

В статье Линь Цзюньян также уделяет заметное место проблеме, которая почти не попадает в радар инвесторов — reward hacking (жульничество с наградами).

Это измерение риска он раскрывает на стороне обучения: он пишет:

Как только модель получает доступ к действительно полезным инструментам, reward hacking становится существенно более опасным.

Как в статье о рисках Agent:

Модель со способностью к поиску может научиться напрямую искать ответ в ходе reinforcement learning, а не учиться рассуждать;

Кодирующий агент может использовать будущую информацию из кодовой репозитории, злоупотреблять логами или находить обходные пути, которые делают саму задачу неактуальной

Среда, в которой есть скрытая утечка, заставит стратегию выглядеть “как супермен”, а на деле она просто выучила жульничество.

Чем более мощные инструменты, тем более полезной становится модель, но при этом расширяется и поверхность атаки псевдо-оптимизации. Чем сильнее инструменты, тем больше вариантов мошенничества.

Это особенно важно для AI-инвестиций.

Когда вы видите, что компания публикует поразительные бенчмарки интеллектуальных агентов, возможно, стоит задать еще один слой вопросов: в какой именно среде измерялись эти метрики? Была ли среда системно спроектирована для предотвращения утечек и антижульничества? Если агент демонстрирует выдающиеся результаты на тестах, но в том тестовом окружении есть скрытая утечка информации, то фактическая коммерческая ценность этого “выдающегося результата” может быть равна нулю.

Еще опаснее то, что продукт, запущенный на основе таких мнимых способностей, в реальных коммерческих сценариях может раскрыть гораздо более высокий, чем ожидалось, процент неудач.

Линь Цзюньян считает:

Следует ожидать, что следующая партия действительно серьезных исследовательских узких мест придет из дизайна среды, робастности оценщиков, протоколов антижульничества, а также из более принципиального дизайна интерфейсов между стратегией и миром.

Это означает, что конкурентные барьеры эпохи агентов могут быть не только на уровне моделей, но и в строгости оценочной системы и способности разрабатывать среду, устойчивую к сбоям и уязвимостям.

Команды, которые способны построить тренировочные среды и оценочные фреймворки, “которые нельзя обойти”, обладают крайне дефицитной и трудно воспроизводимой компетенцией;

а те компании, которые игнорируют этот слой и бездумно гонятся за красивыми бенчмарками, в любой момент могут столкнуться с проблемами при реальном развертывании.

В конце статьи Линь Цзюньян пишет одну фразу, которую можно считать общим руководством для всех шести прозрений выше:

Будущий путь развития будет заключаться в переходе от обучения моделей к обучению интеллектуальных агентов, а затем — к обучению систем.

Конкурентные барьеры эпохи рассуждений происходят от лучших алгоритмов reinforcement learning, более сильных сигналов обратной связи и более масштабируемых тренировочных пайплайнов.

Конкурентные барьеры эпохи агентов происходят от лучшей среды, более тесного согласования обучения и рассуждения, более сильного инженерного “Harness” и способности действительно замкнуть цикл принятия решений модели и ее последствий.

Раньше, инвестируя в AI, смотрели, чья модель сильнее. В будущем инвестируя в AI, вероятно, будут смотреть, чья системная замкнутость (closed loop) лучше.

Предупреждение о рисках и отказ от ответственности

        На рынке есть риски, инвестируйте осторожно. Эта статья не представляет собой личную инвестиционную рекомендацию и не учитывает особые инвестиционные цели отдельных пользователей, их финансовое состояние или необходимость. Пользователи должны оценить, соответствуют ли любые мнения, взгляды или выводы в этой статье их конкретной ситуации. Инвестирование на основе этого — на вашей ответственности.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$2.27KДержатели:2
    0.00%
  • РК:$2.37KДержатели:2
    1.04%
  • РК:$2.24KДержатели:1
    0.00%
  • РК:$2.24KДержатели:1
    0.00%
  • РК:$2.25KДержатели:1
    0.00%
  • Закрепить