Розшифровка першого великого допису після звільнення Лінь Цзюньянга: 6 уроків для інвестицій в ШІ

Через три тижні після звільнення Лінь Цзюньян (Lin Junyang) з Alibaba Qwen, він, як колишній ключовий фігурний учасник команди Tongyi Qwen, що свого часу привертав до себе значну увагу, опублікував перший публічний технічний великий матеріал після звільнення: «Від “мислення міркуванням” до “мислення агентами” (From “Reasoning” Thinking to “Agentic” Thinking)».

Ця велика англомовна стаття обсягом 6000 слів виконана як ретроспективний розбір на основі практичного досвіду з тренування моделей та його спостережень у минулому, і містить чимало напрямів-оцінок, які можуть зацікавити учасників AI-змагань і спонукати їх до дій.

У цій статті Лінь детально розкриває важливість парадигми Agent мислення для тренування моделей.

Щодо зворотного впливу Agent на тренування AI-моделей, Wall Street Zhijian раніше публікував матеріал «Gірке пробудження Agent: інтелект уже рухається від мови до досвіду», який намагався, спираючись на підхід Саттона в підкріплювальному навчанні, пояснити причину, чому Agent є неминучим шляхом до вищої межі інтелекту.

А Лінь Цзюньян у цій статті, поєднуючи її з власною технічною практикою, яку він отримав під час роботи в команді Qwen, надає додаткові «жорсткі» референси та докази для Agent думок про компетентність, спираючись на інженерні деталі. Він ще докладніше вказує, у чому саме проблема традиційного режиму міркувань, а також які можуть бути ключові обмеження та точки конкуренції для майбутніх інтелектуальних агентів.

Для тих, хто намагається зрозуміти, як змінюватиметься наступна форма AI-процесів, ця стаття, можливо, принаймні приховує 6 інвестиційних підказок, які варто уважно «перетравити».

1. Граничне спадання корисності міркувань

У першій половині 2025 року й навіть раніше весь індустріальний світ займався однією й тією ж справою: змусити модель «подумати ще трохи».

o1 від OpenAI довів, що «мислення» може стати ключовою здатністю, яку спеціально тренують, і галузь з ентузіазмом включилася в цю гонку озброєнь. Єдина ключова віра така: якщо змусити модель витрачати більше обчислювальних ресурсів на етапі міркування, то вона видасть кращі відповіді.

Але Лінь Цзюньян у статті формулює дуже стримане судження:

Довший трек міркувань не робить модель автоматично розумнішою.

У багатьох випадках надмірно видиме міркування лише викриває неправильний розподіл ресурсів.

Це висновок, який заслуговує на увагу й є зворотним інтуїції.

З 2024 по 2025 рік ринкова логіка ціноутворення для «міркувальних моделей» спиралася на просте припущення: чим довше модель думає, тим краща відповідь, тож чим довший час міркування, тим вища цінність.

Обсяг витрат на GPU став проксі-показником рівня інтелекту. На первинному ринку в багатьох інвест-стартапів ключове ядро їхньої інвестційної історії також зводиться до «ми робимо глибше міркування».

Але Лінь Цзюньян, спираючись на власний практичний досвід у команді Qwen, показує: це припущення вже перестає працювати. Якщо модель намагається мислити всі питання однаково довгим способом, це означає, що вона не змогла ефективно визначити пріоритети, не змогла вчасно стискати інформацію й не змогла рішуче перейти до дій у потрібний момент. Він пише:

Мислення має бути сформоване цільовою роботою.

Якщо ціль — кодування, то мислення має допомагати моделі виконувати навігацію по кодовій базі, планування завдань і відновлення після помилок; якщо ціль — робота агентного робочого процесу, то мислення має підвищувати якість виконання в довгих часових масштабах, «а не видавати фрагмент проміжного тексту міркувань, який виглядає дуже вражаюче».

Переклад інвестиційною мовою: гранична дохідність обчислювальної потужності для міркувань падає.

Технічний шлях, що базується лише на нарощуванні часу міркувань, дедалі ближче підходить до своєї економічної межі. Тим компаніям, які все ще роблять «глибину міркувань» основною сюжетною лінією оцінки, можливо, доведеться заново подивитися, де саме в них побудований ров — їхній захисний бар’єр.

2. Празкість «уніфікованої моделі»

Лінь Цзюньян у статті розкриває маловідому деталь вибору маршруту: команда Qwen свого часу намагалася об’єднати «режим мислення» і «режим інструкцій» в одну й ту ж модель.

Звучить це природно й правильно. Ідеальна система має працювати як досвідчений експерт: прості питання — прямо й однозначно відповідати, складні — глибоко міркувати, а також сама визначати, коли який режим потрібно застосувати.

Qwen3 — один із найчіткіших публічних експериментів у цьому напрямі: він вводить «гібридний режим міркування», підтримує в межах однієї сім’ї моделей одночасно поведінку «з мисленням» і «без мислення», а також підкреслює керованість бюджету на мислення.

Але Лінь Цзюньян чесно визнає: об’єднати це «на словах» легко, а зробити по-справжньому — дуже важко. Складність не в архітектурі моделі, а в даних.

Сильну інструкційну модель винагороджують за прямоту, стислість, високу відповідність формату та низьку затримку під високочастотні й високомісткі корпоративні задачі; сильну міркувальну модель — за готовність інвестувати більше токенів у важкі завдання, підтримувати узгоджену проміжну структуру та досліджувати альтернативні траєкторії.

Ці два профілі поведінки природно «тягнуть» одне одного.

Як описує Лінь Цзюньян:

Якщо дані для об’єднання не пройшли достатньо ретельний відбір і проєктування, результат часто виявляється «двозначним»: поведінка мислення стає галасливою, роздутою та нерішучою; а поведінка в режимі інструкцій втрачає притаманну їй чіткість, надійність і переваги за вартістю.

Це якраз те, чому у фінальній версії Qwen 2507 було випущено незалежні оновлення Instruct і Thinking: включно з причинами окремих версій 30B та 235B.

У комерційному розгортанні багатьом клієнтам потрібен насамперед високий throughput, низька вартість і сильна керованість саме інструкційного режиму; насильницьке об’єднання натомість розмиває позиціонування продукту.

Anthropic обрав протилежний шлях. Claude 3.7 Sonnet визначений як гібридна міркувальна модель: користувачі можуть обирати звичайну відповідь або розширювати думання; Claude 4 робить ще один крок далі — дозволяє чергувати процес міркувань із використанням інструментів. GLM-4.5 та DeepSeek V3.1 згодом також пішли в подібному напрямі.

Щодо двох маршрутів Лінь Цзюньян формулює судження: справжнє успішне злиття вимагає, щоб витрати на міркування були гладким, безперервним спектром; модель повинна мати змогу адаптивно обирати, скільки зусиль вкладати в те, щоб думати. Якщо цього зробити не вдається, «користувацький досвід все ще не буде природним» — по суті це все ще «дві незграбно з’єднані особистості».

Інвесторам натяк тут дуже прямий: не варто легко піддаватися наративу про «уніфіковану модель» або «одну модель, яка може все».

Заявляти, що одна модель покриває всі сценарії, і фактично робити оптимум у кожному сценарії — це різні речі.

Справді цінні технічні бар’єри ховаються в підборі даних, дизайні процесу тренування, узгодженні поведінки та в тих місцях, які неможливо вловити одним аркушем результатів на базовому тесті. «Універсальність» на інвест-PPT, коли переходить до комерційного розгортання, часто закінчується необхідністю робити нуль-сумові компроміси на рівні даних.

3. Підняття рівня об’єкта тренування

Можливо, найважчим за вагою підсумком у всій статті є: «Ми рухаємося від епохи, коли фокус був на тренуванні моделей, до епохи, де тренування агентів стає центром уваги».

У попередній статті ми намагалися довести логічну неминучість цього переходу: верхня межа статичних даних є кордоном відомого світу; лише завдяки тому, що агенти постійно взаємодіють у реальному середовищі, можна вийти за межі цього кордону.

У цій статті Лінь Цзюньян, ймовірно, надає цьому судженню дуже конкретну інженерну мову:

Мислення міркуванням цінує якість внутрішнього мислення моделі перед тим, як вона дає остаточну відповідь: чи може вона розв’язати теорему, написати доведення, згенерувати правильний код, пройти тести на бенчмарках.

Усе це відбувається в замкненому, контрольованому середовищі — це незалежний інтелектуальний спектакль.

Оптимізаційна ціль мислення агентом цілком інша.

Воно має обробляти те, що міркувальні моделі можуть обходити: вирішувати, коли варто припинити думати й перейти до дій; обирати, який інструмент викликати, і в якій послідовності; поглинати шум або неповні спостереження з середовища; переглядати план після невдачі; зберігати узгодженість між багатьма раундами взаємодії.

Лінь Цзюньян зосереджується на тому, «чи може модель у процесі взаємодії із середовищем безперервно просувати розв’язання проблеми». Ключове питання з «чи може модель думати досить довго» переходить до «чи може модель думати так, щоб це підтримувало ефективні дії».

Кожна з цих проблем відповідає «траєкторії рішень причинно-наслідкової структури» в межах дій.

Для AI інвестування значення цього переходу надзвичайно глибоке.

Раніше, під час загальної перевірки масштабувальних законів (Scaling Law), оцінка ключових показників AI-компанії зводилася до самої моделі — скільки параметрів, які бенчмаркові бали, наскільки швидке міркування.

Але якщо об’єкт тренування переходить від моделі до системи, складеної з «моделі + середовища», то й оцінювальний фреймворк мусить змінитися.

У майбутньому цінні питання перетворяться на: скільки реальних сценаріїв ця компанія-агент підтримує безперервну роботу? скільки даних взаємодій із причинно-наслідковою структурою вона накопичує? наскільки широке покриття її середовищ і наскільки багаті сигнали зворотного зв’язку? наскільки швидко її замкнене коло «модель + середовище» прокручується?

Модель — лише частина системи, а не вся система. Тому, якщо знову оцінювати агентну компанію, спираючись лише на бенчмарки моделі, це як ставити оцінку позашляховику за результатами прискорення 0-100 — дуже ймовірно, що можна неправильно вибрати показники.

4. Недооцінена інфраструктура

У статті Лінь Цзюньян відводить великі обсяги обговоренню інфраструктури. Для AI інвестування це частина, яку найпростіше ігнорувати, але саме вона може мати найбільший вплив на конкурентний ландшафт.

У міркувальному підкріплювальному навчанні модель генерує траєкторії міркувань, оцінювач виставляє бали, відбувається оновлення стратегії, але середовище є лише статичним валідатором.

А в підкріплювальному навчанні агентів уся технічна логіка зазнає якісної трансформації.

Лінь Цзюньян описує картину: стратегія агента вбудована в величезний виконувальний фреймворк — інструментальні сервери, браузер, термінал, пошукові системи, симулятори, виконувальні sandbox-и, рівень API, системи пам’яті та різні оркестраційні фреймворки.

Середовище більше не є стороннім спостерігачем — воно стає частиною самої навчальної системи. Він наводить дуже візуально відчутний приклад: уявіть, що кодувальний агент має виконати в реальному тестовому середовищі свій згенерований код. На стороні міркування все «стопориться», бо треба чекати зворотний відгук від виконання; на стороні тренування виникає «голод», бо ти не отримуєш завершених траєкторій. Уся конвеєрна лінія за GPU використанням буде набагато нижчою, ніж у класичному міркувальному підкріплювальному навчанні. Додайте ще затримки інструментів, часткову спостережуваність і середовище зі станом — неефективність лише посилиться.

Якщо зрозуміти це через метафору: тренування міркувальної моделі схоже на розв’язування задач у тихій аудиторії — у завдань є стандартні відповіді, а зворотний зв’язок про правильність/помилку приходить одразу. Тренування агента — це будівництво на галасливому майданчику: постачання матеріалів невизначене, погода змінюється, дії інших працівників впливають на ваш прогрес, і часто лише після того, як бетон висохне, стає ясно, чи було бетонування правильним.

Інфраструктурні вимоги для «аудиторного» режиму та для «будмайданчикового» режиму — це зовсім різні рівні інженерних задач.

Ось чому Лінь Цзюньян наголошує: «тренування і міркування повинні бути розділені ще ретельніше». Якщо цього не зробити, пропускна здатність тренування агентів швидко впаде: експерименти ще не встигнуть досягти цільової здатності, як вони вже стануть повільними, болісними й такими, що погано масштабуються.

Можливо, саме це і є четвертою інвестиційною підказкою про AI: інвестиційна логіка AI-інфраструктури зазнає структурного зсуву.

Раніше ключовим ресурсом була сама обчислювальна потужність: у кого більше GPU — той вигравав на стартовій лінії. У майбутньому ключовим ресурсом стане інженерна здатність цілої системи: координувати процес тренування, симуляцію середовища та збір зворотного зв’язку.

Такі здатності дуже важко копіювати, а компаній, які справді ними володіють, значно менше, ніж тих, хто має великі кластери обчислювальної потужності.

Якщо обчислювальна потужність — це цеглина, то інфраструктура тренування агентів — це здатність до проєктування будівель: цеглину можна купити, а здатність до проєктування — ні.

5. Дефіцит якості середовища

Лінь Цзюньян у статті висуває аналогію, що має потужну проникливість: «У епоху SFT (supervised fine-tuning, супервізоване донавчання) ми одержимі різноманітністю даних; у епоху агентів нам варто одержитися якістю середовища: стабільність, реалістичність, охоплення, складність, різноманітність станів, багатство зворотного зв’язку, стійкість до використання вразливостей, а також масштабованість, яку забезпечує генерація через rollout (повне виконання процесу)».

За останні два роки дані були ключовим словом у AI-інвестнаративі. Хто має більше якісних навчальних даних — той має сильнішу модель. «Стіна даних», «корыто даних», «дата-флайвіл» — ці концепції підтримують багато інвестлогіки та премій у оцінці.

Але оцінка Лінь Цзюньяна веде до більш фундаментального зсуву:

Коли об’єкт тренування змінюється з моделі на агента, саме визначення дефіцитного ресурсу змінюється — це може бути певне тренувальне середовище, яке є динамічним, інтерактивним і здатне надавати багаті сигнали зворотного зв’язку.

У нашій попередній статті ми стверджували, що Agent «підгодовує моделі “кістяк рішень”», а не «тінь мови».

Трактування Лінь Цзюньяна точно описує, в якому саме «цеху» цей кістяк кують — середовище і є цех, який визначає міцність кістяка.

Він навіть припускає:

Побудова середовищ уже почала перетворюватися з «допоміжного проєкту, який просто зробити зручно» на справжню підприємницьку траєкторію як окремий гоночний шлях.

Для AI інвестування це означає, що може формуватися абсолютно нова категорія інвестиційних об’єктів. Вона відрізняється від попередніх модельних або обчислювально-потужнісних компаній і стає “компаніями середовищ” — підприємствами, що спеціалізуються на побудові високоякісних, максимально наближених до реальності та масштабованих симуляційних середовищ саме для тренування агентів.

Якщо ціль агентів — працювати в налаштуваннях, максимально наближених до виробничих, тоді саме середовище є частиною ключового стеку здібностей. Цей напрямок сьогодні майже не отримав адекватного ціноутворення від більшості провідних AI-інвесторів.

  1. Прихований ризик шахрайства

У статті Лінь Цзюньян також приділяє чималу увагу проблемі, яка майже повністю не потрапляє в радар інвесторів: reward hacking (хакання нагороди).

Це ще одна ризик-вісь, яку він розкриває з боку тренування, і вона особливо прихована. Він пише:

Щойно модель отримає справді корисні права доступу до інструментів, reward hacking стане значно небезпечнішим.

Як у статті про ризикові припущення для Agent:

Модель із можливістю пошуку може навчитися прямо шукати відповідь у процесі підкріплювального навчання замість того, щоб навчитися міркувати;

Кодувальний агент може використати майбутню інформацію з кодового репозиторію, зловживати логами або знайти обхідні шляхи, що роблять саму задачу нечинною

Середовище з прихованими витоками змусить стратегію виглядати як “супергерой”, а насправді це буде лише шахрайство;

Чим сильніші інструменти, тим кориснішою стає модель, але водночас розширюється і площина атак псевдо-оптимізації. Чим потужніші інструменти, тим більше способів шахрайства.

Це особливо важливо для AI-інвестицій.

Коли ви бачите, що компанія публікує вражаючі бенчмаркові результати агентів, можливо, варто поставити ще одне запитання: в якому середовищі ці показники були виміряні? чи середовище було зроблене з системними заходами проти витоків інформації та антишахрайського дизайну? Якщо агент показує видатну результативність у тестах, але тестове середовище має приховані інформаційні витоки, тоді практична комерційна цінність цього «видатного результату» може дорівнювати нулю.

Небезпечніше за все те, що продукт, який вийшов у продакшн на основі такої фальшивої «здатності», у реальних комерційних сценаріях може показати рівень невдач, що значно перевищує очікування.

З цього приводу Лінь Цзюньян вважає:

Потрібно очікувати, що наступна серйозна хвиля дослідницьких вузьких місць надходитиме з дизайну середовища, надійності оцінювача, протоколів протидії шахрайству, а також більш принципової конструкції інтерфейсів між стратегією і світом.

Це означає, що конкурентні бар’єри епохи агентів можуть бути не лише на рівні моделі, а й у суворості оцінювальної системи та здатності середовища протистояти крихкості (anti-fragility).

Команди, які можуть створити «середовище і оцінювальні фреймворки, в які неможливо влізти» (тобто які не можна обійти), мають дуже дефіцитну здатність, яку важко скопіювати;

а навпаки, ті компанії, що ігнорують цей шар і невпинно женуться за гарними бенчмарковими балами, у будь-який момент можуть зіткнутися з проблемами в реальному розгортанні.

У фіналі статті Лінь Цзюньян написав одну фразу, яку можна сприймати як загальний виклад усіх шести інсайтів:

Майбутній шлях еволюції — від тренування моделей до тренування агентів, а потім до тренування систем.

Конкурентні бар’єри в епоху міркувань походять від кращих алгоритмів підкріплювального навчання, більш потужних сигналів зворотного зв’язку та більш масштабованих навчальних конвеєрів.

Конкурентні бар’єри в епоху агентів походять від кращого середовища, тіснішої узгодженості тренування й міркувань (train-infer), сильнішого інженерного «керування» (Harness), а також здатності замкнути цикл між рішеннями моделі та їхніми наслідками справді в контур.

Раніше, інвестуючи в AI, дивилися, у кого найсильніша модель. У майбутньому інвестування в AI, імовірно, буде дивитися на те, у кого найкраще замкнений системний контур.

Попередження про ризики та застереження щодо відповідальності

        На ринку є ризики, інвестиції потребують обережності. Ця стаття не є персональною інвестиційною рекомендацією та не враховує особливі інвестиційні цілі, фінансовий стан або потреби окремих користувачів. Користувачам слід розглянути, чи відповідають будь-які міркування, погляди або висновки в цій статті їхнім конкретним обставинам. Інвестування на цій основі здійснюється за власний ризик і відповідальність.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.27KХолдери:2
    0.00%
  • Рин. кап.:$2.37KХолдери:2
    1.04%
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$2.25KХолдери:1
    0.00%
  • Закріпити