【Передній ядро Alibaba Qianwen】Лінь Цзюньянь — тисячовірш: Моделі ШІ перейдуть до «мислення агентів» — розкриття причин, чому Qwen відмовився від об’єднаного мислення та режиму команд

robot
Генерація анотацій у процесі

阿лібаба (09988) Душа великої моделі Qwen Лінь Цзюнян раптово залишила свою посаду на початку березня, що спровокувало припущення про розбіжності між ним та керівництвом. Коли буря вщухла, Лінь Цзюнян нещодавно опублікував на соціальній платформі X статтю під назвою «From “Reasoning” Thinking to “Agentic” Thinking» (Від «логічного мислення» до «агентного мислення»), хоча стаття в основному стосується напрямків технологій ШІ, в ній приховано роздуми про технічний шлях Alibaba Qwen.

Він зазначив, що просте споживання обчислювальних потужностей «логічним мисленням» вже досягло свого піку, друга половина етапу ШІ буде належати «агентному мисленню» (Agentic Thinking), яке може взаємодіяти з реальним середовищем і діяти паралельно з мисленням.

Перенаправлення уваги ШІ: що станеться далі?

Лінь Цзюнян вказав, що в першій половині 2025 року основна увага в галузі ШІ буде зосереджена на «логічному мисленні» (Reasoning Thinking) — тобто, як змусити великі моделі витрачати більше часу та обчислювальних потужностей на роздуми, як використовувати більш потужні механізми зворотного зв’язку для навчання моделей, а також як контролювати ці додаткові процеси розумування.

Однак, з якою проблемою галузь повинна зіткнутися зараз: що станеться далі?

Він вважає, що відповідь безсумнівно — це «агентне мислення» (Agentic Thinking). Майбутнє ШІ не повинно обмежуватися лише закритим мисленням для отримання відповідей, а має бути «мисленням для дій», яке повинно виконувати дедукцію під час взаємодії з оточенням і постійно оновлювати та коригувати плани на основі зворотного зв’язку з реального світу.

Внутрішня стратегія Qwen і провал «об’єднання»

Лінь Цзюнян вперше розкрив технічну стратегію команди Qwen на початку 2025 року. Тоді багато членів команди прагнули створити ідеальну систему, яка об’єднала б «мислення» і «інструкції». Концепція цієї системи була дуже амбітною:

Інтелектуальна регуляція: здатність автоматично визначати, скільки обчислювальних потужностей потрібно для розумування (аналог низького/середнього/високого класу) залежно від підказок (Prompt) і контексту.

Автономне прийняття рішень: дозволити моделі самостійно визначити, коли потрібно швидко відповісти, коли слід поміркувати, або коли слід застосувати великі обчислювальні потужності, зустрівши складне завдання.

Лінь Цзюнян стверджує, що Qwen3 — це найбільш чітка публічна спроба в цьому напрямку, яка вводить «змішану модель мислення», акцентуючи увагу на контрольованому бюджеті розумування. Однак Лінь Цзюнян зізнається: «Легко говорити про об’єднання, але важко реалізувати.»

Лінь Цзюнян вважає, що примусове об’єднання призведе до «посередності» моделей, оскільки дані та цілі «мислення» і «інструкцій» кардинально відрізняються; якщо примусити їх об’єднатися, це призведе до «розпливчастого, об’ємного та недостатньо рішучого» мислення; а «інструктивна поведінка» втратить свою чіткість і стане ненадійною, що суттєво підвищить витрати для комерційних користувачів.

За комерційною реальністю, він вважає, що численні корпоративні клієнти насправді потребують високої пропускної здатності, низьких витрат та високо контрольованих чисто інструктивних операцій (наприклад, пакетна обробка).

Саме тому команда Qwen в подальшій серії 2507 врешті-решт вирішила випустити окремі версії для інструкцій (Instruct) та мислення (Thinking). Лінь Цзюнян вважає, що розділення обох аспектів дозволить команді більш чисто зосередитися на вирішенні власних проблем з даними та навчанням, уникнувши виникнення «двох незграбних особистостей».

Стратегія суперників: «стриманість» Anthropic та орієнтація на мету

На відміну від маршруту Qwen, інші лабораторії, такі як Anthropic та Zhiyun (GLM-4.5), обрали абсолютно протилежну «інтеграційну стратегію».

Лінь Цзюнян особливо згадує підходи Anthropic (серія Claude) і вважає, що їх траєкторія розвитку демонструє сувору стриманість, Claude 3.7 / Claude 4 чергують логіку та «використання інструментів».

Орієнтація на мету: Anthropic вважає, що продукувати дуже довгі логічні шляхи не означає, що модель розумніша. Якщо модель довго розмірковує над усіма дрібницями, це насправді свідчить про неправильний розподіл ресурсів.

Практичність на першому місці: Якщо мета полягає в написанні програм, то мислення ШІ має бути використане для планування, розподілу завдань, виправлення помилок і виклику інструментів; якщо це агентська робота, мислення має використовуватися для підвищення якості виконання довгострокових завдань, а не просто для створення «логічних есе», які виглядають вражаюче.

Основні відмінності між логічним мисленням та агентним мисленням

Лінь Цзюнян прогнозує, що «агентне мислення» врешті-решт замінить таке «статичне монологічне» мислення, яке не має взаємодії і є занадто довгим. Справжньо передова система повинна мати можливість шукати, моделювати, виконувати, перевіряти та коригувати, щоб вирішувати проблеми у стійкий і ефективний спосіб.

Зміна критеріїв оцінки: від «чи може модель розв’язати математичну задачу» до «чи може модель просунутися під час взаємодії з оточенням».

Проблеми реальності, які потрібно вирішити:

  • Вміти вирішувати, коли слід зупинити роздуми і перейти до дій.
  • Вибирати, який інструмент викликати та в якому порядку його використовувати.
  • Мати можливість обробляти шумні та неповні дані спостережень з реального середовища.
  • У разі невдачі вміти коригувати план.
  • Підтримувати логічність у багатокрокових діалогах і багатьох викликах інструментів.

Три великі технологічні проблеми для реалізації «агентного мислення»

Окрім різниці на рівні застосування, Лінь Цзюнян більш детально аналізує величезні виклики на рівні базової розробки агентного мислення:

Вузьке місце в навчальній інфраструктурі (колапс ефективності GPU): Агентне посилене навчання (RL) значно складніше, ніж просте логічне RL. Агентам ШІ потрібно часто взаємодіяти з зовнішніми інструментами (такими як браузери, пісочниці), очікування зворотного зв’язку з реального середовища може призвести до зупинки навчання, що суттєво знижує використання GPU. У майбутньому потрібно чисто розділити «навчання» та «логіку».

«Ломка нагороди» (Reward Hacking) та ризики шахрайства: Коли модель отримує права на використання інструментів, їй дуже легко навчитися «шахраювати», щоб обманути систему на отримання нагород (наприклад, використовуючи системні вразливості для доступу до майбутньої інформації), а не дійсно вирішувати проблеми. Інструменти підвищують ризик фальшивої оптимізації, у майбутньому протокол боротьби з шахрайством стане ключовим для великих компаній.

Координація багатьох агентів (Multi-agent Orchestration): Майбутні системи не покладатимуться на одну модель, а складатимуться з кількох агентів, які виконують різні ролі. Система включатиме «оркестраторів», відповідальних за планування, «експертних агентів», які спеціалізуються на конкретних галузях, а також «дочірніх агентів», які виконують вузькі завдання, контролюючи контекст і уникаючи забруднення процесу мислення.

Висновок: основні акценти конкуренції на наступному етапі в галузі ШІ

Лінь Цзюнян в кінці статті зазначає, що основні акценти конкуренції на наступному етапі в галузі ШІ: основним об’єктом навчання в майбутньому стане не лише «модель», а «модель + середовище» як комплексна система (агент та навколишні зв’язки).

Епоха логіки в минулому: перевага полягала у кращих алгоритмах посиленого навчання (RL), потужніших зворотних зв’язках, масштабованих навчальних процесах.

Майбутня епоха агентів: перевага залежатиме від кращого дизайну середовища, тісної інтеграції навчання та обслуговування (Train-serve integration), потужнішої системної інженерії та здатності моделей навчитися відповідати за свої рішення та формувати «замкнене коло».

X оригінал

		Фінансові Hot Talk
	





	Китайські автомобільні продажі вперше отримали «світове перше місце» — чи допоможуть високі ціни на паливо електричним автомобілям виходити на міжнародний ринок?
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити