【Pertanyaan Utama Sebelum Ali】林俊暘 Esai Seribu Kata: Model AI Akan Beralih ke "Pikiran Agen Pintar" Mengungkap Mengapa Qwen Mengabaikan Penggabungan Pemikiran dan Mode Instruksi

robot
Pembuatan abstrak sedang berlangsung

阿里巴巴 (09988)
千问(Qwen)大模型灵魂人物林俊暘,3月初突然离任,一度引发猜测林俊暘与管理层产生分歧。风波渐息之际,林俊暘近日在社交平台X发布一篇名为《From “Reasoning” Thinking to “Agentic” Thinking》(从「推理式思维」到「智能体思维」)的文章,虽然文章主要谈论AI技术方向,但字里行间藏住对阿里千问技术路线的反思。

他指出,单纯消耗算力的「推理思维」已经见顶,AI 的下半场将属于能够与现实环境互动、边思考边行动的「代理思维」(Agentic Thinking)

AI 的焦点转移:接下来会发生什么事?

林俊暘指出,2025 年上半年的 AI 业界焦点,主要集中在「推理思维」(Reasoning Thinking)——也就是如何让大模型消耗更多时间与算力去思考、如何利用更强的反馈机制来训练模型,以及如何控制这些额外的推理过程。

然而,现时业界必须面对的问题是:接下来会发生什么事?

他认为,答案毫无疑问是「代理思维」(Agentic Thinking)。未来的 AI 不应只是为了给出答案而闭门思考,而是「为了采取行动而思考」,它需要在与环境互动的同时进行推演,并根据从现实世界获得的反馈,持续更新和修正计划。

阿里Qwen内部蓝图与「合并路线」的失败

林俊暘在文中首度披露了 2025 年初 Qwen 团队内部的技术蓝图。当时,许多成员希望打造一个能统一「思考」与「指令」模式的理想系统。这套系统的构想十分宏大:

智能调节: 能根据提示词(Prompt)和语境,自动判断需要多少推理算力(类似低/中/高档次)。

自主决策: 让模型自己决定何时该秒速回答、何时该深思熟虑,或是在遇到难题时投入庞大算力。

林俊暘称,Qwen3 正是这个方向最明确的公开尝试,引入了「混合思考模式」,强调可控的思考预算。然而,林俊暘坦言:「合并说起来容易,执行起来却极难。」

林俊暘认为,强行合并会导致模型「平庸」,「思考模式」与「指令模式」背后的数据分布和行为目标截然不同;硬要合并,会导致**「思考行为」变得啰嗦、臃肿且决断力不足**;而**「指令行为」则失去干脆利落,变得不可靠**,甚至大幅增加了商业用户的使用成本。

商业现实上,他认为,大量企业客户真正需要的是高吞吐量、低成本、高可控的纯指令操作(如批次处理)。

正因如此,Qwen 团队在后续的 2507 系列中,最终选择发布独立的指令(Instruct)和思考(Thinking)版本。林俊暘认为,将两者分离,能让团队更纯粹地专注于解决各自的数据与训练问题,避免产生「两个尴尬缝合的人格」。

对手策略:Anthropic 的「节制」与目标导向

与 Qwen 的分离路线不同,其他实验室如 Anthropic 和智谱(GLM-4.5)选择截然相反的「整合路线」。

林俊暘特别提到Anthropic(Claude 系列)的做法,并认为其发展轨迹展现出一种严谨与节制,Claude 3.7 / Claude 4 将推理与「工具使用」交替进行。

目标导向的思考: Anthropic 认为,产出极长的推理路径并不等于模型更聪明。如果模型对所有小事都长篇大论,其实代表资源分配不当。

实用至上: 如果目标是写程序,AI 的思考应该用于计划、分解任务、修复 Bug 和调动工具;如果是代理工作流,思考应该用来提升长程任务的执行质量,而不是单纯写出看似厉害的「推理散文」。

推理思维 vs 代理思维的核心差异

林俊暘预测,「代理思维」最终将取代那种缺乏互动、长篇大论的「静态独白式」推理。一个真正先进的系统,应该有权利去搜索、模拟、执行、检查和修正,以强韧且高效的方式解决问题。

评判标准改变: 从「模型能否解出数学题」转变为「模型与环境互动时能否推进进度」。

需要处理的现实难题:

  • 懂得决定何时该停止思考并采取行动。
  • 选择该调动哪个工具及使用的先后顺序。
  • 能够处理来自现实环境中嘈杂、不完整的观测数据。
  • 遇到失败时,懂得修正计划。
  • 在多轮对话与多次工具调动中保持逻辑连贯。

实现「代理思维」的三大技术难题

除了应用层面的差异,林俊暘更深入剖析了代理思维在底层开发上的巨大挑战:

训练基础设施的瓶颈(GPU 效率崩溃): 代理型强化学习(RL)比单纯的推理 RL 难得多。AI 代理需要频繁与外部工具(如浏览器、执行沙箱)互动,等待真实环境的反馈会导致训练停滞,大幅拉低 GPU 的利用率。未来必须将「训练」与「推理」干净地解耦。

「奖励破解」(Reward Hacking)与作弊风险: 当模型拥有了使用工具的权限后,它很容易学会「作弊」来骗取系统奖励(例如利用系统漏洞偷看未来信息),而不是真正去解决问题。工具扩大了被虚假优化的风险,未来的防作弊协议将成为大厂关键。

多代理协同(Multi-agent Orchestration): 未来的系统工程将不再依赖单一模型,而是由多个代理分工。系统将包含负责计划的「编排器」、专精特定领域的「专家代理」,以及处理狭窄任务的「子代理」,藉此控制上下文,避免思考过程被污染。

总结:AI 业界下一个阶段的竞争重点

林俊暘在文末点出了 AI 业界下一个阶段的竞争重点:未来的核心训练对象,不再仅仅是「模型」本身,而是「模型+环境」的综合系统(代理及其周围的线束)。

**过去推理时代:**优势来自更好的强化学习(RL)算法、更强的反馈信号、可扩展的训练流水线。

**未来代理时代:**优势将取决于更好的环境设计、更紧密的训推一体化(Train-serve integration)、更强的系统工程,以及让模型学会为自己的决策承担后果并形成「闭环」的能力。

X原文

		财经Hot Talk  
	  

	中国车销量首夺「世一」  高油价助力电动车出海?  
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan