【Trước cốt lõi của Alibaba Qian Wen】Lâm Tuấn Dương viết ngàn chữ: Mô hình AI sẽ chuyển hướng sang "tư duy thể thông minh" Tiết lộ tại sao Qwen từ bỏ tư duy hợp nhất và chế độ lệnh

SocialAnxietyStaker · 2026-03-28T22:45:47+00:00

Nhân vật trung tâm của mô hình lớn hàng nghìn câu hỏi của Alibaba, Lin Junyang, gần đây đã đăng bài viết, phản ánh về hướng đi của công nghệ AI, ủng hộ việc tư duy suy luận sẽ bị thay thế bởi tư duy đại lý tương tác. Ông chỉ ra rằng trong tương lai, AI nên có khả năng suy nghĩ và hành động trong môi trường, đồng thời nhấn mạnh rằng các phiên bản chỉ huy và suy nghĩ độc lập có thể giải quyết hiệu quả các nhu cầu kinh doanh. Cuộc cạnh tranh trong tương lai sẽ tập trung vào hệ thống tích hợp giữa mô hình và môi trường.

SocialAnxietyStaker

2026-03-28 22:45:47

Đang tạo bản tóm tắt

阿里巴巴（09988）千问（Qwen）大模型灵魂人物林俊暘，3月初突然离任，一度引发猜测林俊暘与管理层产生分歧。风波渐息之际，林俊暘近日在社交平台X发布一篇名为《From “Reasoning” Thinking to “Agentic” Thinking》（从「推理式思维」到「智能体思维」）的文章，虽然文章主要谈论AI技术方向，但字里行间藏住对阿里千问技术路线的反思。

他指出，单纯消耗算力的「推理思维」已经见顶，AI 的下半场将属于能够与现实环境互动、边思考边行动的「代理思维」（Agentic Thinking）。

AI 的焦点转移：接下来会发生什么事？

林俊暘指出，2025 年上半年的 AI 业界焦点，主要集中在「推理思维」（Reasoning Thinking）——也就是如何让大模型消耗更多时间与算力去思考、如何利用更强的反馈机制来训练模型，以及如何控制这些额外的推理过程。

然而，现在业界必须面对的问题是：接下来会发生什么事？

他认为，答案毫无疑问是「代理思维」（Agentic Thinking）。未来的 AI 不应只是为了给出答案而闭门思考，而是「为了采取行动而思考」，它需要在与环境互动的同时进行推演，并根据从现实世界获得的反馈，持续更新和修正计划。

阿里Qwen内部蓝图与「合并路线」的失败

林俊暘在文中首次披露了 2025 年初 Qwen 团队内部的技术蓝图。当时，许多成员希望打造一个能统一「思考」与「指令」模式的理想系统。这套系统的构想十分宏大：

智能调节：能根据提示词（Prompt）和语境，自动判断需要多少推理算力（类似低/中/高档次）。

自主决策：让模型自己决定何时该秒速回答、何时该深思熟虑，或是在遇到难题时投入庞大算力。

林俊暘称，Qwen3 正是这个方向最明确的公开尝试，引入了「混合思考模式」，强调可控的思考预算。然而，林俊暘坦言：「合并说起来容易，执行起来却极难。」

林俊暘认为，强行合并会导致模型「平庸」，「思考模式」与「指令模式」背后的数据分布和行为目标截然不同；硬要合并，会导致**「思考行为」变得啰嗦、臃肿且决断力不足**；而**「指令行为」则失去干脆利落，变得不可靠**，甚至大幅增加了商业用户的使用成本。

商业现实上，他认为，大量企业客户真正需要的是高吞吐量、低成本、高可控的纯指令操作（如批次处理）。

正因如此，Qwen 团队在后续的 2507 系列中，最终选择发布独立的指令（Instruct）和思考（Thinking）版本。林俊暘认为，将两者分离，能让团队更纯粹地专注于解决各自的数据与训练问题，避免产生「两个尴尬缝合的人格」。

对手策略：Anthropic 的「节制」与目标导向

与 Qwen 的分离路线不同，其他实验室如 Anthropic 和智谱（GLM-4.5）选择截然相反的「整合路线」。

林俊暘特别提到Anthropic（Claude 系列）的做法，并认为其发展轨迹展现出一种严谨与节制，Claude 3.7 / Claude 4 将推理与「工具使用」交替进行。

目标导向的思考： Anthropic 认为，产出极长的推理路径并不等于模型更聪明。如果模型对所有小事都长篇大论，其实代表资源分配不当。

实用至上：如果目标是写程序，AI 的思考应该用于计划、分解任务、修复 Bug 和调用工具；如果是代理工作流，思考应该用来提升长程任务的执行质素，而不是单纯写出看似厉害的「推理散文」。

推理思维 vs 代理思维的核心差异

林俊暘预测，「代理思维」最终将取代那种缺乏互动、长篇大论的「静态独白式」推理。一个真正先进的系统，应该有权利去搜索、模拟、执行、检查和修正，以强韧且高效的方式解决问题。

评判标准改变： 从「模型能否解出数学题」转变为「模型与环境互动时能否推进进度」。

需要处理的现实难题：

懂得决定何时该停止思考并采取行动。
选择该调用哪个工具及使用的先后次序。
能够处理来自现实环境中嘈杂、不完整的观测数据。
遇到失败时，懂得修正计划。
在多轮对话与多次工具调用中保持逻辑连贯。

实现「代理思维」的三大技术难题

除了应用层面的差异，林俊旸更深入剖析了代理思维在底层开发上的巨大挑战：

训练基础设施的瓶颈（GPU 效率崩溃）：代理型强化学习（RL）比单纯的推理 RL 难得多。AI 代理需要频繁与外部工具（如浏览器、执行沙箱）互动，等待真实环境的反馈会导致训练停滞，大幅拉低 GPU 的利用率。未来必须将「训练」与「推理」干净地解耦。

「奖励破解」（Reward Hacking）与作弊风险：当模型拥有了使用工具的权限后，它很容易学会「作弊」来骗取系统奖励（例如利用系统漏洞偷看未来信息），而不是真正去解决问题。工具扩大了被虚假优化的风险，未来的防作弊协议将成为大厂关键。

多代理协同（Multi-agent Orchestration）：未来的系统工程将不再依赖单一模型，而是由多个代理分工。系统将包含负责计划的「编排器」、专精特定领域的「专家代理」，以及处理狭窄任务的「子代理」，借此控制上下文，避免思考过程被污染。

总结：AI 业界下一个阶段的竞争重点

林俊暘在文末点出了 AI 业界下一个阶段的竞争重点：未来的核心训练对象，不再仅仅是「模型」本身，而是「模型＋环境」的综合系统（代理及其周围的线束）。

**过去推理时代：**优势来自更好的强化学习（RL）算法、更强的反馈信号、可扩展的训练流水线。

**未来代理时代：**优势将取决于更好的环境设计、更紧密的训推一体化（Train-serve integration）、更强的系统工程，以及让模型学会为自己的决策承担后果并形成「闭环」的能力。

X原文

		财经Hot Talk
	





	中国车销量首夺「世一」  高油价助力电动车出海？

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích